Уже через два года ИИ сможет работать стандартный восьмичасовой день
Недавний анализ METR Evaluations демонстрирует, что системы искусственного интеллекта значительно улучшают свои способности к выполнению задач. Время автономной работы ИИ удваивается каждые семь месяцев, поэтому уже к 2027 году, вероятно, они смогут работать восьмичасовой рабочий день с 50% уровнем успешности.
Аналитики METR установили четкие критерии для оценки успешности длительной работы ИИ. Инструкции для каждой задачи ясны и содержат минимальный контекст, необходимый для понимания. Каждая задача сопровождается простой алгоритмической функцией оценки.
В то же время большинство задач, выполняемых программистами или в области машинного обучения, требуют обширных ссылок на предшествующий контекст и часто не имеют однозначной формулировки. Поэтому тесты METR сосредоточены на условиях, которые не всегда соответствуют реальным сценариям. Кроме того, 50% уровень успешности не может считаться высоким по сравнению с человеческой работой.
Тем не менее, когда пользователь X визуализировал данные METR, отобразив показатели точности 80%, 95% и 99% на логарифмической шкале, результаты подтвердили выводы аналитиков. Шкала показывает, что пороги точности ИИ быстро растут, в то время как достижение почти идеальной производительности (99%) требует значительно больше усилий.
Даже система, которая работает быстро, недорого и с 50% точностью, может стать прорывом, если человек сможет быстро проверять её результаты. Однако такой мониторинг может сделать внедрение ИИ экономически нецелесообразным.
С другой стороны, уровень в 80% выглядит более реалистичным для практического применения. Например, для каждой задачи требуется 1 миллион токенов стоимостью около $10, а затем человеческая проверка занимает 15 минут. Если задача выполнена неверно, специалист исправит её примерно за четыре часа, при средней ставке $100 в час. Таким образом, выполнение тысячи таких задач вручную потребует 4000 человеко-часов и обойдется в $400,000. Поэтому делегирование работы ИИ с последующей проверкой будет более экономически выгодным.
Источник: https://www.exponentialview.co/