Компания OpenAI выпустила свою новую флагманскую модель GPT-4o, которая легко интегрирует текстовые, аудио- и визуальные входы и выходы, обещая повысить естественность машинного взаимодействия.
GPT-4o, где «o» означает «omni», предназначен для обслуживания более широкого спектра модальностей ввода и вывода. «Он принимает в качестве входных данных любую комбинацию текста, аудио и изображения и генерирует любую комбинацию выходных данных текста, аудио и изображений», — заявили в OpenAI.
Пользователи могут рассчитывать на время отклика всего 232 миллисекунды, что отражает скорость человеческого разговора, с впечатляющим средним временем отклика в 320 миллисекунд.
Новаторские возможности
Появление GPT-4o знаменует собой скачок по сравнению со своими предшественниками, поскольку все входы и выходы обрабатываются через одну нейронную сеть. Такой подход позволяет модели сохранять критически важную информацию и контекст, которые ранее были потеряны в отдельном конвейере модели, используемом в более ранних версиях.
До GPT-4o «Голосовой режим» мог обрабатывать звуковые взаимодействия с задержкой 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Предыдущая настройка включала в себя три различные модели: одна для транскрибирования аудио в текст, другая для текстовых ответов и третья для преобразования текста обратно в аудио. Такая сегментация приводила к потере таких нюансов, как тон, несколько динамиков и фоновый шум.
Как интегрированное решение, GPT-4o может похвастаться заметными улучшениями в понимании зрения и звука. Он может выполнять более сложные задачи, такие как гармонизация песен, перевод в режиме реального времени и даже создание выходных данных с выразительными элементами, такими как смех и пение. Примеры его широких возможностей включают подготовку к собеседованиям, перевод языков на лету и генерацию ответов службы поддержки клиентов.
Натаниэль Уиттемор (Nathaniel Whittemore), основатель и генеральный директор Superintelligent, прокомментировал: «Анонсы продуктов по своей сути будут вызывать больше разногласий, чем анонсы технологий, потому что сложнее сказать, будет ли продукт действительно отличаться, пока вы не взаимодействуете с ним. И особенно когда речь идет о другом способе взаимодействия человека и компьютера, остается еще больше места для различных убеждений о том, насколько он будет полезен.
«Тем не менее, тот факт, что не было объявлено о GPT-4.5 или GPT-5, также отвлекает людей от технологического прогресса, который заключается в том, что это изначально мультимодальная модель. Это не текстовая модель с добавлением голоса или изображения; Это мультимодальный токен на входе, мультимодальный токен на выходе. Это открывает огромное количество вариантов использования, которые потребуют некоторого времени, чтобы просочиться в сознание».
Производительность и безопасность
GPT-4o соответствует уровням производительности GPT-4 Turbo в задачах по написанию текста и кодированию на английском языке, но значительно превосходит его в других языках, что делает его более инклюзивной и универсальной моделью. Он устанавливает новый стандарт в рассуждении с высоким баллом 88,7% по 0-shot COT MMLU (вопросы общего знания) и 87,2% по 5-балльному no-CoT MMLU.
Модель также превосходит предыдущие современные модели, такие как Whisper-v3. В многоязычных и визуальных оценках он демонстрирует превосходную производительность, расширяя многоязычные, аудио- и видеовозможности OpenAI.
Компания OpenAI изначально внедрила в GPT-4o надежные меры безопасности, включая методы фильтрации обучающих данных и совершенствования поведения с помощью мер безопасности после обучения. Модель была оценена с помощью Readiness Framework и соответствует добровольным обязательствам OpenAI. Оценки в таких областях, как кибербезопасность, убеждение и автономность модели, показывают, что GPT-4o не превышает «средний» уровень риска ни в одной категории.
Дальнейшая оценка безопасности включала в себя обширную внешнюю работу с более чем 70 экспертами в различных областях, включая социальную психологию, предвзятость, справедливость и дезинформацию. Эта всесторонняя проверка направлена на снижение рисков, связанных с новыми модальностями GPT-4o.
Доступность и будущая интеграция
Начиная с сегодняшнего дня, текстовые и графические возможности GPT-4o доступны в ChatGPT, включая уровень бесплатного пользования и расширенные функции для пользователей Plus. Новый голосовой режим на базе GPT-4o войдет в альфа-тестирование в ChatGPT Plus в ближайшие недели.
Разработчики могут получить доступ к GPT-4o через API для текстовых и визуальных задач, извлекая выгоду из его удвоенной скорости, вдвое сниженной цены и расширенных ограничений скорости по сравнению с GPT-4 Turbo.
OpenAI планирует расширить аудио- и видеофункции GPT-4o для избранной группы доверенных партнеров через API, а более широкое развертывание ожидается в ближайшем будущем. Эта стратегия поэтапного выпуска направлена на обеспечение тщательного тестирования безопасности и удобства использования, прежде чем сделать весь спектр возможностей общедоступным.
«Очень важно, что они сделали эту модель доступной бесплатно для всех, а также сделали API на 50% дешевле. Это значительное повышение доступности», — пояснил Уитмор.
OpenAI предлагает сообществу постоянно совершенствовать GPT-4o, подчеркивая важность пользовательского вклада в выявление и устранение пробелов, в которых GPT-4 Turbo все еще может превзойти его.