КиберпанкДеталиИнтернет

Собеседник, репетитор и переводчик в одной нейросети: что еще умеет новая ИИ-модель от OpenAI и почему GPT-4o раскритиковали эксперты

Обновленная версия GPT-4o говорит на 50 языках, понимает юмор и эмоции, способна решать математические задачи и петь песни. Некоторых пользователей такое обновление даже напугало — из-за слишком реальных интонаций в голосе ИИ-модели. 

Главное о GPT-4o

В американской компании OpenAI представили новую версию ИИ-модели генеративного искусственного интеллекта GPT-4o. Она общается естественным и понятным языком, реагирует на вопросы живыми интонациями и даже умеет смеяться.

  • Символ «о» в названии расшифровывается как omni (с лат. «всесторонний» или «мультимодальный»). Это значит, что обновленная модель может работать с картинками, текстом, аудио и видео одновременно, чего не умели предыдущие версии GPT. Например, в чат можно загрузить фотографию, видео или включить камеру, и 4o моментально проанализирует и сможет не только отправить текстовый ответ, но и отреагировать голосом. 
  • Также у GPT-4o появился мультиязычный голосовой ассистент. Он свободно общается на 50 языках. Скорость реакции на голос — 320 миллисекунд, это сравнимо с реакцией в обычном разговоре между людьми.
  • Еще одна новая функция — создание 3D-объектов из текстовых запросов.
  • Изменился и интерфейс системы: теперь пользователь будет вести диалог с большой черной точкой. Она меняется в зависимости от происходящего: например, когда робот что-то рассказывает, круг превращается в стилизованные волны звука.
OpenAI представила новую версию нейросети GPT-4o: в чем отличие от других, как пользоваться, новинки нейросетей Google, Яндекс Алиса
Фото: OpenAI / YouTube
  • Специальные приложения для Mac и Windows позволяют интегрировать GPT-4o прямо в рабочий процесс: ИИ-модель может в реальном времени отвечать на вопросы о том, что происходит на экране. 

GPT-4o доступна как в платной, так и в бесплатной версии ChatGPT. Но платные подписчики смогут отправлять сообщения в 5 раз длиннее. При превышении лимита у бесплатных пользователей произойдет переключение на GPT-3.5, а у тех, кто заплатил за подписку, — на GPT-4.

Как работает GPT-4o

OpenAI показали конкретные примеры использования возможностей GPT-4o в повседневной жизни. Например, на одном из видео модель поэтапно объяснила школьнику, как решать задачу по математике

На другом видео GPT-4o по просьбе пользователя сочинила колыбельную и сама ее спела. 

Еще на одном видео ИИ-помощница рассказала слепому человеку, что находится вокруг него. 

Еще чат-бот смог перевести диалог на разных языках в реальном времени для двух собеседников.

GPT-4o: мнения экспертов, отзывы пользователей 

  • Многие эксперты отмечают, что OpenAI сосредоточилась на создании более эмоционального ИИ с ярко выраженной «личностью», чего ранее старалась избегать. 
  • Другие участники отрасли утверждают, что «стремление разработчиков сделать из GPT-4o голосового ассистента — не более чем пиар-ход, так как наличие голоса не означает, что нейросеть действительно «поумнела». 
  • Информацию о выходе обновленной версии не пропустили и финансовые рынки: на фоне демонстрации «репетиторских» возможностей чат-бота рухнули акции популярного сервиса для изучения иностранных языков Duolingo. 
  • Некоторые пользователи сравнили новую GPT-версию с нейросетью из фильма 2014 года «Она» и даже испугались этому сходству, предположив, что технологии уже готовы заменить реальные эмоции. По сюжету картины, ИИ-система по имени Саманта, так же как чат-бот 4o, живо беседует с главным героем фильма и реагирует на шутки, в итоге он в нее влюбляется. 
  • Российские юзеры заметили, что новая модель от OpenAI умеет сочинять стихи с рифмой на русском и вспомнили советский фильм «Москва – Кассиопея».

Когда я смотрел фильм «Москва – Кассиопея», где были машинки-переводчики с других языков сразу голосовым переводом, я думал, что это такая лютая фантастика, что уж при моей жизни такого точно не будет. Мне 44, и вот будущее здесь! Отчего же не сбыться терминатору с его Скайнетом?!

Что нового у других чат-ботов 

В марте 2023-го Google открыла бесплатный доступ к обновленной версии модели Gemini 1.5 Pro. Ее главное преимущество — способность анализировать и обобщать большие объемы контента — до 1 млн токенов за один запрос (это около 1,3 тыс. страниц текста в формате А4). Для сравнения максимальное число токенов у GPT-4 — 32 тыс.

В апреле 2024 года Яндекс «выкатил» сразу несколько обновлений. Одно из них — усовершенствованный вариант «Алисы» на основе YandexGPT. ИИ-помощница теперь удерживает контекст беседы и предлагает идеи. Еще компания представила сервис «Нейро» — он способен отвечать на сложные запросы и работать с несколькими источниками информации. Пользователь получает самую актуальную информацию — даже если она появилась всего несколько часов назад. 

В этом же месяце «Сбер» представил усовершенствованную версию нейросети Kandinsky — она создает изображения по текстовому описанию на русском и английском языках. Главные особенности обновления — высокая скорость и качество картинки: время одной генерации сократилось в 10 раз, а разрешение можно повысить до 4K. 

Фото обложки: OpenAI