15.06.2025

Рассылка в Телеграм

Сайт профессионального продвижения в телеграм, массовая рассылка в чаты и личные сообщения , инвайт в чаты, воронки продаж и создание ботов, а также анализ целевой аудитории, разработка стратегий.

ChatGPT научился вести диалог голосом и распознавать объекты на изображениях

1 минута чтение

В ChatGPT внедрили функции общения голосом и распознавания объектов на изображении для углубленного погружения в задачу. Например, ChatGPT готов будет прочитать сказку на ночь, поможет справится с составлением рецепта по фотографии доступных ингредиентов и решит домашнее задание по математике, имея фотографию условия задачи из учебника. Голосовой ввод и вывод позволит вести диалог без использования рук.

Новые функции появятся у платных подписчиков в течение ближайших двух недель. Голосовой ввод будет доступен только на iOS и Android, а распознавание изображений — на всех платформах.

Общение голосом с ChatGPT

Пользователи теперь могут вести диалоги  с ChatGPT с использованием голоса. Для распознавания голоса интегрирована text-to-speech модель, которая транскрибирует речь пользователя. Для ответов были записаны голоса актеров, чтобы речь ChatGPT была высокого качества.

https://neurohive.io/wp-content/uploads/2023/09/story-sky.mp3

Голосовая функция включается в в мобильных приложениях в разделе «Настройки» -> «Новые функции». Включите возможность голосовых диалогов. Затем нажмите значок наушников, расположенный в верхнем правом углу, и выберите понравившийся голос из пяти вариантов.

Обсуждение изображений

Пользователи теперь смогут обмениваться одним или несколькими изображениями с ChatGPT. Ремонт техники, составление рецептов или анализ сложных графики и таблиц займет несколько секунд. На примере показано, как чат-бот помогает опустить сиденье велосипеда (видео целиком):

ChatGPT научился вести диалог голосом и распознавать объекты на изображениях

Для добавления изображения в диалог нажмите кнопку «Фото», чтобы сделать снимок или выбрать изображение из галереи. На изображении можно выделить отдельную область, чтобы ChatGPT сфокусировался именно на этом участке изображения и быстрее «осознал», о чем идет речь.

Эти функции стали доступны благодаря мультимодальным возможностям, заложенным в GPT-4 и GPT 3.5.

Ограничения

OpenAI не сразу откроет новые функции для всех пользователей, чтобы собрать отзывы от альфа-тестеров и усовершенствовать меры безопасности перед более широким развертыванием. Речевой ввод несет риски, такие как подделка голосов с целью мошенничества и галлюцинации, которые приводят к неправильным ответам. Для избежания подделки голосов было принято решение не внедрять функцию клонирования голоса.

OpenAI рекомендует проверять информацию, полученную от ChatGPT, и избегать использования в ситуациях, связанных с высоким риском, например, в медицине. Также модель менее производительна при работе с текстом на неанглийских языках.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Copyright © Все права защищены. | Newsphere от AF themes.
Яндекс.Метрика