OpenAI lanza una versión de ChatGPT que puede «ver, oír y hablar»

 OpenAI lanza una versión de ChatGPT que puede «ver, oír y hablar»

OpenAI, la empresa detrás del popular chatbot con inteligencia artificial generativa, ChatGPT, anunció una nueva versión de su herramienta que introduce la capacidad de «ver, oír y hablar» con los usuarios en tiempo real.

Hasta este momento, la interacción con ChatGPT se limitaba a comunicación escrita. Sin embargo, los usuarios de la versión de pago tendrán la posibilidad de mantener conversaciones verbales con la IA en tan solo «dos semanas», permitiendo que la máquina responda en voz alta y procese imágenes, capturas de pantalla, fotos y documentos para brindar respuestas precisas.

Los usuarios que emplean la versión gratuita también podrán beneficiarse de estas mejoras, aunque la disponibilidad se dará «poco después», según informó OpenAI.

La compañía destacó las ventajas de estas nuevas funcionalidades: «La voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Cuando estés en casa, saca fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas para obtener una receta paso a paso)», señaló la empresa en un comunicado.

Además, ejemplificó posibles aplicaciones de la herramienta de voz, como contar historias o resolver debates.

Inicialmente, este asistente de voz, comparable a Alexa de Amazon y Siri de Apple, estará disponible para dispositivos iOS y Android, pero no para PC. Los usuarios podrán elegir entre cinco voces diferentes, siendo una voz de mujer joven y aparentemente blanca la configuración por defecto.

Para lograr la comunicación por voz, OpenAI utiliza su herramienta Whisper, que emplea IA para transcribir audio del usuario a texto, seguido por su nuevo modelo de conversión de texto a voz para generar las respuestas de la IA.

La empresa también hizo hincapié en los riesgos potenciales asociados con esta tecnología de voz, como la posibilidad de suplantación de identidad y fraude.

En otro anuncio, OpenAI reveló que Spotify está utilizando esta tecnología para traducir algunos de sus podcasts a «idiomas adicionales, pero manteniendo las propias voces de los presentadores e invitados».