OpenAI lanza ChatGPT-4o con capacidades de voz y visión

El evento también reveló un servicio vocal capaz de leer el movimiento corporal, como la intensidad de la respiración de un usuario, y generar voz en diferentes estilos emotivos cuando se le pide

OpenAI ha dado un gran paso adelante con el lanzamiento de su nuevo modelo ChatGPT-4o, que lleva la inteligencia artificial a un nivel superior. Por primera vez, los usuarios gratuitos tendrán acceso a chatbots personalizados, mientras que todos los usuarios se beneficiarán de una impresionante interfaz de voz que podría rivalizar con Alexa de Amazon.

 

En su "actualización de primavera", OpenAI mostró el nuevo modelo ChatGPT-4o en una emisión en vivo el lunes. Mira Murati, directora de tecnología de OpenAI, destacó que es mucho más rápido que el modelo ChatGPT-4 anterior y mejora el texto, el vídeo y el audio. 

 

"Supone un gran paso adelante en cuanto a facilidad de uso", afirmó, demostrando cómo podía traducir instantáneamente su discurso al italiano.

 

 

Capacidades de voz y visión impresionantes

El evento también reveló un servicio vocal capaz de leer el movimiento corporal, como la intensidad de la respiración de un usuario, y generar voz en diferentes estilos emotivos cuando se le pide, como la voz de un robot o la de un cantante.

 

El modelo también responde a los comentarios de forma similar a la humana, como cuando recibió un cumplido por ser "útil y asombroso" y respondió: "¡Oh, para! Me estás haciendo sonrojar".

 

ChatGPT-4o también puede detectar emociones observando un rostro a través de la cámara. Durante la demostración, le mostraron una cara sonriente y la IA le preguntó: "¿Quieres compartir la razón de tu buen rollo?".

 

 

Acceso gratuito a chatbots personalizados

Una de las mayores novedades es que los usuarios gratuitos tendrán acceso a chatbots personalizados por primera vez. 

 

Sam Altman, director ejecutivo y cofundador de OpenAI, declaró en un blog: "Hablar con un ordenador nunca me había parecido algo natural, pero ahora sí. A medida que añadimos la personalización (opcional), el acceso a tu información, la capacidad de realizar acciones en tu nombre y mucho más, veo un futuro apasionante en el que podremos utilizar los ordenadores para hacer muchas más cosas que antes".

 

OpenAI también afirma que, a diferencia de las versiones anteriores, los usuarios pueden interrumpir al modelo y este puede responder en tiempo real, reduciendo la diferencia temporal de 2 o 3 segundos. 

 

ChatGPT también está lanzando una aplicación de escritorio con capacidades vocales y de visión.

 

Otra gran actualización es que el modelo se está llevando a la Interfaz de Programación de Aplicaciones de Inteligencia Artificial, lo que significa que los técnicos que lo desarrollan pueden empezar a construir su modelo a un precio un 50 % más barato y dos veces más rápido.

 

ChatGPT-4o también está disponible en 50 idiomas, cubriendo el 97% de la población mundial.

 

 

 

Tania Simosa (pasante)
 

Más noticias