Marketing CPE

El Modo IA de Google da el salto a la búsqueda multimodal

Este 7 de Abril de 2025, Google anunció la incorporación de funciones multimodales a su Modo IA, permitiendo que los usuarios puedan subir una imagen, hacer una pregunta relacionada con lo que aparece en ella y recibir respuestas completas, detalladas y con enlaces para ampliar la información.

Esta integración se da gracias a la combinación de Google Lens y una versión personalizada del modelo Gemini, el sistema de inteligencia artificial más avanzado de la compañía.

¿Qué es la búsqueda multimodal?

Búsqueda multimodal en el Modo IA de Google:

La búsqueda multimodal consiste en la capacidad de la inteligencia artificial para comprender e interpretar diferentes tipos de información al mismo tiempo: texto, imagen, sonido, etc. En este caso, el Modo IA de Google ahora puede procesar imágenes junto con preguntas escritas, lo que permite obtener respuestas más ricas y con mayor contexto que en una búsqueda tradicional.

Según Google, “el Modo IA puede comprender toda la escena de una imagen, incluyendo el contexto de cómo se relacionan los objetos entre sí y sus materiales, colores, formas y disposiciones únicos”

¿Cómo funciona?

El Modo IA realiza un análisis completo de la imagen usando Google Lens. Luego, mediante una técnica llamada abanico de consultas (query fan-out, en inglés), se generan múltiples búsquedas sobre distintos elementos de la imagen, lo cual permite acceder a información más profunda y precisa. Este proceso no se limita a identificar objetos individuales, sino que analiza el conjunto visual como una escena completa.

Por ejemplo, al subir una foto de una estantería llena de libros, el sistema no solo reconoce los títulos, sino que puede generar recomendaciones similares y ofrecer enlaces para comprarlos o investigar más sobre ellos.

Tecnología detrás del sistema

El modelo de lenguaje Gemini, desarrollado por Google DeepMind, es el motor que potencia la capacidad de interpretación del Modo IA. Esta versión específica de Gemini ha sido ajustada para mejorar la comprensión de imágenes, según explicó Rajan Patel, responsable del área de búsqueda de Google:

“Lens en el Modo IA reúne nuestras potentes capacidades multimodales con una versión personalizada de Gemini para manejar mejor las búsquedas visuales” Rajan Patel en X.

Disponibilidad

La función está siendo desplegada inicialmente en Estados Unidos para los usuarios que se registren en Google Labs, tanto en dispositivos Android como iOS. No es necesario ser suscriptor de pago para probarlo a través de Labs, aunque el Modo IA completo también forma parte del paquete Google One AI Premium.

¿Encontraste útil esta información?

Cuéntanos qué te pareció: califica con estrellas y deja tu comentario.

0 0 votes
Califica
guest
0 Comentarios
Oldest
Newest Most Voted
Inline Feedbacks
View all comments

También te va a interesar

Google redirige dominios locales (ccTLD) a Google.com
Google pide a evaluadores detectar contenido generado por IA
Google eliminó 240 millones de reseñas falsas en 2024 con IA
0
Would love your thoughts, please comment.x
()
x
Scroll to Top