Comparte este artículo

El Modo IA de Google da el salto a la búsqueda multimodal

Publicado: 8 de Abril de 2025

Este 7 de Abril de 2025, Google anunció la incorporación de funciones multimodales a su Modo IA, permitiendo que los usuarios puedan subir una imagen, hacer una pregunta relacionada con lo que aparece en ella y recibir respuestas completas, detalladas y con enlaces para ampliar la información.

Esta integración se da gracias a la combinación de Google Lens y una versión personalizada del modelo Gemini, el sistema de inteligencia artificial más avanzado de la compañía.

¿Qué es la búsqueda multimodal?

La búsqueda multimodal consiste en la capacidad de la inteligencia artificial para comprender e interpretar diferentes tipos de información al mismo tiempo: texto, imagen, sonido, etc. En este caso, el Modo IA de Google ahora puede procesar imágenes junto con preguntas escritas, lo que permite obtener respuestas más ricas y con mayor contexto que en una búsqueda tradicional.

Según Google, “el Modo IA puede comprender toda la escena de una imagen, incluyendo el contexto de cómo se relacionan los objetos entre sí y sus materiales, colores, formas y disposiciones únicos”

¿Cómo funciona?

El Modo IA realiza un análisis completo de la imagen usando Google Lens. Luego, mediante una técnica llamada abanico de consultas (query fan-out, en inglés), se generan múltiples búsquedas sobre distintos elementos de la imagen, lo cual permite acceder a información más profunda y precisa. Este proceso no se limita a identificar objetos individuales, sino que analiza el conjunto visual como una escena completa.

Por ejemplo, al subir una foto de una estantería llena de libros, el sistema no solo reconoce los títulos, sino que puede generar recomendaciones similares y ofrecer enlaces para comprarlos o investigar más sobre ellos.

Tecnología detrás del sistema

El modelo de lenguaje Gemini, desarrollado por Google DeepMind, es el motor que potencia la capacidad de interpretación del Modo IA. Esta versión específica de Gemini ha sido ajustada para mejorar la comprensión de imágenes, según explicó Rajan Patel, responsable del área de búsqueda de Google:

“Lens en el Modo IA reúne nuestras potentes capacidades multimodales con una versión personalizada de Gemini para manejar mejor las búsquedas visuales” Rajan Patel en X.

Happy to share that AI Mode is now available to millions more Labs users and integrating Lens so you can get AI-powered responses and ask follow-up questions on your visual searches! 🎉
— Rajan Patel (@rajanpatel) April 7, 2025

Disponibilidad

La función está siendo desplegada inicialmente en Estados Unidos para los usuarios que se registren en Google Labs, tanto en dispositivos Android como iOS. No es necesario ser suscriptor de pago para probarlo a través de Labs, aunque el Modo IA completo también forma parte del paquete Google One AI Premium.

¿Encontraste útil esta información?

Cuéntanos qué te pareció: califica con estrellas y deja tu comentario.