Google no pierde terreno en la carrera por la IA y lanzó Gemini

Lo promociona como su “modelo de IA más grande y capaz” que afectará a todos sus productos.

Lo más importante

Google presentó Gemini, su primera inteligencia artificial multimodal.
Gemini fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, imágenes, audio, video y código.

Google lanzó este miércoles su ~~nuevo modelo de IA denominado Gemini, presentado como su proyecto "más grande y capaz" con el que buscará destronar a ChatGPT de OpenAI.~~

Según indicaron en su presentación oficial Gemini viene en tres tamaños Nano, Pro y Ultra.

El formato Nano está pensado para tareas específicas y dispositivos móviles, mientras que la versión Pro se adapta a un rango amplio de tareas y usos. Por su parte, el modelo Ultra es la versión más grande y capaz.

~~El nuevo modelo de IA de Google también puede trabajar con texto, imágenes y video, pero desde la compañía aseguran que será "mucho más" que eso.~~

Lo cierto es que Gemini se incorporará al motor de búsqueda de Google y por el momento ya fue lanzado -inicialmente- en más de 170 países, incluido Estados Unidos.

Lo cierto es que Gemini es la respuesta oficial a ChatGPT, el modelo de IA desarrollado por OpenAI que se lanzó hace poco más de un año generando una revolución mundial.

Desde de Google destacan que su producto es “multimodal”, lo que significa que puede comprender texto, audio, imágenes, vídeo y código informático simultáneamente.

"Cada cambio tecnológico es una oportunidad para avanzar en los descubrimientos científicos, acelerar el progreso humano y mejorar vidas. Creo que la transición que estamos viendo en la actualidad con la Inteligencia Artificial será la más profunda de nuestras vidas; mucho mayor que el paso anterior a los dispositivos móviles o a la Web. La IA tiene el potencial de crear oportunidades (desde las cotidianas hasta las extraordinarias) para personas de todo el mundo. Traerá nuevas olas de innovación y progreso económico e impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala nunca antes vista", expresó el director ejecutivo de Google y Alphabet, Sundar Pichai.

En este sentido, indicó que "eso es lo que me entusiasma: la oportunidad de hacer que la IA sea útil para todos, en todo el mundo. Casi ocho años después del comienzo de nuestro viaje como una empresa que puso foco en IA, el ritmo del progreso no hace más que acelerarse: millones de personas están utilizando la IA generativa en todos nuestros productos para hacer cosas que no podían ni siquiera imaginar hace un año, desde encontrar respuestas a las preguntas más soluciones más complejas hasta el uso de nuevas herramientas para colaborar y crear".

Al mismo tiempo, destacó que "los desarrolladores están utilizando nuestros modelos e infraestructura para crear nuevas aplicaciones de IA generativa, y las empresas y nuevos emprendimientos en todo el mundo están creciendo de la mano de nuestras herramientas de IA. Este es un impulso increíble y, sin embargo, apenas estamos viendo la superficie de lo que es posible".

Finalmente, remarcó que "hoy estamos dando un nuevo paso en este viaje con el lanzamiento de Gemini, nuestro modelo más capaz y general hasta el momento, con un rendimiento de última generación en muchos benchmarks líderes. Nuestra primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Estos son los primeros modelos de la era Gemini y la primera realización de la visión que tuvimos cuando formamos Google DeepMind a principios de este año. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo".

Por su parte, Demis Hassabis, CEO y co-fundador de Google DeepMind, indicó que ~~"hoy estamos un paso más cerca de esta visión con la presentación de Gemini, el modelo de IA más capaz y generalista que jamás hayamos construido".~~

Hassabis destacó que "Gemini fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, imágenes, audio, video y código".

Desde Google también informaron que "hemos optimizado Gemini 1.0, nuestra primera versión del modelo, en tres tamaños diferentes:"

~~Gemini Ultra:~~ "nuestro modelo más grande y con mayor capacidad para tareas altamente complejas".

~~Gemini Pro:~~ "nuestro mejor modelo para escalar en una amplia gama de tareas".

~~Gemini Nano:~~ "nuestro modelo más eficiente para tareas en el dispositivo. Rendimiento de última generación."

Asimismo, destacaron que "desde la comprensión de imágenes naturales hasta el razonamiento matemático y la comprensión de audio y video, el rendimiento de Gemini Ultra supera a modelos de última generación en 30 de los 32 puntos de referencia utilizados ampliamente por la industria".

A su vez, confirmaron que con una puntuación del 90,0%, ~~Gemini Ultra "es el primer modelo que supera a los expertos humanos en MMLU~~ (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas".

Finalmente, celebraron que "nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles, lo que genera mejoras significativas con respecto al simple uso de su primera impresión".