EL MUNDO | Hace un año la compañía OpenAI sorprendió al mundo entero con el lanzamiento de ChatGPT, una inteligencia artificial conversacional capaz de dar respuestas casi indistinguibles de las que daría una persona y con una sorprendente habilidad para generar textos, código informático o resumir información. De la noche a la mañana se convirtió en una herramienta increíblemente popular, con más de 180 millones de usuarios activos y que, en cierta forma, se ha posicionado como el referente de una nueva era dentro de la industria tecnológica, el epicentro de un terremoto que amenaza con cambiar la sociedad.
Con Gemini, Google tiene ahora la posibilidad de competir cara a cara con este tipo de servicios, aunque lo primero que hay que precisar es que no se puede establecer una comparación directa entre Gemini y ChatGPT.
Gemini es un modelo de lenguaje y ChatGPT una aplicación conversacional creada sobre otro modelo de lenguaje, GPT-4 o GPT-3.5 dependiendo de la versión de ChatGPT que se considere (de pago o gratuita, respectivamente). En el caso de Google, el equivalente de ChatGPT es Bard, que hasta ahora usaba el modelo de lenguaje PaLM pero que desde hoy, para consultas en inglés, ya opera con una versión adaptada de Gemini.
Hay que pensar en estos modelos de lenguaje como el “motor” de estas aplicaciones, que no son más que una interfaz para poder conversar con ellos. Los modelos de lenguaje se pueden usar en otros tipos de aplicaciones que no tienen necesariamente por qué tener esta interfaz conversacional y tanto Google como OpenAI ofrecen estos modelos bajo suscripción a empresas y desarrolladores.
TRES VERSIONES DE GEMINI
Gemini tendrá tres versiones diferentes: Ultra, Pro y Nano. La primera es la más avanzada y multimodal (puede entender cuestiones presentadas con una mezcla de imágenes, vídeos, texto o voz) pero no estará disponible hasta 2024. Google, en cualquier caso, ha mostrado vídeos de su funcionamiento.
La segunda es más limitada pero es la que se puede probar ya en la versión en inglés de Bard. Es equivalente a GPT-3.5 en capacidad y funciones. Nano, finalmente, es un modelo pensado para dispositivos con menor capacidad de computación y memoria, como un teléfono.
Las comparaciones que Google ha hecho en el anuncio de Gemini son fundamentalmente entre Gemini Ultra y GPT4. Dado que ambos son modelos multimodales, la forma más directa de compararlos es usar baterías de pruebas y exámenes con preguntas de lógica, ciencia o compresión lectora o auditiva. En 30 de las 32 realizadas, Gemini superó a GPT-4.
Tal vez lo más destacable es que en una de ellas, conocida como MMMU multimodal reasoning benchmark (un conjunto de 11.500 preguntas de nivel universitario con más de 57 disciplinas, como física o matemáticas), Gemini logró acertar correctamente nueve de cada 10 preguntas, un 5% más que GPT-4 y por encima también de la media humana.
Pero fuera de estas baterías de pruebas es difícil hacer comparaciones directas sin poder acceder aún a la versión Ultra de Gemini. Jeff Dean, científico jefe de Google DeepMind, una de las divisiones que ha participado en el desarrollo de Gemini, adelantaba no obstante algunos datos específicos.
Gemini puede soportar un contexto de unas 32.000 tokens en las preguntas (aunque no es una equivalencia directa, esto se puede simplificar como que puede entender preguntas con un contexto de 32.000 palabras). Es la misma cantidad de GPT-4, pero OpenAi anunció recientemente una versión de GOT4, GPT4 Turbo, que multiplica por cuatro esa capacidad.
Ambos modelos de lenguaje están construidos sobre la misma tecnología -que, curiosamente, está desarrollada principalmente por Google, aunque es de dominio abierto- pero los resultados dependen sobre todo del entrenamiento al que se han sometido, que es la forma en la que los modelos aprenden a razonar y articular sus respuestas y que consiste básicamente, en un complejo análisis estadístico de millones de textos, imágenes y vídeos.
GPT-4, por ejemplo, está entrenado con un corpus de más de 13 billones de tokens (de nuevo, se puede hacer una equivalencia aproximada entre un token y una palabra, aunque no es una comparación exacta). Se trata de documentos, obras, imágenes vídeos y mensajes obtenidos de varias fuentes.
Google no ha revelado el tamaño del conjunto de datos utilizado para entrenar a Gemini, pero asegura que ha utilizado un enfoque novedoso centrado en las capacidad multimodal de Gemini que lo hace mucho más efectivo a la hora de considerar cuestiones que mezclen imágenes, por ejemplo, con texto, como un problema de física presentado junto a un diagrama. En unos meses se sabrá si esta nueva estrategia realmente es una ventaja frente a su rival directo.