CM3leon, inteligencia artificial generativa de Meta

Es una inteligencia artificial (IA) que puede producir texto a partir de imágenes e imágenes a partir de texto.

FUENTE DE IMAGEN: AFP Y EFE

19 de julio, 2023

Debido a que CM3leon es un modelo de lenguaje de inteligencia artificial generativa, puede crear contenido nuevo en respuesta a nuestros comandos. Fue creado por Meta, una empresa que también desarrolló aplicaciones populares como Facebook, Instagram y WhatsApp.

La multimodalidad de este modelo de lenguaje, la capacidad de realizar una variedad de tareas sin un objetivo claro, es uno de sus principales atractivos. Puede crear texto a partir de imágenes y viceversa, por ejemplo, y crear imágenes a partir de texto.

Debido a esto, la IA de Meta puede ser más versátil que la IA que solo produce texto o imágenes. Puede, por ejemplo, utilizar texto para describir una imagen y responder a las consultas que realice sobre una imagen. Para saber que sus cambios son apropiados para el contexto de la imagen, también puede interpretar la estructura o apariencia de la imagen.

SUSCRIBITE A NUESTRO NEWSLETTER

El modelo CM3leon también puede editar una imagen que usted proporcione mediante un mensaje de texto además de lo anterior. Vamos, puedes subir una imagen y decirle qué cambios le quieres hacer, y todo quedará terminado en alta resolución.

Otro beneficio destacado de este lenguaje es que garantiza consumir cinco veces menos recursos computacionales que otros sistemas de inteligencia artificial. Seamos realistas, es más efectivo para aquellos que eligen usarlo, lo que lo convierte en una herramienta prometedora.

¿Cuál es su funcionalidad?

Similar a otros modelos consolidados basados en texto, CM3Leon utiliza un transformador de solo decodificador en su arquitectura. La diferencia es que puede ingresar y generar texto e imágenes, lo que le brinda más versatilidad y la capacidad de completar más tareas.

Meta se asegura de que la receta que usa para entrenar su "modelo multimodal" sea la primera en ser modificada de modelos de solo texto. Para ello se ha utilizado una primera etapa de pre-entrenamiento a alto nivel de agotamiento incrementado por recuperación, y una segunda etapa de superación supervisada multitarea.

Los transformadores basados en "tokenizadores" se pueden entrenar con el mismo éxito que los modelos generativos basados en difusión, según Meta, que afirma haber construido un modelo robusto que lo demuestra.

A pesar de usar cinco veces menos cómputo durante el entrenamiento, ha obtenido excelentes resultados al crear imágenes a partir de texto. Se denomina modelo causal enmascarado de modalidad mixta (CM3) debido al hecho de que puede producir secuencias de texto e imágenes que están condicionadas a cualquier conjunto adicional de imágenes y contenido de texto.

Además, Meta ha modificado su instrucción multitarea a gran escala para producir imágenes de texto, y afirman que al mejorar su capacidad para reconocer lo que hay en la imagen, se han vuelto mucho más hábiles para crear subtítulos y responder preguntas visualmente.

Por el momento, Meta solo ha presentado este modelo y descrito de lo que es capaz, y aún no se ha pronunciado sobre un posible lanzamiento para el gran público. Actualizaremos el artículo para reflejar cualquier información nueva a medida que esté disponible.