Meta y su nueva variante de IA, llamada LIMA

La guerra continúa desarrollando la inteligencia artificial más avanzada. En este caso Meta (Facebook) implementará su nueva variante LIMA del modelo LLaMa.

FUENTE DE IMAGEN: META.COM

Luis Rivas

|guichorivasbatz@gmail.com

25 de mayo, 2023

Según estudios realizados por Meta, “los grandes modelos de lenguaje se entrenan en dos fases. En el primero, se realiza un entrenamiento no supervisado que parte de un texto en bruto y permite aprender en un escenario de propósito general. En el segundo, se realiza una depuración de esos modelos y se aplica aprendizaje por refuerzo para alinear el modelo a determinadas tareas o preferencias del usuario”.

Pruebas realizadas para este modelo de IA

SUSCRIBITE A NUESTRO NEWSLETTER

La variante LIMA, que significa Less Is More For Alligment, es un modelo de lenguaje basado en LLaMa compuesto por 65 millones de parámetros y que se ha ajustado con solo 1000 indicaciones y respuestas especialmente para que se comporte adecuadamente. Este modelo ha sido capaz de actuar de forma independiente, no ha habido necesidad de aprendizaje por refuerzo o modelado basado en preferencias humanas.

Esta tecnología fue desarrollada por Meta en conjunto con universidades como la Universidad Carnegie Mellon, la Universidad del Sur de California y la Universidad de Tel Aviv. Según los investigadores, se verificó el desempeño de LIMA y sus resultados fueron que se adapta a formatos de respuesta específicos al tener solo ejemplos en sus datos de entrenamiento.

Según los investigadores responsables del estudio Meta, “en un estudio controlado, las respuestas de LIMA demostraron ser equivalentes o preferibles a las producidas por GPT-4 en el 43% de los casos. Mejoró en comparación con Bard (58 %) y fue aún más lejos en comparación con DaVinci0003 (de OpenAI) con un 65 %.

Todo esto sugiere que casi todo el conocimiento de los grandes modelos de lenguaje se aprende durante el entrenamiento previo y que solo se necesita un conjunto limitado de datos de ajuste para enseñar a los modelos a producir resultados de alta calidad, dijeron los líderes del estudio.

Una de las conclusiones importantes del estudio es que el uso de la técnica Reinforcement Learning from Human Feedback (RLHF) no aporta tantas mejoras como se creía. En este sistema, una serie de usuarios humanos recompensan al modelo para optimizar su comportamiento mientras lo entrenan”.

Meta, "esto plantea aquella hipótesis en la que la llamada fase de alineamiento tras el entrenamiento inicial debería centrarse en enseñar al modelo un determinado formato o estilo que pueda utilizar en la interacción con los usuarios. Entonces, esa "afinación" del modelo tiene más que ver con el estilo que con la sustancia, más con la calidad que con la cantidad, se podría decir".

Según Yann LeCun de Meta, "el comportamiento de LIMA muestra que invertir en el desarrollo de nuevos y grandes LLM será importante en el corto plazo, pero no en el mediano plazo, al menos no sin algunos cambios importantes", mencionó en un reciente tuit.

Tecnologia