MIT bat le record du benchmark AGI-PUB de 20% avec son nouveau LLM

Advertisements

Some of the links shared in this post are affiliate links. If you click on the link and make a purchase, we will receive an affiliate commission at no additional cost to you.

Une équipe du MIT a réalisé une avancée significative dans la résolution de tâches abstraites à l’aide d’un modèle de langage (LLM) de 8 milliards de paramètres et d’une technique innovante appelée Test-Time Training (TTT). Avec une performance de 61,9% sur le benchmark ARC-AGI-PUB, ils ont largement dépassé le record précédent de 42%. Ces résultats sont remarquables car le ARC-AGI-PUB est une collection exigeante de tâches qui nécessitent une reconnaissance visuelle des formes et un raisonnement logique complexe.

Qu’est-ce que le Test-Time Training (TTT) ? TTT est une technique qui permet au modèle de faire de petits ajustements pendant le temps de test afin de réagir à de nouvelles tâches. Pour cela, TTT utilise le contexte des données d’entrée pour optimiser temporairement le modèle pour la tâche en cours. Cette approche diffère des méthodes traditionnelles dans lesquelles le modèle est entraîné à l’avance pour une tâche. TTT montre une forte amélioration des performances, en particulier dans les tâches complexes et nouvelles.

Comment la percée a-t-elle fonctionné au MIT ? L’équipe a constaté qu’une combinaison de réglages fins initiaux et l’application de transformations spéciales pour les données de test étaient essentielles pour le succès. Grâce à ces ajustements, le modèle a pu améliorer sa capacité de reconnaissance des formes. De plus, un ensemble d’approches de programmation modernes a été créé pour augmenter la valeur de performance à 61,9% – une performance équivalente à celle d’une personne moyenne.

L’importance de ce développement Les résultats montrent que les modèles de langage peuvent résoudre des tâches abstraites même sans méthodes symboliques explicites.

Pour en savoir plus, consulte le document officiel.

Laisser un commentaire

MIT bat le record du benchmark AGI-PUB de 20% avec son nouveau LLM

Laisser un commentaire Annuler la réponse

Related Posts