MIT schlägt mit neuem LLM den Rekord im AGI-PUB Benchmark um 20%

Advertisements

Einige der in diesem Beitrag geteilten Links sind Affiliate-Links. Wenn du auf den Link klickst und etwas kaufst, erhalten wir eine Affiliate-Provision ohne zusätzliche Kosten für dich.

Ein Team vom MIT hat mithilfe eines 8 Milliarden Parameter umfassenden Sprachmodells (Language Model, LLM) und einer innovativen Technik namens Test-Time Training (TTT) einen bedeutenden Fortschritt in der abstrakten Aufgabenlösung erzielt. Mit einer Leistung von 61,9 % auf dem ARC-AGI-PUB Benchmark übertrafen sie den bisherigen Rekord von 42 % deutlich. Diese Ergebnisse sind bemerkenswert, da das ARC-AGI-PUB eine anspruchsvolle Sammlung von Aufgaben darstellt, die visuelle Mustererkennung und komplexes logisches Denken erfordert.

Was ist Test-Time Training (TTT)? TTT ist eine Technik, die es dem Modell ermöglicht, während des Testzeitpunkts kleine Anpassungen vorzunehmen, um auf neue Aufgaben zu reagieren. Dabei nutzt TTT den Kontext der Eingabedaten, um das Modell temporär für die aktuelle Aufgabe zu optimieren. Diese Herangehensweise unterscheidet sich von traditionellen Methoden, bei denen das Modell vorab auf eine Aufgabe trainiert wird. Besonders in komplexen und neuartigen Aufgaben zeigt TTT starke Leistungsverbesserungen.

Wie funktionierte der Durchbruch am MIT? Das Team stellte fest, dass eine Kombination aus initialem Feintuning und der Anwendung spezieller Transformationen für Testdaten entscheidend für den Erfolg war. Durch diese Anpassungen konnte das Modell seine Fähigkeit zur Mustererkennung verbessern. Zudem wurde ein Ensemble mit modernen Programmieransätzen geschaffen, um den Leistungswert auf 61,9 % zu steigern – eine Leistung, die der eines durchschnittlichen Menschen entspricht.

Die Bedeutung dieser Entwicklung Die Ergebnisse zeigen, dass Sprachmodelle auch ohne explizite symbolische Methoden abstrakte Aufgaben lösen können.

Mehr dazu im offiziellen Paper.

Schreibe einen Kommentar

MIT schlägt mit neuem LLM den Rekord im AGI-PUB Benchmark um 20%

Schreibe einen Kommentar Antworten abbrechen

Related Posts