Künstliche Intelligenzen haben in einem Test mit hochkomplexen mathematischen Aufgaben nahezu alle Fragen korrekt beantwortet. Forschende der Ruhr-Universität Bochum sehen darin eine deutliche Verbesserung der mathematischen Problemlösungsfähigkeiten aktueller Modelle. Nur zwei von 100 Aufgaben blieben am Ende vollständig ungelöst.
Mathematik-Test auf Promotionsniveau
Die mathematischen Problemlösungsfähigkeiten von Künstlichen Intelligenzen haben sich zuletzt offenbar stark verbessert. Wie die Ruhr-Universität Bochum am Dienstag mitteilte, haben KIs bei einem Test mit 100 mathematischen Übungsaufgaben auf höchstem Niveau fast alle Fragen richtig beantwortet. Nur zwei der gestellten Aufgaben blieben demnach vollständig ungelöst.
Eine Gruppe von 49 internationalen Mathematikern hatte die Fragen auf einem Workshop am Max-Planck-Institut für Mathematik in Leipzig zusammengestellt. Die Aufgaben bewegten sich in ihrer Komplexität mindestens auf dem Niveau von Promotionen. Die Antworten mussten eindeutig und den Forschern bekannt sein, durften aber nicht explizit in Veröffentlichungen erschienen sein.
Vergleich von fünf Large Language Models
Die Fragen wurden fünf aktuellen Large Language Models (LLMs) zunächst ein einziges Mal gestellt. 41 Aufgaben blieben danach ungelöst. Die besten drei Modelle des ersten Durchgangs wurden noch 20 weitere Male mit denselben Fragen konfrontiert. Dabei zeigte sich eine große Variation in den Antworten zwischen einzelnen Durchgängen. Es blieben nur noch 16 ungelöste Fragen übrig.
Heavy-Thinking-Modelle lösen weitere Aufgaben
Abschließend stellten die Forscher die Fragen drei Mal hintereinander zwei sogenannten Heavy-Thinking-Modellen. Diese konnten weitere 14 Übungsaufgaben lösen, sodass zum Schluss nur zwei Aufgaben vollständig ungelöst blieben.
✨ mit KI bearbeitet