Durch die Zusammenführung unterschiedlicher Ansätze können Maschinen eine neue Ebene der kreativen Problemlösung erreichen.
Als Covid-19 Anfang 2020 die Menschen nach Hause entließ, entdeckte der Informatiker Tom Zahavy das Schachspiel neu. Er hatte schon als Kind gespielt und vor kurzem Garry Kasparovs Deep Thinking gelesen, eine Erinnerung an die Kämpfe des Großmeisters gegen IBMs Schachcomputer Deep Blue im Jahr 1997. Er sah sich Schachvideos auf YouTube und The Queen’s Gambit auf Netflix an.
Trotz seines erneuten Interesses suchte Zahavy nicht nach Möglichkeiten, sein Spiel zu verbessern. „Ich bin kein großartiger Spieler“, sagte er. „Ich bin besser bei Schachrätseln“ – Anordnungen von Figuren, die oft erfunden sind und in einer echten Partie wahrscheinlich nicht vorkommen, und die den Spieler herausfordern, kreative Wege zu finden, um einen Vorteil zu erlangen.
Professor Penrose Puzzle
Eines der berüchtigtsten Rätsel, das 2017 von dem Mathematiker Sir Roger Penrose entwickelt wurde, stellt stärkere schwarze Figuren (wie die Dame und Türme) auf das Brett, aber in ungünstigen Positionen.
Ein erfahrener menschlicher Spieler, der Weiß spielt, könnte das Spiel leicht in ein Unentschieden lenken, aber leistungsstarke Computerschachprogramme würden sagen, dass Schwarz einen klaren Vorteil hat. Dieser Unterschied, so Zahavy, deutet darauf hin, dass Computer zwar die weltbesten menschlichen Spieler besiegen können, aber noch nicht in der Lage sind, alle Arten von schwierigen Problemen zu erkennen und zu lösen. Seitdem haben Penrose und andere umfangreiche Sammlungen von Rätseln entwickelt, die für Computer schwer zu lösen sind.
Dieser Ansatz ist grundsätzlich sinnvoll, so Allison Liemhetcharat, eine Informatikerin bei DoorDash, die sich mit Multi-Agenten-Ansätzen zur Problemlösung in der Robotik beschäftigt hat. „Bei einer Population von Agenten ist die Wahrscheinlichkeit höher, dass die Rätsel in dem Bereich liegen, in dem mindestens einer der Agenten ausgebildet wurde.
Die Arbeit deutet darauf hin, dass Teams aus verschiedenen KI-Systemen schwierige Probleme weit über das Spielbrett hinaus effizient lösen könnten. „Dies ist ein großartiges Beispiel dafür, dass die Suche nach mehr als einer Möglichkeit, ein Problem zu lösen – wie etwa ein Schachspiel zu gewinnen – viele Vorteile bietet“, sagte Antoine Cully, ein KI-Forscher am Imperial College London, der nicht an dem DeepMind-Projekt beteiligt war. Er verglich es mit einer künstlichen Version der menschlichen Brainstorming-Sitzungen. „Dieser Denkprozess führt zu kreativen und effektiven Lösungen, die man ohne diese Übung nicht finden würde.“
Die Jagd nach Fehlern
Bevor er zu DeepMind kam, interessierte sich Zahavy für Deep Reinforcement Learning, einen Bereich der künstlichen Intelligenz, in dem ein System neuronale Netze verwendet, um eine Aufgabe durch Versuch und Irrtum zu lernen. Es ist die Grundlage für die leistungsstärksten Schachprogramme (und wird in anderen KI-Anwendungen wie selbstfahrenden Autos eingesetzt). Das System beginnt mit seiner Umgebung. Beim Schach zum Beispiel umfasst die Umgebung das Spielbrett und mögliche Züge. Wenn die Aufgabe darin besteht, ein Auto zu fahren, umfasst die Umgebung alles um das Fahrzeug herum. Das System trifft dann Entscheidungen, führt Aktionen aus und bewertet, wie nahe es seinem Ziel gekommen ist. Je näher es dem Ziel kommt, desto mehr Belohnungen erhält es, und je mehr Belohnungen das System erhält, desto besser wird seine Leistung. Der „tiefe“ Teil dieses Ansatzes beschreibt die neuronalen Netze, die zur Analyse und Bewertung von Verhaltensweisen verwendet werden.
Durch Verstärkungslernen hat AlphaZero gelernt, ein Schachmeister zu werden. DeepMind berichtet, dass das Programm während der ersten neun Trainingsstunden im Dezember 2017 44 Millionen Partien gegen sich selbst gespielt hat. Zunächst wurden seine Züge zufällig bestimmt, aber mit der Zeit lernte es, Züge auszuwählen, die mit größerer Wahrscheinlichkeit zu einem Schachmatt führen. Nach nur wenigen Stunden Training entwickelte AlphaZero die Fähigkeit, jeden menschlichen Schachspieler zu besiegen.
Doch so erfolgreich das verstärkte Lernen auch sein kann, es führt nicht immer zu Strategien, die ein allgemeines Verständnis des Spiels widerspiegeln. Im Laufe des letzten halben Jahrzehnts stellten Zahavy und andere Forscher fest, dass die Zahl der merkwürdigen Störungen, die bei Systemen auftreten können, die durch Versuch und Irrtum trainiert wurden, zunahm. Ein System, das Videospiele spielt, könnte beispielsweise ein Schlupfloch finden und herausfinden, wie man schummelt oder ein Level überspringt, oder es könnte genauso gut in einer sich wiederholenden Schleife stecken bleiben. Rätsel im Penrose-Stil deuteten auf eine Art blinden Fleck oder Störung in AlphaZero hin – es konnte nicht herausfinden, wie es ein Problem angehen sollte, das es noch nie zuvor gesehen hatte.
Aber vielleicht sind nicht alle Störungen einfach nur Fehler. Zahavy vermutete, dass es sich bei den blinden Flecken von AlphaZero in Wirklichkeit um etwas anderes handeln könnte – um Entscheidungen und Verhaltensweisen, die mit den internen Belohnungen des Systems zusammenhängen. Tiefgreifende Systeme mit verstärktem Lernen, so Zahavy, wissen nicht, wie sie scheitern können – oder sogar, wie sie ein Scheitern erkennen können. Die Fähigkeit zu scheitern wird seit langem mit kreativen Problemlösungen in Verbindung gebracht. „Kreativität hat eine menschliche Qualität“, schrieb Kasparov in Deep Thinking. „Sie akzeptiert die Vorstellung des Scheiterns.
KI-Systeme tun das normalerweise nicht. Und wenn ein System nicht erkennt, dass es bei der Erfüllung seiner Aufgabe gescheitert ist, dann versucht es vielleicht nicht, etwas anderes zu tun. Stattdessen wird es einfach weiter versuchen, das zu tun, was es bereits getan hat. Das ist wahrscheinlich der Grund für diese Sackgassen in Videospielen – oder dafür, dass man bei einigen Penrose-Herausforderungen nicht weiterkommt, so Zahavy. Das System war auf der Jagd nach „seltsamen Arten von intrinsischen Belohnungen“, die es während seiner Ausbildung entwickelt hatte, sagte er. Dinge, die von außen betrachtet wie Fehler aussahen, waren wahrscheinlich die Folge der Entwicklung spezifischer, aber letztlich erfolgloser Strategien.
Das System betrachtete diese seltsamen Belohnungen als Schritte auf dem Weg zu einem größeren Ziel, das es eigentlich nicht erreichen konnte, und es wusste nicht, dass es etwas Neues ausprobieren sollte. „
Ich habe versucht, ihnen einen Sinn zu geben.
Zahavy
Ein besseres Spiel
Einer der Gründe, warum sich diese Störungen als so folgenreich – und so nützlich – erweisen können, liegt in einem Problem, das die Forscher als Verallgemeinerung bezeichnen. Während Systeme mit Verstärkungslernen eine wirksame Strategie entwickeln können, um eine bestimmte Situation mit einer bestimmten Handlung zu verknüpfen – was die Forscher als „Strategie“ bezeichnen – können sie diese nicht auf andere Probleme anwenden. „Normalerweise neigt man beim Reinforcement Learning, fast unabhängig von der Methode, dazu, eine Strategie zu entwickeln, die den speziellen Fall des trainierten Problems löst, aber sie lässt sich nicht verallgemeinern“, sagt Julian Togelius, Informatiker an der New York University und Forschungsleiter bei modl.ai.
Zahavy war der Ansicht, dass die Penrose-Rätsel genau diese Art von Verallgemeinerung erfordern. Vielleicht konnte AlphaZero die meisten Rätsel nicht lösen, weil es sich so sehr darauf konzentrierte, ganze Spiele zu gewinnen, von Anfang bis Ende. Aber diese Herangehensweise führte zu blinden Flecken, die durch die unwahrscheinlichen Anordnungen von Teilen in Penrose-Rätseln aufgedeckt wurden. Vielleicht, so überlegte er, könnte das Programm lernen, das Rätsel zu lösen, wenn es genügend kreativen Spielraum hätte, um sich verschiedene Trainingsmethoden auszudenken und anzuwenden.
Also sammelten er und seine Kollegen zunächst einen Satz von 53 Penrose-Rätseln und 15 zusätzlichen Rätseln. Im Alleingang löste AlphaZero weniger als 4 % der Penrose-Rätsel und weniger als 12 % der übrigen. Zahavy war nicht überrascht: Viele dieser Rätsel wurden von Schachmeistern entworfen, um Computer absichtlich zu verwirren.
Als Test versuchten die Forscher, AlphaZero darauf zu trainieren, gegen sich selbst zu spielen, indem sie die Penrose-Puzzle-Anordnung als Startposition verwendeten, anstatt das gesamte Brett typischer Spiele. Seine Leistung verbesserte sich dramatisch: Es löste 96 % der Penrose-Rätsel und 76 % der Aufgabenstellung. Im Allgemeinen konnte AlphaZero, wenn es auf ein bestimmtes Rätsel trainiert wurde, dieses Rätsel lösen, genauso wie es gewinnen konnte, wenn es auf ein komplettes Spiel trainiert wurde. Vielleicht, so dachte Zahavy, wenn ein Schachprogramm irgendwie Zugang zu all diesen verschiedenen Versionen von AlphaZero hätte, die auf diese verschiedenen Stellungen trainiert wurden, dann könnte diese Vielfalt die Fähigkeit fördern, neue Probleme produktiv anzugehen.
Seine Gruppe beschloss, das herauszufinden. Sie entwickelten die neue, diversifizierte Version von AlphaZero, die mehrere KI-Systeme umfasst, die unabhängig voneinander und für eine Vielzahl von Situationen trainiert wurden. Der Algorithmus, der das Gesamtsystem steuert, fungiert laut Zahavy als eine Art virtueller Heiratsvermittler: Er soll herausfinden, welcher Agent die besten Erfolgschancen hat, wenn es an der Zeit ist, einen Zug zu machen. Er und seine Kollegen haben auch einen „Diversitätsbonus“ einkodiert – eine Belohnung für das System, wenn es Strategien aus einer großen Auswahl an Möglichkeiten auswählt.
Als das neue System losgelassen wurde, um seine eigenen Spiele zu spielen, beobachtete das Team eine große Vielfalt. Der abwechslungsreiche KI-Spieler experimentierte mit neuen, effektiven Eröffnungen und neuartigen – aber soliden – Entscheidungen über bestimmte Strategien, z. B. wann und wo er eine Burg errichten sollte. In den meisten Partien besiegte er den ursprünglichen AlphaZero. Das Team fand auch heraus, dass die diversifizierte Version doppelt so viele Herausforderungsrätsel lösen konnte wie das Original und mehr als die Hälfte des gesamten Penrose-Rätselkatalogs lösen konnte.
„Die Idee ist, dass wir nicht nur eine Lösung oder eine einzige Strategie finden, die jeden Spieler besiegt, sondern die Idee der kreativen Vielfalt nutzen“, sagte Cully.
Mit dem Zugang zu mehr und anderen Spielen, so Zahavy, hatte das diversifizierte AlphaZero mehr Möglichkeiten für schwierige Situationen, wenn sie auftraten. „Wenn man die Art der Spiele kontrollieren kann, die es sieht, kann man im Grunde kontrollieren, wie es sich verallgemeinert“, sagte er. Diese seltsamen intrinsischen Belohnungen (und die damit verbundenen Züge) könnten zu Stärken für verschiedene Verhaltensweisen werden. Dann könnte das System lernen, die verschiedenen Ansätze zu bewerten und zu erkennen, wann sie am erfolgreichsten sind. „Wir haben festgestellt, dass sich diese Gruppe von Agenten tatsächlich auf diese Positionen einigen kann.
Und, was ganz entscheidend ist, die Auswirkungen gehen über das Schachspiel hinaus.
Kreativität im wirklichen Leben
Cully sagte, dass ein diversifizierter Ansatz jedem KI-System helfen kann, nicht nur solchen, die auf Verstärkungslernen basieren. Er verwendet seit langem Diversität, um physikalische Systeme zu trainieren, darunter einen sechsbeinigen Roboter, der verschiedene Arten von Bewegungen erforschen durfte, bevor er ihn absichtlich „verletzte“ und ihm erlaubte, sich mit einigen der zuvor entwickelten Techniken weiterzubewegen. „Wir haben einfach versucht, Lösungen zu finden, die sich von allen bisher gefundenen Lösungen unterscheiden. In letzter Zeit hat er auch mit Forschern zusammengearbeitet, um die Vielfalt zu nutzen, um vielversprechende neue Arzneimittelkandidaten zu identifizieren und wirksame Strategien für den Aktienhandel zu entwickeln.
„Das Ziel ist es, eine große Sammlung von möglicherweise Tausenden von verschiedenen Lösungen zu generieren, bei denen sich jede Lösung stark von der nächsten unterscheidet“, so Cully. So könnte das Gesamtsystem für jede Art von Problem die bestmögliche Lösung wählen, so wie es der diversifizierte Schachspieler gelernt hat. Zahavys KI-System zeige deutlich, wie „die Suche nach verschiedenen Strategien dabei hilft, über den Tellerrand zu schauen und Lösungen zu finden.“
In der Praxis decken sich Zahavys Ergebnisse mit neueren Untersuchungen, die zeigen, wie die Zusammenarbeit von Menschen zu besseren Leistungen bei schwierigen Aufgaben führen kann. Die meisten Hits auf der Billboard 100-Liste wurden beispielsweise von Teams von Songwritern geschrieben, nicht von Einzelpersonen. Und es gibt noch Raum für Verbesserungen. Der vielseitige Ansatz ist derzeit sehr rechenintensiv, da er viel mehr Möglichkeiten berücksichtigen muss als ein typisches System. Zahavy ist auch nicht davon überzeugt, dass selbst der diversifizierte AlphaZero-Ansatz das gesamte Spektrum der Möglichkeiten abdeckt.
„Ich glaube, dass es noch Raum für andere Lösungen gibt“, sagte er. „Mir ist nicht klar, dass es angesichts aller Daten auf der Welt [nur] eine Antwort auf jede Frage gibt.“
Quelle: https://www.quantamagazine.org/google-deepmind-trains-artificial-brainstorming-in-chess-ai-20231115/