Bleistiftzeichnung NIM-sceen

NIM Spiel – unplugged learning

Bei dem NIM-Spiel handelt es sich um ein Spiel, bei dem zwei Spieler gegeneinander spielen. Es eignet sich hervorragend maschinelles Lernen nach dem Prinzip des verstärkenden Lernens (reinforcement learning) zu verdeutlichen.

Spielaufbau

Es werden 10 Spielfiguren in eine Reihe gestellt.

Spielablauf

Die Spieler nehmen abwechselnd eins, zwei oder drei Spielfiguren der Reihe nach weg. Der Spieler, der die letzte Spielfigur vom Feld nimmt, hat das Spiel verloren.

Probiert es aus, bis ihr eine Strategie findet!


Ablauf für einen KI-Spieler

Jetzt spielt ein Spieler gegen einen Computerspieler. Hier ist, wie du das Spiel aufbauen und durchführen kannst:

Spielaufbau

Platziere hinter den ersten neun Spielfiguren einen Becher mit drei Münzen, die die Werte 1, 2 und 3 repräsentieren. Du wirst schnell feststellen, dass einige Münzen für dieses Spiel nicht benötigt werden; diese kannst du also ruhig beiseitelegen.

Spielablauf

Wenn der Computerspieler an der Reihe ist, ziehe zufällig eine Münze aus dem Becher hinter der nächsten Figur, die genommen werden kann, und lege sie vor den Becher (zwischen Becher und Figur).

NIM-Spiel Durchführung

Nun nimm die Anzahl der Figuren aus der Reihe, die der Wert der Münze angibt. Achte darauf: Wenn nicht genügend Figuren in der Reihe vorhanden sind, um den Wert der Münze zu erreichen, hätte diese Münze gar nicht im Becher sein dürfen.

Falls der AI-Spieler verliert, nimm die Münze, die zur Niederlage geführt hat, aus dem Spiel – es sei denn, es handelt sich um die letzte Münze im Becher. In diesem Fall nimm die vorherige Münze aus dem Becher (sofern diese nicht ebenfalls die letzte Münze ist).

Lege die verbliebenen Münzen zurück in den Becher und beginne das Spiel von Neuem.

Die Druckdateien (.stl) für Becher, Münzen und Spielfiguren findest du (neben einer ausführlicheren Spielanleitung) cults3d oder makerworld.

Verstärkendes Lernen am Beispiel des NIM-Spiels

Verstärkendes Lernen (oder reinforcement learning) ist ein Lernansatz, bei dem ein Agent (in diesem Fall die Becher mit den Münzen) durch Interaktionen mit einer Umgebung lernt, optimale Entscheidungen zu treffen. Der Agent erhält Belohnungen oder Bestrafungen basierend auf seinen Aktionen.

Hier wird der Agent bestraft, indem die Münzen bei einer Niederlage nicht zurück in die Becher gelegt werden. Bei einem Sieg passiert nichts, d.h. die Münzen, die zum Sieg geführt haben, werden zurück in den Becher gelegt. Das ist die Belohnung.


Kommentare

Schreibe einen Kommentar zu

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert