Lesezeit

Machine Learning Tutorial NUR mit Zettel und Stift! Teil 2

Von Stefan Blum

Reinforcement Learning.

Die Blog-Serie.

Im ersten Teil der Blog-Serie sind wir auf Unsupervised und Supervised Machine Learning eingegangen. In diesem Artikel beschäftigen wir uns nun mit Reinforcement Learning.

Bevor wir richtig loslegen wiederholen wir die drei grundsätzlichen Methoden im Machine Learning: Unsupervised Learning, Supervised Learning und Reinforcement Learning. Was war das nochmal?

Unsupervised Learning
  • Wie bringe ich Ordnung in meine Bauklotzkiste?
  • Clustering, Mustererkennung
Supervised Learning
  • Wie lerne ich Äpfel von Orangen zu unterscheiden?
  • Klassifikation, Regression
Reinforcement Learning
  • Wie bringe ich meinem Sohn ein Brettspiel bei?
  • Reinforcement Learning

1  2  3


Reinforcement Learning

Heute geht es um Reinforcement Learning. Diese Form des Lernens wird angewandt, wenn man durch Interaktion mit der Umgebung beziehungsweise Feedback zu diesen Interaktionen lernen will, um ein Problem zu lösen. Man trainiert einen sogenannten Agenten. Dieser soll durch Interagieren mit seiner Umgebung eine Strategie zum Erreichen seines Ziels erlernen und diese möglichst optimieren. Ein in den Medien viel beachtetes Beispiel für Reinforcement Learning ist der Sieg von AlphaGo gegen den Profi-Spieler Lee Sedol beim Brettspiel Go. Das System AlphaGo wurde mittels Reinforcement Learning im Spiel gegen sich selber trainiert. Bei dem ersten System wurden noch grundlegende Regelwerke hinterlegt. AlphaGo Zero hatte diese nicht und lernte lediglich auf Basis von Reinforcement Learning, indem es gegen sein Vorgängersystem spielte. Nach wenigen Tagen übertrumpfte es seinen Vorgänger.

Ein Unterschied zu den Methoden des Supervised und Unsupervised Learning ist, dass der Algorithmus nicht aus einem existierenden Datensatz Muster lernt, sondern durch das Interagieren mit seiner Umwelt. Das heißt, dass erst durch das Handeln der Agenten die Daten zum Erkennen einer Strategie entstehen, was im Vergleich zu den anderen Algorithmen deutlich zeitaufwändiger und datenintensiver ist. Im Folgenden haben wir ein Beispiel zum selber ausprobieren aufbereitet:

Bastelanleitung Reinforcement Learning

Material: 

1. Spielplan mit abgedeckten Feldern, die Felder werden im späteren Spiel aufgedeckt. Der Agent soll eine Belohnung finden:

Spielplan


Spielplan mit aufgedeckten Feldern:

Spielplan_aufgedeckte_Felder

 

2. Tiger-Spielfigur

Tiger_Spielfigur

 

3. TIGER-Merktabelle für Aktionen, Farbstifte oder Klebepunkte (blau, grün, rot, gelb, schwarz) 

Tiger_Merktabelle

 

4. Kugel-Beutel

Beutel mit Kugeln, je ein Beutel mit der Aufschrift T;I;G;E;R, in dem Kugeln der zugeordneten Farbe und Fehlkugeln (Verhältnis 5:1) liegen. Die Zuordnung ist 

  • T= blau
  • I= rot
  • G= grün
  • E= gelb
  • R= schwarz
 
5. Digit-Board mit 20 Digits

Digit_Board
 
6. Spielplan mit Lösungen und Gesamtstrategie

Spielplan_Gesamtstrategie
 
 Spielplan_Gesamtstrategie_2
 


Ablauf

Die Spielvorgaben lauten:

  • Es gibt Aktionen T-I-G-E-R, aus denen die Teilnehmer auswählen können. 
  • Die Anzahl der Digits soll am Ende maximiert sein
  • Weitere Informationen gibt es nicht 
Hinweis: Ein Machine-Learning-System würde 100- bis 1000-mal spielen, um Regeln, Reaktionen und Strategien abzuleiten. Wir machen das nicht, dies ist hier zu zeitaufwändig. Deshalb spielen wir nur einen Duchgang. Danach haben wir erste Ergebnisse. Mit diesen überlegen wir, was es bedeutet, wenn wir 100- bis 1000-mal gespielt hätten.

Spielbeginn:

  1. Eine Aktion T-I-G-E-R wird durch die Teilnehmer ausgewählt. Solange wir keine Strategie haben, wählen wir zufällige Aktionen.
  2. Das Spiel "reagiert".
    1. Jede Aktion kostet ein Digit. Auf dem Digit Board wird ein Digit gestrichen
    2. Aus dem entsprechenden Kugel-Beutel wird eine Kugel gezogen
    3. Merkt euch die Aktion und die Farbe der gezogenen Kugel auf der TIGER -Merktabelle
    4. Der Tiger bewegt sich auf dem Spielbrett entsprechend der gezogenen Kugelfarbe
    5. Ist ein Ende-Feld (12/15)aufgedeckt, so ist das Spiel beendet. Falls nicht geht es wieder zu 1.

Spielende und Auswertung:

  1. Die Anzahl der Digits wird gezählt
  2. Über die TIGER-Merktabelle wird eine Vermutung abgegeben, welche Aktion zu welcher Farbe und damit Zugrichtung führt.

Auswertung für Reinforcement Learning:

Nach einem Durchgang können wir noch keine Strategie ableiten. Hätten wir bspw. 1000 Durchgänge gespielt, so könnte das Ergebnis sein:

  • Wir haben nach und nach alle Felder aufgedeckt und kennen alle Spielfeldinhalte (leeres Feld, Belohnung, Hindernisse)
  • Wir können die Reaktionen des Spiels aus der TIGER-Merktabelle abschätzen und damit Wahrscheinlichkeiten ableiten
  • Wir könnten eine Strategie ableiten

Reinforcement_Learning

Ableitung einer Gesamtstrategie

Wir geben jedem Feld einen Wert, der darstellt, welche maximale Anzahl Digits wir ausgehend von diesem Feld am Spielende erreichen können.

Spielplan_Gesamtstrategie_2

Danach können wir die Gesamtstrategie ableiten: Wähle die Aktion mit der du das Nachbarfeld mit dem höchsten Wert erreichst.
 

Fazit

Mit diesem Beispiel haben wir ein Reinforcement-Learning-System simuliert. Wie beim richtigen Machine Learning haben wir als Agent versucht, unsere Belohnungen (Digits) zu maximieren. Zu Beginn wählten wir zufällige Aktionen und beobachteten die Reaktionen des Spiels. Nach häufigem Spielen und wiederholen konnten wir daraus eine Gesamtstrategie ableiten. Ganz und gar analog lässt sich so einfach nachvollziehen, wie diese Systeme prinizipiell funktionieren.

Tags: Artificial Intelligence, Technology

Verwandte Artikel

Praktische Beispiele

In dieser Blogserie geben wir einen tieferen Einblick in die Themen IOTA und Hashgraph und die...

( Lesezeit )

Mehr erfahren

Topics: Artificial Intelligence, Technology

Smart Contracts, die Businesslogik von Blockchain-Anwendungen

In dieser Blogserie gehen wir näher auf Blockchain ein und...
( Lesezeit )

Mehr erfahren

Topics: Artificial Intelligence, Technology

Durch das 360° Kundencockpit der Stadtwerke Neumünster auf dem Weg zur vollständigen Sicht auf die Kunden

Einen großen...

( Lesezeit )

Mehr erfahren

Topics: Artificial Intelligence, Technology