# Reinforcement Learning für TicTacToe
---
Ein Vortrag von Hannes Hoffmann und Kevin Bücher

![](https://upload.wikimedia.org/wikipedia/commons/3/33/Tictactoe1.gif)

## Gliederung

* Einleitung
    * Problemstellung 
    * Verwendete Tools 
    * QTable 
    * QNN
* Umsetzung
    * Struktur des Projektes
    * Umsetzung QTable 
    * Umsetzung QNN 
* Auswertung
    * Resultate 
    * Lernerfolg 
    * Fazit 

## 1. Einleitung

### 1.1 Problemstellung

Die Aufgabe war es eine KI für ein beliebiges Brettspiel zu implementieren. Die Vorgabe für diese Aufgabe waren bereits generalisierte Klassen für zwei beliebige Spiele (bisher ohne KI), eine Klasse für das Environment bzw. das "Brett" und eine Klasse für die Spiellogik. Das bisher vorgegebene Environment war ein Tic Tac Toe Spiel mit einem 3x3 Brett und 2 Spielern. Dieses Spiel soll auch für die nachfolgenden Aufgaben beibehalten werden. Es wird somit nur eine KI für ein Tic Tac Toe Spiel erstellt.

Der komplette Entwicklungsprozess für diese Aufgabe soll nach der Standardpraxis für objektorientiertes Programmieren in Python entsprechen. Darunter zählt die Verwendung von generalisierten und spezialisierten Klassen, logischen Klassenkonstellationen, festgelegte Zugriffsbereiche für Methoden und Variablen sowie der Einhaltung sämtlich weiterer Prinzipien des Softwareengineerings während der Entwurfs- und Umsetzungsphase. Womit unter anderem das Entwickeln von wartbarer, konsistenter, modularer, erweiterbarer und verständlicher Software gemeint ist.

Was die KI betrifft sollen zwei wesentliche Ansätze durchgeführt werden. Die Basis für das Lernen soll ausschließlich bestärkend sein, damit verfallen jegliche Eingriffe durch einen Menschen während des Lernens. Die KI soll eigenständig durch Bestrafungen und Belohnungen das Spiel erlernen und darin besser werden.

Zum einem soll ein maschineller Lernalgorithmus, der auf der Basis der Q-Funktion und der damit verbundenen Q-Tabelle aufbaut, implementiert werden. Dieser Ansatz soll nach dem "Brute Force" Prinzip alle möglichen Zustände des Spiels "erkunden" und die jeweiligen besten Züge in einer Tabelle speichern.

Der zweite Ansatz soll mittels einem künstlichen neuronalen Netzes das Spiel erlernen.

## Aufgabenstellung

* bereits vorhandene Basis eines TicTacTow Spiels weiterführen
* OOD Standards in Python einhalten
* Folgende Tools verwenden:
    * Jupyter Notebooks
    * ...
* Implementierung Q-Algorithmus
* Implementierung QNN

## Verwendete Tools

* ...

### 1.4 QNN (Q-Wertbasiertes Neuronales Netzwerk)

Für die Erweiterbarkeit unseres Codes ist uns aufgefallen, dass der Q-Algorithmus seine Grenzen bei Spielen mit einem beinahe unendlichen Zustandsraum aufweist. Spiele wie Schach oder Go haben einen derart riesigen Zustandsraum aller möglichen Züge, der ohne weitere Hilfe nicht einfach durch ausprobieren komplett erkundet werden kann. Um dem Prinzip des bestärkenden Lernens nahe zu kommen, müssen andere Methoden gefunden werden, um zukünftige Züge oder sogar Strategien bei unendlich wirkenden Zustandsräumen hervorzusagen. Hierfür soll ein neuronales Netzwerk mit mehreren Schichten zum Einsatz kommen.

Der Gedanke dahinter ist, dass man nicht mehr versucht alle Zustände zu erkunden und perfekt vorherzusagen, sondern eine Struktur oder sogar Strategie in gewissen Zügen zu erkennen. Der Fokus des neuronalen Netzes soll damit sein, Strukturen in zeitlich aufeinanderfolgender Züge zu erkennen und bei unbekannten Zuständen einen Schätzwert auf Basis bisher bekannter Strategien ausgeben.

Ein neuronales Netzwerk besteht zumeist aus Eingabevektoren, verschiedenste versteckte Schichten sowie Ausgabevektoren. Genauso wie die Q-Funktion, sollen dem QNN gewisse Parameter als Eingabevektoren mitgegeben werden. Dazu gehört der aktuelle Zustand des Bretts, die ausgewählte Aktion auf Basis vorheriger Werte aus dem QNN Modell und ggf. die Belohnung. Als Ausgabevektor soll, genauso wie bei der Q-Funktion, ein Q-Wert sein, der die maximale Belohnung des aktuellen Zustand-Aktion-Paares beschreibt.

Die Lerndaten erstellt der QNN Agent selbst, durch das explorative Erkunden mittels dem Explorationsfaktor namens "Theta". Anhand der explorierten Daten und erlangten Belohnungen wird das QNN selbst die besten Züge herausfinden.

## QNN (Q-Wertbasiertes Neuronales Netzwerk)

* Wieder das Markow-Entscheidungsproblem 
    * Menge von **Zuständen** *S*
    * Menge von **Aktionen** *A*
    * Belohnungsfunktion *r*: $$r\colon S \times A \times S\rightarrow  \mathbb{R}$$
* *Wissen* des Agenten hier: **neuronales Netzwerk**

## QNN (Q-Wertbasiertes Neuronales Netzwerk)

Ziel des Agenten:
* Maximierung des zukünftigen zu erwartenden Gewinn

Erwarteter Gewinn = Erwartete Gesamtbelohnung:

<table>
  <tr>
    <th>$$\mathbb{E}[R_t] = \mathbb{E}\left[\sum_{k=0}^T \gamma^k\cdot r_{t+k+1}\right]$$</th>
      <th>mit</th>  
    <th>$$0\le\gamma\le 1$$</th>
  </tr>
</table>

### Aufbau QNN


# Setup

In [3]:
!pip install plotly



In [4]:
!pip install waiting

Collecting waiting
  Downloading waiting-1.4.1.tar.gz (7.1 kB)
Building wheels for collected packages: waiting
  Building wheel for waiting (setup.py): started
  Building wheel for waiting (setup.py): finished with status 'done'
  Created wheel for waiting: filename=waiting-1.4.1-py3-none-any.whl size=3764 sha256=2f6ed7f7448420ea7a011a89e1db90669c1f0456130b839e373a5de52103f3a4
  Stored in directory: c:\users\ke-ch\appdata\local\pip\cache\wheels\8d\73\26\87317a55070b56e3b102aa208b0459c9265d889ecdefd5bcb9
Successfully built waiting
Installing collected packages: waiting
Successfully installed waiting-1.4.1


In [6]:
!pip install tqdm



In [1]:
from build.Game import Game
from build.player.Randy import Randy
from build.player.Human import Human
from build.player.SmarterHuman import SmarterHuman
from build.player.QPlayer import QPlayer, QUtils
from build.player.qlearner.QTableLearner import QTableLearner
from build.player.qlearner.QNNLearner import QNNLearner
from build.player.qlearner.Model import TicTacToeModel, TicTacToeModelSmall
from tqdm.notebook import trange
import numpy as np

# Q-Table Learning

In [3]:
qtable_learned_filepath = '..\\output\\storage\\qtable_learned.pkl'

In [None]:
for j in trange(100):

    player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath)), state_reduction=True)
    player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath)), state_reduction=True)
    players = [player1, player2]

    game = Game(players)

    for i in range(1000):
        game.run()

    q_table = QUtils.merge_dicts(player1.q_learner.q_table, player2.q_learner.q_table)
    QUtils.save_dict_to_file(qtable_learned_filepath, q_table)

player1.stats.display()

  0%|          | 0/100 [00:00<?, ?it/s]

In [None]:
q_table = QUtils.get_dict_from_file(qtable_learned_filepath)
QUtils.pretty_print_q_table(q_table)

## Singe Game

In [None]:
qtable_single_game_filepath = '..\\output\\storage\\qtable_single_game.pkl'

In [None]:
for j in trange(1):

    player1 = QPlayer('x', QTableLearner())
    player2 = Randy('o')
    players = [player1, player2]

    game = Game(players).run()
    QUtils.save_dict_to_file(qtable_single_game_filepath, player1.q_learner.q_table)

In [None]:
q_table = QUtils.get_dict_from_file(qtable_single_game_filepath)
QUtils.pretty_print_q_table(q_table)

## State Reduction

In [None]:
qtable_state_reduction_filepath = '..\\output\\storage\\qtable_state_reduction.pkl'

In [None]:
for j in trange(100):

    player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_state_reduction_filepath)), state_reduction=True)
    player2 = Randy('o')
    players = [player1, player2]

    Game(players).run()

    QUtils.save_dict_to_file(qtable_state_reduction_filepath, player1.q_learner.q_table)

In [None]:
q_table = QUtils.get_dict_from_file(qtable_state_reduction_filepath)
QUtils.pretty_print_q_table(q_table)

# Control Results

In [3]:
player1 = Randy('x')
player2 = Randy('o')
players = [player1, player2]

for j in trange(10):
    game = Game(players)
    for i in range(8):
        game.run()

player1.stats.display()
player1.stats.display_history()

  0%|          | 0/10 [00:00<?, ?it/s]

Games     won    |    lost    |    draw    | total games
          55     |     16     |     9      |     80    
         69%     |    20%     |    11%     |    100%   


## Human Game

In [4]:
player1 = SmarterHuman('x')
player2 = Randy('o')
players = [player1, player2]

game = Game(players).run()

HBox(children=(VBox(children=(Button(description=' ', style=ButtonStyle(), tooltip='Click me for boolean chang…

KeyboardInterrupt: 

## QNN (offline learning)

In [None]:
player1 = QPlayer('x', QNNLearner(model=TicTacToeModel(1)))
player2 = QPlayer('o', QNNLearner(model=TicTacToeModel(-1)))
players = [player1, player2]

game = Game(players)

for i in range(10):
    game.run()

for player in players:
    QUtils.print_loss(player.q_learner.model.history)

## Control Results QNN

In [None]:
model = TicTacToeModel(1)
value = np.ndarray(shape=[3,3])
pstate = np.ndarray(shape=[3,3])
state = [-1,0,-1,0,1,0,0,1,0]
for i in [0,1,2,3,4,5,6,7,8]:
    tensor = model.state_to_tensor(state, i)
    km = model.load_model()
    value[int(i/3)][i%3] = km.predict(tensor)
    pstate[int(i/3)][i%3] = state[i]

for i in [0,1,2,3,4,5,6,7,8]:
    pstate[int(i/3)][i%3] = state[i]
print(value)
print(pstate)
print(f"Optimal: {np.argmax(value)}")
newstate = pstate
newstate[int(np.argmax(value)/3)][np.argmax(value)%3] = 1
print(newstate)

## QNN (online learning)

In [3]:
history = []
for j in trange(10):
    player1 = QPlayer('x', QNNLearner(model=TicTacToeModelSmall(1), learn_online = True))
    player2 = QPlayer('o', QNNLearner(model=TicTacToeModelSmall(-1), learn_online = True))
    players = [player1, player2]

    game = Game(players)

    for i in range(10):
        game.run()

    #history = history.append[player1.q_learner.model.history]

#QUtils.print_loss(history)

  0%|          | 0/10 [00:00<?, ?it/s]

new model
Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_4 (Dense)              (1, 20)                   200       
_________________________________________________________________
dense_5 (Dense)              (1, 9)                    189       
Total params: 389
Trainable params: 389
Non-trainable params: 0
_________________________________________________________________
new model
Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_6 (Dense)              (1, 20)                   200       
_________________________________________________________________
dense_7 (Dense)              (1, 9)                    189       
Total params: 389
Trainable params: 389
Non-trainable params: 0
_________________________________________________________________
new model
Model:

## Check new QNN

In [None]:
model = TicTacToeModelSmall(1)
state = np.array([[None,"x","x"],
                  [None,"o","o"],
                  [None,None,None]])
model.predict_model(state, True)

# ToDo

* Test schreiben mit Mocks -> abdecken von (Hannes)
    * richtiges Abspeichern
    * richtige Ausgabe
    * richtiges Lernen
* Statistiken Überprüfer (Hannes)
* Test mit 2 Randy player -> 100.000 Durchgänge (Hannes)
* Training mit mehr Durchgängen -> großes qtable file erstellen (Kevin)
* Docu anpassen (Hannes)
* Klassendiagramme mit plantuml (da wo es funzt, Kevin)
* QNN Learner erzeugen (Kevin)

- servertest
- farbige resultate -> Heatmap
- redundante zustände
- zwischenstände für statistiken
- Lernentwicklung im Bericht