# Reinforcement Learning für TicTacToe
---
Ein Vortrag von Hannes Hoffmann und Kevin Bücher

![](https://upload.wikimedia.org/wikipedia/commons/3/33/Tictactoe1.gif)

## Gliederung

* Einleitung
    * Problemstellung 
    * Verwendete Tools 
    * QTable 
    * QNN
* Umsetzung
    * Struktur des Projektes
    * Umsetzung QTable 
    * Umsetzung QNN 
* Auswertung
    * Resultate 
    * Lernerfolg 
    * Fazit 

## 1. Einleitung

### 1.1 Problemstellung

Die Aufgabe war es eine KI für ein beliebiges Brettspiel zu implementieren. Die Vorgabe für diese Aufgabe waren bereits generalisierte Klassen für zwei beliebige Spiele (bisher ohne KI), eine Klasse für das Environment bzw. das "Brett" und eine Klasse für die Spiellogik. Das bisher vorgegebene Environment war ein Tic Tac Toe Spiel mit einem 3x3 Brett und 2 Spielern. Dieses Spiel soll auch für die nachfolgenden Aufgaben beibehalten werden. Es wird somit nur eine KI für ein Tic Tac Toe Spiel erstellt.

Der komplette Entwicklungsprozess für diese Aufgabe soll nach der Standardpraxis für objektorientiertes Programmieren in Python entsprechen. Darunter zählt die Verwendung von generalisierten und spezialisierten Klassen, logischen Klassenkonstellationen, festgelegte Zugriffsbereiche für Methoden und Variablen sowie der Einhaltung sämtlich weiterer Prinzipien des Softwareengineerings während der Entwurfs- und Umsetzungsphase. Womit unter anderem das Entwickeln von wartbarer, konsistenter, modularer, erweiterbarer und verständlicher Software gemeint ist.

Was die KI betrifft sollen zwei wesentliche Ansätze durchgeführt werden. Die Basis für das Lernen soll ausschließlich bestärkend sein, damit verfallen jegliche Eingriffe durch einen Menschen während des Lernens. Die KI soll eigenständig durch Bestrafungen und Belohnungen das Spiel erlernen und darin besser werden.

Zum einem soll ein maschineller Lernalgorithmus, der auf der Basis der Q-Funktion und der damit verbundenen Q-Tabelle aufbaut, implementiert werden. Dieser Ansatz soll nach dem "Brute Force" Prinzip alle möglichen Zustände des Spiels "erkunden" und die jeweiligen besten Züge in einer Tabelle speichern.

Der zweite Ansatz soll mittels einem künstlichen neuronalen Netzes das Spiel erlernen.

## 1.2 Aufgabenstellung

* bereits vorhandene Basis eines TicTacTow Spiels weiterführen
* OOD Standards in Python einhalten
* Folgende Tools verwenden:
    * Jupyter Notebooks
    * ...
* Implementierung Q-Algorithmus
* Implementierung QNN

## 1.3 Verwendete Tools

### 1.3.1 Setup
* DataSpell
* Python 3.9
* GitLab und GitHub

### 1.3.2 Libs

File-Handling
* dill
* pickle
* os
* path
* nbconvert

KI
* random
* keras

Coding
* numpy
* abc
* enum
* collections
* time
* waiting

Visual
* plantuml
* IPython.core.display
* plotly
* matplotlib
* ipywidgets
* tqdm.notebook

## 1.4 Q-Table

## 1.5 QNN (Q-Wertbasiertes Neuronales Netzwerk)

Für die Erweiterbarkeit unseres Codes ist uns aufgefallen, dass der Q-Algorithmus seine Grenzen bei Spielen mit einem beinahe unendlichen Zustandsraum aufweist. Spiele wie Schach oder Go haben einen derart riesigen Zustandsraum aller möglichen Züge, der ohne weitere Hilfe nicht einfach durch ausprobieren komplett erkundet werden kann. Um dem Prinzip des bestärkenden Lernens nahe zu kommen, müssen andere Methoden gefunden werden, um zukünftige Züge oder sogar Strategien bei unendlich wirkenden Zustandsräumen hervorzusagen. Hierfür soll ein neuronales Netzwerk mit mehreren Schichten zum Einsatz kommen.

Der Gedanke dahinter ist, dass man nicht mehr versucht alle Zustände zu erkunden und perfekt vorherzusagen, sondern eine Struktur oder sogar Strategie in gewissen Zügen zu erkennen. Der Fokus des neuronalen Netzes soll damit sein, Strukturen in zeitlich aufeinanderfolgender Züge zu erkennen und bei unbekannten Zuständen einen Schätzwert auf Basis bisher bekannter Strategien ausgeben.

Ein neuronales Netzwerk besteht zumeist aus Eingabevektoren, verschiedenste versteckte Schichten sowie Ausgabevektoren. Genauso wie die Q-Funktion, sollen dem QNN gewisse Parameter als Eingabevektoren mitgegeben werden. Dazu gehört der aktuelle Zustand des Bretts, die ausgewählte Aktion auf Basis vorheriger Werte aus dem QNN Modell und ggf. die Belohnung. Als Ausgabevektor soll, genauso wie bei der Q-Funktion, ein Q-Wert sein, der die maximale Belohnung des aktuellen Zustand-Aktion-Paares beschreibt.

Die Lerndaten erstellt der QNN Agent selbst, durch das explorative Erkunden mittels dem Explorationsfaktor namens "Theta". Anhand der explorierten Daten und erlangten Belohnungen wird das QNN selbst die besten Züge herausfinden.

## QNN (Q-Wertbasiertes Neuronales Netzwerk)

* Wieder das Markow-Entscheidungsproblem 
    * Menge von **Zuständen** *S*
    * Menge von **Aktionen** *A*
    * Belohnungsfunktion *r*: $$r\colon S \times A \times S\rightarrow  \mathbb{R}$$
* *Wissen* des Agenten hier: **neuronales Netzwerk**

## QNN (Q-Wertbasiertes Neuronales Netzwerk)

Ziel des Agenten:
* Maximierung des zukünftigen zu erwartenden Gewinn

Erwarteter Gewinn = Erwartete Gesamtbelohnung:

<table>
  <tr>
    <th>$$\mathbb{E}[R_t] = \mathbb{E}\left[\sum_{k=0}^T \gamma^k\cdot r_{t+k+1}\right]$$</th>
      <th>mit</th>  
    <th>$$0\le\gamma\le 1$$</th>
  </tr>
</table>

### Aufbau QNN


# Setup

In [3]:
!pip install plotly



In [4]:
!pip install waiting

Collecting waiting
  Downloading waiting-1.4.1.tar.gz (7.1 kB)
Building wheels for collected packages: waiting
  Building wheel for waiting (setup.py): started
  Building wheel for waiting (setup.py): finished with status 'done'
  Created wheel for waiting: filename=waiting-1.4.1-py3-none-any.whl size=3764 sha256=2f6ed7f7448420ea7a011a89e1db90669c1f0456130b839e373a5de52103f3a4
  Stored in directory: c:\users\ke-ch\appdata\local\pip\cache\wheels\8d\73\26\87317a55070b56e3b102aa208b0459c9265d889ecdefd5bcb9
Successfully built waiting
Installing collected packages: waiting
Successfully installed waiting-1.4.1


In [6]:
!pip install tqdm



In [121]:
from build.Game import Game
from build.player.Randy import Randy
from build.player.Human import Human
from build.player.SmarterHuman import SmarterHuman
from build.player.QPlayer import QPlayer, QUtils
from build.player.qlearner.QTableLearner import QTableLearner
from build.player.qlearner.QNNLearner import QNNLearner
from build.player.qlearner.Model import TicTacToeModel, TicTacToeModelSmall
from tqdm.notebook import trange

import numpy as np
import os

# Control Results

Um ein Gefühl dafür zu entwickeln, wie die Gewinnchance für untrainierte Spieler sind treten im folgenden zwei Random-Spieler gegeneinander an.

In [105]:
player1 = Randy('x')
player2 = Randy('o')
players = [player1, player2]

game = Game(players)
for j in trange(100):
    for i in range(100):
        game.run()

player1.stats.display_history()

  0%|          | 0/100 [00:00<?, ?it/s]

Wie zu sehen ist pegeln sich die beiden Random-Spieler sehr eindeutig bei folgenden Gewinnchancen für den ersten Spieler ein:

win  => 58%
draw => 14%
lose => 28%

# Q-Table Learning

In diesem Kapitel sollen die Werte für Q-Player ausgewertet werden, welche mit dem QTableLearner gelernt haben.

## Singe Game

Hierfür wird zunächst ein einzelnes Game betrachtet um sich von dem Lernalgorithmus zu überzeugen.

In [147]:
player1 = QPlayer('x', QTableLearner())
player2 = Randy('o')
players = [player1, player2]

Game(players).run()
QUtils.pretty_print_q_table(player1.q_learner.q_table)

 [' ' ' ' ' ']
 [' ' ' ' ' ']
 [' ' ' ' ' ']

 [ 0.    0.    0.  ]
 [ 0.    0.    0.  ]
 [ 0.   -0.01  0.  ]

-------------------------

 ['o' ' ' ' ']
 [' ' ' ' ' ']
 [' ' 'x' ' ']

 [ 0.e+00  0.e+00  0.e+00]
 [ 0.e+00  0.e+00  0.e+00]
 [ 0.e+00 -1.e+02 -1.e-02]

-------------------------

 ['o' ' ' 'o']
 [' ' ' ' ' ']
 [' ' 'x' 'x']

 [ 0.  0.  0.]
 [ 0.  0.  0.]
 [20.  0.  0.]

-------------------------



Wie aus der QTable zu lesen werden kann ist der QPlayer noch quasi vollkommen untrainiert und unterscheidet sich somit kaum vom Random Player.

Es kann jedoch auch beobachtet werden, dass bereits mit diesem erstem Spiel sinnvolle Daten generiert werden können.
Über die Zeit werden diese minimalisten, jedoch auf einander aufbauenden, Lernfortschritte den QPlayer zunehmend stärker machen.

## vs Randy

Von dem Lernerfolg soll sich hier ein Bild gemacht werden indem dieser über 100.000 Spiele gegen den Random Spieler beobachtet wird.

Theta wird hierbei auf 0 gesetzt, da random Züge gegen einen derartig dummen Gegner lediglich zu schlechteren Resultaten führen.

In [113]:
player1 = QPlayer('x', QTableLearner(theta=0.0))
player2 = Randy('o')
players = [player1, player2]

game = Game(players)
for j in trange(100):
    for i in range(100):
        game.run()

player1.stats.display_history(groups=[2, 4, 6, 8, 10])
player1.stats.display_history(groups=[20, 40, 60, 80, 100])
player1.stats.display_history(groups=[200, 400, 600, 800, 1000])
player1.stats.display_history()

  0%|          | 0/100 [00:00<?, ?it/s]

Wie zu sehen ist kann eine eindeutige Lernkurve erhalten werden, welche in kürzester Zeit Randy recht konsistent ausstechen kann.

Interessant ist hierbei vorallem, dass innerhalb der ersten 100 Werte zunächst das Resultat der Random-Spieler angestrebt wird.
Dieser Effekt tritt öfters ein, kann jedoch nicht immer beobachtet werden.

Die besten Resultate können hierbei augenscheinlich erreicht werden, wenn am Anfang durch Zufall ein guter Ausgleich auf Gewonnenen und Verlorenen Spielen erhalten wird aus der schnell gelernt werden kann.
Unter einem guten Ausgleich wird hierbei jedoch verstanden, dass der QPlayer deutlich öffter gewinnt als verliert.

In [117]:
player1 = QPlayer('x', QTableLearner(theta=0.0))
player2 = Randy('o')
players = [player2, player1]

game = Game(players)
for j in trange(100):
    for i in range(1000):
        game.run()

player1.stats.display_history(groups=[2, 4, 6, 8, 10])
player1.stats.display_history(groups=[20, 40, 60, 80, 100])
player1.stats.display_history(groups=[200, 400, 600, 800, 1000])
player1.stats.display_history()

  0%|          | 0/100 [00:00<?, ?it/s]

Wenn der Q-Player als 2. startet kann deutlich beobachtet werden, dass der QLearner einen schlechteren Einstieg hat welches nur durch deutlich längeres Training ausgeglichen werden kann.

## vs QTable-Player

Nun soll beobachtet werden wie 2 QTable-Player gegeneinander abschließen

In [124]:
qtable_learned_filepath = 'output\\storage\\qtable_learned100k.pkl'

In [144]:
os.remove(qtable_learned_filepath)

player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath), theta=0.1))
player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath), theta=0.1))
players = [player1, player2]

game = Game(players)
for j in trange(100):
    for i in range(100):
        game.run()

merged_qtables = QUtils.merge_dicts(player1.q_learner.q_table, player2.q_learner.q_table)
QUtils.save_dict_to_file(qtable_learned_filepath, merged_qtables)

player1.stats.display_history(groups=[2, 4, 6, 8, 10])
player1.stats.display_history(groups=[20, 40, 60, 80, 100])
player1.stats.display_history(groups=[200, 400, 600, 800, 1000])
player1.stats.display_history()

  0%|          | 0/100 [00:00<?, ?it/s]

Wie zu sehen ist wird mit zunehmender Intelligenz der beiden Q-Player immer öfter ein Unentschieden erreicht.

Entsprechend kann mit der erreichten Datenlage gefolgert werden, dass optimale Player wohl immer ein Unentschieden erreichen würden.

In [145]:
q_table = QUtils.get_dict_from_file(qtable_learned_filepath)
QUtils.pretty_print_q_table(q_table)

 [' ' ' ' ' ']
 [' ' ' ' ' ']
 [' ' ' ' ' ']

 [ 1.4   0.35  0.45]
 [ 0.3   3.16  0.25]
 [-0.08  0.29  0.2 ]

-------------------------

 ['x' ' ' ' ']
 ['o' ' ' ' ']
 [' ' ' ' ' ']

 [-5.2134e+02  8.2300e+00 -2.0000e-02]
 [-3.4357e+02 -3.0000e-02 -2.0000e-02]
 [-4.0000e-02 -4.0000e-02 -3.0000e-02]

-------------------------

 ['x' 'o' ' ']
 ['o' ' ' ' ']
 ['x' ' ' ' ']

 [-2.7087e+02 -1.9000e+02 -1.0000e-02]
 [-2.6990e+02  9.1100e+00 -1.0000e-02]
 [-1.9000e+02 -2.0000e-02  6.5290e+01]

-------------------------

 ['x' 'o' ' ']
 ['o' 'x' ' ']
 ['x' 'o' ' ']

 [-190.      0.      0.  ]
 [-190.      0.      0.  ]
 [   0.      0.    318.77]

-------------------------

 ['o' ' ' ' ']
 ['x' ' ' ' ']
 [' ' ' ' ' ']

 [-2.71e+02 -1.00e-02  0.00e+00]
 [-1.90e+02  1.27e+00  0.00e+00]
 [-1.00e-02  0.00e+00  0.00e+00]

-------------------------

 ['o' 'o' ' ']
 ['x' ' ' ' ']
 ['x' ' ' ' ']

 [-190.   -190.    -11.49]
 [-100.    -10.02  -10.02]
 [-190.    -19.62  -19.62]

-------------------------

Wie in der QTable zu sehen ist sind die beiden QPlayer jedoch noch weit davon entfernt austrainiert zu sein.

## Stärker Trainiert

In [150]:
filepath = 'output\\storage\\qtable_trained_randomx_100k.pkl'

for j in trange(100):

    player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath), theta=0.1))
    player2 = Randy('o')
    players = [player1, player2]

    game = Game(players)
    for i in range(1000):
        game.run()

    QUtils.save_dict_to_file(filepath, player1.q_learner.q_table)

  0%|          | 0/100 [00:00<?, ?it/s]

In [151]:
filepath = 'output\\storage\\qtable_trained_randomo_100k.pkl'

for j in trange(100):

    player1 = Randy('x')
    player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file(filepath), theta=0.1))
    players = [player1, player2]

    game = Game(players)
    for i in range(1000):
        game.run()

    QUtils.save_dict_to_file(filepath, player2.q_learner.q_table)

  0%|          | 0/100 [00:00<?, ?it/s]

In [152]:
filepath = 'output\\storage\\qtable_trained_qtable_100k.pkl'

for j in trange(100):

    player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath), theta=0.1))
    player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file(qtable_learned_filepath), theta=0.1))
    players = [player1, player2]

    game = Game(players)
    for i in range(1000):
        game.run()

    merged_qtables = QUtils.merge_dicts(player1.q_learner.q_table, player2.q_learner.q_table)
    QUtils.save_dict_to_file(filepath, merged_qtables)

  0%|          | 0/100 [00:00<?, ?it/s]

In [None]:
player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file('output\\storage\\qtable_trained_qtable_100k.pkl'), theta=0.1))
player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file('output\\storage\\qtable_trained_randomo_100k.pkl'), theta=0.1))
players = [player1, player2]

game = Game(players)
for j in trange(100):
    game.run()

player1.stats.display_history()

In [None]:
player1 = QPlayer('x', QTableLearner(q_table=QUtils.get_dict_from_file('output\\storage\\qtable_trained_randomx_100k.pkl'), theta=0.1))
player2 = QPlayer('o', QTableLearner(q_table=QUtils.get_dict_from_file('output\\storage\\qtable_trained_qtable_100k.pkl'), theta=0.1))
players = [player1, player2]

game = Game(players)
for j in trange(100):
    game.run()

player1.stats.display_history()

## State Reduction

In [2]:
qtable_state_reduction_filepath = 'output\\storage\\qtable_state_reduction.pkl'
qtable_state_reduction_compare_filepath = 'output\\storage\\qtable_state_reduction_compare.pkl'

In [None]:
player1 = QPlayer('x', QTableLearner(), state_reduction=True)
player2 = Randy('o')
players = [player1, player2]

game = Game(players)
for j in trange(100):
    for i in range(100):
        game.run()

QUtils.save_dict_to_file(qtable_state_reduction_filepath, player1.q_learner.q_table)

In [None]:
player1.stats.display_history()

## SmarterHuman Game

In [None]:
player1 = SmarterHuman('x')
player2 = Randy('o')
players = [player1, player2]

game = Game(players).run()

## QNN Umsetzung

![](docs/uml/QLearner/Klassendiagramm_Model.png)

## QNN Modell

![](docs/qnn_model.png)

### Beispiel

1. Vektor (Zustand): [0, 0, 0, 1, 0, -1, 1, 0, -1]
2. Vektor (Aktion): [1, 0, 0, 0, 0, 0, 0, 0, 0]

aktuelles Feld:

|   |   |   |
|---|---|---|
| -  | - | - |
| x  | - | o |
| x  | - | o |

nach ausgewählten Aktion:

|   |   |   |
|---|---|---|
| x  | - | - |
| x  | - | o |
| x  | - | o |

Tatsächler Eingangsvektor:

[0, 0, 0, 1, 0, -1, 1, 0, -1, 1, 0, 0, 0, 0, 0, 0, 0, 0]

## One-Hot-Encoding

In [None]:
def one_hot_encode_state(state):
    """
    One hot encoding for the state.
    Each field input of 3x3 matrix will be displayed with 0 (blank), 1 (player 1), -1 (player 2)
    :param state: state to encode
    :return: encoded state
    """
    state = state.flatten() # flatten 3x3 matrix because of 1 length input vector for state

    for i in range(len(state)):
        if state[i] is None:
            state[i] = 0
        if state[i] == 'x':
            state[i] = 1
        if state[i] == 'o':
            state[i] = -1

    state = np.asarray(state).astype('float32')

    return state

In [None]:
state = np.array([[None,"x","x"],
                  [None,"o","o"],
                  [None,None,None]])

one_hot_encode_state(state)

## QNN (offline learning)

In [None]:
player1 = QPlayer('x', QNNLearner(model=TicTacToeModel(1)))
player2 = QPlayer('o', QNNLearner(model=TicTacToeModel(-1)))
players = [player1, player2]

game = Game(players)

for i in range(10):
    game.run()

for player in players:
    QUtils.print_loss(player.q_learner.model.history)

## Control Results QNN

In [None]:
model = TicTacToeModel(1)
value = np.ndarray(shape=[3,3])
pstate = np.ndarray(shape=[3,3])
state = [-1,0,-1,0,1,0,0,1,0]
for i in [0,1,2,3,4,5,6,7,8]:
    tensor = model.state_to_tensor(state, i)
    km = model.load_model()
    value[int(i/3)][i%3] = km.predict(tensor)
    pstate[int(i/3)][i%3] = state[i]

for i in [0,1,2,3,4,5,6,7,8]:
    pstate[int(i/3)][i%3] = state[i]
print(value)
print(pstate)
print(f"Optimal: {np.argmax(value)}")
newstate = pstate
newstate[int(np.argmax(value)/3)][np.argmax(value)%3] = 1
print(newstate)

## QNN (online learning)

In [None]:
history = []
for j in trange(100):
    player1 = QPlayer('x', QNNLearner(model=TicTacToeModelSmall(1), learn_online = True))
    player2 = QPlayer('o', QNNLearner(model=TicTacToeModelSmall(-1), learn_online = True))
    players = [player1, player2]

    game = Game(players)

    for i in range(10):
        game.run()

    for player in players:
        player.q_learner.model.save_model()
    #history = history.append[player1.q_learner.model.history]

#QUtils.print_loss(history)

  0%|          | 0/100 [00:00<?, ?it/s]

True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load model: model_values_second_online.h5
True
load model
load model: model_values_first_online.h5
True
load model
load mo

## Check new QNN

In [3]:
import keras.models as Km

model = TicTacToeModelSmall(1)
model.model = Km.load_model('model_values_first_online.h5')
state = np.array([[None,"x","x"],
                  [None,"o","o"],
                  [None,None,None]])
idx = model.predict_model(state, True)
print(f"Given state: {state}")
state[int(idx/3)][idx%3] = "x"
print(f"Predicted best next state: {state}")

True
load model
load model: model_values_first_online.h5


3