# Rote Learning

## Was ist Rote Learning?

Die Implementierung des Alpha-Beta-Pruning Algorithmus basiert darauf, für alle möglichen zukünftigen Zustände zu ermitteln, wie wahrscheinlich es ist zu Gewinnen. Je mehr Züge dabei in die Tiefe geschaut werden kann, desto höher ist die Wahrscheinlichkeit, tatsächlich den besten Zug zu machen. Die Laufzeit zur Berechnung der Gewinn-Wahrscheinlichkeit nimmt mit zunehmender Tiefe, aufgrund der sehr schnell ansteigenden Anzahl der Zustände, deutlich zu. Somit ist eine Neuberechnung der Gewinn-Wahrscheinlichkeiten bei jedem Zug nur bis zu einer gewissen Tiefe praktikabel.

An diesem Problem setzt Rote-Learning an, indem es den Alpha-Beta-Pruning Algorithmus um eine elementare Form des Lernens erweitert. Grundlegend werden bei der Verwendung von Rote-Learning alle Zustände, die jemals ausgerechnet wurden, zusammen mit den dazugehörigen errechneten Gewinn-Wahrscheinlichkeit abgespeichert. Anstatt die Wahrscheinlichkeiten dieser Zustände bei jedem Zug neu zu berechnen, können diese nun aus dem Speicher abgerufen werden. Dies spart vor allem bei einer hohen Tiefe einen großen Teil der Rechenzeit. Diese Einsparung der Rechenzeit kann darauf verwendet werden, Zustände, die sich weiter in der Tiefe befinden, zu berechnen. Da die gespeicherten Zustände mit jedem Spiel erweitert werden, verbessert sich das Ergebnis des Algorithmus über Zeit. Es tritt also ein Lern-Effekt ein.

## Implementierung

In [None]:
from memory_profiler import memory_usage

%run ./nmm-cache.ipynb
%run ./nmm-rote-training.ipynb
%run ./nmm-alpha-beta-pruning.ipynb

###  Traingings-Prozess

Um den Transpositionstabelle zu trainieren, wird die Klasse `Training` aus dem Notebook `nmm-rote-training.ipynb`verwendet. Dazu muss zuerst eine Methode erstellt werden, welche den Algorithmus für die künstliche Intelligenz konfiguriert und generiert. Diese Methode wird `artificial_intelligence_generator` genannt und generiert einen Alpha-Beta-Pruning Algorithmus, welcher den übergebenen Cache und benutzerdefinierte Heuristiken verwendet. Die verwendeten Heuristiken wurden bereits in der Hausarbeit `Retrograde Analysis` ermittelt. 

In [None]:
def artificial_intelligence_generator(cache: Cache):
    customWeights = HeuristicWeights(stones = 3, stash = 3, mills = 2, possible_mills = 1)
    return AlphaBetaPruning(cache = cache, weights = customWeights)

Für den Cache wurde sich für eine maximale Größe von 100 000 000 Einträgen entschieden. Dies resultiert in eine maximal Größe des Caches von 3,3 Gb auf dem Datenträger. Desweiteren werden die Standard-Werte der Training-Klasse verwendet. Das heißt, dass ingesamt 100 Spiele gespielt werden und der Seed nicht angepasst wird. Alle 10 Spiele wird der Cache auf dem Datenträger gespeichert. Dazu wird der Prefix `training-` verwendet.

In [None]:
cache = Cache(max_size = 100_000_000)
training = Training(
    cache = cache, 
    artificial_intelligence = artificial_intelligence_generator,
)

Der Trainings-Prozess wird durch den Aufruf der Methode `train` gestartet und dauert mit der oben genannten konfiguration in etwa 4,5 Stunden. Dabei werden ... Arbeitsspeicher benötigt.

In [None]:
mem_usage = memory_usage(training.train)
print('Maximum memory usage: %s MB.' % max(mem_usage))