## α-β-Pruning

In [None]:
import os.path
css = ""
if os.path.isfile("style.html"):
    from IPython.core.display import HTML
    with open("style.html", "r") as file:
        css = file.read()
HTML(css)

In [None]:
%run ./nmm-game.ipynb
%run ./nmm-artificial-intelligence.ipynb
%run ./nmm-heuristic.ipynb
%run ./nmm-symmetry.ipynb
import time

Für die Implementierung des *α-β-Pruning* Algorithmus wird eine Klasse `AlphaBetaPruning` implementiert, die ebenfalls von der zuvor definierten Klasse `ArtificialIntelligence` erbt. Auch hier wird die Funktion `bestMoves` überschrieben, die später genauer definiert wird, und den Konstruktor `__init__` implementiert. Der Konstruktor besitzt drei optionale Parameter, die den Algorithmus konfigurieren können:

* die `max_states` Einstellung setzt die maximale Anzahl an Zusänden, die betrachtet werden sollen;
* die `symmetry` Einstellung legt fest, ob alle symmetrischen Spielfelder zu einem Zustand berechnet werden sollen und dann ebenfalls in der Transpositionstabelle abgelegt werden sollen;
* durch den `weights` Parameter können die Gewichtungen der zuvor definierten Heuristik kontrolliert werden.

Zusätzlich initialisiert der Konstruktor die Attribute `cache` und `oldCache` mit einem leeren `dict`. Diese werden später als Transpositionstabelle, bzw. als Sortierungsgrundlage in der Funktion `orderMoves` für *Iterative Deepening* verwendet.

In [None]:
class AlphaBetaPruning(ArtificialIntelligence):
    def __init__(self, max_states=25_000, symmetry=True, weights=HeuristicWeights()):
        self.cache = {}
        self.oldCache = {}
        
        self.max_states = max_states
        self.symmetry = symmetry
        self.weights = weights
    
    def bestMoves(self, state, player):
        pass

Die Hilfsfunktion `writeCache` legt den gegebenen Zustand `state` und Spieler `player` mit samt der errechneten Werte `value`, `alpha` und `beta` in der Transpositionstabelle (`cache`) ab. Ist zusätzlich die Einstellung `symmetry` aktiviert, werden auch die errechneten Spielfelder in der Transpositionstabelle gespeichert.

In [None]:
def writeCache(self, state, player, value, alpha, beta):
    if self.symmetry:
        for symmetricState in findSymmetries(state):
            self.cache[(symmetricState, player)] = (value, alpha, beta)
    else:
        self.cache[(state, player)] = (value, alpha, beta)

AlphaBetaPruning.writeCache = writeCache
del writeCache

Die Exception `IterativeMaxCountException` wird aufgerufen, wenn ein Fehler aufgrund des Erreichens der maximal zu betrachtenden Zustände bei der iterativen Tiefensuche erzeugt werden soll.

In [None]:
class IterativeMaxCountException(Exception):
    def __init__(self, maxCount):
        super().__init__(f"Reached max count ({maxCount}) of iterative deepeing")    

Die Hilfsfunktion `checkMaxStates` zählt die errechneten und besuchten Zustände für die Implementierung der *iterativen Tiefensuche*. Ist die Anzahl der maximal erlaubten Zustände überschritten, wird ein Fehler ausgelöst, damit der Algorithmus abbricht und ein Ergebnis zurück gegeben werden kann. Diese Ausnahmebetrachtung ist in der Funktion `bestMoves` implementiert.

In [None]:
def checkMaxStates(self):
    self.visited += 1
    if (self.visited >= self.max_states):
        raise IterativeMaxCountException(self.max_states)

AlphaBetaPruning.checkMaxStates = checkMaxStates
del checkMaxStates

Die Funktion `orderMoves` sortiert eine Liste von Zuständen `states` für einen Spieler `player` entsprechend der für diese Zustände erreichten Werte aus der vorherigen Iteration der *iterativen Tiefensuche* `oldCache`. So soll erreicht werden, dass vielversprechende Zustände früher betrachtet werden und sich somit Teilbäume eventuell früher abschneiden lassen.

In [None]:
def orderMoves(self, states, player):
    return sorted(states, key = lambda state: self.oldCache.get((state, player), (0, -1, 1))[0], reverse=True)

AlphaBetaPruning.orderMoves = orderMoves
del orderMoves

Die `value()` Funktion ist ein Wrapper für die eigentliche Implementierung des *α-β-Pruning* in der Funktion `alphaBeta()`. Dieser Wrapper stellt eine Transpositionstabelle (`cache`) der Ergebnisse zur Verfügung, bzw. berechnet diese neu, falls die Tabelle keine oder invalide Ergenisse beinhaltet.

Ein Ergebnis aus dem Cache ist valide, solange das Intervall `alpha` und `beta` aus den Parametern innerhalb des im Cache verwendeten Intervalls `a` und `b` liegt. Also das Intervall des Caches muss genereller sein, als das Intervall aus den Paramtern.

In [None]:
def value(self, state, player, alpha, beta, limit):
    if (state, player) in self.cache:
        (val, a, b) = self.cache[(state, player)]
        if a <= alpha and beta <= b:
            self.cache_hit += 1
            return val
        else:
            alpha = min(alpha, a)
            beta  = max(beta , b)
            val   = self.alphaBeta(state, player, alpha, beta, limit)
            self.writeCache(state, player, val, alpha, beta)
            self.cache_miss += 1
            return val
    else:
        val = self.alphaBeta(state, player, alpha, beta, limit)
        self.writeCache(state, player, val, alpha, beta)
        self.cache_miss += 1
        return val

AlphaBetaPruning.value = value
del value

Die Funktion `alphaBeta` beinhaltet nun die eigentliche Implementierung des *α-β-Pruning*.

* Wie zuvor beim Minimax Algorithmus, wird der `utility` Wert zurückgegeben, falls das Spiel in dem State `s` beendet (`finished`) ist.
* Ebenfalls äquivalent wird der `heuristic` Wert verwendet, sobald das Rekursionslimit (`limit`) erreicht wird.
* Außerdem wird der Zähler für die *iterative Tiefensuche* erhöht.
* Der eigentliche α-β-Pruning Alogrithmus errechnet rekursiv mit Hilfe des Caches (`value`) den Wert eines Zuges. Hierbei wird der erste Wert der nächsten States verwendet, der größer oder gleich der oberen Grenze `beta` ist.

In [None]:
def alphaBeta(self, state, player, alpha, beta, limit):
    self.checkMaxStates()
    
    if limit == 0:
        return heuristic(state, player)

    states = nextStates(state, player)
    if finished(state, player, ns=states):
        return utility(state, player, ns=states)

    val = alpha
    for ns in self.orderMoves(states, player):
        val = max(val, -self.value(ns, opponent(player), -beta, -alpha, limit-1))
        if val >= beta:
            return val
        alpha = max(val, alpha)
    return val

AlphaBetaPruning.alphaBeta = alphaBeta
del alphaBeta

`bestMoves` wählt mit Hilfe des *α-β-Pruning* Algorithmus den besten State aus allen möglichen nächsten States aus. Hierzu werden die Werte aller States errechnet und der State mit dem höchsten Wert ausgewählt. Dies wird solange ausgeführt, bis der maximale Wert der iterativen Tiefensuche erreicht ist und einen Fehler erzeugt.

Zusätzlich werden Informationen gesammelt, die die genaueren Abläufe im Algorithmus abbilden:
* `runtime` ist die Rechendauer der Funktion in Sekunden;
* `limit` ist die erreichte maximale Rekursionstiefe;
* `visited` ist die Anzahl der besuchten Zustände;
* `max_states` ist die Anzahl der maximal zu besuchenden Zustände;
* `cache_hit` ist die Anzahl der Berechenungen, die durch die Tanspositionstabelle (`cache`) eingespart werden konnten;
* `cache_miss` ist die Anzahl der Berechnungen, die trotz der Transpositionstable durchgeführt werden mussten.

In [None]:
def bestMoves(self, state, player):
    # Start clock
    start = time.time()
    
    # Reset counter
    self.visited = 0
    self.cache_hit = 0
    self.cache_miss = 0
    
    # Clear cache
    self.cache = {}
    self.oldCache = {}
    
    ns = nextStates(state, player)
    moves = [(0, s) for s in ns]

    limit = 1
    while True:
        try:
            moves = [
                (-self.value(state, opponent(player), -1, 1, limit), state)
                for s in ns
            ]
            self.oldCache = self.cache
            self.cache = {}
            limit += 1
        except IterativeMaxCountException:
            break
    
    maximum = max(value for (value, state) in moves)
    bestMoves = [state for (value, state) in moves if value == maximum]
    
    end = time.time()
    return BestMoves(
        bestMoves,
        maximum,
        # Collect debug information
        {   "runtime": end - start,
            "limit": limit,
            "visited": self.visited,
            "max_states": self.max_states,
            "cache_hit": self.cache_hit,
            "cache_miss": self.cache_miss,   }
    )

AlphaBetaPruning.bestMoves = bestMoves
del bestMoves