In [None]:
from IPython.core.display import HTML
with open("style.html", "r") as file:
    css = file.read()
HTML(css)

In [None]:
%run ./nmm-game.ipynb
%run ./nmm-artificial-intelligence.ipynb
%run ./nmm-heuristic.ipynb
import time

## Minimax

Der *Minimax* Algorithmus bietet eine einfache Möglichkeit, um den perfekten Spielzug in einem Nullsummenspiel zu berechnen. Um diesen zu finden, wird der komplette Spielbaum vollständig per Tiefensuche durchsucht.
Für einen Spielbaum mit der Tiefe `h` und dem Verzweigungsgrad `b` bedeutet das für die Zeit `t` und den Speicher `m`:
<font size="4">
$$ t_{Minimax} \in \mathcal{O}(b^h) $$
$$ m_{Minimax} \in \mathcal{O}(b\cdot h) $$
</font>
Logischerweise ist *Minimax* somit nicht für die komplette Berechnung des Spiels geeignet, weil dies die üblicherweise zur Verfügung stehenden Ressourcen überschreitet. Aus diesem Grund wird die Tiefensuche auf eine maximale Tiefe `limit` beschränkt. Dies hat jedoch zur Folge, dass bei der maximalen Tiefe häufig noch kein eindeutiges Ergebnis *Mini* dem Wert `-1` (sichere Niederlage für `player`) oder *Max* mit dem Wert `1` (sicherer Sieg für `player`) erkannt werden konnte. Somit ist die Funktion `heuristic(state, player)` notwendig die in einem solchen Fall eine einfache heuristische Bewertung des `state` für den `player` durchführt und einen Wert $ -1 < value < 1 $ berechnet.

Für die Implementierung des *Minimax* Algorithmus wird nun eine Klasse `Minimax` implementiert, die von der zuvor definierten Klasse `ArtificialIntelligence` erbt. Hierzu wird die Funktion `bestMoves` überschrieben, die später genauer definiert wird, und der Konstruktor `__init__` implementiert. Der Konstruktor besitzt zwei optionale Parameter, die den Algorithmus konfigurieren können:

* Die `limit` Einstellung setzt die maximale Rekursionstiefe;
* Durch den `weights` Parameter können die Gewichtungen der zuvor definierten Heuristik bestimmt werden.

Zusätzlich initialisiert der Konstruktor das Attribut `cache` mit einem leeren `dict`. Dieses wird später als Transpositionstabelle verwendet.

In [None]:
class Minimax(ArtificialIntelligence):
    def __init__(self, limit=2, weights=None):
        self.cache = {}
        
        self.limit = limit
        self.weights = weights
        if self.weights is None:
            self.weights = HeuristicWeights()
    
    def bestMoves(self, state, player):
        pass

Für Debuggingzwecke wird eine `__repr__` Funktion implementiert, die eine String-Repräsentation aus einer `Minimax` Instanz mit allen Einstelungen erstellt.

In [None]:
def __repr__(self: Minimax):
    return f"Minimax(limit={self.limit}, weights={self.weights})"

Minimax.__repr__ = __repr__
del __repr__

Die Funktion `memoize` erwartet eine Funktion `f` als Parameter und überprüft, ob diese bereits mit den gleichen Parametern aufgerufen wurde. Falls ja, wird der gespeicherte Wert zurückgegeben. Falls nicht, werden die Parameter und das Ergebnis nach der Errechnung in die Transpositionstabelle gespeichert.

In [None]:
def memoize(f):
    def f_memoized(self, state, player, limit):
        key = (state, player, limit)
        
        if key in self.cache:
            self.cache_hit += 1
            return self.cache[key]

        result = f(self, state, player, limit)
        self.cache[key] = result

        self.cache_miss += 1
        return result

    return f_memoized

Die Funktion `value` nimmt einen Spielzustand `state` und liefert bei Ende des Spiels den Wert `value` mit Hilfe der `utility` Funktion für den Spieler `player`. 
Mit `limit` wird die Rekursionstiefe begrenzt. Beim Erreichen dieser wird die Funktion `heuristic` aufgerufen.
In allen weiteren Fällen wird rekursiv in den nächsten möglichen Schritten nach dem maximal zu erreichenden Wert `value` gesucht. Zusammengefasst bedeutet das für die Funktion:

$$ value(state, player, limit) = \begin{cases}
utility(state, player) & falls & finished(state, player) = true \\
heuristic(state, player) & falls & limit = 0 \\
max( \{-value(ns, opponent(player), limit) \vert ns \in nextStates(state, player)\} ) & sonst
\end{cases}
$$

In [None]:
@memoize
def value(self, state, player, limit):
    if finished(state, player):
        return utility(state, player)
    if limit == 0:
        return heuristic(state, player, self.weights)
    return max([-self.value(ns, opponent(player), limit-1) for ns in nextStates(state, player)])

Minimax.value = value
del value

Die Funktion `bestMoves` berechnet den geschätzten Wert aller möglichen Züge für einen Spieler `player` und wählt die Züge mit dem besten Wert aus. Dieser Wert wird innerhalb der maximalen Rekursionstiefe `limit` mit dem gegebenen Ausgangszustand `state` gesucht.

Zusätzlich werden Informationen gesammelt, die die genaueren Abläufe im Algorithmus abbilden:
* `runtime` ist die Rechendauer der Funktion in Sekunden;
* `limit` beschreibt die verwendete maximale Rekursionstiefe;
* `cache_hit` ist die Anzahl der Berechnungen, die durch die Transpositionstabelle (`cache`) eingespart werden konnten;
* `cache_miss` hingegen ist die Anzahl der Berechnungen, die trotz der Transpositionstablle durchgeführt werden mussten.

In [None]:
def bestMoves(self, state, player) -> BestMoves:
    # Start clock
    start = time.time()
    
    # Reset debug counter
    self.cache_hit = 0
    self.cache_miss = 0
    
    # Compute all expected values
    moves = [
        (-self.value(state, opponent(player), self.limit), state)
        for state in nextStates(state, player)
    ]
    
    maximum = max(value for (value, state) in moves)
    bestMoves = [state for (value, state) in moves if value == maximum]
    
    end = time.time()
    return BestMoves(
        bestMoves,
        maximum,
        # Collect debug information
        {   "runtime": end - start,
            "limit": self.limit,
            "cache_hit": self.cache_hit,
            "cache_miss": self.cache_miss,   }
    )

Minimax.bestMoves = bestMoves
del bestMoves