In [None]:
%%html
<style>
.container {
  width: 100%;
}
</style>

In [None]:
%load_ext nb_black
%load_ext nb_mypy

In [None]:
import nbimporter
from Exercise06AI import Exercise06AI

# Aufgabe 07: Minimax mit Alpha-Beta-Pruning, Memoisierung und Progressive Deepening

Dieses Notebook erweitert den Minimax-Algorithmus mit Alpha-Beta-Pruning und Memoisierung um das Progressive Deepening.

In [None]:
import chess_custom as chess
from typing import Any


class Exercise07AI(Exercise06AI):
    """Chooses middle game moves using minimax algorithm, alpha-beta-pruning, memoization and progressive deepening"""

    def __init__(self, **kwargs) -> None:
        super().__init__(**kwargs)
        self.local_cache: dict[tuple, int] = {}

## Progressive Deepening

Da das in `Exercise05AI` implementierte Alpha-Beta-Pruning am effizientesten ist, wenn zuerst die besten Züge untersucht werden, wird nun die Liste der mögliche Züge vorab nach der bisher bekannten Evaluierung jedes Zuges sortiert. Hierzu wurde die Klasse um eine Variable `local_cache` erweitert, welche bisherige Evaluierungen speichert. Initial ist `local_cache` ein leeres Dictionary, welches als Schlüssel ein Tupel annimmt und als Wert eine Ganzzahl zurückgibt. Das Tupel besteht dabei aus der Tiefe und einem Zug. Die zugehörige Evaluierung dieses Zuges mit der gegebenen Tiefe wird als Value in diesem Dictionary gespeichert.

Beim Progressive Deepening werden die Züge iterativ bis zu einer gegebenen Tiefe `DEPTH` berechnet. Dabei wird mit der Tiefe `1` begonnen um eine grobe Wertung der bis dahin möglichen Züge zu erhalten. Beim nächsten Aufruf mit Tiefe `2` kann dann die vorherige Evaluierung genutzt werden, um die Züge anhand diesem Maß zu sortieren und somit das Pruning signifikant zu erhöhen.

Die Funktion `minimax` wird um eine mit [heapq](https://docs.python.org/3/library/heapq.html) implementierte Prioritäts-Warteschlange `moves` erweitert, welche alle verfügbaren Züge speichert. Als Priorität wird hierbei die Evaluierung des Zuges mit geringerer Tiefe verwendet. Falls keine Evaluierung vorhanden ist, wird eine fortlaufende Zugnummer als Priorität verwendet. Bedingt durch die Funktionsweise der Sortierung von `heapq` wird nun ein Tripel der Form

$$ key = (-evaluation, i, move) $$

erstellt. Hierbei wird $evaluation$ invertiert, da bei `heapq` der niedrigste Wert die höchste Priorität hat. Zusätzlich wird an zweiter Position eine fortlaufende Zugnummer $i$ hinzufügt. Dies ist notwendig, da die Evaluierung für zwei Züge gleich sein kann und `heapq` in diesem Fall die nächsten Elemente des Tupels vergleicht. Für $move$ ist das nicht möglich, daher wird zuvor $i$ eingefügt um diesen Vergleich (und die ansonsten entstehende `Exception`) zu verhindern. Die Berechnung der neuen Evaluierung erfolgt nun in zwei Schritten:

1. Die in `board.legal_moves` verfügbaren Züge werden iterativ gegen den `local_cache` geprüft. Wenn die Evaluierung des Zuges bereits mit einer Tiefe von `depth - 2` verfügbar ist, wird diese genutzt, ansonsten wird die Zugnummer $i$ verwendet. Anschließend wird der Zug mit dem erhaltenen Wert als Priorität in die Warteschlange einsortiert.
2. An dieser Stelle sind alle möglichen Züge bereits in der Liste `moves` enthalten und der Zug mit der bisher besten Evaluierung kann mithilfe von `heapq.heappop(moves)[2]` extrahiert werden. Nach der Berechnung durch den Minimax-Alogrithmus wird das neue Ergebnis im `local_cache` gespeichert.

In [None]:
from typing import Any
import heapq


class Exercise07AI(Exercise07AI):  # type: ignore
    @Exercise06AI.memoize_minimax
    def minimax(
        self,
        board: chess.Board,
        depth: int,
        current_evaluation: int,
        alpha: int = -Exercise07AI.LIMIT,
        beta: int = Exercise07AI.LIMIT,
    ) -> tuple[int, chess.Move]:
        """Searches the best value with given depth using minimax algorithm"""
        early_abort_evaluation = self.minimax_early_abort(
            board, depth, current_evaluation
        )
        if early_abort_evaluation is not None:
            return early_abort_evaluation, None

        best_move = None

        # White to play (positive numbers are good)
        moves: list[tuple[int, int, chess.Move]] = []
        if board.turn:
            for i, move in enumerate(board.legal_moves):
                old_eval = self.local_cache.get((depth - 2, move), i)
                heapq.heappush(moves, (-old_eval, i, move))
            maxEvaluation = alpha
            while moves:
                move = heapq.heappop(moves)[2]
                board.push(move)
                evaluation, _ = self.minimax(
                    board,
                    depth - 1,
                    self.evaluate(board, current_evaluation),
                    maxEvaluation,
                    beta,
                )
                self.local_cache[(depth - 1, move)] = evaluation
                board.pop()
                if evaluation >= beta:
                    return evaluation, move
                if depth == self.DEPTH and evaluation > maxEvaluation:
                    best_move = move
                maxEvaluation = max(maxEvaluation, evaluation)
            return maxEvaluation, best_move

        # Black to play (negative numbers are good)
        else:
            for i, move in enumerate(board.legal_moves):
                old_eval = self.local_cache.get((depth - 2, move), i)
                heapq.heappush(moves, (old_eval, i, move))
            minEvaluation = beta
            while moves:
                move = heapq.heappop(moves)[2]
                board.push(move)
                evaluation, _ = self.minimax(
                    board,
                    depth - 1,
                    self.evaluate(board, current_evaluation),
                    alpha,
                    minEvaluation,
                )
                self.local_cache[(depth - 1, move)] = evaluation
                board.pop()
                if evaluation <= alpha:
                    return evaluation, move
                if depth == self.DEPTH and evaluation < minEvaluation:
                    best_move = move
                minEvaluation = min(minEvaluation, evaluation)
            return minEvaluation, best_move

Die Funktion `get_next_middle_game_move` wurde um eine `for`-Schleife zur iterativen Tiefensuche erweitert.
Mithilfe dieser Schleife werden die Züge beginnend bei der Tiefe `1` bis zum konfigurierten Limit `DEPTH` berechnet. Beim jeweils nächsten Aufruf kann dann die vorherige Evaluierung aus dem Cache genutzt werden, um die Züge anhand diesem Maß zu sortieren und somit das Pruning signifikant zu erhöhen.

In [None]:
class Exercise07AI(Exercise07AI):  # type: ignore
    def get_next_middle_game_move(self, board: chess.Board) -> chess.Move:
        """Gets the best next move"""
        self.last_evaluation: int | None  # type annotation for mypy
        self.stats[-1]["cache_tries"] = 0
        self.stats[-1]["cache_hits"] = 0

        if self.is_king_endgame != self.check_king_endgame(board):
            self.last_evaluation += self.get_endgame_evaluation_change(board)
        # Calculate current evaluation
        if self.last_evaluation is None:  # type: ignore
            current_evaluation = self.full_evaluate(board)
        else:
            # Get current evaluation (after opponent move)
            current_evaluation = self.evaluate(board, self.last_evaluation)

        for depth in range(1, self.DEPTH + 1):
            # Call minimax and get best move
            future_evaluation, best_move = self.minimax(board, depth, current_evaluation)

        # Reset local cache
        self.local_cache: dict[tuple, int] = {}

        # Debugging fail save
        assert best_move, f"""
        Best move is None with fen '{board.fen()}' at player {type(self).__name__}! 
        depth: {self.DEPTH}, last_eval: {self.last_evaluation}, current_evaluation: {current_evaluation},
        is_king_engame: {getattr(self, 'is_king_endgame', "N/A")}, move_stack: {board.move_stack}
        """
        # Update last evaluation (after player move)
        self.last_evaluation = current_evaluation + self.incremental_evaluate(
            board, best_move
        )
        # Update stats
        self.stats[-1]["minimax_eval"] = future_evaluation
        self.stats[-1]["board_eval_before_move"] = current_evaluation
        self.stats[-1]["board_eval_after_move"] = self.last_evaluation
        return best_move

## Debugging Bereich

Die folgenden Zellen enthalten Unit-Tests der oben implementierten Funktionen.

In [None]:
import Exercise03AI

In [None]:
# Create player and board
unit_test_player = Exercise07AI(player_name="Ex07AI", search_depth=2)
board = chess.Board("5rk1/1b3p2/8/3p4/3p2P1/2Q4B/5P1K/R3R3 b - - 0 36")
board

In [None]:
# Test minimax
Exercise03AI.test_minimax(unit_test_player, board)

In [None]:
# Test next move function
Exercise03AI.test_next_move(unit_test_player, board)

## Temporärer Bereich

Der folgende Bereich dient zum temporären Debuggen und kann nicht-funktionierenden Code enthalten. Dieser Bereich wird vor der Abgabe entfernt.