# Retrograde Analyse des 3-3 Endspiels beim Brettspiel Mühle

*Hausarbeit von Benedikt Funke und Niclas Kaufmann.*

# Einleitung

Im Rahmen dieser Hausarbeit soll eine retrograde Analyse des Brettspiels Mühle im Endspiel durchgeführt werden. Als Endspiel wird hier die letzte Phase des Spiels bezeichnet, wo beide Spieler nur noch drei Steine auf dem Spielbrett haben. Für die Analyse soll eine Endspieldatenbank implementiert werden, die daraufhin für jeden Zustand im Endspiel bestimmen kann, ob ein Spieler garantiert gewinnen kann und wie.

Die Hausarbeit wird im Fach Wissensbasierte Systeme des sechsten Semester im Studienfach Angewandte Informatik der DHBW Mannheim geschrieben. Die Arbeit ist eine Fortsetzung der Studienarbeit *"Studienarbeit zur Erstellung einer künstlichen Intelligenz zum Spielen des Brettspiels Mühle"*. Die Studienarbeit hat eine künstliche Intelligenz für das Brettspiel mit den Algorithmen *Minimax* und *Alpha-Beta-Pruning* implementiert. Die grundlegende Implementierung des Spiels wird auch in der Hausarbeit weiterverwendet.

Am Anfang der Hausarbeit wird das Brettspiel Mühle erklärt und was eine Endspieldatenbank ist. Anschließend wird die Implementierung dieser besprochen und wie die Datenbank in das Spiel integriert werden kann. Zum Abschluss der Arbeit wird das 3-3 Endspiel von Mühle analysiert und es sollen Verbesserungsvorschläge gegeben werden, wie die Implementierung dieser verbessert werden kann.

# Theorie

## Mühle

Das Spiel Mühle ist ein Brettspiel für zwei Spieler, welches schon im vor Christus gespielt worden sein soll. Somit zählt es neben Spielen wie Schach und Go zu den ältesten uns bekannten Brettspielen, welches noch gespielt wird. In dieser Hausarbeit wird das Spiel nach den [offiziellen Turnierregeln des Weltmühlespiel Dachverband](http://www.muehlespiel.eu/images/pdf/WMD_Turnierreglement.pdf) gespielt. Im englischen Sprachraum wird Mühle als *Nine men's morris* bezeichnet.

Das Spielbrett besteht aus drei Quadraten, die durch vier Verbindungslinien verbunden sind. An den Eck- und Verbindungspunkten können die Spielsteine platziert werden. Insgesamt gibt es für jeden Spieler neun Spielsteine, in der Regel in den Farben weiß und schwarz. In der folgenden Abbildung ist ein leeres Spielbrett dargestellt.

![](../images/nmm-board.png)

Das Spiel gliedert sich in drei Spielphasen:

1. Zu Beginn des Spiels ist die **Setzphase**. Jeder Spieler darf nacheinander einen Stein beliebig auf einen freien Platz setzen. Solange bis alle neun Steine der Spieler auf dem Brett befinden. Somit hat die erste Phase eine vorgebene Länge von 18 Zügen.
2. Die zweite Phase ist die **Zugphase**, diese folgt nach der Setzphase. In dieser Phase ziehen die Spieler ihre Steine auf ein freies Nachbarfeld. Diese Phase hat keine feste Dauer und endet entweder, dass das Spiel vorbei ist oder die dritte Phase beginnt.
3. Die dritte Phase ist die **End-** oder **Flugphase**. Diese beginnt für einen Spieler, sobald er nur noch drei Spielsteine auf dem Brett hat. Somit kann sich ein Spieler schon in der Endphase befindet, wobei der Gegenspieler noch in der Zugphase ist. In dieser Phase darf ein Spieler seinen Stein beliebig auf freie Felder bewegen, und ist nicht auf Nachbarfelder begrenzt. 

Das Spiel ist vorbei, sobald ein Spieler verloren hat. Ein Spieler hat dann genau dann verloren, wenn

* er keinen regulären Zug mehr ausführen kann (er also von dem Gegenspieler eingebaut wurde), oder
* er weniger als drei Steine auf dem Spielfeld hat (nicht in der Setzphase).

Um das Spiel gewinnen zu können, müssen die Spieler versuchen, Mühlen zu bauen. Eine Mühle besteht aus drei Steinen, die sich auf einer Linie befinden. Es gibt 16 verschiedene Möglichkeiten eine Mühle auf dem Spielbrett zu bauen (jeweils vier auf den Seitenlinien der drei Quadrate und auf den vier Verbindungslinien). Hat der Spieler eine Mühle gebaut, darf er von dem Gegenspieler einen Spielstein vom Brett entfernen. Dabei ist darauf zu achten, dass sich der Spielstein nicht in einer Mühle befindet (Ausnahme: Alle Spielsteine des Gegenspielers befinden sich in einer Mühle). Es ist in jeder Spielphase möglich eine Mühle zu bilden. In der Setzphase kann ein Spieler mit einem Zug zwei Mühlen gleichzeitig bilden, dann darf er auch zwei Steine von dem Gegenspieler entfernen.

## Endspieldatenbank

Eine Endspieldatenbank enthält vollständiges Wissen über ein Spielbrett mit einer maximalen Anzahl an Steinen auf dem Brett. So können in dem Endspiel perfekte Spielzüge ohne Rechenzeit gespielt werden. Endspieldatenbanken haben einen großen Speicherbedarf, weil die Anzahl an möglichen Spielstellungen mit mehr Steinen auf dem Brett extrem wächst. So gibt Ralf Gasser in seinem Paper an, dass es in der Zug- und Endphase des Spiels unter Berücksichtigung von Spiegelungen und ungültigen Zuständen noch $7.673.759.269$ Zustände gibt [RG97].

### Algorithmus zur Erstellung von Endspieldatenbanken

Schon 1912 soll der Mathematiker Ernst Zermelo auf einem Mathematikerkongress den folgenden Algorithmus zur Herstellung von Endspieldatenbanken vorgestellt haben. Dieser Algorithmus findet auch heutzutage noch Anwendung und lässt sich in vier Schritten theoretisch beschreiben. Die genaue Implementierung und Abwandlung für das Brettspiel Mühle wird in dem Kapitel **#REF** beschrieben.

> **Schritt 1**: Es werden alle gültigen Zustände mit nicht mehr als $n$ Steinen auf dem Spielbrett erzeugt.
> 
> **Schritt 2**: Im zweiten Schritt werden alle Gewinnstellungen für weiß gesucht:
> 
> 1. Es werden alle Zustände gesucht, bei denen schwarz direkt verloren hat.
> 2. Es werden alle Zustände gesucht, an denen weiß am Zug ist und *mindestens ein* Zug zu einer Stellung unter 1. führt. Bei diesen Zuständen hat schwarz in einem Zug verloren.
> 3. Es werden alle Zustände gesucht, bei denen schwarz am Zug ist und bei dem *jeder* Zug zu einer Stellung aus 2. führt. Hier kann schwarz eine Niederlage in einem Zug nicht verhindern.
> 4. Es werden alle Zustände gesucht, an denen weiß am Zug ist und  *mindestens ein* Zug zu einer Stellung unter 3. führt. Bei diesen Zuständen hat schwarz in zwei Zügen verloren.
> 5. Es werden alle Zustände gesucht, bei denen schwarz am Zug ist und bei dem *jeder* Zug zu einer Stellung aus 2. oder 4. führt. Hier kann schwarz eine Niederlage in zwei Zügen nicht verhindern.
> 6. Es werden alle Zustände gesucht, an denen weiß am Zug ist und *mindestens ein* Zug zu einer Stellung unter 5. führt. Bei diesen Zuständen hat schwarz in drei Zügen verloren.
> 7. Es werden alle Zustände gesucht, bei denen schwarz am Zug ist und bei dem *jeder* Zug zu einer Stellung aus 2., 4. oder 6. führt. Hier kann schwarz eine Niederlage in drei Zügen nicht verhindern.
> 
>    usw.
> 
> Der Schritt wird solange wiederholt, bis es keine neuen Zustände mehr gibt. Damit sind alle Stellungen gefunden, mit denen weiß bei maximal $n$ Steinen auf dem Brett gewinnt.
> 
> **Schritt 3**: Im dritten Schritt werden alle Gewinnstellungen für schwarz gesucht, dies erfolgt analog wie Schritt 2. Da Mühle ein komplett symmetrisches Spiel für weiß und schwarz ist, sind die Mengen für das Gewinnen auf dem Brett identisch.
> 
> **Schritt 4**: Alle Zustände, die nicht in Schritt zwei auftauchen, laufen bei einem perfekten Spiel von beiden Spielern auf ein Unentschieden hinaus, da keiner der beiden Spieler verlieren kann.

Der Algorithmus von Zermelo ist allgemein formuliert und es existieren einige Verbesserungen für den Algorithmus, besonders für das Schachspiel. Eine abgewandelte Implementierung für das 3-3 Endspiel für Mühle wird in dem Kapitel beschrieben.

# Implementierung

In [None]:
%run ./nmm-game.ipynb
%run ./nmm-symmetry.ipynb

import pymongo
import math

localMongo = pymongo.MongoClient("mongodb://retro-database:27017/")
retroDb = localMongo["retro-database"]
retroCol = retroDb["retro-collection"]

## Generierung der Spielfelder

Die Enspieldatenbank soll alle Zustände speichern in denen der weiße Spieler auf jeden Fall gewinnt. Dafür ist es notwendig zunächst alle möglichen Spielfelder mit drei weißen und drei schwarzen Spielsteinen zu generieren, um im nachhinein untersuchen zu können, ob diese zu den Gewinnzuständen gehören.

Die Funktion `generateBoards` nimmt ein leeres Spielfeld und befüllt dieses Stein für Stein. Dabei wird jeder der sechs Steine auf jede der 24 Positionen des Spielfeldes gesetzt. So wird sichergestellt, dass auch wirklich jede mögliche Kombination erstellt wird.
Da es nicht ausgeschlossen werden kann, dass zwei Steine auf die selbe Position gesetzt werden und somit nicht die gewünschte 3-3-Kombination vorhanden ist, wird vor dem speichern der Spielbretter überprüft, ob für beide Farben drei Steine platziert wurden.

Da es für das Mühlespiel egal ist, ob beispielsweise der 1. oder der 3. weiße Stein auf der Position `(1, 4)` liegt, werden die Spielbretter in ein globales `set` gespeichert. Dadurch wird sichergestellt, dass ein Spielbrett nicht zwei mal abgespeichert ist.

Die Entscheidung, die Spielbretter global abzuspeichern wurde bewusst getroffen, um bei Änderungen an anderen Funktionen nicht die Generierung der Spielbretter neu starten zu müssen, welche einiges an Zeit benötigt.

In [None]:
startBoard = ((' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '),
    (' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '),
    (' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '))
boards = set()

def generateBoards(board=startBoard):
    global boards
    count = 0
    for a1 in range(0,3):
        for a2 in range(0, 8):
            count += 1
            print('Progress: ' + str(count) + '/24')
            for b1 in range(0,3):
                for b2 in range(0, 8):
                    for c1 in range(0,3):
                        for c2 in range (0, 8):
                            for d1 in range(0,3):
                                for d2 in range(0, 8):
                                    for e1 in range(0,3):
                                        for e2 in range(0,8):
                                            for f1 in range(0,3):
                                                for f2 in range(0,8):
                                                    board1 = place(board, (a1, a2), 'w')
                                                    board2 = place(board1, (b1, b2), 'b')
                                                    board3 = place(board2, (c1, c2), 'w')
                                                    board4 = place(board3, (d1, d2), 'b')
                                                    board5 = place(board4, (e1, e2), 'w')
                                                    board6 = place(board5, (f1, f2), 'b')
                                                    white = countStones(('', board6), 'w')
                                                    black = countStones(('', board6), 'b')
                                                    if (white == 3 and black == 3):
                                                        boards.add(board6)

In [None]:
def getWeightForState(state, minWeight = math.inf):
    weight = 0
    counter = 1
    for r in range(3):
        for c in range(8):
            weight += (2**(counter if state[1][r][c] == 'w' else counter + 24) if state[1][r][c] != ' ' else 0)
            counter += 1
            if (weight > minWeight):
                return weight
    return weight

In [None]:
def getUniqueStateForSymmetry(state):
    symmetries = findSymmetries(state)
    
    state = None
    minWeight = math.inf 
    for s in symmetries:
        weight = getWeightForState(s, minWeight)
        if weight < minWeight:
            state = s
            minWeight = weight
    return state

Die Funktion `getSymmetryUnique(boards)` iteriert über jedes Spielfeld und erhält von der `getUniqueStateForSymmetry(state)` das Spielfeld, welches unter allen Symmetrien das niedrigste `weight` aufweist und fügt dieses den `uniqueStates` hinzu. So wird sichergestellt, das für alle Symmetrien nur ein Repräsentant abgespeichert wird

In [None]:
def getSymmetryUnique(boards):
    uniqueStates = set()
    stones = (0, 0)
    for board in boards:
        state = tuple([stones, board])
        uniqueStates.add(getUniqueStateForSymmetry(state))
    return uniqueStates

In [None]:
def fillDb(states):
    fullStep = []
    stepCount = 0
    
    stepCount += 1
    
    fullStates = states.copy()
    halfStates = states.copy()
    _states = fullStates.copy()

    for state in _states:
        _, board = state
        if (findPossibleMills(board, 'w')) == set():
            continue;
        _nextStates = nextStates(state, 'w')
        for ns in _nextStates:
            if (finished(ns, 'w') and utility(ns, 'w') == 1):
                entry = { "state": state, "nextState": ns, "steps": stepCount }
                retroCol.insert_one(entry)
                fullStep.append(state)
                fullStates.remove(state)
                break
    
    while len(states) > 0:
        enrichedFullStep = set()
        for s in fullStep:
            enrichedFullStep |= findSymmetries(s)
        
        _states = halfStates.copy()
        halfStep = []
        stepCount += 1
        print('current step-depth: ' + str(stepCount))
        
        for state in _states:
            _nextStates = nextStates(state, 'b')
            if (_nextStates.issubset(enrichedFullStep)):
                halfStep.append(state)
                halfStates.remove(state)
                    
        if len(halfStep) == 0:
            break
        
        enrichedHalfStep = set()
        for s in halfStep:
            enrichedHalfStep |= findSymmetries(s)
        
        _states = fullStates.copy()
        
        stepCount += 1
        print('current step-depth: ' + str(stepCount))
        
        for state in _states:
            _nextStates = nextStates(state, 'w')
            for ns in _nextStates:
                if (ns in enrichedHalfStep):
                    entry = { "state": state, "nextState": ns, "steps": stepCount }
                    retroCol.insert_one(entry)
                    fullStep.append(state)
                    fullStates.remove(state)
                    break

In [None]:
# generateBoards()
# global boards
# states = getSymmetryUnique(boards)
# fillDb(states)

## Datenbankabfrage

Für die Verwendung der Datenbank sind zunächst einige Hilfsunktionen von Nöten. Anschließend wird die Funktion `findNextStateInDb` zur Abfrage des nächsten Zuges eines Zustands in der Datenbank implementiert.

### Hilfsfunktionen

Die Funktion `swapPlayer` invertiert einen Spieler. Die Funktion hat ein Argument

- `player` ist ein Spieler (`'w'`, `'b'` oder `' '`).

Es gibt genau drei Möglichkeiten für die Funktion:

- `swapPlayer('w')` $\Rightarrow$ `'b'`
- `swapPlayer('b')` $\Rightarrow$ `'w'`
- `swapPlayer(' ')` $\Rightarrow$ `' '`

In [None]:
def swapPlayer(player):
    if player == 'w':
        return 'b'
    if player == 'b':
        return 'w'
    return ' '

Die Funktion `swapPlayers` invertiert das gesamte Spielbrett eines Zustands und hat ein Argument

- `state` ist ein Zustand eines Spiels.

Mit Hilfe der Funktion `swapPlayer` tauscht sie jeden Spielstein mit der anderen Farbe, leere Felder bleiben leer. Zurückgegeben wird der neue Zustand.

In [None]:
def swapPlayers(state):
     return (
         state[0],
         tuple(
            tuple(
                swapPlayer(state[1][ir][ic])
                for ic in range(0, 8)
            ) for ir in range(0, 3)
         )
    )

Die Funktion `convertStateListToTuple` wandelt einen Zustand als Liste in einen Zustand als Tupel um. Sie hat ein Argument

- `state` ist ein Zustand.

Hintergrund ist, dass MongoDB keine Tupel kennt und deswegen den Zustand als Liste zurückgibt. Mit Hilfe der Funktion kann der Zustand aber zurück in ein Tupel konvertiert werden.

In [None]:
def convertStateListToTuple(state):
    return (
        (
            state[0][0],
            state[0][1]
        ),
        tuple(
            tuple(
                state[1][ir][ic]
                for ic in range(0, 8)
            ) for ir in range(0, 3)
        )
    )

### Finden des nächsten Zustands

Die Funktion `findNextStateInDb` dient zum Abfragen eines nächsten Zuges für einen Spieler. Die Funktion hat zwei Argumente

- `state` ist ein Zustand;
- `player` ist ein Spieler (`'w'`, `'b'`).

Die Funktion gibt ein Zwei-Tupel zurück mit

- dem nächsten Spielzug und
- der Anzahl der benötigen Halbzüge bis zum Sieg (bei perfektem Spiel des Gegners).

Die Funktion fragt mit Hilfe der Funktion `getUniqueStateForSymmetry` einen symmetrischen Zustand ab, der den höchsten Streuwert hat. Somit ist sichergestellt, dass immer der richtige Zustand abgefragt ist (der, der auch in der Datenbank gespeichert ist). Gleichzeitig kann man die zu speichernde Anzahl an Zuständen reduzieren.

Da die Datenbank nicht den angefragten Zustand zurückgibt, muss für alle möglichen nächsten Zustände geschaut werden, ob er auch in den Symmetrien des zurückgegebenen nächsten Zustands der Datenbank ist. Wenn das der Fall ist, kann der Zustand zurückgegeben werden.

Da in der Endspieldatenbank alle Fälle für weiß gespeichert sind, muss für den schwarzen Spieler der Zustand am Anfang und Ende der Funktion invertiert werden. Dies passiert mit Hilfe der Funktion `swapPlayers`.

In [None]:
def findNextStateInDb(state, player):
    if player == 'b':
        state = swapPlayers(state)
    symmetryState = getUniqueStateForSymmetry(state)
    stateInDb = retroCol.find_one({ 'state': symmetryState })
    if stateInDb is None:
        return None
    symmetryNextState = convertStateListToTuple(stateInDb['nextState'])
    possibleNextStates = nextStates(state, 'w')
    nextState = None
    for pns in possibleNextStates:
        if symmetryNextState in findSymmetries(pns):
            nextState = pns
    if player == 'b':
        nextState =  swapPlayers(nextState)
    return nextState, stateInDb['steps']

## Integration in die Studienarbeit

Damit die Endspieldatenbank auch in der Studienarbeit angewendet werden kann, wird die Klasse `AlphaBetaPruning` Im Notebook `nmm-alpha-beta-pruning.ipynb` minimal angepasst.

Als erstes erhält der Konstruktor der Klasse einen Parameter `useEndgameDatabase`, der standardmäßig auf `False` gesetzt ist. Dieser Parameter wird im Konstruktur auf die Variable `useEndgameDatabase` gesetzt.

Zum anderen wurde die 

# Retrograde Analyse

Im Folgenden soll die retrograde Analyse für das 3-3 Endspiel von Mühle durchgeführt werden. Zu erst sollen allgemeine Beobachtungen über das Endspiel aufgestellt werde. Anschließend soll die Verwendung der Endspieldatenbank getestet werden.

## Beobachtungen



## Turnier

Um die Endspieldatenbank unter realen Umständen testen zu lassen, soll sie in einem Turnier mit verschiedenen Konfigurationen von Alpha-Beta-Pruning antreten. Dafür wird die Implementierung des Turniers der Studienarbeit (implementiert in `nmm-tournament.ipynb`) verwendet.

Insgesamt sollen vier künstliche Intelligenzen gegeneinander antreten:

- Minimax mit einer maximalen Suchtiefe von zwei und der Standardheuristik;
- Alpha-Beta-Pruning mit maximal 5000 Zuständen;
- Alpha-Beta-Pruning mit maximal 25000 Zuständen und
- Alpha-Beta-Pruning mit maximal 25000 Zuständen und der Verwendung der Endspieldatenbank.

Alle drei Alpha-Beta-Pruning Algorithmen verwenden zum besseren Vergleichen die selbe Heuristik. Diese Heuristik wurde als beste Heuristik in der Studienarbeit befunden.

In [None]:
%run ./nmm-tournament.ipynb

In [None]:
#Tournament(
#    [
#        lambda: Minimax(),
#        lambda: AlphaBetaPruning(max_states=5000, weights=HeuristicWeights(stones=3, stash=3, mills=2, possible_mills=1)),
#        lambda: AlphaBetaPruning(max_states=25000, weights=HeuristicWeights(stones=3, stash=3, mills=2, possible_mills=1)),
#        lambda: AlphaBetaPruning(max_states=25000, useEndgameDatabase=True ,weights=HeuristicWeights(stones=3, stash=3, mills=2, possible_mills=1)),
#        
#        ],
#    instances_per_round = 3,
#    name                = "hr-vs-hr",
#).play()

# Fazit

## Verbesserungsmöglichkeiten

Das größte Problem dieser Implementierung ist wahrscheinlich, wie Zustände gespeichert werden. In der Hausarbeit (und auch in der Studienarbeit) werden Zustände als Tupel gespeichert. Das Problem hier ist, das die Tupelschreibweise sehr viel Speicher und auch mehr Performance beim Berechnen benötigt. So kommt man bereits bei der 3-3-Endspieldatenbank an Grenzen moderner Heimcomputer (vorallem wegem dem Arbeitsspeicher). Speichert man die Zustände anders, beispielsweise als Bitboards wie Gasser in seiner Lösung des Mühlespiels, müsste man das Spiel mit der heutigen Technik problemlos lösen können (Gasser hat es bereits 1996 erreicht).

Als Alternative für die Speicherung als Bits wird von Lemmerich und Späth [LS05] folgende Möglichkeit genannt. Man speichert die einzelnen Positionen der Steine von weiß und schwarz von links oben entlang des Rings und dann den zweiten und dritten Ring. Hat der Spieler auf der Position einen Stein, so ist der Bit auf `1`, andernfalls `0`. Dafür bräuchte man für jeden Spieler 24 Byte und nochmal je vier Byte für den Stapel. In der folgenden Abbildung ist diese Variante dargestellt und zur Veranschaulichung noch ein passendes Spielfeld.

![](../images/bitboard-variant-1.png)

Diese Variante würde theoretisch 56 Bits für jeden Zustand benötigen, also 7 Byte. In Python würde diese große Zahl aber 32 Byte benötigen: