# Spielbaum

### Der MinMax Algorithmus

In [1]:
inf = float('inf')
def maximize(state):
    '''
    state: Spielstellung
    returns: (st, k), die Folgestellung st, die die höchste Utlity k hat
    '''
    if terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, -inf
    for st in nextstates(state):
        _, k = minimize(st)
        if k > best_k:
            best_st, best_k = st, k
    return best_st, best_k

def minimize(state):
    '''
    state: Spielstellung
    returns: (st, k), die Folgestellung st, die die niedrigste Utlity k hat
    '''
    if terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state):
        _, k = maximize(st)
        if k < best_k:
            best_st, best_k = st, k
    return best_st, best_k

def nextstates(state):
    '''
    state: Spielstellung
    returns: Liste mit möglichen Folgestellungen
    '''
    pass


def terminal_test(state):
    '''
    state: Spielstellung
    returns: True, wenn Stellung ein Blatt ist
    '''
    pass

def evaluation(state):
    '''
    state: Spielstellung
    returns: Zahl, die den Wert der Stellung wiedergibt
    '''
    pass

# st =  ...                  # Ausgangsstellung
# print(maximize(st))        # der nächste Zug nach st für den Maximizer

### Der Alpha-Beta Algorithmus mit Bremse

In [3]:
inf = float('inf')
def maximize(state, alpha, beta, bremse):
    '''
    state: Stellung
    returns: (st, k), die Folgestellung st, die die höchste
    Utlity k hat
    '''

    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, -inf

    for st in nextstates(state):
        _, k = minimize(st, alpha, beta, bremse-1)
        if k > best_k:
            best_st, best_k = st, k
        if best_k >= beta:
            break
        if best_k > alpha:
            alpha = best_k
    return best_st, best_k


def minimize(state, alpha, beta, bremse):
    '''
    state: Stellung
    returns: (st, k), die Folgestellung st, die die niedrigste
    Utlity k hat
    '''

    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state):
        _, k = maximize(st, alpha, beta, bremse-1)
        if k < best_k:
            best_st, best_k = st, k
        if best_k <= alpha:
            break
        if best_k < beta:
            beta = best_k
    return best_st, best_k

def nextstates(state):
    '''
    state: Spielstellung
    returns: Liste mit möglichen Folgestellungen
    '''
    pass


def terminal_test(state):
    '''
    state: Spielstellung
    returns: True, wenn Stellung ein Blatt ist
    '''
    pass

def evaluation(state):
    '''
    state: Spielstellung
    returns: Zahl, die den Wert der Stellung wiedergibt
    '''
    pass

 
# st =  ...                         # Ausgangsstellung
# print(maximize(st,-inf,inf,8))    # 8 Stufen bis zur Bremse

### Tic-Tac-Toe
Eine Teil-Implementierung, bei der die Bewertungsfunktion immer 0 zurückgibt. Dadurch wird auch das Spielende nicht erkannt.


In [None]:
'''
Eine Spielstellung ist eine Liste von Zahlen. Jede Zahl ist die
Nummer eines Feldes.

 x . .       0  1  2
 . o .       3  4  5
 . . .       6  7  8

ist repräsentiert durch die Liste [0,4]. Der Maximizer (x) beginnt das Spiel

'''

inf = float('inf')
gewinn = [{0, 1, 2}, {3, 4, 5}, {6, 7, 8}, {0, 3, 6},
          {1, 4, 7}, {2, 5, 8}, {0, 4, 8}, {2, 4, 6}]


def maximize(state):
    if terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, -inf
    for st in nextstates(state):
        _, k = minimize(st)
        if k > best_k:
            best_st, best_k = st, k
    return best_st, best_k


def minimize(state):
    if terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state):
        _, k = maximize(st)
        if k < best_k:
            best_st, best_k = st, k
    return best_st, best_k


def nextstates(state):
    '''
    state: Spielstellung
    returns: Liste mit möglichen Folgestellungen (also Liste von Listen)
    '''
    temp = []
    for i in range(9):
        if i not in state:
            temp.append(state+[i])
    return temp


def terminal_test(state):
    '''
    state: Stellung
    returns: True, wenn Stellung ein Blatt ist
    '''
    w = evaluation(state)
    return w == 1 or w == -1 or len(state) == 9


def evaluation(state):
    '''
    state: Stellung
    returns: Zahl, die den Wert der Stellung wiedergibt
    '''

    maxzuege = set(state[::2])
    minzuege = set(state[1::2])
    for g in gewinn:
        if g <= maxzuege:
            return 1
        if g <= minzuege:
            return -1
    return 0


def show(state):
    '''
    state: Spielstellung
    returns: None, printed die Stellung
    '''
    a = ['.'] * 9
    for i in range(len(state)):
        if (i % 2 == 0):
            a[state[i]] = 'x'
        else:
            a[state[i]] = 'o'

    for i in range(9):
        if i % 3 == 0:
            print()
        print(a[i], end=' ')
    print()


def showMuster():
    '''
    Hilfsfunktion, die die Nummerierung der Felder zeigt
    '''
    for i in range(0, 9):
        if i % 3 == 0:
            print()
        print(i, end=' ')
    print()


def play():
    state = []
    i = 0
    while not terminal_test(state):
        
        if i % 2==0:
            showMuster()
            z = int(input("Eingabe Spieler x: "))
            state.append(z)
        else:
            state, _ = minimize(state)
        show(state)
        i += 1
        
    if evaluation(state) == 1:
        print("Spieler x hat gewonnen")
    elif evaluation(state) == -1:
        print("Computer hat gewonnen")
    else:
        print("Unentschieden")

play()

#### Aufgaben:
- Ändere das TicTacToe-Spiel so, dass der Computer beginnt.
- Erweitere das Spiel auf ein 4x3 Feld. 
- Erweitere das Spiel auf ein 4x4 Feld, führe ein Eröffnungsbuch ein.
- Codingame: [Minimax Exercise](https://www.codingame.com/training/medium/minimax-exercise)
- Codingame: [Minimax Simple Example](https://www.codingame.com/training/expert/minimax-simple-example)


### Connect4
Das Spiel besteht aus 7 Spalten, die jeweils mit bis zu 6 Steinen 
gefüllt werden können.

Eine Stellung wird repräsentiert durch eine Liste von Zahlen
von 0 bis 41, die jeweils angeben, in welcher Reihenfolge Steine
auf die jeweilige Position gekommen sind.

```  
 0  1  2  3  4  5  6 
 7  8  9 10 11 12 13 
14 15 16 17 18 19 20 
21 22 23 24 25 26 27 
28 29 30 31 32 33 34 
35 36 37 38 39 40 41 
```

Der erste Stein ist 'x'.
Die Liste [38,37,30] repräsentiert also die folgende Stellung:

```
. . . . . . . 
. . . . . . . 
. . . . . . . 
. . . . . . . 
. . x . . . . 
. . o x . . . 
=============
0 1 2 3 4 5 6
```

Im User-Interface gibt man die Nummer der Spalte für den nächsten Stein an.


```


#### Aufgabe: 

- Versuche zu gewinnen - als Anziehender und als Nachziehender
- Gibt es sinnvolle Ergänzungen für das Eröffnungsbuch?
- Hast du andere Ideen für die evaluation?

In [1]:
inf = float('inf')

def maximize(state, alpha=-inf, beta=inf, bremse=6):

    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, -inf

    for st in nextstates(state):
        _, k = minimize(st, alpha, beta, bremse-1)
       
        if k > best_k:
            best_st, best_k = st, k
        if best_k >= beta:
            break
        if best_k > alpha:
            alpha = best_k
    return best_st, best_k


def minimize(state, alpha=-inf, beta=inf, bremse=6):

    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state): 
        _, k = maximize(st, alpha, beta, bremse-1)
        if k < best_k:
            best_st, best_k = st, k
        if best_k <= alpha:
            break
        if best_k < beta:
            beta = best_k
    return best_st, best_k

def showNr():
    ''' printed die Nummerierung der Felder '''
    for i in range(42):
        if i % 7 == 0:
            print()
        print('{:2d}'.format(i), end=' ')
    print()

def getBoard(state):  
    ''' wandelt state in ein board um 
        ein board ist eine Liste mit 42 Zeichen, entweder x, o oder ein Punkt.'''
    tmp = list('.'*42)
    for i in range(len(state)):
        if i % 2 == 0:
            tmp[state[i]] = 'x'
        else:
            tmp[state[i]] = 'o'
    return tmp

def showBoard(board):
    ''' printed board '''
    for i in range(42):
        if i % 7 == 0:
            print()
        print('{:1s}'.format(board[i]), end=' ')
    print()
    print('='*13)
    print('0 1 2 3 4 5 6')

def muster(board):
    tmp = []
    for i in range(0,42,7):
        tmp.append(''.join(board[i:i+7]))  # horizontal
    for i in range(7):
        tmp.append(''.join(board[i::7]))   # vertikal

    # diagonale muster nach links unten
    tmp.append(''.join(board[14:39:8]))
    tmp.append(''.join(board[7:40:8]))
    tmp.append(''.join(board[0:41:8]))
    tmp.append(''.join(board[1:42:8]))
    tmp.append(''.join(board[2:35:8]))
    tmp.append(''.join(board[3:28:8]))
   
    # diagonale muster nach rechts unten 
    tmp.append(''.join(board[3:22:6]))
    tmp.append(''.join(board[4:29:6]))
    tmp.append(''.join(board[5:36:6]))
    tmp.append(''.join(board[6:37:6]))
    tmp.append(''.join(board[13:38:6]))
    tmp.append(''.join(board[20:39:6]))
    return tmp

def nextstates(state):
    '''
    state: Spielstatus
    returns: Liste mit möglichen Folgestellungen
    '''
    board = getBoard(state)
    tmp = []
    for i in free(board):     # für jeden verfügbaren Platz
        tmp.append(state+[i])
    return tmp

def evaluation(state):
    '''
    state: Spielstellung
    returns int - Bewertung der Spielstellung
    '''
    w = 0
    board = getBoard(state)
    for s in muster(board):
        if 'xxxx' in s:
            return inf
        if 'oooo' in s:
            return -inf
        if '.xx' in s:
            w += 5
        if 'xx.' in s:
            w += 5
        if '.xxx' in s:
            w += 5
        if 'xxx.' in s:
            w += 5
        if 'xx.x' in s:
            w += 5
        if 'x.xx' in s:
            w += 5
        if '.oo' in s:
            w += -5
        if 'oo.' in s:
            w += -5
        if '.ooo' in s:
            w += -5
        if 'ooo.' in s:
            w += -5
        if 'oo.o' in s:
            w += -5
        if 'o.oo' in s:
            w += -5
    return w

def terminal_test(state):
    w = evaluation(state)
    return w == inf or w == -inf or len(state) == 42

def colNrs(i):
    '''
    i: int,  0 <= i <= 6
    returns: Liste der Platznummern für Spalte i, von unten nach oben
    '''
    return [35+i-7*r for r in range(0,6)]

def freeIn(board,i):
    ''' returns: nächster freier Platz in Spalte i '''
    for j in colNrs(i):
        if board[j] == '.':
            return j

def free(board):
    ''' liste der möglichen nächsten positionen '''
    tmp = []
    for i in range(7):
       for j in colNrs(i):
           if board[j] == '.':
               tmp.append(j)
               break
    return tmp

def play(bremse=8):
    ''' Mensch spielt zuerst '''
    i = 0
    k = None         # Bewertung
    x = None         # letzter Zug

    state = []
    board = getBoard(state)
    showBoard(board)

    while not terminal_test(state):
         
        if i % 2==0:
            x = int(input("Eingabe Spieler (0-6): "))
            state.append(freeIn(board,x))

        else:
            if tuple(state) in buch:
                state = buch[tuple(state)]
            else:
                state, k = minimize(state,bremse)
           
        board = getBoard(state)
        showBoard(board)
        print("Zug: ",x,"Bewertung: ", k)
        i = i+1

    showBoard(board)
    if evaluation(state) == inf:
        print("Spieler x hat gewonnen")
    elif evaluation(state) == -inf:
        print("Computer hat gewonnen")
    else:
        print("Unentschieden")

def playC(bremse=8):
    ''' Computer spielt zuerst '''
    state = []
    i = 0
    k = None
    x = None
    while not terminal_test(state):
        board = getBoard(state)
           
        if i % 2==1:
            x = int(input("Eingabe Spieler o: "))
            state.append(freeIn(board,x))
        else:
            if tuple(state) in buch:
                state = buch[tuple(state)]
            else:
                state, k = maximize(state,bremse)
           
        board = getBoard(state)
        showBoard(board)
        print("Zug: ",x,"Bewertung: ", k)
        i = i+1

    showBoard(board)
    if evaluation(state) == inf:
        print("Spieler o hat gewonnen")
    elif evaluation(state) == inf:
        print("Computer hat gewonnen")
    else:
        print("Unentschieden")


buch = {tuple():[38],(38,):[38,37]}   # Eröffnungsbuch

In [None]:
play()

#### Bemerkungen

Im folgenden Beispiel ist der Computer der Nachziehende ('o'). Er ist an der Reihe. Wir sehen sofort, dass der Computer den Stein in Spalte 6 plazieren muss. Trotzdem dauert die Berechnung ziemlich lange.


In [2]:
state = [38,37,31,24,30,17,23,10,3,16,39,32,40]
board = getBoard(state)
showNr()
showBoard(board)


 0  1  2  3  4  5  6 
 7  8  9 10 11 12 13 
14 15 16 17 18 19 20 
21 22 23 24 25 26 27 
28 29 30 31 32 33 34 
35 36 37 38 39 40 41 

. . . x . . . 
. . . o . . . 
. . o o . . . 
. . x o . . . 
. . x x o . . 
. . o x x x . 
0 1 2 3 4 5 6


In [8]:
%%time
minimize(state,bremse=8)

Wall time: 7.61 s


([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41], -20)

Die *nextstates* werden in einer ungünstigen Reihenfolge durchlaufen. Wenn wir die Reihenfolge umdrehen, geht die Berechnung schneller.

In [9]:
def minimize(state, alpha=-inf, beta=inf, bremse=6):

    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state)[::-1]:    # umgedrehte Reihenfolge
        _, k = maximize(st, alpha, beta, bremse-1)
        if k < best_k:
            best_st, best_k = st, k
        if best_k <= alpha:
            break
        if best_k < beta:
            beta = best_k
    return best_st, best_k

In [10]:
%%time
minimize(state,bremse=8)

Wall time: 1.09 s


([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41], -20)

Was ändert sich durch die umgedrehte Reihenfolge? Wir zählen die Anzahl der pruning-Vorgänge und die Anzahl der besuchten Knoten.

In [12]:
pruneCount = 0
visitCount = 0

def maximize(state, alpha=-inf, beta=inf, bremse=6):
    global pruneCount, visitCount
    visitCount +=1
 
    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, -inf

    for st in nextstates(state):
        _, k = minimize(st, alpha, beta, bremse-1)
       
        if k > best_k:
            best_st, best_k = st, k
        if best_k >= beta:
            pruneCount +=1
            break
        if best_k > alpha:
            alpha = best_k
    return best_st, best_k


def minimize(state, alpha=-inf, beta=inf, bremse=6):
    global pruneCount, visitCount
    visitCount += 1
 
    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state): 
        
        _, k = maximize(st, alpha, beta, bremse-1)
        if k < best_k:
            best_st, best_k = st, k
        if best_k <= alpha:
            pruneCount +=1
            break
        if best_k < beta:
            beta = best_k
    return best_st, best_k


In [13]:
%%time
minimize(state,bremse=8), pruneCount, visitCount

Wall time: 7.74 s


(([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41], -20), 53987, 292387)

Das ganze mit der umgedrehten Reihenfolge beim Minimizer

In [14]:
pruneCount = 0
visitCount = 0

def minimize(state, alpha=-inf, beta=inf, bremse=6):
    global pruneCount, visitCount
    visitCount += 1
 
    if bremse == 0 or terminal_test(state):
        return None, evaluation(state)

    best_st, best_k = None, inf
    for st in nextstates(state)[::-1]: 
        
        _, k = maximize(st, alpha, beta, bremse-1)
        if k < best_k:
            best_st, best_k = st, k
        if best_k <= alpha:
            pruneCount +=1
            break
        if best_k < beta:
            beta = best_k
    return best_st, best_k

In [15]:
%%time
minimize(state,bremse=8), pruneCount, visitCount

Wall time: 833 ms


(([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41], -20), 7336, 24768)

Hier wird weniger häufig gepruned, aber offenbar an höheren Stellen des Baumes, dadurch fallen größere Teile weg und insgesamt müssen nicht mehr so viele Knoten besucht werden.

Wie können wir eine günstige Reihenfolge zur Untersuchung der *nextstates* finden? Wir können den maximizer mit einer kleinen bremse auf alle *nextstates* loslassen. Das gibt uns einen Hinweis darauf, welche Knoten für uns (als minimizer) die vielversprechensten sind.

In [3]:
for st in nextstates(state):
    print(maximize(st,bremse=2))

([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 35, 41], inf)
([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 36, 41], inf)
([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 9, 41], inf)
([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 25, 41], inf)
([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 33, 41], inf)
([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41, 9], -25)


#### Iterative Deepening

Eine kleine Bremse findet im Beispiel von oben schon die richtige Antwort:

In [5]:
minimize(state,bremse=2)

([38, 37, 31, 24, 30, 17, 23, 10, 3, 16, 39, 32, 40, 41], -5)

Beim *iterative deepening* erhöht man schrittweise die Tiefe (bremse). Wenn die Zeit für einen Zug abgelaufen ist, gibt man die beste bisher gefundene Antwort. 

Bei begrenzter Zeit gibt es einen trade-off zwischen Tiefe und Evaluation. Je komplizierter die Evaluation, desto weniger tief kann in gegebener Zeit nach einer guten Antwort gesucht werden.
