# Suchalgorithmen am Beispiel 8-Puzzle

In vielen Problemstellung geht es darum, in einer (meist sehr großen) Menge von Möglichkeiten eine Lösung zu finden. Am Beispiel des 8-Puzzle werden verschiedene Suchalgorithmen für das Finden einer Lösung vorgestellt.

![quadrate](img/such_bild1.png)

Wir modellieren eine Spielstellung mit einem Tupel.

In [8]:
startstate = (7,2,4,5,0,6,8,3,1)
goalstate  = (0,1,2,3,4,5,6,7,8)

Einzelne Spielstellungen stellen wir uns als Knoten vor. Die Kanten zwischen den Knoten sind mögliche Spielzüge.
Die Startstellung ist also die Wurzel eines Suchbaums, in dem wir einen Pfad zu einem Knoten suchen, der den **goaltest** besteht. 

In der Regel ist der Suchbaum so groß, dass er nicht in seiner Gesamtheit aufgebaut werden kann. Während der Suche wird der Suchbaums immer wieder erweitert und wir hoffen, dass wir auf eine Lösung stoßen, ohne den gesamten Baum durchsuchen zu müssen.

Die Knoten, die wir noch untersuchen müssen, verwalten wir in der **frontier** (fringe, open set). 
Zu jedem Knoten, der in die frontier kommt, merken wir uns den Elternknoten in einem dictionary **prev**.
Die keys in prev sind also alle Spielstellungen, die schon untersucht wurden oder noch auf Untersuchung warten.

Zu Beginn ist nur der Startknoten in der frontier mit Elternknoten None.

Wenn wir einen Knoten untersuchen, holen wir ihn aus der frontier, löschen ihn aus der frontier und schauen, ob er den goaltest besteht.

Wenn das nicht der Fall ist, gehen wir die Liste seiner Kinder durch. Nur Kinder, die noch nicht untersucht wurden oder auf Untersuchung warten, werden der frontier hinzugefügt. 

Wir gehen davon aus, dass wir folgende Funktionen zur Verfügung haben:

In [9]:
def nextstates(state):
    '''
    state: Spielstellung
    returns: eine Liste oder Menge von möglichen Folgestellungen zu state
    '''

def goaltest(state):
    '''
    state: Spielstellung
    returns: True, wenn Spielstellung einen Lösung ist
    '''

Wenn wir bei einer Spielstellung angekommen sind, die den goaltest besteht, interessiert uns der Weg, wie wir dahin gekommen sind. Die Funktion Die Funktion **reconstructPath** ermittelt den Lösungsweg.

In [10]:
def reconstructPath(prev):
    '''
    prev: dictionary, das jeder Spielstellung ihren Vorgänger zuordnet.
       Die Startstellung hat als Vorgänger None zugeordnet.
    returns: String-Repräsentation des Weges von der Start- zur Zielstellung
   '''

#### Breitensuche
Bei der Breitensuche (bfs = breadth first search) organisieren wir die frontier als Schlange. Als Ergebnis geben wir das dictionary prev zurück und (aus Interesse) die Anzahl der untersuchten Knoten.

In [None]:
Initialisiere frontier als Queue mit dem startstate
Initialisiere prev als dictionary der Vorgänger
Der Vorgänger von startstate ist None
nrExplored = 0

solange frontier nicht leer:
    hole state aus frontier
    nrExplored += 1
    
    wenn goalTest(state):
        return dictionary mit Vorgängern, nrExplored
    
    für jedes v aus nextstates(state):
        wenn v kein key in prev:
            füge v in die frontier ein.
            merke state als Vorgänger von v

In [42]:
from collections import deque
def bfs(s):
    ''' 
    s: Startstellung
    returns: Tupel (prev, nrExplored) 
        prev: dictionary mit den Vorgängern der Spielstellungen
            auf dem  Weg zum Ziel, None wenn Ziel nicht gefunden
        nrExplored: int, Anzahl untersuchter Knoten
    '''   
    frontier =  deque([s])
    prev = {s:None}
    nrExplored = 0
    while frontier:
        state = frontier.popleft()  
        nrExplored+=1
        if goaltest(state):
            return prev, nrExplored
        for v in nextstates(state):
            if v not in prev:
                frontier.append(v)
                prev[v] = state

In [1]:
def goaltest(state):
    '''
    state: Spielstellung
    returns: True, wenn state Zielposition ist
    '''  
    return state == (0,1,2,3,4,5,6,7,8) 

def nextstates(state):
    '''
    state: Spielstellung
    returns: Liste mit den möglichen Folgestellungen für state. Die möglichen
       Bewegungen des Leerfeldes halten sich an die Reihenfolge: up, down, left, right 
    '''
    if state[0] == 0:   return [swap(state,0,3),swap(state,0,1)]
    elif state[1] == 0: return [swap(state,1,4),swap(state,1,0),swap(state,1,2)]
    elif state[2] == 0: return [swap(state,2,5),swap(state,2,1)]
    elif state[3] == 0: return [swap(state,3,0),swap(state,3,6),swap(state,3,4)]
    elif state[4] == 0: return [swap(state,4,1),swap(state,4,7),swap(state,4,3),swap(state,4,5)]
    elif state[5] == 0: return [swap(state,5,2),swap(state,5,8),swap(state,5,4)]
    elif state[6] == 0: return [swap(state,6,3),swap(state,6,7)]
    elif state[7] == 0: return [swap(state,7,4),swap(state,7,6),swap(state,7,8)]
    elif state[8] == 0: return [swap(state,8,5),swap(state,8,7)]
    
def swap(state,i,j):
    ''' Hilfsfunktion für nextstates
    state: Spielstellung
    i, j: ints zwischen 0 und 8
    returns: Spielstellung, bei der gegenüber state die Zahlen an den
       Positionen i und j vertauscht sind.
    '''
    temp = list(state)
    temp[i],temp[j] = temp[j],temp[i]
    return tuple(temp)

In [2]:
def reconstructPath(prev):
    '''
    prev: dictionary, das jeder Spielstellung ihren Vorgänger zuordnet.
       Die Startstellung hat als Vorgänger None zugeordnet.
    returns: tuple pfad, laenge
       pfad: String-Repräsentation des Weges von der Start- zur Zielstellung
       laenge: int, Länge des Weges in pfad
    '''
    s = (0,1,2,3,4,5,6,7,8)
    tmp = []
    while prev[s] is not None:
        i = s.index(0)          # Position der 0
        ip = prev[s].index(0)   # vorherige Position der 0
        if i == ip-1: tmp.append('left')
        elif i == ip+1: tmp.append('right')
        elif i == ip+3: tmp.append('down')
        elif i == ip-3: tmp.append('up')
        else: tmp.append('error')
        s = prev[s]
    tmp.reverse()
    return ' '.join(tmp),len(tmp)

In [49]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = bfs(startstate)
print(reconstructPath(prev))
print("Anzahl explored:",nrExplored)

('left up left down down right right up up left left down right down right up left up left', 19)
Anzahl explored: 37151
Wall time: 113 ms


#### Ungeeignete Datenstrukturen führen zu erhöhter Laufzeit

Im folgenden Beispiel werden die schon untersuchten Stellungen in einer Liste **explored** gesammelt. Bevor eine Stellung in die frontier eingefügt wird, wird überprüft, ob sie nicht schon in der frontier ist oder nicht schon früher explored wurde.

In [46]:
from collections import deque
def bfs2(s):
    frontier =  deque([s])
    prev = {s:None}
    explored = []
    nrExplored = 0
    while frontier:
        state = frontier.popleft()  
        nrExplored+=1
        explored.append(state)
        if goaltest(state):
            return prev, nrExplored
        for v in nextstates(state):
            if v not in frontier and v not in explored:
                frontier.append(v)
                prev[v] = state

In [51]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = bfs2(startstate)
print(reconstructPath(prev))
print("Anzahl explored:",nrExplored)

('left up left down down right right up up left left down right down right up left up left', 19)
Anzahl explored: 37151
Wall time: 1min 3s


#### Tiefensuche
Bei der Tiefensuche (dfs = depth first search) organisieren wir die frontier als Keller.

In [3]:
def dfs(s):
    frontier =  [s]
    prev = {s:None}
    nrExplored = 0
    while frontier:
        state = frontier.pop()  
        nrExplored+=1
        if goaltest(state):
            return prev,nrExplored
        nxt = nextstates(state)
        nxt.reverse()        # die linken Kinder sollen zuletzt auf den frontier-Keller
        for v in nxt:
            if v not in prev:
                frontier.append(v)
                prev[v] = state

In [7]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = dfs(startstate)
print(reconstructPath(prev)[1])   # nur die Länge des Pfads ausgeben
print("Anzahl explored:",nrExplored)

7827
Anzahl explored: 8036
Wall time: 42.8 ms


#### Heuristik
Wir wollen aus der frontier die Spielstellungen früh entnehmen, die Erfolg versprechen. Dazu bewerten wir sie mit einer Heuristik. 
Als Datenstruktur eignet sich ein Heap.


**1. Heuristik:** Die Anzahl der Ziffern, die ihre Endposition noch nicht erreicht haben, betrachten wir als Vorwärtskosten. 

In [27]:
def h(state):
    '''
    state: Spielstellung
    returns: Vorwärtskosten laut Heuristik
    '''
    return sum(a!=b for a,b in zip((0,1,2,3,4,5,6,7,8),state))

#### Greedy
Der Greedy-Algorithmus nimmt die Spielstellung mit den niedrigsten Forwärtskosten als nächstes dran. 

In [28]:
from heapq import heappop, heappush
def greedy(s):
    frontier =[(h(s),s)]  
    prev = {s:None}
    nrExplored = 0
    while frontier:
        _ ,state = heappop(frontier)  
        nrExplored+=1
        if goaltest(state):
            return prev,nrExplored
        for v in nextstates(state):
            if v not in prev:
                heappush(frontier,(h(v),v))
                prev[v] = state

In [29]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = greedy(startstate)
print(reconstructPath(prev))   
print("Anzahl explored:",nrExplored)

('down left up left up right down left up right down right up left down down right up left up left down down right up up left down right up left down right down right up left down left up right down right up left left down right up right down left left up up right down left down right up up left down right down left up up', 69)
Anzahl explored: 206
Wall time: 1.95 ms


**Greedy-Algorithmen sind meist schnell, finden aber nicht immer die optimale Lösung.**


#### A*

Der A*-Algorithmus berücksichtigt sowohl die vermuteten Vorwärtskosten laut Heuristik, als auch die bisher
tatsächlich angefallenen (Rückwärts)-Kosten.



In [30]:
def astar(s):
    frontier =[(h(s),s)]  
    prev = {s:None}
    nrExplored = 0
    g = {s:0}  # backword costs: hier die Anzahl Züge
    while frontier:
        _ ,state = heappop(frontier)  # die Kosten braucht man an der Stelle nicht
        nrExplored+=1
        if goaltest(state):
            return prev,nrExplored
        for v in nextstates(state):
            if v not in prev:
                g[v] = g[state]+1
                heappush(frontier,(g[v]+h(v),v))
                prev[v] = state

In [31]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = astar(startstate)
print(reconstructPath(prev))  
print("Anzahl explored:",nrExplored)

('left up left down down right right up up left down down right up left up left down right up left', 21)
Anzahl explored: 3685
Wall time: 29.9 ms


A* hat die optimale Lösung noch nicht gefunden: Es gilt der Satz:

**Wenn die Heuristik die tatsächlich anfallenden Kosten nicht überschätzt, dann findet A* die beste Lösung.**

Dazu müssen wir den Wert, den unsere Heuristik liefert, durch 2 teilen.

In [32]:
def h(state):
    '''
    state: Spielstellung
    returns: Vorwärtskosten laut Heuristik
    '''
    return sum(a!=b for a,b in zip((0,1,2,3,4,5,6,7,8),state))//2

In [33]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = astar(startstate)
print(reconstructPath(prev))  
print("Anzahl explored:",nrExplored)

('left up left down down right right up up left left down right down right up left up left', 19)
Anzahl explored: 6391
Wall time: 65.9 ms


** 2.Heuristik:** Die Manhatten-Distanz der Ziffern zu ihrer Zielposition

In [34]:
def h(state): 
    '''
    state: Spielstellung
    returns: Fortwärtskosten laut Manhatten-Heuristik
    '''
    mh = 0
    for i in range(8):
        z1,s1 = i//3, i%3
        z2,s2 = state[i]//3, state[i]%3
        mh += abs(z1-z2)+abs(s1-s2)
    return mh//2

In [35]:
%%time
startstate = (2,3,8,4,7,0,1,6,5)
prev, nrExplored = astar(startstate)
print(reconstructPath(prev))  
print("Anzahl explored:",nrExplored)

('left up left down down right right up up left left down right down right up left up left', 19)
Anzahl explored: 1963
Wall time: 29.9 ms
