# Graphen

Ein Graph ist ein Abstrakter Datentyp. Mathematisch wird ein Graph $G$ durch ein geordnetes Paar $(V, E)$ beschrieben. $V$ Ist dabei die Menge der Knoten (Vertices, Sg. Vertex) und $E$ die Menge der Kanten (Edges), die die Knoten verbinden. Eine Kante ist ein geordnetes Paar $(i, j)$, wobei mit $i$ und $j$ zwei Knoten angegeben werden, die durch die Kante verbunden werden. 

Bei der Darstellung eines Graphen spielt die Art und Weise, wie die Kanten gezeichnet werden keine Rolle. Entscheidend ist lediglich die Menge der Knoten und die Menge der Kanten, die diese verbinden. Zwei unterschiedlich dargestellte Graphen mit den gleichen Knoten und Kanten werden als isomorphe Graphen bezeichnet. In der Regel betrachtet man isomorphe Graphen als äquivalente Graphen.

In der Praxis kommen Graphen häufig zum Einsatz. Die Abbildung von Straßennetzen in Navigationssystemen oder die Abbildung von Netzwerken in Routern sind Anwendungsbeispiele.

## Ungerichteter Graph

Bei einem ungerichteten Graphen wird die Richtung der Kante nicht berücksichtigt, d.h. eine Kante $(i, j)$ impliziert einen Weg vom Knoten $i$ zum $j$, als auch einen Weg von $j$ zu $i$. Somit gilt $(i, j) = (j, i)$.

Ungerichteter Graph mit $V = \{0,1,2,3,4\}$ und $E = \{(0,1),(0,4),(1,2),(1,3),(1,4),(2,3),(3,4)\}$:

<img src="https://www.geeksforgeeks.org/wp-content/uploads/undirectedgraph.png" width="400">

Bei der Darstellung eines ungerichteten Graphen ist es deshalb nicht nötig Pfeile zu verwenden.

## Gerichteter Graph

Bei einem gerichteten Graphen wird die Richtung der Kante berücksichtigt. Ist eine Kante $(i, j)$ gegeben, so verläuft ein Weg von $i$ zu $j$, jedoch nicht von $j$ zu $i$.

Gerichteter Graph mit $V = \{A,B,C,D,E,F\}$ und $E = \{(A,B),(B,C),(C,E),(D,B),(E,D),(E,F)\}$:

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1c/Directed_graph%2C_cyclic.svg/2000px-Directed_graph%2C_cyclic.svg.png" width="250">

Bei der Darstellung eines gerichteten Graphen werden Pfeile verwendet, um die Richtung einer Kante anzugeben. 

Da eine Kante $(i, j)$ in einem ungerichteten Graph durch die beiden Kanten $(i, j)$ und $(j, i)$ in einem gerichteten Graphen dargestellt werden kann, kann jeder ungerichtete Graph als gerichteter Graph beschrieben werden. Die Umkehrung gilt nicht.

## Gewichteter Graph

Bei einem gewichteten Graphen wird jeder Kante ein numerischer Wert als Gewicht zugeordnet.

Dies ist beispielsweise nützlich, um ein Straßennetz abzubilden und mit den Gewichten die Distanz zwischen Knotenpunkten anzugeben. Die Gewichte können dabei jegliche Art von Kosten darstellen, bei einem Navigationssystem könnten auch die benötigte Zeit oder der Benzinverbrauch durch die Gewichte abgebildet werden.

Ein gewichteter Graph kann sowohl gerichtetet, als auch ungerichtet sein.

<img src="https://www.geeksforgeeks.org/wp-content/uploads/graph-STL.png" width="250">

## Adjazenzmatrix

Die Adjazenzmatrix ist eine Variante, um einen Graphen zu implementieren. Dabei wird eine quadratische Matrix erstellt, bei dem eine Spalte und eine Reihe jeweils für einen Knoten steht. Im entsprechenden Feld steht das Gewicht der Kante vom Spaltenknoten zum Reihenknoten. Existiert eine Kante nicht, so wird ein Ersatzwert, wie $\infty$ oder __null__ verwendet. Handelt es sich um einen ungewichteten Graphen, so können auch Booleans verwendet werden.

Der Graph
<img src="https://www.geeksforgeeks.org/wp-content/uploads/graph-STL.png" width="250">
wird dabei folgendermaßen dargestellt:

| von/zu | 0 | 1 | 2 | 3 |
|--------|---|---|---|---|
| 0 | 0 | 10 | 3 | 2 |
| 1 | $\infty$ | 0 | $\infty$ | 7 |
| 2 | $\infty$ | $\infty$ | 0 | 6 |
| 3 | $\infty$ | $\infty$ | $\infty$ | 0 |

$$
\begin{bmatrix}
0 & 10 & 3 & 2 \\
\infty & 0 & \infty & 7 \\
\infty & \infty & 0 & 6 \\
\infty & \infty & \infty & 0 \\
\end{bmatrix}
$$

Da es sich um eine quadratische Matrix handelt, beträgt der Speicheraufwand $\mathcal{O}({\lvert V \rvert}^2)$.

Ineffzient ist die Adjazenzmatrix, wenn der Graph nur wenige Kanten besitzt, da trotzdem Werte für jede mögliche Kante gespeichert werden müssen, nämlich $\infty$.

## Adjazenzliste

Eine alternative Implementation eines Graphen ist die Adjazenzliste. Hierbei wird bei jedem Knoten $v$ in einer Liste eingetragen, zu welchen anderen Knoten der Knoten $v$ adjazent ist, d.h. zu welchen Knoten es eine Kante ausgehend vom Knoten $v$ gibt. Handelt es sich um einen gewichteten Graphen, so handelt es sich bei der Adjazenzliste an Stelle einer Liste von Knoten um eine Liste von Paaren aus Knoten und Gewicht.

Handelt es sich um einen Graphen mit wenigen Kanten, so wird weniger Speicherplatz verbraucht, da lediglich für die Kanten, die existieren, Speicher beansprucht werden muss. Die worst-case Speicherkomplexität beträgt weiterhin $\mathcal{O}({\lvert V \rvert}^2)$, da es bis zu $\lvert V \rvert \cdot \left( \lvert V \rvert - 1 \right) \in \mathcal{O}({\lvert V \rvert}^2)$ Kanten geben kann.

In [43]:
class Node:
    def __init__(self, name):
        self.name = name
        self.adj = []
        
    def add_to_adj_lst(self, node, weight=1):
        self.adj.append((node, weight))
    

v0 = Node('0')
v1 = Node('1')
v2 = Node('2')
v3 = Node('3')

v0.add_to_adj_lst(v1, 10)
v0.add_to_adj_lst(v2, 3)
v0.add_to_adj_lst(v3, 2)
v1.add_to_adj_lst(v3, 7)
v2.add_to_adj_lst(v3, 6)

## Depth-First Search

Depth-First Search (Tiefensuche) ist ein Algorithmus, um einen Knoten in einem Graphen zu finden. Dabei werden von einem Startknoten aus die zum Starknoten adjazenten Knoten besucht und anschließend auf diesen die Tiefensuche rekursiv aufgerufen. Dadurch, dass der rekursive Aufruf immer auf dem nächsten Knoten erfolgt, wird zuerst in die Tiefe gegangen, deshalb der Begriff Tiefensuche bzw. Depth-First Search. Es wird solange in die Tiefe gegangen, bis ein Knoten erreicht ist, der keine adjazenten Knoten hat. Daraufhin folgt der nächste Aufruf auf einer Rekursionsebene höher. Es wird also quasi wieder ein Schritt zurückgegangen, nämlich zu dem Punkt, wo die nächste Entscheidungsmöglichkeit stattfindet. Diesen Vorgang nennt man Backtracking.

<img src="http://4.bp.blogspot.com/-pIpbisjGVFY/T2hj4tUcmWI/AAAAAAAAAEk/d1WP811-Xmc/s1600/depth-first.gif" width="300">

__Implementation mit folgendem Beispiel:__

<img src="https://ds055uzetaobb.cloudfront.net/image_optimizer/78fb8725fb8db65ecbc1a7e0765f48e4f4ccb30f.png" width="250">

In [44]:
def dfs(root):
    print(root.name, end=' ')
    for node in root.adj:
        dfs(node[0])
    

a = Node('A')
b = Node('B')
c = Node('C')
d = Node('D')
e = Node('E')
f = Node('F')
g = Node('G')

a.add_to_adj_lst(b)
b.add_to_adj_lst(c)
b.add_to_adj_lst(e)
b.add_to_adj_lst(d)
c.add_to_adj_lst(e)
d.add_to_adj_lst(e)
e.add_to_adj_lst(f)
g.add_to_adj_lst(d)

dfs(a)

A B C E F E F D E F 

Es werden alle von A aus erreichbaren Knoten ausgegeben, entsprechend der Reihenfolge von DFS. 

Der Knoten G taucht nicht auf, da er von A aus nicht erreichbar ist.

Da es mehrere Wege zu einem Knoten gibt, kommen Knoten mehrfach vor. Handelt es sich um einen Graph mit Kreisen, so würde der Algorithmus nicht terminieren. Um dies zu verhindern, kann man in einem Dictionary die bereits gefundenen Knoten speichern und nur weitersuchen, wenn es sich um einen Knoten handelt, der noch nicht gefunden wurde.

In [45]:
def dfs_no_dupl(root, found={}):
    if root not in found:
        print(root.name, end=' ')
        found[root] = True
        for node in root.adj:
            dfs_no_dupl(node[0], found)
        
    
dfs_no_dupl(a)

A B C E F D 

Da jeder Knoten und jede Kante jeweils maximal einmal besucht werden, beträgt die Laufzeit $\mathcal{O}(\lvert V \rvert + \lvert E \rvert)$.

__Beispiele__

### 0/1 Rucksackproblem

Beim Rucksackproblem ist eine nichtleere Menge von $n$ Gegenständen mit den Gewichten $w_1, w_2, \dotsc, w_n$ mit $w_i > 0$ und den zugehörigen Werten $v_1, v_2, \dotsc, v_n$ gegeben. Das Gewicht des $i$-ten Gegenstands beträgt $w_i$, sein Wert $v_i$. Die Interpretation des Wertes wird durch den jeweiligen Sachkontext bestimmt: Denkt man an Schmuck, so kann der Wert im potenziellen Verkaufserlos bestehen. Handelt es sich um Utensilien eines Bergwanderes, richtet sich der Wert eines Gegenstandes eher nach dessen Beitrag zur Absicherung einer unfallfreien Begehung. Der Rucksack ist nur beschränkt belastbar. Das zulässige Maximalgewicht sei $K$, d.h. das aktuelle Gesamtgewicht darf $K$ keinesfalls überschreiten. Zu beachten ist, dass beim 0/1 Rucksackproblem, im Gegansatz zum Bruchteil-Rucksackproblem, ein Gegenstand entweder in den Rucksack gepackt werden kann oder nicht, eine Teilung des Gegenstands ist hierbei nicht möglich.

Die Optimierungsaufgabe besteht nun darin, einen Rucksack so zu füllen, dass die Wertsumme der eingepackten Gegenstände – unter Beachtung seiner Kapazitätsschranke – maximal ist.

Zum Finden der Lösungen dieses Problems unter der Nutzung der Tiefensuche, muss ein Entscheidungsbaum aufgestellt werden. Dieser Entscheidungsbaum hat dabei die Höhe $n$ ($n$ = Anzahl der Gegenstände). In jedem Schritt gibt es zwei Entscheidungsmöglichkeiten, entweder wird der $i$-te Gegenstand in den Rucksack gepackt oder nicht. Durch diesen Entscheidungsbaum werden alle Kombinationen der Rucksackbefüllung konstruiert.

__Beispiel.__
Rucksack mit Gegenständen mit den Gewichten 50, 30, 10:

<img src="img/knapsack_tree.png" width="650">

Die Tiefensuche kann nun genutzt werden, um alle gültigen Rucksackbefüllungen zu finden. Dabei wird rekursiv auf die beiden Entscheidungsmöglichkeiten die Tiefensuche aufgerufen.

Da es sich um einen Binärbaum handelt, beträgt die Anzahl der Bätter $2^n$. Insgesamt besteht der Baum aus $\sum_{i=0}^n 2^i = 2^{n+1} - 1 \in \mathcal{O}(2^n)$ Knoten, wodurch die Laufzeit des Algorithmus $\mathcal{O}(2^n)$ beträgt.

Ein Optimierung ist es, im Falle, dass ein Legen des Gegenstands in den Rucksack zu einer Überschreitung des Maximalgewichts $K$ führt, nicht weiter zu expandieren. Da $w_i > 0$ gilt, werden auch alle weiteren Kombinationen das Maximalgewicht überschreiten.

In [46]:
def get_solutions(items, k, knapsack=[]):
    if len(items) == 0:
        return list(knapsack)
    if items[0][0] <= k:
        return get_solutions(items[1:], k - items[0][0], knapsack + [items[0]]) + get_solutions(items[1:], k, knapsack)
    return get_solutions(items[1:], k, knapsack)


K = 60
items = [(50, 30), (30, 20), (10, 25)]

print(get_solutions(items, K))

[(50, 30), (10, 25), (50, 30), (30, 20), (10, 25), (30, 20), (10, 25)]


Interessiert man sich nur für die optimale Lösung, so kann der Code so abgeändert werden, dass der Wert der gefunden gültigen Rucksackbefüllung mit dem bisher gefundenen Wert verglichen wird und im Fall, dass ein besserer Wert erreicht wurde, der bisherige Wert durch die neu gefundene Lösung ersetzt wird.

In [47]:
#helper function to get value of a knapsack
def value(knapsack):
    sum_value = 0
    for item in knapsack:
        sum_value += item[1]
    return sum_value


def get_optimal_solution(items, k, knapsack=[]):
    if len(items) == 0:
        return knapsack
    if items[0][0] <= k:
        solution_with = get_optimal_solution(items[1:], k - items[0][0], knapsack + [items[0]])
        solution_without = get_optimal_solution(items[1:], k, knapsack)
        if value(solution_without) > value(solution_with):
            return solution_without
        return solution_with
    return get_optimal_solution(items[1:], k, knapsack)


print(get_optimal_solution(items, K))

[(50, 30), (10, 25)]


### n-Damenproblem

Das $n$-Damenproblem ist ein schachmathematisches Problem und eine Verallgemeinerung des 8-Damenproblems.

Ziel beim 8-Damenproblem ist es, 8 Damen auf einem 8x8 Schachbrett so zu platzieren, dass keine Dame gemäß den Schachregeln eine andere Dame schlagen kann. Dies bedeutet, dass keine zwei Damen auf der selben Reihe, Linie (Zeile, Spalte) oder Diagonale stehen darf.

Eine Lösung für das 8-Dameproblem ist die folgende:

<img src="http://schinckel.net/images/2008/06/8queens.jpg" width="250">

Beim $n$-Damenproblem ist es entsprechend Ziel $n$ Damen auf einem $n$x$n$ Schachbrett zu platzieren.

Für dieses Problem kann ebenfalls rekursives Backtracking, also Depth-First Search, zum Lösen genutzt werden. 

Dabei nutzen wir eine Liste mit bis zu $n$-Elementen als Datenstruktur, die am Index $i$ angibt, in welcher Reihe in der $i$-ten Spalte eine Dame platziert wurde. Aufgrund der Tatsache, dass eine Dame ihre komplette Spalte schlägt, ist trivial, dass sich in jeder Spalte nur eine Dame befinden kann. Da $n$ Damen auf $n$ Reihen verteilt werden, folgt, dass in jeder Spalte genau eine Dame stehen muss.

Die Liste [0, 4, 7, 5, 2, 6, 1, 3] beschreibt dabei folgende Stellung:

<img src="https://webinstitute.files.wordpress.com/2012/04/8-queens2.png?w=660" width="250">

Man fängt mit einem leeren Schachbrett an - dies wird durch eine leere Liste repräsentiert. Nun wird schrittweise in jeder Spalte eine Dame platziert. Dabei werden alle Reihen von 0 bis $n-1$ durchprobiert. Dies bedeutet, dass $n$-mal die Tiefensuche mit der entsprechenden Konfiguration aufgerufen wird. Es wird dabei geprüft, ob es sich bei der angegebenen Stellung noch um eine gültige Stellung handelt, d.h. keine Dame kann eine andere Dame schlagen. Ist dies der Fall, so wird weiter expandiert und in der nächsten Spalte der Algorithmus mit den den Reihen 0 bis $n-1$ rekursiv aufgerufen. Handelt es sich nicht um eine gültige Stellung, so wird eine leere Liste als Lösungsmenge zurückgegeben und der Computer macht - entsprechend nach dem Prinzip des Backtrackings - an der letzten Entscheidungsmöglichkeit weiter. Dies minimiert die Anzahl der zu überprüfenden Stellungen enorm, da - anders als bei einem Brute-Force Ansatz, bei dem alle Stellungen durchprobiert werden - nun auch alle folgenden Stellungen ausgeschlossen werden. 

In [48]:
def feasible(setting):
    if len(set(setting)) != len(setting):
        return False
    for i in range(len(setting)):
        for j in range(len(setting)):
            if j != i and (setting[j] == setting[i] - i + j or setting[j] == setting[i] + i - j):
                return False
    return True


def n_queens(n, setting=[]):
    if not feasible(setting):
        return []
    if len(setting) == n:
        return [list(setting)]
    solutions = []
    for i in range(n):
        solutions += n_queens(n, setting + [i])
    return solutions


print('Solutions of the 4 queens problem:', end=' ')
print(n_queens(4))
print('Number of solutions of the 8 queens problem:', end=' ')
print(len(n_queens(8)))

Solutions of the 4 queens problem: [[1, 3, 0, 2], [2, 0, 3, 1]]
Number of solutions of the 8 queens problem: 92


## Breadth-First Search

Bei Breadth-First Search (Breitensuche) wird - anders als bei Depth-First Search - gleichmäßig vom Wurzelknoten (der Knoten, von dem aus gesucht wird) nach Knoten gesucht. Gleichmäßig bedeutet dabei, dass, bevor man weiter in die Tiefe des Graphen expandiert, zunächst alle Knoten einer Ebene abarbeitet. Zwei Knoten sind dabei auf der gleichen Ebene, wenn sie die gleiche Anzahl an Knoten zum Wurzelknoten entfernt sind.

Dieses gleichmäßige Voranschreiten der Suchtiefe wird erzielt, indem man eine Queue als Datenstruktur verwendet, um die gefundenen Knoten zwischenzuspeichern. Dies führt dazu, dass bei einem gefundenen Knoten nicht direkt weiter in die Tiefe gegangen wird, sondern dieser Knoten ans Ende der Queue gelegt wird und zunächst alle anderen Knoten, die sich weiter vorne in der Queue befinden abgearbeitet werden.

__Implementation mit folgendem Beispiel:__

<img src="https://upload.wikimedia.org/wikipedia/commons/4/46/Animated_BFS.gif" width="200">

In [49]:
import queue


def bfs(root):
    found = set()
    q = queue.Queue()
    print(root.name, end=' ')
    q.put(root)
    found.add(root)
    while not q.empty():
        current = q.get()
        for node in current.adj:
            if node[0] not in found:
                print(node[0].name, end=' ')
                q.put(node[0])
                found.add(node[0])


a = Node('a')
b = Node('b')
c = Node('c')
d = Node('d')
e = Node('e')
f = Node('f')
g = Node('g')
h = Node('h')

a.add_to_adj_lst(b)
a.add_to_adj_lst(c)
b.add_to_adj_lst(d)
b.add_to_adj_lst(e)
c.add_to_adj_lst(f)
c.add_to_adj_lst(g)
e.add_to_adj_lst(h)

bfs(a)

a b c d e f g h 

### Single-Source Shortest Path

Um in einem ungewichteten Graphen, bzw. in einem gewichteten Graphen, bei dem alle Kanten das gleiche Gewicht haben, den kürzesten Weg von einem Quellknoten aus zu finden, kann die Breitensuche verwendet werden. Da die Breitensuche gleichmäßig von Ebene zu Ebene expandiert, muss man lediglich während der Breitensuche mitzählen, in welcher Ebene man sich befindet. Diese Ebene gibt an, wie weit der jeweils gefundene Knoten vom Quellknoten entfernt ist (Anzahl der Kanten auf dem Pfad).

In [50]:
def bfs_shortest_path(source, target):
    if source == target:
        return 0
    node_to_level = {}
    q = queue.Queue()
    q.put(source)
    current_level = 0
    node_to_level[source] = current_level
    while not q.empty():
        current = q.get()
        current_level = node_to_level[current]
        for node in current.adj:
            if node[0] not in node_to_level:
                if node[0] == target:
                    return current_level + 1
                q.put(node[0])
                node_to_level[node[0]] = current_level + 1
    return None


print('distance from a to b: ', bfs_shortest_path(a, b))
print('distance from a to g: ', bfs_shortest_path(a, g))
print('distance from a to h: ', bfs_shortest_path(a, h))

distance from a to b:  1
distance from a to g:  2
distance from a to h:  3
