# Komplexitätstheorie und NP-vollständige Probleme

In den bisherigen Kapiteln wurden verschiedene Probleme behandelt und deren Lösungsaufwand analysiert. Für einige von ihnen haben wir effiziente Algorithmen gefunden. Effizient bedeutet dabei, dass die Laufzeit durch ein Polynom (möglichst geringen Grades) in der Problemgröße nach oben beschränkt werden konnte. 

Leider gibt es sehr viele Probleme, für die das nicht möglich ist. Beispielsweise konnte für das 0/1-Rucksackproblem selbst mit Dynamic Programming in Bezug auf die Stelligkeit der Eingabe nur ein Exponentialzeit-Algorithmus gefunden werden. Zahlreiche Probleme mit großer praktischer Relevanz sind ähnlich schwer. Ein Beispiel ist die *Primfaktorzerlegung einer natürlichen Zahl*. Aus der Zahlentheorie ist bekannt, dass jede natürliche Zahl eine eindeutige Primfaktorzerlegung besitzt. Um sie zu bestimmen, "braucht man ggf. unfassbar viel Geduld".

Neben den "klassischen" *Such-* und *Sortierproblemen* gibt es mit den *Optimierungsproblemen* eine weitere wichtige Problemklasse. Deren Lösung besteht darin, ein Ergebnis zu finden, dass in Bezug auf eine Zielgröße optimal (maximal bzw. minimal) ist. Beispiele hierfür sind das Kürzeste-Wege-Problem, das Rucksackproblem und das Traveling Salesman Problem (TSP).

In der theoretischen Informatik werden hauptsächlich *Entscheidungsprobleme* (decision problems) betrachtet. Dies sind Probleme, bei denen die Lösung entweder *JA* (true) oder *NEIN* (false) lautet. Beispiel für ein Entscheidungsproblem: "Ist $k$ eine Primzahl?" Die Frage "Ist 123 eine Primzahl?" nennt man eine Instanz dieses Entscheidungsproblems.

Auf der einen Seite sind Such- und Optimierungsprobleme für die Praxis besonders relevant und auf der anderen Seite sind Entscheidungsprobleme sehr gut erforscht. Dies führt zu der Frage, ob sich die Komplexität eines Optimierungsproblems auf die Komplexität eines zugehörigen Entscheidungsproblems zurückführen lässt. Dies ist in der Tat möglich!

Das zu einem Optimierungsproblem $OP$ gehörende Entscheidungsproblem $EP$ konstruiert man unter Verwendung der Lösung von $OP$. Die Entscheidungsvariante des TSP lautet: "Gibt es eine Rundreise, deren Länge geringer ist als $s$ ?". $s$ wird also als Schranke $EP$ eingebaut. Nun hat man ein Entscheidungsproblem, das genauso aufwändig ist und das man im Sinne der theoretischen Informatik, genauer der Komplexitätstheorie und Berechenbarkeitstheorie, betrachten kann.

Die Komplexitätstheorie beschäftigt sich mit dem Aufwand von Problemlösungen. In der Berechenbarkeitstheorie geht es um die algorithmische Lösbarkeit eines Problems. Da für das TSP alle möglichen Städtefolgen durchprobiert werden können, handelt es sich um ein entscheidbares Problem allerdings mit exponentiellem Zeitaufwand.

## P und EXP

__Definition 13.1__
Die Komplexitätsklasse $P$ enthält alle Entscheidungsprobleme, die sich mit einer deterministischen Turing-Maschine (DTM) mit polynomialem Zeitaufwand lösen lassen. Sie liegen in $\mathcal{O}(n^{\mathcal{O}(1)})$.

Zur Aufwandsbestimmung werden die erforderlichen Arbeitstakte (= Anzahl der Konfigurationenübergänge) der betrachteten DTM "gezählt". Dies ist notwenig, um von den konkreten Gegebenheiten (Messung der Laufzeit eines Verfahrens, das auf einer bestimmten Hardware im Netz ausgeführt wird) zu abstrahieren.

Glücklicherweise fallen sehr viele Probleme in die Kategorie $P$, z.B. das Single Source Shortest Path-Problem oder das Problem des Minimalen Spannbaums.

__Definition 13.2__
Die Komplexitätsklasse $EXP$ enthält alle Entscheidungsprobleme, die sich mit einer deterministischen Turing-Maschine mit exponentiellem Zeitaufwand lösen lassen.
Sie liegen in $\mathcal{O} \left( \mathcal{O}(k)^{n^{\mathcal{O}(1)}} \right)$ mit $k>1$.

Da jedes Polynom durch eine Exponentialfunktion nach oben beschränkt werden kann, gilt offensichtlich $P \subset EXP$.

<img src="img/P_subset_EXP.png" width="200">

## NP und NEXP

__Definition 13.3__
Die Komplexitätsklasse $NP$ enthält alle Entscheidungsprobleme, die sich mit einer nichtdeterministischen Turing-Maschine (NTM) mit polynomialem Zeitaufwand (exakt) lösen lassen.

$NP$ steht dabei für nichtdeterministisch polynomial. Eine nichtdeterministische Turing-Maschine (NTM) ist ein Berechenbarkeitsmodell, das "die richtige" Fortsetzung erraten kann. Durch "magische Kräfte" ist es in der Lage, falls es eine Entscheidungsmöglichkeit gibt, immer die zu wählen, die im Entscheidungsproblem zur JA-Antwort führt, falls es einen solchen Weg gibt. Findet dieses Raten nur polynomial oft aus polynomial vielen Antwortmöglichkeiten statt, so ist das Problem nichtdeterministisch in Polynomialzeit lösbar, es liegt also in $NP$.

Man kann zeigen, dass ein Problem in $NP$ liegt, indem man ein nichtdeterministisches Lösungsverfahren, das (nichtdeterministisch) in Polynomialzeit läuft, für dieses Problem angibt.

Für das 0/1-Rucksackproblem kann man folgenden Algorithmus angeben: man rät für jeden der $n$ Gegenstände, ob man ihn in den Rucksack legen soll oder nicht. Da die NTM in der Lage ist, die Antwort immer so zu wählen, dass die Lösung optimal wird (bzw. in Form des Entscheidungsproblems den gegebenen Wert überschreitet oder nicht), funktioniert der Algorithmus. Da das Raten $n$-mal von 2 Auswahlmöglichkeiten statfindet, handelt es sich um nichtdeterministische Polynomialzeit. Somit ist das 0/1-Rucksackproblem in $NP$.

__Definition 13.4__
Die Komplexitätsklassse $NEXP$ enthält alle Entscheidungsprobleme, die sich mit einer NTM mit exponentiellem Zeitaufwand lösen lassen.

<img src="img/P_NP_EXP_NEXP.png" width="250">

Alternativ gilt für $NP$ auch die Definition, dass das Zertifikat einer Lösung mit einer DTM in Polynomialzeit verifiziert werden kann. Das Zertifikat einer Lösung ist so etwas wie die genaue Zusammensetzung der Lösung, bzw. der Lösungsweg. Beim TSP wäre es die Abfolge der Knoten, beim Rucksackproblem die Menge der Gegenstände, die in den Rucksack gepackt werden. Kann man nun deterministisch in Polynomialzeit diese Lösung auf Richtigkeit prüfen, so ist das Problem in $NP$.

Auch anhand dieser Definition ist offensichtlich dass $P$ eine Teilmenge von $NP$ ist: Wenn ein Problem in Polynomialzeit gelöst werden kann, kann man die potenzielle Lösung in Polynomialzeit verifizieren, indem man sie einfach verwendet.

## R

__Definition 13.5__
Die Komplexitätsklasse $R$ enthält alle Entscheidungsprobleme, die mit einer Turing-Maschine in endlicher Zeit gelöst werden können. Sie stellt die Menge aller *entscheidbaren  Sprachen* (= rekursiven Sprachen; daher das $R$) dar, welche eine echte Teilmenge aller rekursiv aufzählbaren Sprachen $RE$ ist.

$R$ enthält also alle entscheidbaren Probleme.

Es gibt in der Tat Probleme, die nicht in $R$ liegen und somit nicht entscheidbar sind.

Ein Beispiel für ein unentscheidbares Problem ist das *Halteproblem*. Es stellt die Frage nach der Existenz eines Programms, das für ein beliebiges Programm und dessen (passende) Eingaben feststellt, ob es terminiert oder nicht. Ein weiteres unentscheidbares Problem ist das Wortproblem für rekursiv aufzählbare Sprachen (Chomsky-Typ-0-Sprachen). (Die exemplarisch genannten Sprachen sind semi-entscheidbar.)

<img src="img/R.png" width="270">

## NP-schwere Probleme

Im Folgenden betrachten wir die Klassen $P$ und $NP$. Es geht darum herauszufinden, ob $P=NP$ gilt. Dies würde bedeuten, dass Probleme, die sich mittels Nichtdeterminismus in der oben beschriebenen Weise darstellen lassen, d.h. in $NP$ liegen, deterministisch in Polynomzeit lösen ließen. 

Offensichtlich gilt $P\subset NP$, wobei man ganz formal das nichtdeterministische Pendant aus der (in Polynomzeit berechneten) Lösung gewinnt. Ein Orakel "rät" jeweils aus einer Einermenge. Das "Raten" geschieht also nur polynomial oft aus polynomial vielen Antwortmöglichkeiten. 

Aber wie steht es mit $NP$-Problemen und $P=NP$? Um diese Frage enorm zuzuspitzen, definieren wir unter Verwendung einer neuen Methode (polynomiale Reduktion) zwei neue Problemklassen (NPH, NPC). 

__Definition 13.6__
Ein Problem ist $NP$-schwer ($NP$-hard, kurz: $NPH$), wenn es mindestens so schwer ist, wie die schwersten Probleme in $NP$.
Sei $L′\subseteq\Sigma^*$. $L'$ heißt **NP-schwer**, wenn gilt:
$\forall L\in NP: L\leq_p L'$. (Alle $L$ aus $NP$ sind polynomial reduzierbar auf $L'$.) 

<img src="img/NPH01.png" width="500">

Wie zeigt man das für ein betrachtetes Problem? Hierfür verwenden wir ein Verfahren, das man polynomiale Reduktion nennt.

## Polynomiale Reduktion

__Definition 13.7__
Seien $L$ und $L'$ zwei Entscheidungsprobleme mit $L, L' \subset \Sigma^*$.
$L$ ist auf die Sprache $L'$ **polynomial reduzierbar**, wenn es eine *totale* und *in Polynomialzeit berechenbare* Funktion $f: \Sigma^* \to \Sigma^*$ gibt, so dass für alle Wörter $w \in \Sigma^*$ gilt: $w \in L \Leftrightarrow f(w) \in L'$.
Für die Reduktion von $L$ auf $L'$ schreibt man $L \leq_p L'$.

Bei der polynomialen Reduktion $L \leq_p L'$ wird eine Transformation angegeben, durch die die Lösung eines Problems $L$ auf die Lösung des Problems $L'$ verlagert wird. D.h., jede Probleminstanz von $L$ wird (mittels $f$) in eine von $L'$ "umgerechnet" und gelöst, was einer Lösung von $L$ entspricht.

<img src="img/PolyReduktion01.png" width="500">

Liegt die Reduktion $L \leq_p L'$ vor, so kann man sagen:

- $L$ ist im Wesentlichen nicht schwieriger als $L'$.
- $L'$ ist mindestens so schwierig wie $L$.


## NP-Vollständigkeit

__Definition 13.8__
Ein Problem ist $NP$-vollständig ($NP$-complete, kurz: $NPC$), wenn es in $NP$ liegt und $NP$-schwer ist.

Um zu zeigen, dass ein Problem $NP$-vollständig ist, muss man also zeigen, dass es in $NP$ ist und dass es $NP$-schwer ist. 

Um zu zeigen, dass ein Problem in $NP$ ist, reicht es aus einen nichtdeterministischen Polynomialzeit Algorithmus anzugeben. 

Um zu beweisen, dass ein Problem $L'$ $NP$-schwer ist, muss man zeigen, dass sich *alle* Probleme aus $NP$ auf das Problem $L'$ reduzieren lassen. Das wäre allerdings sehr sehr aufwendig, falls überhaupt erfolgreich: Schließlich gibt es sehr viele Probleme in $NP$.

Deshalb machen wir uns die Tatsache zunutze, dass sich jedes Problem aus $NP$ auf jedes $NP$-vollständige Problem $L$ reduzieren lässt. Gelingt die Reduktion von $L$ auf $L'$, so ist durch die Transitivität der polynomialen Reduktion die $NP$-Schwere von $L'$ bewiesen. 

<!-- <img src="img/polynomial_reduction_from_NP.png" width="300"> -->
<img src="img/NPC-Nachweis.png" width="500">

Wenn $L'$ außerdem in $NP$ liegt, ist $L'$ ein $NP$-vollständiges Problem. Zum Nachweis immer neuer $NP$-vollständiger Probleme $L'$ ist also prinzipiell nur ein einziges bekanntes $NP$-vollständiges Problem $L$ erforderlich. Man nimmt im Allgemeinen das $L$, das am besten zu $L'$ passt.

In der folgenden Abb. werden die Komplexitätsklassen $P$, $NP$, $NPC$, $NPH$ und $EXP$ (identisch mit $EXPTIME$) unter der Annahme $P \neq NP$ zusammengestellt.

<img src="img/NPC_NPH.png" width="250">

## Satz von Cook (1971): Das Henne-und-Ei-Problem

Durch polynomielle Reduktion eines $NP$-vollständigen Problems $L$ auf ein (neu zu klassifizierendes) Problem $L'$ lässt sich zeigen, dass $L'$ $NP$-vollständig ist. Jedoch muss es (wenigstens) ein $NP$-vollständiges Problem geben, dass nicht mit Hilfe polynomialer Reduktion eines anderen, schon vorhandenen, $NP$-vollständigen Problems als solches nachgewiesen wurde. 

__Satz von Cook:__
Das Erfüllbarkeitsproblem der Aussagenlogik (SAT, siehe weiter unten; satisfiability) ist $NP$-vollständig.

Die $NP$-Vollständigkeit des "ersten" $NP$-vollständigen Problems (SAT) wurde von Stephen Cook auf eine andere, sehr aufwändige Art und Weise nachgewiesen. Die Bedeutung des Cook'schen Beweises für die Komplexitätstheorie ist mit der Cantor'schen Diagonalisierung in der Berechenbarkeitstheorie zu vergleichen.

Die Beweisidee beruht darauf, dass jedes Merkmal einer Turing-Maschine als aussagenlogische Formel interpretiert wird.

Da man nun das "erste" $NP$-vollständige Problem gefunden hat, kann man von diesem aus per polynomialer Reduktion die $NP$-Vollständigkeit entsprechender Problemen nachweisen. Und von diesem "neuen" $NP$-vollständigen Problem kann man per Reduktion weitere Probleme als $NP$-vollständig beweisen.

## P vs. NP Problem

Das $P-NP$-Problem ist das wohl bedeutsamste ungelöste Problem in der Informatik. Es stellt die Frage, ob $P = NP$ oder $P \neq NP$ gilt, d.h. ob $P$ und $NP$ die gleichen Mengen sind, oder ob es Probleme gibt, die in $NP$ liegen, aber nicht in $P$.

__Satz 13.1__
Wenn $A$ ein $NP$-vollständiges Problem ist, dann gilt: $A\in P\Leftrightarrow P=NP$.

Man kann zeigen, dass die Menge $NP \setminus (NPC \cup P)$ unter der Annahme $P \neq NP$ nicht leer ist. Das Primzahlproblem ist vermutlich weder in $P$ noch $NP$-vollständig ($NPC$). Niemand weiß dies wirklich.

Die Komplexitätstheorie hat also für eine enorme Zuspitzung der Frage nach der Existenz von Polynomialzeitalgorithmen gesorgt, für Probleme, die (vermutlich) nicht effizient gelöst werden können. Die Tatsache, dass es trotz enormer Anstrengungen bis heute niemanden gelungen ist, auch nur ein einziges solche $NP$-vollständiges Problem in Polynomialzeit zu lösen, stützt die Vermutung, dass es keine Polynomialzeit-Lösungen für alle $NP$-Probleme gibt.

Bewiesen ist dies allerdings noch nicht. Dass es noch niemandem gelungen ist, einen Polynomialzeitalgorithmus für ein $NP$-vollständiges Problem anzugeben, heißt nicht, dass es keinen geben kann. Würde es gelingen, für ein einziges $NP$-vollständiges Problem $A$ einen Polynomialzeitalgorithmus anzugeben, so würde daraus $P = NP$ folgen, da man jedes Problem aus $NP$ auf das Problem $A$ reduzieren könnte, und dank dieses neuen Algorithmus' in Polynomialzeit lösen könnte. Dies würde jedes Problem aus $NP$ automatisch zu einem Problem in $P$ machen.

Gelänge andererseits für ein einziges $NP$-vollständiges Problem der Nachweis, dass die untere Schranke für den Berechnungsaufwand in $\Omega(\Theta(1)^n)$ liegt, so hätte man ein Problem gefunden, dass nachweislich in $NP$ liegt, aber nicht in $P$ und es wäre nachgewiesen, dass die Mengen $P$ und $NP$ nicht gleich sind. Wir *wüssten* dann, dass $P \neq NP$ bzw. $P \subsetneq NP$. Die Befunde legen nahe, dass dies so ist, einen Beweis ergeben sie nicht.

## Beispiele für NP-vollständige Probleme

### SAT Problem

Beim SAT-Problem, auch *Boolean satisfiability problem* genannt, geht es um die Frage nach der Erfüllbarkeit eines aussagenlogischen Ausdrucks in konjunktiver Normalform. Klauseln sind Disjunktionen von Literalen (negierten und unnegierten Variablen) der Form $(x_1\lor x_2\lor\ldots\lor x_k), k\leq n$. Diese Klauseln werden mittels "$\land$" verknüpft. In folgendem Beispiel ist $n=3$.
$$
(x_1 \lor x_2) \land \overline{x_3} \land \overline{x_1}
$$
Die Frage ist nun nach einer Belegung der in der Formel vorkommenden Variablen (jeweils entweder mit $0$ oder $1$), sodass der gesamte Ausdruck wahr ($1$) wird.
Die aussagenlogische Formel im Beispiel ist mit der Belegung $x_1 = 0, x_2 = 1, x_3 = 0$ erfüllbar. Hingegen ist
$$
(x_1 \lor x_2) \land x_3 \land \overline{x_2} \land (\overline{x_1} \lor \overline{x_3})
$$
nicht erfüllbar.

Ein deterministisches Lösungsverfahren erfordert eine Tabelle für alle möglichen Belegungen der $n$ Variablen. Dies sind $2^n$ Stück. Eine Baumdarstellung unterstreicht optisch den exponentiellen Lösungsaufwand. Unter Nutzung des Nichtdeterminismus hingegen muss $n$-mal "geraten" werden, für jede vorkommende Variable $x_1,x_2,\ldots,x_n$ genau einmal: entweder $0$ oder $1$. Für die so gewählte Belegung kann in Polynomzeit festgestellt werden, ob der Wert des gesamten Ausdrucks $1$ ist oder nicht. Somit liegt das Problem in $NP$.

Das $n$-SAT-Problem für $n\leq 2$ liegt in $P$ und für $n\geq 3$ ist es $NP$-vollständig. Das macht insbesondere das $3$-SAT-Problem so interessant.

### 3-SAT Problem

Beim 3-SAT Problem geht es wie beim SAT Problem um die Erfüllbarkeit einer aussagenlogischen Formel. Jedoch handelt es sich um eine aussagenlogische Formel, die in konjunktiver Normalform (CNF) mit maximal 3 Literalen (3CNF) vorliegt.

Ein Beispiel für einen solchen Ausdruck mit $n=4$:

$$
(\overline{x_1} \lor x_2 \lor x_3) \land (x_2 \lor \overline{x_3} \lor x_4) \land (x_1 \lor \overline{x_2})
$$

Die geklammerten Ausdrücke, wie $(\overline{x_1} \lor x_2 \lor x_3)$, werden Klauseln (clauses) genannt. Die negierten und nichtnegierten Variablen stehen für die Literale, so wie weiter oben bereits ausgeführt wurde.

Nun stellt sich die Frage, wie man zeigt, dass das 3SAT-Problem $NP$-vollständig ist, genauer wie man von einem $NP$-vollständigen Problem auf das 3SAT-Problem reduziert. Da das SAT-Problem dem 3SAT-Problem sehr ähnlich ist, ist offensichtlich, dass dieses Problem als Ausgangspunkt für die polynomielle Reduktion geeignet ist: $SAT\leq_p 3SAT$. 

Man muss also einen Weg finden, eine beliebige aussagenlogische Formel in die konjunktive Normalform mit maximal 3 Literalen bringen. Dafür muss man zunächst die aussagenlogische Formel in konjunktive Normalform bringen. Hierfür werden die De Morgan'schen Regeln und das Distributivgesetz angewandt. Zunächst werden alle Negationen in die Negationsnormalform gebracht, dafür werden folgende Umformungen vorgenommen:

$$
\begin{align*}
\overline{P \lor Q} & \rightarrow \overline{P} \land \overline{Q} \\
\overline{P \land Q} & \rightarrow \overline{P} \lor \overline{Q}
\end{align*}
$$

Anschließend wird das Distributivgesetz angewandt, bis nur noch Konjunktion (und-Verknüpfungen) über Disjunktionen (oder-Verknüpfungen) vorliegen.

$$
P \lor (Q \land R) \rightarrow (P \lor Q) \land (P \lor R)
$$

Nun muss sichergestellt werden, dass sich in jeder Klausel maximal 3 Literale befinden. Hierfür muss man einen Weg finden eine Klausel mit mehr als 3 Literalen in einen Ausdruck umzuformen, der maximal 3 Literale pro Klausel hat und die gleiche Entscheidbarkeit hat.

Hat man beispielsweise die Klausel $(x_1 \lor x_2 \lor x_3 \lor x_4 \lor x_5)$, so kann man durch Hinzufügen zusätzlicher Variablen den Ausdruck umformen. Die Regel lautet, dass die Entscheidbarkeit von $(x_ 1 \lor x_2 \lor A)$ die gleiche ist, wie die von $(x_1 \lor x_2 \lor y_1) \land (\overline{y_1} \lor A)$. Es handelt sich jetzt nicht mehr um eine äquivalente aussagenlogische Formel, da eine neue Variable eingefügt wurde, jedoch bleibt die Entscheidbarkeit die gleiche. $(x_1 \lor x_2 \lor x_3 \lor x_4 \lor x_5)$ würde man Schrittweise zu 3 Klauseln umformen, allgemein gesagt zu $n-2$ Klauseln.

$$
(x_1 \lor x_2 \lor x_3 \lor x_4 \lor x_5) \\
(x_1 \lor x_2 \lor y_1) \land (\overline{y_1} \lor x_3 \lor x_4 \lor x_5) \\
(x_1 \lor x_2 \lor y_1) \land (\overline{y_1} \lor x_3 \lor y_2) \land (\overline{y_2} \lor x_4 \lor x_5)
$$

Die aussagenlogische Formel ist nun in 3CNF-Form und damit gültige Eingabe für das 3-SAT Problem.

Damit wurde eine Reduktion vom SAT-Problem auf das 3-SAT Problem angegeben. Daraus folgt, dass das 3-SAT Problem $NP$-schwer ist. Da man für jede der $n$ Variablen raten kann, ob sie wahr oder falsch sein soll, liegt das Problem in $NP$ und ist somit $NP$-vollständig.

### Cliquenproblem

Beim Cliquenproblem geht es darum, Cliquen in einem Graphen zu finden. Eine Clique ist eine Teilmenge von Knoten, bei denen jeder mit jedem verbunden ist.

__Beispiel für eine Clique der Größe 4__

<img src="https://www.researchgate.net/profile/Dan_Tulpan/publication/224841013/figure/fig1/AS:302845514534931@1449215405308/Example-of-maximum-clique-problem-The-largest-maximum-clique-has-size-4-and-is-the.png" width="180">

Für das Problem kann auf einer deterministischen Maschine folgender Backtracking Algorithmus angegeben werden. Dabei wird rekursiv das Problem mit Hinzufügen des Knotens zur Clique und ohne Hinzufügen des Knotens aufgerufen, das Ergebnis der beiden, welches eine größere Clique zurückgibt, wird in der Rekursionsebene darüber zurückgegeben.

In [10]:
class Node:
    def __init__(self, id):
        self.id = id
        self.adj = set()

    def add_to_adj(self, *nodes):
        for node in nodes:
            self.adj.add(node)

def is_adjacent(nodes):
    for node_a in nodes:
        for node_b in nodes:
            if node_a != node_b and node_b not in node_a.adj:
                return False
    return True

def clique(graph, clique_nodes=set(), index=0):
    if is_adjacent(clique_nodes):
        if index >= len(graph):
            return clique_nodes
        new_clique_nodes = set(clique_nodes)
        new_clique_nodes.add(graph[index])
        clique_with_node_at_index = clique(graph, new_clique_nodes, index + 1)
        clique_without_node_at_index = clique(graph, clique_nodes, index + 1)
        if len(clique_with_node_at_index) > len(clique_without_node_at_index):
            return clique_with_node_at_index
        return clique_without_node_at_index
    return set()

n1 = Node(1)
n2 = Node(2)
n3 = Node(3)
n4 = Node(4)
n5 = Node(5)
n6 = Node(6)

n1.add_to_adj(n2, n3)
n2.add_to_adj(n1, n4, n5, n6)
n3.add_to_adj(n1, n6)
n4.add_to_adj(n2, n5, n6)
n5.add_to_adj(n2, n4, n6)
n6.add_to_adj(n2, n3, n4, n5)

my_clique = clique([n1, n2, n3, n4, n5, n6])

for node in my_clique:
    print(node.id)

6
2
5
4


Das Optimierungsproblem fragt nach der größten Clique im Graphen. Das Entscheidungsproblem fragt, ob es im Graphen eine Clique gibt, die mindestens $k$ groß ist.

Es ist leicht zu zeigen, dass dieses Problem in $NP$ ist, schließlich kann man bei jedem Knoten raten, ob er zu einer Clique gehört, welche mindestens $k$ Knoten enthält.

Die $NP$-Schwere kann durch Reduktion des 3SAT-Problems gezeigt werden. Beim 3SAT-Problem ist es erfüllt, wenn jede der Klauseln wahr ist. Das Cliquenproblem ist erfüllt, wenn es eine Clique gibt, die mindestens die Größe $k$ hat. Dies kann man übertragen, indem man zunächst einen Graphen mit $k$ Knoten erstellt, bei dem jeder Knoten mit jedem verbunden ist. $k$ entspricht dabei die Anzahl der Klauseln.

__Beispiel__

$$
(x_1 \lor x_2 \lor \overline{x_3}) \land (\overline{x_2} \lor x_3) \land (\overline{x_1} \lor x_2 \lor \overline{x_3})
$$

<img src="img/clique_problem_1.png" width="400">

Nun muss man die Knoten, die Klauseln darstellen, durch die bis zu 3 Variablen ersetzen. Dies geschieht, indem man den einen Knoten durch 3 ersetzt und Kanten zu allen Variablen aus anderen Klauseln schafft. Allerdings darf die Kante nur gesetzt werden, wenn die beiden verbundenen Variablen so in der Kombination auftreten können. Dies ist bei $x_i$ und $\overline{x_i}$ nicht der Fall. Eine Variable kann nicht gleichzeitig wahr und falsch sein. Alle anderen Kombination sind möglich, auch eine Verbindung zwischen $x_i$ und $x_i$ bzw. $\overline{x_i}$ und $\overline{x_i}$, schließlich nehmen die Variablen in beiden Fällen den gleichen Wert an.

<img src="img/clique_problem_2.png" width="400">

Gesucht ist nun eine Clique der Größe $n$, d.h. der Anzahl der Klauseln, hier $n=3$.

<img src="img/clique_problem_3.png" width="400">

Somit ist die Formel beispielsweise für $x_1 = 1, x_2 = 0, x_3 = 0$ erfüllt.

Wir haben ein Verfahren angegeben, um das 3SAT-Problem in Polynomialzeit auf das Cliquenproblem zu reduzieren. Das Cliquenproblem ist damit $NP$-vollständig.

### Independent Set

Independent Set (stabile Menge) ist ebenfalls ein Problem aus der Graphentheorie. Eine Menge von Knoten ist eine stabile Menge, wenn sie zueinander nicht adjazent (benachbart) sind, d.h. nicht durch jeweils eine Kante miteinander verbunden sind. Beim Optimierungsproblem wird nach der größten stabilen Menge in einem Graphen gesucht. Beim Entscheidungsproblem wird die Frage gestellt, ob es eine stabile Menge mit mindestens $k$ Knoten im Graphen gibt.

__Beispiel__

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/34/Independent_set_graph.svg/850px-Independent_set_graph.svg.png" width="220">

Vergleicht man dieses Problem mit dem Cliquenproblem, so stellt man eine gewisse Ähnlichkeit fest. Beim Cliquenproblem ist eine Menge von Knoten gesucht, die benachbart und alle Kanten zwischen ihnen vorhanden sind. Beim Independent-Set-Problem ist eine Menge von Knoten gesucht, die gar keine Kanten untereinander haben.

Diese Erkenntnis kann genutzt werden, um eine Reduktion vom Cliquenproblem auf Independent Set zu konstruieren. Dafür werden beim Graphen überall dort, wo sich Kanten befinden, die Kanten entfernt und überall dort, wo sich zwischen zwei Knoten keine Kanten befanden, werden Kanten eingefügt. Nun löst man dieses Problem mit einem Algorithmus für Independent Set und erhält für das Optimierungsproblem die gleiche Menge an Knoten und für das Entscheidungsproblem die gleiche Antwort.

__Beispiel__

Cliquenproblem

<img src="img/clique.png" width="250">

Independent Set

<img src="img/independent_set.png" width="250">

Da das Independent Set-Problem in $NP$ liegt, ist das Problem $NP$-vollständig.

Man kann die Reduktion auch andersherum von Independent Set zum Cliquenproblem auf die gleiche Art und Weise definieren. Man muss lediglich dort Kanten setzen wo keine waren, und dort Kanten entfernen, wo welche waren. Im folgenden Beispiel wird Independent Set auf das Cliquenproblem reduziert und mit der bereits oben definierten Funktion gelöst.

In [13]:
def reduce_from_independent_set_to_clique(nodes):
    new_nodes = set(nodes)
    for node in new_nodes:
        adj_list = []
        for other_node in new_nodes:
            if node != other_node and other_node not in node.adj:
                adj_list.append(other_node)
        node.adj = adj_list
    return new_nodes


independent_set = clique(list(reduce_from_independent_set_to_clique({n1, n2, n3, n4, n5, n6})))

for node in independent_set:
    print(node.id)

3
4
