# Komplexität

<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->
Inhalt:

- [Lernziele](#Lernziele)
- [Material](#Material)
  - [Motivation](#Motivation)
  - [Analyse von Algorithmen](#Analyse-von-Algorithmen)
  - [Ein Beispielalgorithmus](#Ein-Beispielalgorithmus)
  - [Äquivalenzklassen und O-Notation](#Äquivalenzklassen-und-O-Notation)
  - [Beispiel: Insertion Sort](#Beispiel:-Insertion-Sort)
  - [Empirische Bestimmung der Zeitkomplexität](#Empirische-Bestimmung-der-Zeitkomplexität)
  - [Zur theoretischen Bestimmung der Zeitkomplexität von Insertion Sort](#Zur-theoretischen-Bestimmung-der-Zeitkomplexität-von-Insertion-Sort)
  - [Komplexität von Problemen](#Komplexität-von-Problemen)
  - [Literatur](#Literatur)
- [Aufgaben](#Aufgaben)
  - [Addition vs. Multiplikation](#Addition-vs.-Multiplikation)
  - [Binäre Suche](#Binäre-Suche)
  - [Komplexität erfahren](#Komplexität-erfahren)

<!-- markdown-toc end -->


<div class="alert alert-info">

## Lernziele

- das Konzept der Komplexität verstehen
- verschiedene Komplexitäten vergleichen können
- die Komplexität einfacher Algorithmen abschätzen können

</div>


## Material

<div class="alert alert-warning">

In dieser Lerneinheit befassen wir uns mit der *Komplexität* von
Algorithmen (z.B. Sortier- oder Suchverfahren). Dies ermöglicht uns,
verschiedene Algorithmen bezüglich ihres *Ressourcenaufwandes*
(v.A. Zeit und Speicherplatz) miteinander *vergleichen* zu können.
Dieses Wissen kann uns weiterhelfen, geeignete Verfahren auszuwählen
oder Probleme zu erkennen und ist relevant für das Verständnis von
[Operationen auf
Datenstrukturen](8_Operationen_auf_Datenstrukturen.ipynb).

Im Ablauf des Modulkurses ist diese Lerneinheit ein Einschub – Sie baut
nicht auf anderen Einheiten auf und wird im Wesentlichen von der
Lerneinheit [Operationen auf
Datenstrukturen](8_Operationen_auf_Datenstrukturen.ipynb)
benötigt.

Die Lerneinheit setzt das in der [vorherigen Lerneinheit](6_Algorithmen.ipynb) behandelte Konzept des
Algorithmus voraus.

</div>



<p style="text-align:center; font-weight: bold;">Algorithms</p>

<a title="There was a schism in 2007, when a sect advocating OpenOffice created a fork of Sunday.xlsx and maintained it independently for several months. The efforts to reconcile the conflicting schedules led to the reinvention, within the cells of the spreadsheet, of modern version control." href="https://xkcd.com/1667/">
  <img alt="XKCD Comic: Algorithms" src="https://imgs.xkcd.com/comics/algorithms.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



### Motivation

Obwohl wir heutzutage riesige Rechenzentren mit teilweise tausenden
von Rechnern haben ist der Entwurf effizienter Algorithmen eine große
Herausforderung. Oft kann die Wahl zwischen einem effizienten und
einem ineffizienten Algorithmus den Unterschied machen zwischen einer
praktikablen Problemlösung und einer unmöglichen.

<a title="Julian Herzog / CC BY (https://creativecommons.org/licenses/by/4.0)" href="https://commons.wikimedia.org/wiki/File:High_Performance_Computing_Center_Stuttgart_HLRS_2015_08_Cray_XC40_Hazel_Hen_IO.jpg"><img width="512" alt="High Performance Computing Center Stuttgart HLRS 2015 08 Cray XC40 Hazel Hen IO" src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9e/High_Performance_Computing_Center_Stuttgart_HLRS_2015_08_Cray_XC40_Hazel_Hen_IO.jpg/512px-High_Performance_Computing_Center_Stuttgart_HLRS_2015_08_Cray_XC40_Hazel_Hen_IO.jpg"></a>


<div class="alert alert-warning">

Beispielsweise betrieb Google im Jahr 2011 [ca. 900000
Rechner](https://www.datacenterknowledge.com/archives/2011/08/01/report-google-uses-about-900000-servers),
die [260 Millionen
Watt](https://www.nytimes.com/2011/09/09/technology/google-details-and-defends-its-use-of-electricity.html)
elektrischer Leistung benötigten. Wenn wir mit einem Preis von [$25
pro
Megawattstunde](https://www.datacenterknowledge.com/archives/2016/07/19/google-cuts-its-giant-electricity-bill-with-deepmind-powered-ai)
elektrischer Leistung rechnen, dann erhalten wir:

</div>


In [None]:
# Leistung * Tage pro Jahr * Stunden pro Tag * Dollar pro Megawattstunde
260 * 365 * 24 * 25


<div class="alert alert-warning">

also ca. \\$57 Millionen pro Jahr. Wenn wir vereinfacht davon
ausgehen, dass eine Verbesserung der Effizienz der von Google
eingesetzten Algorithmen um 10% den Stromverbrauch ebenfalls um 10%
senkt,¹ dann könnten dadurch jährlich $5 Millionen Stromkosten gespart
werden.

¹ Das ist sehr optimistisch, denn Rechner benötigen auch Strom wenn
Sie nichts tun und es gibt noch einige andere Mittel, den
Stromverbrauch zu reduzieren.

</div>



### Analyse von Algorithmen

Der Bereich *Computational Complexity* der Informatik befasst sich mit
der Analyse von Algorithmen in Bezug auf ihren
*Ressourcenverbrauch*. Im Fokus stehen dabei Größen wie *Laufzeit*,
*Speicherplatz* und auch (elektrische) *Energie*. Die Zuordnung von Algorithmen zu
verschiedenen *Komplexitätsklassen* ermöglicht dabei den Vergleich von
Algorithmen, die ein gegegebenes Problem lösen. Dabei kann jeweils
zwischen den drei Fällen *best/worst/average case* unterschieden
werden, die angeben, welche Ressourcen der Algorithmus im
besten/schlechtesten/mittleren Fall benötigt. Das wichtigste Konzept
bei der Analyse ist die *Verallgemeinerung* des Ressourcenverbrauchs
einer konkreten Implementierung eines Algorithmus für konkrete
Eingabedaten und Parameter auf unbekannte (beliebige) Eingabedaten
einer ganzen Klasse von Implementierungen des gleichen Algorithmus.
Dies ermöglicht zum Beispiel Aussagen zum Ressourcenverbrauch eines
Algorithmus für die Suche in einer sortierten Liste abhängig von der
Anzahl $n$ der Elemente der Liste (aber unabhängig von der konkreten Implementierung).

Die Komplexität wird dabei als *Funktion* $f(n)$ angegeben, die von
der Größe $n$ der zu verarbeitenden Daten abhängt. Da wir die
Komplexität nicht für konkrete Eingabedaten sondern allgemein für
*beliebige* Eingaben bestimmen wollen, müssen wir ein geeignetes Maß
zur Beschreibung der Größe der Eingabedaten wählen. Beispiele hierfür
sind
- die *Anzahl $n$ der Elemente* einer Liste bei Algorithmen zum
  Sortieren der Liste oder zur Suche in der Liste,
- die *Anzahl $n$ der Ziffern* bei Algorithmen zur Addition oder
  Multiplikation von Zahlen,
- die *Anzahl $n$ der Pixel* bei Algorithmen zur Bildverarbeitung
  (z.B. Schärfen oder künstlerische Effekte) oder
- die *Anzahl $n$ an Bytes* bei Algorithmen zur Datenkompression.

(Bei Algorithmen, die auf Graphen arbeiten (siehe Lerneinheit
[Operationen auf
Datenstrukturen](8_Operationen_auf_Datenstrukturen.ipynb)) muss man
prüfen, ob die *Anzahl der Knoten* oder die *Anzahl der Kanten*
entscheidend für die Komplexität des Algorithmus ist.)

Die *Speicherkomplexität* gibt an, wieviel Speicherplatz ein
Algorithmus in Abhängigkeit von der Größe der Eingabedaten
benötigt. Im folgenden fokussieren wir auf die *Zeitkomplexität*. Da
die tatsächliche *Laufzeit* eines Algorithmus von der konkreten
Implementierung und verwendeten Hardware abhängt, analysiert man
stattdessen die *Anzahl der Schritte*, die der Algorithmus in
Abhängigkeit von der Größe der zu verarbeitenden Daten benötigt. Dabei
werden nur die wesentlichen sich wiederholenden Schritte betrachtet.
Was das bedeutet und wie genau es funktioniert, wollen wir an einem
Beispiel betrachten.


<div class="alert alert-warning">

### Ein Beispielalgorithmus

Unser Algorithmus "sequentielle Suche" soll eine sortierte (!) Liste
nach einem Namen durchsuchen. Dies könnte z.B. eine Gästeliste sein,
in der wir nach dem Namen eines Gastes suchen.

</div>


In [None]:
liste = [
    "Anton",
    "Bob",
    "Camille",
    "Diana",
    "Edith",
    "Frank",
    "Gustav",
    "Hans",
    "Julia",
    "Karla",
    "Ludwig",
    "Maria"
]


<div class="alert alert-warning">

Der Algorithmus durchläuft die Einträge der Liste beginnend beim
ersten (kleinsten) Eintrag. Bei jedem Eintrag prüft er zunächst, ob
der Eintrag größer als der gesuchte Name ist. Ist das der Fall, bricht
der Algorithmus ab und gibt "False" (nein) zurück. Ansonsten prüft er,
ob der Eintrag gleich dem gesuchten Namen ist und gibt im positiven
Fall "True" (ja) zurück. Nur wenn der Eintrag kleiner als der gesuchte
Name ist, geht der Algorithmus zum nächsten Eintrag. Wird das Ende der
Schleife erreicht, ohne dass der Name gefunden wurde, wird "False"
zurückgegeben.

</div>


In [None]:
# Algorithmus "sequentielle Suche"
# Parameter: liste - sortierte Liste mit Einträgen (z.B. Namen)
#            name - in der Liste zu suchender Wert
# Ergebnis: True, falls name in liste enthalten, sonst False
def suche(liste, name):
    for eintrag in liste:     # Einträge der Liste durchlaufen
        if eintrag > name:    # eintrag ist größer als name
            return False      # name nicht gefunden
        elif eintrag == name: # eintrag ist gleich name
            return True       # name gefunden
    return False              # liste durchlaufen ohne name zu finden


<div class="alert alert-warning">

Nachdem wir die Liste und den Algorithmus definiert haben, können wir
ihn aufrufen, z.B. mittels

</div>


In [None]:
suche(liste, "Bob")


<div class="alert alert-warning">

In unserem Suchproblem ist die Eingabe eine Liste und (wie wir gleich
sehen werden) hängt die Komplexität von der Anzahl $n$ der Elemente
der Liste ab. Daher ist die Anzahl $n$ der Listenelemente ein
geeignetes und (für diese Art von Problemen) sinnvolles Maß zur
Beschreibung der Größe der Eingabedaten. Wir bestimmen also die
Komplexität des Algorithmus in Abhängigkeit der Listengröße $n$ – und
suchen daher eine Funktion $f(n)$, die die Komplexität beschreibt.

Unser Algorithmus durchläuft die $n$ Elemente der Liste, bis er den
gesuchten Namen findet oder merkt, dass der Name nicht mehr auftreten
kann, weil der aktuelle Eintrag größer als der gesuchte Name ist (da
die Liste sortiert ist).

- Im günstigsten Fall (*best case*) ist der erste Eintrag gleich dem
  gesuchten Namen. Der Algorithmus bricht nach einem Schritt ab.
- Im ungünstigsten Fall (*worst case*), enthält die Liste den Namen
  nicht bzw. erst an letzter Stelle und muss komplett durchlaufen
  werden. Dann durchläuft der Algorithmus die `for`-Schleife $n$-mal.
- Im Mittel (*average case*) wird der Name bei der Hälfte der Einträge
  gefunden, also nach $n/2$ Einträgen.

Der günstigste Fall tritt eher selten ein und hilft uns daher nicht
sonderlich weiter, die Komplexität des Algorithmus zu verstehen. Es
wird daher meist der mittlere oder ungünstigste Fall betrachtet. Wir
betrachten im folgenden stets die mittlere Komplexität, also den
*average case*.

Bei dieser Betrachtung schauen wir uns im Wesentlichen an, wieviele
Einträge der Algorithmus durchläuft bzw. bearbeitet. Die konkreten
Schritte für einen Eintrag werden vernachlässigt, da sie einen
konstanten Zeitaufwand benötigen und damit unabhängig von der Größe
der Eingabe sind.

Unser Algorithmus "sequentielle Suche" hat also eine mittlere
Zeitkomplexität von $n/2$, d.h. unsere Funktion $f(n)$, die die
Komplexität des Algorithmus beschreibt lautet $f(n) = n/2$.

</div>



### Äquivalenzklassen und O-Notation

Um die Komplexität verschiedener Algorithmen vergleichen zu können,
vergleichen wir nicht direkt die Funktionen, die die Anzahl der
Schritte angeben, sondern wir ordnen die Funktionen sogenannten
*Äquivalenzklassen* zu. Dabei vereinfachen wir die Funktionen zu ihren
Grundformen:

- konstante Ausdrücke (z.B. $5$) vereinfachen wir zu $g(n) = 1$
- lineare Ausdrücke (z.B. $3n$, $23n + 5$) vereinfachen wir zu $g(n) =
  n$
- quadratische Ausdrücke (z.B. $n^2 + 4n + 2$, $\frac{1}{5}n^2$)
  vereinfachen wir zu $g(n) = n^2$
- logarithmische Ausdrücke (z.B. $4\log_2 n + 5$) vereinfachen wir zu
  $g(n) = \log_2 n$

Wir entfernen also konstante Faktoren und Summanden sowie alle
Glieder, die langsamer wachsen als das am schnellsten wachsende Glied.

Formalisiert ist dies in der sogenannten $\mathcal{O}$-Notation
(gesprochen "groß-O-Notation"): Wir sagen "$f(n)$ ist groß-O von g(n)"
oder "$f$ ist von der Größenordnung $g$" (geschrieben $f(n) =
\mathcal{O}(g(n))$), wenn zwei natürliche Zahlen $c$ und $n_0$
existieren, so dass für alle $n \geq n_0$ die Funktion $f(n)$ kleiner
oder gleich $c\cdot g(n)$ ist (also $f(n) \leq c\cdot g(n)$ gilt).
Das bedeutet, dass $f$ nicht wesentlich schneller wächst als die
Funktion $g$.

Bezogen auf die Komplexität eines Algorithmus sagen wir dann, dass der
Algorithmus eine Komplexität von $\mathcal{O}(g(n))$ hat. 

<div class="alert alert-warning">

Die Funktion $f(n) = n/2$, die die Zeitkomplexität der sequentiellen
Suche angibt, ist für alle natürlichen Zahlen $n$ stets kleiner als
$g(n) = n$ (formal $c = n_0 = 1$).  Damit ist $f$ von der
Größenordnung $n$ und die Zeitkomplexität der sequentiellen Suche ist
$\mathcal{O}(n)$:

</div>


In [None]:
%matplotlib inline
import matplotlib.pyplot as plt       # Plotten
import numpy as np                    # Rechnen

n = np.linspace(1, 100, 100)          # Werte

plt.plot(n, n/2, label='f(n) = n/2')  # f(n) plotten
plt.plot(n, n,   label='g(n) = n')    # g(n) plotten
plt.legend(loc='upper left')          # Legende anzeigen
plt.show()


<div class="alert alert-warning">

Im Plot können wir deutlich sehen, dass $g(n) = n$ stets größer als
$f(n) = n/2$ ist.

</div>


<div class="alert alert-warning">

Betrachten wir als weiteres Beispiel die (fiktive) Funktion $f(n) =
n^2 + 4n + 2$. Durch scharfes Hinschauen können wir sehen, dass $f(n)
= \mathcal{O}(n^2)$. Aber wie könnten wir das formal zeigen? Im Plot
unten sehen wir, dass $f$ schneller als $n^2$ wächst. Allerdings
verlangt die groß-O-Notation ja nur, dass $f$ höchstens so schnell wie
$c\cdot n^2$ wächst (für eine natürliche Zahl $c$ und alle $n$ die
größer als ein festes $n_0$ sind). Wie wir $c$ und $n_0$ berechnen
könnten, würde hier zu weit führen, aber mit etwas Probieren ist es
nicht schwierig. Versuchen wir es mit $c=2$ und schauen wir uns den
Verlauf von $2\cdot n^2$ an:

</div>


In [None]:
n = np.linspace(1, 10, 10)                               # Werte

plt.plot(n, n**2 + 4*n + 2, label='f(n) = n² + 4n + 2')  # f(n)
plt.plot(n, n**2,           label='g(n) = n²')           # g(n)
plt.plot(n, 2*n**2,         label='2⋅g(n) = 2⋅n²')       # c⋅g(n)
plt.legend(loc='upper left')                             # Legende
plt.show()


<div class="alert alert-warning">

Spätestens ab $n=5$ wächst $2\cdot n^2$ schneller als $f(n) = n^2 +
4n + 2$ und damit haben wir gezeigt, dass in der Tat $f(n) =
\mathcal{O}(n^2)$ gilt.

</div>

Um jetzt die Komplexität zweier Algorithmen vergleichen zu können,
vergleichen wir ihre Äquivalenzklassen. Anschaulich geht das recht gut
über die Graphen der zugehörigen Funktionen. Wächst der Graph einer
Äquivalenzklasse langsamer als der einer anderen, so ist ihre
Komplexität geringer.

<div class="alert alert-success">

Vergleichen Sie die Komplexität der Klassen $\mathcal{O}(n^2)$
(Python: `n**2`), $\mathcal{O}(\log_2 n)$ (`log2(n)`),
$\mathcal{O}(n)$ und $\mathcal{O}(n^3)$ in absteigender Reihenfolge
nach ihrer Effizienz.  Plotten Sie dazu die Graphen der Funktionen:

</div>


In [None]:
from numpy import log2                                   # Logarithmus
n = np.linspace(1, 10, 10)                               # Werte

# Plotten Sie hier die Funktionen

plt.legend(loc='upper left')                             # Legende
# plt.yscale("log")                                      # logarithmische y-Achse
plt.show()

<details>
    <summary type="button" class="btn btn-info">Musterlösung für die Implementierung</summary>
  <div class="alert alert-success" role="alert">

```python
from numpy import log2                                   # Logarithmus
n = np.linspace(1, 10, 10)                               # Werte

plt.plot(n, n,           label='n')
plt.plot(n, n**2,        label='n²')
plt.plot(n, n**3,        label='n³')
plt.plot(n, log2(n),     label='log2(n)')

plt.legend(loc='upper left')                             # Legende
# plt.yscale("log")                                      # logarithmische y-Achse
plt.show()
```

  </div>       
</details


<div class="alert alert-success">

Komplexität:
1. (höchste)
2. 
3. 
4. (niedrigste)

</div>




<div class="alert alert-warning">

#### Beispiel: Insertion Sort

Versuchen wir, uns das Konzept der Zeitkomplexität an einem weiteren
Beispiel zu veranschaulichen. Gegeben sei wieder eine Liste von
Werten. Statt in der Liste zu *suchen*, wollen wir diese Liste jetzt
*sortieren*, d.h. die Einträge der Liste der Größe nach anordnen
(beginnend mit dem kleinsten Eintrag).

Ein Verfahren – Insertion Sort oder "Sortieren durch Einfügen" – ist
vielleicht vom Umgang mit Spielkarten (vor allem beim Skat) bekannt:
Wir können die aufgenommenen Karten sortieren, indem wir beginnend mit
der zweiten Handkarte von links die Karte aufnehmen und an der richtigen
Stelle links von ihr einsortieren. So fahren wir mit den Karten rechts
davon fort, bis wir alle Karten richtig einsortiert haben. 

In Python sieht der Algorithmus so aus (*es ist an dieser Stelle nicht
notwendig, dass Sie den Algorithmus im Detail verstehen*):

</div>


In [None]:
# Algorithmus "Insertion Sort" (Suche durch Einfügen)
# Parameter: A - Liste mit Werten, die sortiert werden
# Ergebnis: A ist sortiert
# Rückgabewert: Anzahl der durchgeführten Vergleiche
def insertion_sort(A):
    v = 0                   # zählt Vergleiche
    i = 1                   # aktuelle Position in A
    while i < len(A):       # A bis zum Ende durchlaufen
        # A(i) an der richtigen Stelle einfügen
        j = i
        temp = A[j]
        while j > 0 and A[j-1] > temp:
            v = v + 1       # Vergleich zählen
            #  A[j-1] nach rechts verschieben
            A[j] = A[j-1]
            j = j - 1
        A[j] = temp
        i = i + 1           # nächstes Element von A

    return v                # Anzahl Vergleiche zurückgeben


<div class="alert alert-warning">

Die Variable $i$ durchläuft die Liste $A$ von "links" nach "rechts"
(vom Anfang bis zum Ende). Alle Elemente "links" von $i$ sind stets
sortiert (am Anfang ist $i=1$, d.h. links von $i$ steht nur das
Element $A[0]$). Jedes Listenelement $A[i]$ wird an der richtigen
Stelle links von $i$ eingesetzt.

Wenn Sie wollen, können Sie sich ein getanztes Beispiel anschauen:

</div>


In [None]:
from IPython.display import YouTubeVideo
# Insert-sort with Romanian folk dance
# Created at Sapientia University, Tirgu Mures (Marosvásárhely), Romania.
# Directed by Kátai Zoltán and Tóth László. 
# In cooperation with "Maros Művészegyüttes", Tirgu Mures (Marosvásárhely), Romania.
YouTubeVideo('ROalU379l3U')


<div class="alert alert-warning">

Der Algorithmus enthält zwei `while`-Schleifen, in denen die zu
sortierenden Elemente verglichen und verschoben werden. 

</div>


### Empirische Bestimmung der Zeitkomplexität

Anstatt die Zeitkomplexität theoretisch zu bestimmen, können wir diese
auch empirisch bestimmen, indem wir einen Algorithmus mit
unterschiedlich großen Eingabedaten aufrufen und die Anzahl der
durchgeführten wesentlichen Schritte zählen.

<div class="alert alert-warning">

Im Beispielcode für Insertion Sort zählt die Variable `v` die Anzahl
der durchgeführten Vergleiche (bzw. Verschiebungen).  Wir können den
Algorithmus mit verschieden großen Listen als Eingabe aufrufen und
messen, wieviele Vergleiche jeweils durchgeführt werden mussten (*je
nach Geschwindigkeit Ihres Rechners benötigt der folgende Code einige
Sekunden*):

</div>


In [None]:
%matplotlib inline
from random import randint                      # Zufallszahlen
from time import process_time                   # Zeitmessung
import matplotlib.pyplot as plt                 # Plotten
import numpy as np                              # mehrdimensionale Felder
plt.rcParams['figure.figsize'] = [10, 10]       # Plotgröße

groessen = [100, 1000, 2500, 5000, 7500, 10000] # Listenlängen die wir durchprobieren
messdaten = []                                  # hier landen unsere Ergebnisse

for g in groessen:                              # alle Listenlängen durchlaufen
    A = [randint(0, g) for e in range(g)]       # Liste mit Zufallszahlen erzeugen
    zeit = process_time()                       # Zeit messen
    vrgl = insertion_sort(A)                    # Liste A sortieren
    zeit = process_time() - zeit                # verstrichene Zeit in Sekunden messen

    messdaten.append([g, vrgl, zeit])           # Ergebnis in Liste speichern

md = np.array(messdaten)                        # Liste in Feld umwandeln
plt.plot(md[:,0], md[:,1], label='empirisch')   # Vergleiche plotten
plt.plot(md[:,0], md[:,0]**2, label='n²')       # g(n) = n² zum Vergleich
plt.plot(md[:,0], md[:,0], label='n')           # g(n) = n  zum Vergleich
plt.legend(loc='upper left')                    # Legende
plt.grid()                                      # Gitterlinien
plt.show()


<div class="alert alert-warning">
    
Die Anzahl der Vergleiche dient uns als Schätzung für den
Zeitaufwand. Im Plot sehen wir, wie sich die Anzahl der Schritte in
Abhängigkeit von der Länge der Liste entwickelt. Während die
Listenlänge gleichförmig wächst, steigt der benötigte Sortieraufwand
immer mehr. Die Effizienz des Algorithmus sinkt also mit steigender
Listenlänge. Es handelt sich nicht mehr um *lineare Komplexität*
($\mathcal{O}(n)$), sondern um *quadratische Komplexität*
(($\mathcal{O}(n^2)$).


</div>

<div class="alert alert-success">

Auch ohne den Python-Code zu verstehen, können Sie anhand des
Analogons mit den Spielkarten über die folgende Frage nachdenken:
Wieviel *Speicherplatz* benötigt Insertion Sort in Abhängigkeit von
der Länge $n$ des Eingabefeldes?

</div>


<div class="alert alert-warning">

### Zur theoretischen Bestimmung der Zeitkomplexität von Insertion Sort

An dieser Stelle wollen wir noch einmal die drei möglichen Fälle
betrachten:

- Im *besten* Fall sind alle Einträge schon an der richtigen
  Stelle. Um das festzustellen, durchläuft Insertion Sort die äußere
  Schleife und vergleicht jedes Element nur mit seinem Vorgänger. Es
  finden dann $n -1$ Vergleiche statt – die Best-Case-Zeitkomplexität
  ist also $\mathcal{O}(n)$.
- Im *schlechtesten* Fall muss jeder Eintrag mit allen Vorgängern
  verglichen werden. Das zweite Element also mit einem Vorgänger, das
  dritte Element mit zwei Vorgängern, usw. Die Anzahl der Vergleiche
  ergibt sich also zu $1 + 2 + 3 + \dots + (n - 1) = (n^2 - n)/2$ und
  damit eine Worst-Case-Zeitkomplexität von $\mathcal{O}(n^2)$.
- Im *mittleren* Fall muss jedes Element nur mit der Hälfte seiner
  Vorgänger verglichen werden, entsprechend $(n^2 - n)/4$ Vergleichen
  und einer Average-Case-Zeitkomplexität von $\mathcal{O}(n^2)$.

Auch wenn sich der schlechteste vom mittleren Fall in der Anzahl der
Vergleiche unterscheidet, so ist die Zeitkomplexität jeweils
$\mathcal{O}(n^2)$.

</div>


### Komplexität von Problemen

Bisher haben wir den Begriff der Komplexität auf *Algorithmen*
bezogen. Da Algorithmen Verfahren zum Lösen von *Problemen* sind,
lässt sich das Konzept der Komplexität auf Probleme übertragen. Unter
der *Komplexität eines Problems* versteht man dabei die Komplexität
des besten Algorithmus, der das Problem lösen kann. Man sagt dann
beispielsweise, dass die Komplexität des Suchproblems $O(\log n)$ ist.



<p style="text-align:center; font-weight: bold;">Travelling Salesman Problem</p>

<a title="What's the complexity class of the best linear programming cutting-plane techniques?  I couldn't find it anywhere.  Man, the Garfield guy doesn't have these problems ..." href="https://xkcd.com/399/">
  <img alt="XKCD Comic: Travelling Salesman Problem" src="https://imgs.xkcd.com/comics/travelling_salesman_problem.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)


Probleme werden in zwei große Klassen eingeteilt:
- Die Klasse **P** umfasst alle Probleme, für die ein Algorithmus
  existiert, der sie in (höchstens) polynomialer Zeit löst (dessen
  Zeitkomplexität also durch eine Polynomfunktion wie $n^2$ oder
  $n^{23}$ beschrieben werden kann). Das sind die "gutartigen"
  Probleme, für die effiziente Algorithmen existieren.
- Die Klasse **NP** umfasst alle Probleme, für die kein Algorithmus
  mit (höchstens) polynomialer Laufzeit bekannt ist, die also
  (mindestens) eine exponentielle Zeitkomplexität haben.

Ob die beiden Klassen gleich sind, also [**P** =
**NP**](https://de.wikipedia.org/wiki/P-NP-Problem) gilt, ist eines
der großen ungelösten Probleme der Mathematik bzw. der theoretischen
Informatik. Auf der Vermutung, dass die beiden Klassen nicht gleich
sind, basiert die Sicherheit einiger bekannter
Verschlüsselungsalgorithmen.

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt                    # Plotten
from numpy import log2, sqrt                       # Logarithmus und Quadratwurzel
from scipy.special import factorial                # Fakultät

plt.rcParams['figure.figsize'] = [10, 10]          # Plotgröße

n = np.linspace(1, 100, 100)                       # x-Werte

# Funktionen plotten
plt.plot(n, factorial(n),    label='n!')
plt.plot(n, 2**n,            label='2ⁿ')
plt.plot(n, n**2,            label='n²')
plt.plot(n, n * log2(n),     label='n log₂(n)')
plt.plot(n, n,               label='n')
plt.plot(n, sqrt(n),         label='√n')
plt.plot(n, log2(n),         label='log₂(n)')
plt.plot(n, np.ones(len(n)), label='1')

# Plot konfigurieren + anzeigen
plt.grid()                                         # Gitterlinien
axes = plt.gca()
axes.set_xlim([0, 100])                            # Bereich x-Achse
axes.set_ylim([0, 100])                            # Bereich y-Achse
axes.set_aspect('equal')                           # Seitenverhältnis 1:1
plt.legend(loc='center right')                     # Legende
plt.show()

### Literatur

- Brookshear, J. G.; Brylow, D. (2015). *Computer Science: An
  Overview*. 12. Auflage. Pearson Education. ISBN: 978-1-292-06116-0
- Papadimitriou, C. H. (2005). *Computational complexity*. Reading,
  Mass. [u.a.]: Addison-Wesley. ISBN: 978-0-201-53082-7
- Arora, S.; Barak, B. (2006). *Computational Complexity: A Modern
  Approach*. Cambridge University Press. ISBN: 978-0-521-42426-4
  ([Entwurf als
  PDF](https://theory.cs.princeton.edu/complexity/book.pdf))


<p style="text-align:center; font-weight: bold;">NP-Complete</p>
<a title="General solutions get you a 50% tip." href="https://xkcd.com/287/">
  <img alt="XKCD Comic: NP-Complete" src="https://imgs.xkcd.com/comics/np_complete.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



<div class="alert alert-success">

## Aufgaben
### Addition vs. Multiplikation

*erwarteter Zeitaufwand: ca. 60 Minuten*

Beschreiben Sie mit Hilfe der $O$-Notation den Aufwand für die
Algorithmen zur schriftlichen Addition und Multiplikation zweier
Zahlen mit $n$ Ziffern, so wie Sie es in der Schule gelernt haben
(sollten). Das heisst, wenn Sie gebeten werden, zwei Zahlen mit $n$
Ziffern schriftlich zu addieren, wieviele *einzelne* Additionen müssen
Sie dann durchführen? (Analog: wenn Sie gebeten werden, zwei Zahlen
mit $n$ Ziffern schriftlich zu multiplizieren, wieviele *einzelne*
Multiplikationen müssen Sie dann durchführen?) Begründen Sie Ihre
Entscheidung.

Statt einer theoretischen Überlegung können Sie sich der Lösung auch
empirisch nähern: addieren bzw. multiplizieren Sie zwei Zahlen mit
jeweils 2 Ziffern und zählen Sie die einzelnen Additions-
bzw. Multiplikationsschritte. Wiederholen Sie das für Zahlen mit
jeweils 3, 4, 5, etc. Ziffern und notieren Sie die Ergebnisse in einer
Tabelle oder visualisieren Sie sie mit einem Plot. Leiten Sie daraus
die Anzahl der benötigten Schritte für beliebig viele ($n$) Ziffern
ab.

Wenn sie möchten, können Sie dafür auch den folgenden Python-Code
verwenden. Dieser addiert zwei zufällige Zahlen mit einer vorgegebenen
Anzahl an Ziffern und gibt Ihnen die Anzahl der benötigten Additionen
aus:

</div>


In [None]:
import random                           # zur Erzeugung von Zufallszahlen

ziffern = 3                             # Anzahl der Ziffern pro Zahl
unten   = 10**(ziffern-1)               # größtmögliche Zahl mit so vielen Ziffern
oben    = 10**ziffern-1                 # kleinstmögliche Zahl ...

def schriftliche_addition(a, b):        # unsere Additionsfunktion
    """Berechnet die Summe a + b nach dem gleichen Verfahren wie bei der 
    manuellen schriftlichen Addition. Gibt die Summe a + b sowie die Anzahl
    der einzelnen Additionen zurück.
    """
    summe = [0] * (ziffern + 1)         # Ergebnis mit Nullen initialisieren
    additionen = 0                      # zählt die Anzahl an Additionen

    for i in reversed(range(ziffern)):  # Ziffern von hinten durchlaufen
        ai = a % 10                     # die i-te Ziffer von a
        bi = b % 10                     # die i-te Ziffer von b

        si = ai + bi                    # die i-te Ziffer des Ergebnisses
        additionen += 1                 # Additionen zählen
        if summe[i + 1] != 0:           # gab es einen Übertrag?
            si = si + summe[i + 1]      # Übertrag addieren
            additionen += 1             # Additionen zählen

        summe[i + 1] = si % 10          # i-te Ziffer abspeichern
        summe[i] = si // 10             # aktuellen Übertrag merken

        a = a // 10                     # i-te Ziffer von a entfernen
        b = b // 10                     # i-te Ziffer von b entfernen

    if summe[i] == 0:                   # ein kleiner Hack:
        summe.pop(0)                    # führende Null entfernen

    ergebnis = "".join(map(str, summe)) # Ergebnis in Zeichenkette umwandeln
    return ergebnis, additionen         # Ergebnis zurückgeben


a = random.randint(unten, oben)         # zwei Zufallszahlen mit der vorgegebenen
b = random.randint(unten, oben)         # Anzahl an Ziffern erzeugen.
summe, additionen = schriftliche_addition(a, b)

print("Wir berechnen", a, "+", b)       
print("Ergebnis:", summe)
print("Anzahl Additionen:", additionen)


<div class="alert alert-success">

(Nur!) Wenn Sie Interesse an Programmierung haben und experimentieren
möchten, können Sie den Code auch um eine Schleife ergänzen, in der
die Variable `ziffern` einen bestimmten Bereich (z.B. `range(1,100)`)
in einer Schleife durchläuft. Speichern Sie dann jeweils die Anzahl
der Ziffern und Additionen in einem Feld
(z.B. `allezif.append(ziffern)` und `alleadd.append(additionen)`) und
plotten Sie diese mittels
[matplotlib](https://matplotlib.org/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py)
(`import matplotlib.pyplot as plt` und `plt.plot(allezif, alleadd)`).


Lesen Sie zum Abschluss den Artikel [Mathematicians Discover the
Perfect Way to
Multiply](https://www.quantamagazine.org/mathematicians-discover-the-perfect-way-to-multiply-20190411/),
der sich mit einer neuen (schnellen) Methode zum Multiplizieren großer
Zahlen befasst. Befassen Sie sich dann mit den folgenden Fragen:

- Stimmen die im Artikel genannten Werte zur Anzahl der Additions-
  bzw. Multiplikationsschritte (der üblichen Addition
  bzw. Multiplikation) mit Ihren Ergebnissen überein?
- Wie ist die Komplexität des neuen Algorithmus?
- Wie praktikabel ist das neue Verfahren?

**Abschluss:** Dokumentieren Sie Ihre Ergebnisse und Erkenntnisse in Ihrer [speziellen Arbeitsleistung](Vorlage_Spezielle_Arbeitsleistung.ipynb).

</div>



<div class="alert alert-success">

### Binäre Suche

*erwarteter Zeitaufwand: ca. 60 Minuten*

Eine Alternative zur sequentiellen Suche ist die [binäre
Suche](https://de.wikipedia.org/wiki/Bin%C3%A4re_Suche). Recherchieren
und lesen Sie zu diesem Verfahren, bis Sie das Grundprinzip verstanden
haben und die Zeitkomplexität des Verfahrens prinzipiell
nachvollziehen können.

- Ist die Zeitkomplexität im Vergleich zur sequentiellen Suche
  kleiner, gleich oder größer?
- Steigt die Effizienz des Verfahrens bei steigender Listenlänge oder
  sinkt sie?

**Abschluss:** Dokumentieren Sie Ihre Ergebnisse und Erkenntnisse in in Ihrer [speziellen Arbeitsleistung](Vorlage_Spezielle_Arbeitsleistung.ipynb).

</div>


In [None]:
from IPython.display import YouTubeVideo
# BINARY search with FLAMENCO dance
YouTubeVideo('wz7XgKowJIg')