# Binary Search

In diesem Notzibuch sollen zwei Suchalgorithmen einander gegenüber
gestellt werden.

## Lineare Suche

Gegeben sei eine Python Liste mit 16 Werten in beliebiger Reihenfolge.
Gesucht ist ein Verfahren, mit dem überprüft werden kann, ob ein
beliebiger Wert in dieser Python Liste vorkommt und wenn ja an welcher
Stelle in der Python Liste.

Die einfachste Lösung für dieses Problem ist es, ein Element nach dem
anderen auf seine Übereintstimmung mit dem gesuchten Wert zu überprüfen.
Wird das Element gefunden, wird der Index zurückgegeben, wird das
Element nicht gefunden -1.

In [35]:
import random

In [75]:
sequenz = [17, 35, 42, 24, 21, 36, 75, 34, 12, 35, 23, 69, 34, 28, 86, 98]

### Implementierung der linearen Suche

#### Aufgabe

Implementieren Sie in der folgenden Zelle eine lineare Suche in Python.
Testen Sie Ihre Implementation mit den Werten 1, 17, 98 und 100 an der
Python Liste `sequenz`.

In [30]:
def linear_search(seq, x):
    # TODO: Implementation ohne enumerate
    i = 1
    for value in seq:
        if value == x:
            break
        else:
            i += 1
    if i > len(seq):
        return -1
    else:
        return i - 1

In [34]:
print(linear_search(sequenz, 1))
print(linear_search(sequenz, 17))
print(linear_search(sequenz, 98))
print(linear_search(sequenz, 100))

-1
0
15
-1


### Effizienz der linearen Suche

Mit den folgenden Aufgaben soll aufgezeigt werden, wie effizient die
lineare Suche ist.

#### Aufgabe

Die Python Liste `sequenz` beinhaltet 16 zufällig gewählte natürliche
Zahlen von 1 bis 100.  
Wählen Sie 100 mal zufällig eine Zahl aus `sequenz` aus und 
suchen Sie mit Hilfe einer Schlaufe in `sequenz` nach diesen zufällig
gewählten Zahlen.   
Wie viele Vergleiche müssen Sie im Durchschnitt über diese 100
Suchdruchläufe vornehmen?

In [59]:
search_values = [random.choice(sequenz) for i in range(100)]

In [60]:
searches = []
for x in search_values:
    i = 0
    for v in sequenz:
        i += 1
        if x == v:
            break
    searches.append(i)
print(sum(searches)/len(searches))

8.04


#### Aufgabe

Wählen Sie zufällig 100 natürliche Zahlen von 1 bis 100 und 
suchen Sie mit Hilfe einer Schlaufe in `sequenz` nach diesen zufällig
gewählten Zahlen.   
Wie viele Vergleiche müssen Sie jetzt im Durchschnitt über diese 100
Suchdruchläufe vornehmen?

In [70]:
search_values_100 = [random.randint(1,100) for i in range(100)]

In [71]:
searches_100 = []
for x in search_values_100:
    i = 0
    for v in sequenz:
        i += 1
        if x == v:
            break
    searches_100.append(i)
print(sum(searches_100)/len(searches_100))

14.57


#### Besprechung der Resultate

Die erste Aufgabe scheint ein Resultat in der nähe von 8 zu liefern, die
zweite eines von etwas mehr als 14. Woran liegt das?

Wenn wir eine Zahl zufällig aus der Python Liste `sequenz` auswählen,
hat jede Position die Wahrscheinlichkeit von $\frac{1}{16}$. Es sind also
$\frac{8}{16}$ mit weniger als 8 Vergleichen und $\frac{8}{16}$ mit mehr
als 8 vergleichen. Damit kommen wir im Mittel auf 8 Vergleiche.  

Wenn jedoch eine eine Zahl von 1 bis 100 gewählt wird, ist die Chance,
dass die Zahl in der Python Liste `sequenz` ist nur $\frac{16}{100}$. $\frac{84}{100}$
liegen ausserhalb der Pyhton Liste `sequenz`. Damit werden in
$\frac{84}{100}$ aller Fälle 16 Vergleiche erforderlich.

Daraus ergibt sich folgende Rechnung für den Gesamtdurchschnitt:

$$
8 \times 0.16 + 16 \times 0.84 = 14.72
$$

Im Mittel braucht es also etwas mehr als 14 Vergleiche.
Im schlimmsten Fall - wenn der gesuchte Wert nicht in der Python Liste
`sequenz` zu finden ist - braucht die lineare Suche 16 Vergleiche.

Vor diesem Hintergrund lohnt sich die Suche nach einem Verfahren,
welches auch im schlimmsten Fall weniger Vergleiche erfordert.

## Binäre Suche

Eine erste Verbesserung der Effizienz der Suche ergibt sich, wenn die zu
durchsuchende Sequenz in aufsteigender Reihenfolge sortiert ist.

In [76]:
sequenz_sortiert = sequenz.copy()
sequenz_sortiert.sort()

[12, 17, 21, 23, 24, 28, 34, 34, 35, 35, 36, 42, 69, 75, 86, 98]

### Aufgabe

Wie kann mit möglichst wenigen Versuchen überprüft werden, ob ein Wert
in der Python Liste `sequenz_sortiert` vorkommen kann?

In [80]:
def in_range(seq, x):
    if x < seq[0] or x > seq[-1]:
        return -1
    else:
        return 1

In [82]:
print(in_range(sequenz_sortiert, 10))
print(in_range(sequenz_sortiert, 12))
print(in_range(sequenz_sortiert, 98))
print(in_range(sequenz_sortiert, 100))

-1
1
1
-1
