# Vorlesung 6.2
# Sortierverfahren

---
 **Hinweis:**
 Diese interaktiven Webseiten beschreiben parallel zu den Vorlesungsfolien das jeweilige Stoffgebiet. Zellen mit C Quelltext können mittels der Tastenkombination \[Shift\] + \[Enter\] kompiliert und ausgeführt werden. Es wird Ihnen empfohlen, Änderungen in diversen Zellen vorzunehmen um ein Gefühl für die Sprache C zu entwickeln.
 
---

## Sortieren eines Zahlenfeldes

Ein Feld, welches mit Zahlenwerten gefüllt ist, soll aufsteigend sortiert werden. Hierzu werden zwei Sortierverfahren behandelt:
* Minimum-Suche
* Bubble-Sort

## Minimum-Suche (*selection sort*)

In diesem Verfahren wird immer die niedrigste Zahl gesucht und dann an den Anfang des durchsuchten Feld-Teils getauscht, bis alle Elemente im Feld gesetzt wurden.

<img src="images/minimum_suche.png" width=500>

In [None]:
/* Einfaches Beispiel einer Minimum-Suche */
#include <stdio.h>
#include <limits.h> /* für Maximum von long */

void selectionSort(long feld[], long laenge) {
    long i;
    
    for(i = 0; i < laenge; ++i) {
        long minimum = LONG_MAX;
        long index = 0;
        
        long j;
        for(j = i; j < laenge; ++j) {
            if(feld[j] < minimum) {
                minimum = feld[j];
                index = j;
            }
        }
        
        feld[index] = feld[i];
        feld[i] = minimum;
    }
}

int main() {
    long feld[] = {6, 4, 8, 3, 2};
    
    selectionSort(feld, 5);
    
    /* Das sortierte Feld wird ausgegeben */
    {
        long i;
        for(i = 0; i < 5; ++i) {
            printf("%ld ", feld[i]);
        }
    }
        
    return 0;
}

## Bubble Sort

Bei diesem Verfahren werden immer paare von Zahlen miteinander verglichen und wenn nötig vertauscht. Dadurch wird die höchste Zahl automatisch ganz nach rechts getauscht, während kleinere Zahlen eine Stelle nach links getauscht werden.

<img src="images/bubble_sort1.png" width=500>

Dieser Vorgang wird nun wiederholt bis nicht mehr getauscht werden muss.

<img src="images/bubble_sort2.png" width=500>

In [None]:
/* Einfaches Beispiel eines Bubble Sort Algorithmus */
#include <stdio.h>

void bubbleSort(long feld[], long laenge) {
    long i;
    
    /* Schleife für die Teilvorgänge */
    for(i = 0; i < laenge; ++i) {
        /* Wenn getauscht wird, ist dieser Wert nicht 0.
            Wenn er nach einem Durchlauf immer noch 0 ist, ist das Feld sortiert */
        long getauscht = 0;
        
        long j;
        long anzahl_tausche = laenge - i - 1;
        for(j = 0; j < anzahl_tausche; ++j) {
            if(feld[j] > feld[j+1]) {
                long temp = feld[j];
                feld[j] = feld[j+1];
                feld[j+1] = temp;
                /* Es wurde zumindest einmal getauscht */
                getauscht = 1;
            }
        }
        
        /* Die Schleife kann beendet werden, wenn nicht getauscht wurde */
        if(!getauscht) {
            break;
        }
    }
}

int main() {
    long feld[] = {6, 4, 8, 3, 2};
    
    bubbleSort(feld, 5);
    
    /* Das sortierte Feld wird ausgegeben */
    {
        long i;
        for(i = 0; i < 5; ++i) {
            printf("%ld ", feld[i]);
        }
    }
    
    return 0;
}

# Suchverfahren

Wenn ein Wert in einem Feld von Zahlen gefunden werden soll, muss ein Suchverfahren angewandt werden. Hier wird jeweils ein Suchverfahren für unsortierte und sortierte Daten vorgestellt:

* Sequenzielles Suchen (unsortiert)
* Binäres Suchen

## Sequenzielles Suchen

Dies ist ein einfaches Verfahren: Es wird einfach jeder Wert einmal verglichen und wenn er gleich ist, wird der Index des Fundes zurückgegeben. Wenn er nicht gefunden wurde, wird der ungültige Wert `-1` zurückgegeben.

In [None]:
/* Beispiel für Sequenzielle Suche */
#include <stdio.h>

#define FELDLAENGE 10000

long sequentialSearch(long feld[], long laenge, long wert) {
    long i;
    for (i = 0; i < laenge; i = i + 1){
        if (feld[i] == wert) {
            return i;
        }
    }
    /* wenn nicht gefunden, dann wird -1 zurückgegeben */
    return -1;
}

int main() {
    long feld[FELDLAENGE];
    
    /* Das Feld wird mit dem Quadrat der Indizes befüllt */
    long i;
    for(i = 0; i < FELDLAENGE; ++i) {
        feld[i] = i * i;
    }
    
    {
        long index = sequentialSearch(feld, FELDLAENGE, 87815641);
        printf("87815641 ist das Quadrat von: %ld\n", index);

        index = sequentialSearch(feld, FELDLAENGE, 156);
        if(index < 0) {
            printf("156 ist kein ganzzahliges Quadrat!\n");
        }
    }
    
    return 0;
}

## Binäres Suchen (*divide and conquer*)

Wenn die Daten sortiert sind, muss nicht jedes Element verglichen werden und der Suchaufwand kann um ein vielfaches reduziert werden. Die Binärsuche funktioniert folgendermaßen:
* Der Wert des Elementes in der Mitte des Feldes wird mit dem Gesuchtem verglichen
    * Wenn es kleiner ist als das Gesuchte, muss der Wert weiter hinten stehen
    * Wenn es größer ist, muss der Wert weiter vorne stehen
    * Wenn es gleich ist, wird die Suche beendet
* Nun wird nur mehr die Hälfte des Feldes durchsucht. Die Erste, wenn der gesuchte Wert kleiner war, sonst die Zweite. Mit der entsprechenden Hälfte startet die Suche von Anfang.
* Wenn das neue Feld nur noch ein Element hat, wird die Suche ohne Fund beendet.

Da bei diesem Verfahren jedes Mal die Hälfte des Feldes verworfen werden kann, werden nur maximal **log<sub>2</sub>(N)** Schritte benötigt um die Suche in einem Feld mit **N** Elementen zu beenden.

Als einfaches Beispiel dient ein kurzes sortiertes Feld. Hier wird die Zahl 3 gesucht:
1. `l` wird auf den Anfang gesetzt, also `0`. `r` auf das Ende, also `4`. `m` wird berechnet und ist `2`:
2. Das Element `2` wird verglichen. 3 ist kleiner als 4, daher wird `r` auf `1` gesetzt und `m = (l+r)/2` neu berechnet und ist jetzt `0`.
3. Das Element `0` wird verglichen. 3 ist größer als 2, daher wird `l` auf `1` gesetzt. `m` wird wieder neu berechnet und ist jetzt `1`.
4. Das Element `1` ist gleich wie der gesuchte Wert. Die Suche kann beendet werden. Selbst wenn es nicht gleich gewesen wäre, hätte die Suche beendet werden können, weil `l = r` bedeutet dass nur noch ein Element den gesuchten Wert haben kann.

<img src="images/binaersuche.png" width = 500>

In [None]:
/* Beispiel für Binärsuche */
#include <stdio.h>

#define FELDLAENGE 10000

long binarySearch(long feld[], long laenge, long wert) {
    long links = 0;
    long rechts = laenge - 1;
    long mitte;
    long anzahl_versuche = 0;
    
    while(links <= rechts) {
        ++anzahl_versuche;
        mitte = (links + rechts) / 2;
        
        if(feld[mitte] == wert) {
            printf("Suche nach %ld Versuchen beendet.\n", anzahl_versuche);
            return mitte;
        } else if(feld[mitte] < wert) {
            links = mitte + 1;
        } else {
            rechts = mitte - 1;
        }
    }
    
    printf("Wert nach %ld Versuchen nicht gefunden.\n", anzahl_versuche);
    /* wenn nicht gefunden, dann wird -1 zurückgegeben */
    return -1;
}

int main() {
    long feld[FELDLAENGE];
        
    /* Das Feld wird mit dem Quadrat der Indizes befüllt */
    long i;
    for(i = 0; i < FELDLAENGE; ++i) {
        feld[i] = i * i;
    }
    
    {
        long index = binarySearch(feld, FELDLAENGE, 87815641);
        printf("87815641 ist das Quadrat von: %ld\n", index);

        index = binarySearch(feld, FELDLAENGE, 156);
        if(index < 0) {
            printf("156 ist kein ganzzahliges Quadrat!\n");
        }
    }
    
    return 0;
}

Im obigen Beispiel werden nur 14 Vergleiche benötigt um zu wissen, dass der gesuchte Wert nicht im Feld steht. Bei einer sequenziellen Suche, wären 10000 notwendig gewesen!

<img src="images/suchverfahren.png" width=500>