# Die Implementierung von HeapSort

<div class="prereq">
    <h3>Was man wissen sollte</h3>
    <div>
        Vor der Implementierung sollte die Funktionsweise von <a class="prereq" href="/user-redirect/algoviz/lessons/04_Sortieren/06_Heapsort.ipynb">HeapSort</a> bekannt sein.
    </div>
</div>    

Wie bereits geshen können wir das Array direkt als Binärbaum interpretiern. Die Knoten entsprechen dabei den Indices.

* Der Index 0 ist die Wurzel
* Das linke Kind vom Knoten `i` ist `2*i+1`
* Das rechte Kind vom Knoten `i` ist `2*i+2`
* Der Vater vom Knoten `i` ist `(i-1)/2` (ganzzahlige Division)

Das letzte Blatt können wir abschneiden, indem wir die Länge um eins senken.

D.h. den Baum repräsenteien wir durch inr Array `feld[]` mit der tatsächlichen Länge `n` und einer "verkürzten" Länge `len`. Die Indices von `len` bis `n-1` enthalten dann immer die bereits sortierten großen Elemente.

![Die Beziehungen auf dem Array](/user-redirect/algoviz/img/04_Sortieren/BaumArray.png)

## Heapify

Als erstes benötigen wir `heapify()`, d.h. das "Einsickern" eines Knotens in den Heap. Den Pseudocode hatten wir bereits entwickelt. Wir müssen ihn jetzt schrittweise als Operation implementieren.

`SOLANGE ( v hat Kinder ) TUE
   u = Kind von v mit dem größeren Wert 
   WENN ( Wert von u > Wert von v ) DANN
      Tausche Wert von v mit Wert von u
      v = u
   SONST
      Beende die Schleife
   ENDE   
ENDE`

Wir beginnen mit den Parametern, die `heapify()`benötigt. Auf der abstrakten Ebene benötigen wir einen Knoten `v`, bei dem wir mit dem "Einsickern" beginnen und den Baum `T` in dem dieser Knoten liegt. Also erhalten wir
den folgenden Pseudocode:

In [1]:
// heapify ( Knoten v, Baum T) {
//    SOLANGE ( v hat Kinder ) TUE
//       u = Kind von v mit dem größeren Wert
//       WENN ( Wert von u > Wert von v ) DANN
//          Tausche den Wert von u mit dem Wert von v
//          v = u
//       SONST
//          Beende die Schleife
//       ENDE
//    ENDE
// }

Den Knoten `v` repräsenteiren wir durch einen `int`-Wert und den Baum `T` durch das Array `feld[]` und die Länge `len`. Das können wir in der Parameterliste einsetzen.

In [None]:
void heapify ( int v, int feld[], int len ) {
//    SOLANGE ( v hat Kinder ) TUE
//       u = Kind von v mit dem größeren Wert
//       WENN ( Wert von u > Wert von v ) DANN
//          Tausche den Wert von u mit dem Wert von v
//          v = u
//       SONST
//          Beende die Schleife
//       ENDE
//    ENDE
}

Als nächstes Betrachten wir die Schleife und die Bedingung, dass `v` Kinder hat. Dabei nutzen wir aus, dass auf jeden Fall das linke Kind vorhanden ist, wenn `v` überhaupt Kinder hat. Außerdem ist das Kind vorhanden, wenn sein Index kleiner als `len` ist (denn da schneiden wir den Baum bzw. das Array ab).
Also entspricht die Bedingung "v hat Kinder" der Bedingung, dass der Index des linken Kinds kleiner als `len` ist. Und da das linke Kind den Index `2*v+1`hat ergibt sich simit:

In [None]:
void heapify ( int v, int feld[], int len ) {
    
   while ( 2*v+1 < len ) {   // Solange v Kinder hat
       
//       u = Kind von v mit dem größeren Wert
//       WENN ( Wert von u > Wert von v ) DANN
//          Tausche den Wert von u mit dem Wert von v
//          v = u
//       SONST
//          Beende die Schleife
//       ENDE       
   }
    
}

Damit haben wir auch eine Möglichkeit, dass wir die Schleife beenden können. Wir setzen den Index `v` einfach auf `len`, so dass der Knoten in der nächsten Runde keine Kinder mehr hat.

In [2]:
void heapify ( int v, int feld[], int len ) {
    
   while ( 2*v+1 < len ) {   // Solange v Kinder hat
       
//       u = Kind von v mit dem größeren Wert
//       WENN ( Wert von u > Wert von v ) DANN
//          Tausche den Wert von u mit dem Wert von v
//          v = u
//       SONST
            v = len;         // Die Schleife wird bei der nächsten Prüfung beendet.
//       ENDE       
   }
    
}

Als nächstes Suchen wir das Kind `u` von `v` mit dem größeren Wert. Da das linke Kind auf jeden Fall existiert (wir sind in den Schleifenrumpf gegangen), setzen wir als erstes `u = 2*v+1`. Anschließend prüfen wir, ob das rechte Kind existiert (`2*v+2 < len`) und ob es einen größeren Wert hat ( `feld[2*v+2]>feld[u]`). Wenn ja, setzen wir `u2*v+2`.

In [3]:
void heapify ( int v, int feld[], int len ) {
    int u;
    
    while ( 2*v+1 < len ) {   // Solange v Kinder hat
       
       u = 2*v+1;             // Das linke Kind
       if ( (2*v+2 < len) && (feld[2*v+2] > feld[u] ) ) {
           u = 2*v+2;
       }                      // u ist jetzt das Kind mit dem größeren Wert.
       
//       WENN ( Wert von u > Wert von v ) DANN
//          Tausche den Wert von u mit dem Wert von v
//          v = u
//       SONST
            v = len;         // Die Schleife wird bei der nächsten Prüfung beendet.
//       ENDE       
    }
}

[1minput_line_9:5:6: [0m[0;1;31merror: [0m[1muse of undeclared identifier 'u'[0m
     u = 2*v+1;             // Das linke Kind
[0;1;32m     ^
[0m[1minput_line_9:6:48: [0m[0;1;31merror: [0m[1muse of undeclared identifier 'u'[0m
     if ( (2*v+2 < len) && (feld[2*v+2] > feld[u] ) ) {
[0;1;32m                                               ^
[0m[1minput_line_9:7:10: [0m[0;1;31merror: [0m[1muse of undeclared identifier 'u'[0m
         u = 2*v+2;
[0;1;32m         ^
[0m

Interpreter Error: 

Nachdem wir jetzt das Kind mit dem größeren Wert haben, können wir auch die Entscheidungsanweisung implementieren.

In [7]:
void heapify ( int v, int feld[], int len ) {
    int u;
    
    while ( 2*v+1 < len ) {   // Solange v Kinder hat
       
        u = 2*v+1;             // Das linke Kind
        if ( (2*v+2 < len) && (feld[2*v+2] > feld[u] ) ) {
            u = 2*v+2;
        }                       // u ist jetzt das Kind mit dem größeren Wert.
       
        if ( feld[u] > feld[v] ) {
//          Tausche den Wert von u mit dem Wert von v
            v = u;
        } else {
            v = len;         // Die Schleife wird bei der nächsten Prüfung beendet.
        }
    }
}

Es bleibt der Tausch der Werte. Dazu brauchen wir nur eine Helfer-Variable und können dann einfach den sogeannten **swap** machen.

In [1]:
void heapify ( int v, int feld[], int len ) {
    int u;
    
    while ( 2*v+1 < len ) {   // Solange v Kinder hat
       
        u = 2*v+1;             // Das linke Kind
        if ( (2*v+2 < len) && (feld[2*v+2] > feld[u] ) ) {
            u = 2*v+2;
        }                       // u ist jetzt das Kind mit dem größeren Wert.
       
        if ( feld[u] > feld[v] ) {
            int helfer = feld[u];  // Tausche die Werte von v und u
            feld[u] = feld[v];
            feld[v] = helfer;
            v = u;                  // Gehe zu u
        } else {
            v = len;         // Die Schleife wird bei der nächsten Prüfung beendet.
        }
    }
}

Und damit sind wir auch schon fertig mit `heapify()` und können es testen. Dazu legen wir ein Array an, das überall einem Heap entspricht, außer in einem Knoten. Auf den wenden wir dann `heapify()` an und prüfen, ob danach ein Heap vorliegt. Hier haben wir ihn. Nur die Wurzel verletzt die Heapbedingung.

![Unser Heap](/user-redirect/algoviz/img/04_Sortieren/Heap2.png)

Als Array hat er die folgende Form:

In [2]:
#include <algoviz/Tools.hpp>
using namespace std;

int feld[] = { 7, 10, 9, 6, 8, 3, 4, 2, 5, 1};

Also wenden wir `heapfiy()` auf den gesamten Baum an, d.h. `len = 10`. Da wir die Wurzel "reparieren" wollen ist `v=0`.

In [3]:
heapify(0,feld,10);
Tools::printArray(feld,10);

10 8 9 6 7 3 4 2 5 1 


<div class="task">
    <h3>Aufgabe</h3>
    <div>
        Überzeugen sie sich davon, dass der resultierende Binärbaum ein Heap ist.
    </div>
</div>

## Wir bauen den Heap

Als nächste wollen wir den Haap bauen. Auch dafür haben wir schon Pseudocode.

`buildHeap(Baum T)
    FÜR v = (n-2)/2 ... 0 TUE
      heapify(v,T)
    ENDE`
    
Das zu implementieren ist mit Hilfe von `heapify()`recht simpel.    

In [3]:
void buildHeap(int feld[], int len) {
    for ( int v = (len-2)/2 ; v >= 0; v-- ) {
        heapify(v,feld,len);
    }
}

Damit können wir jetzt jedes Array in einen Heap umwandeln.

In [3]:
#include <algoviz/Tools.hpp>
using namespace std;

const int len = 20;
int feld[len];

Tools::fillArray(feld,len);
Tools::printArray(feld,len);

buildHeap(feld,len);

Tools::printArray(feld,len);

4 12 97 93 46 11 47 80 99 9 41 9 44 6 7 58 0 84 98 57 
99 98 97 93 57 44 47 80 84 46 41 9 11 6 7 58 0 4 12 9 


<div class="task">
    <h3>Aufgabe</h3>
    <div>
        Überzeugen sie sich davon, dass der resultierende Binärbaum ein Heap ist.
    </div>
</div>

## HeapSort

Jetzt können wir HeapSort implementieren. Dazu müssen wir als erstes das Array mit `buildHeap()` zu einem  Heap machen. Danach hollen wir immer das Element aus der Wurzel und tauschen es mit dem Element an der Position `len` danach führen wir `heapify()` auf der Wurzel aus und senken `len`, um den Bereich den wir noch sortieren müssen zu verkürzen.

In [4]:
void HeapSort(int feld[], int len) {
    buildHeap(feld,len);
    
    for ( int letzter = len-1; letzter > 0; letzter-- ) {
        int helfer = feld[letzter];
        feld[letzter] = feld[0];
        feld[0] = helfer;
        
        heapify(0,feld,letzter);        
    }
}

Und jetzt können wir es ausprobieren.

In [6]:
#include <algoviz/Tools.hpp>
using namespace std;

const int len = 20;
int feld[len];

Tools::fillArray(feld,len);
Tools::printArray(feld,len);

HeapSort(feld,len);

Tools::printArray(feld,len);

In file included from input_line_1:1:
In file included from /home/michael/miniconda3/bin/../lib/gcc/x86_64-conda_cos6-linux-gnu/7.3.0/../../../../x86_64-conda_cos6-linux-gnu/include/c++/7.3.0/new:40:
In file included from /home/michael/miniconda3/bin/../lib/gcc/x86_64-conda_cos6-linux-gnu/7.3.0/../../../../x86_64-conda_cos6-linux-gnu/include/c++/7.3.0/exception:143:
In file included from /home/michael/miniconda3/bin/../lib/gcc/x86_64-conda_cos6-linux-gnu/7.3.0/../../../../x86_64-conda_cos6-linux-gnu/include/c++/7.3.0/bits/nested_exception.h:40:
In file included from /home/michael/miniconda3/bin/../lib/gcc/x86_64-conda_cos6-linux-gnu/7.3.0/../../../../x86_64-conda_cos6-linux-gnu/include/c++/7.3.0/bits/move.h:54:
[1m/home/michael/miniconda3/bin/../lib/gcc/x86_64-conda_cos6-linux-gnu/7.3.0/../../../../x86_64-conda_cos6-linux-gnu/include/c++/7.3.0/type_traits:149:31: [0m[0;1;31merror: [0m[1mno member named 'value' in 'std::__not_<std::is_lvalue_reference<std::basic_ostream<char> &> >'

Interpreter Error: 

## Messungen

Nachdem wir die Implementierung haben können wir auch mal die konkrete Laufzeit messen. Dabei gehen wir wie bei der binären und linearen Suche vor.

In [5]:
const int len = 100000;
int feld[len];

In [6]:
%%timeit
Tools::fillArray(feld,len);
HeapSort(feld,len);

15.9 ms +- 855 us per loop (mean +- std. dev. of 7 runs 100 loops each)


<div class="task">
    <h3>Aufgabe</h3>
    <div>
        Führen Sie die Zeitmessung für die in dem Array <tt>laengen[]</tt> (siehe nächste Zelle) durch.
        Tragen Sie die Werte in Millisekunden (ms) in das Array <tt>messungen[]</tt> ein. Beachten Sie
        dabei die Reihenfolge und die Einheiten (bei HeapSort könnten auch Mikrosekunden (us) gemessen werden!)
    </div>
    <div>
        In dem Array <tt>referenz[]</tt> ist bereits eine Reihe von Messungen für HeapSort gegeben.
        Und in <tt>selectionSort[]</tt> sind die Referenzmessungen für SelectionSort enthalten.
    </div>
</div>

In [1]:
double laengen[]   = { 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 12000, 15000, 20000 };
double messungen[] = {    0,    0,    0,    0,    0,    0,    0,    0,    0,     0,     0,     0,     0 };

double referenz[]  = { 0.08, 0.21, 0.34, 0.469, 0.60, 0.74,  0.87, 1.01,  1.14,  1.29, 1.55,  1.95,  2.63 };    
double selectionSort[]  = { 0.56, 2.19, 4.86, 10.1, 15.2, 19.2, 26.3, 34.3, 43.5,  53.7,  76.9,   119,   212 };

In [4]:
#include <algoviz/DataPlot.hpp>
AlgoViz::clear();
DataPlot plot = DataPlot(400,400);

// Plotte die beiden Messreihen.
plot.plot(laengen,messungen,13,"red");   // Die roten Punkte sind ihre Messungen
plot.plot(laengen,referenz,13,"blue");   // Die blauen die Referenzmessungen
plot.plot(laengen,selectionSort,13,"black");  // Die schwarzen sind die SelectionSort Messungen

Wie Sie sehen benötigt HeapSort deutlich weniger Zeit als SelectionSort. Es sieht sogar fast so aus, alls würde die Laufzeit von HeapSort gar nicht steigen. Das das nicht ganz stimmt sieht man, wenn man die Messung von SelectionSort nicht mit plotten lässt.

Diese einfachen Experimente scheinen also nahezulegen, dass HeapSort deutlich besser ist als SelectionSort. Aber können wir das auch nachweisen?

<div class="followup">
    <h3>Wo es weiter geht</h3>
    <div>Diese einfachen Experimente scheinen also nahezulegen, dass HeapSort deutlich besser ist als SelectionSort. Aber können wir das auch        
        <a class="followup" href="/user-redirect/algoviz/lessons/04_Sortieren/08_HeapSortLaufzeit.ipynb">nachweisen</a>?
    </div>
</div>    