# &#127794; Digital Champion - Hands-On Python Session

## &#128210; Inhaltsverzeichnis:
* [1 Einf√ºhrung](#first-bullet)
* [2 Entscheidungsb√§ume Theorie & Aufgabenstellung](#second-bullet)
* [3 Datenaufbereitung](#third-bullet)
* [4 Einfacher Entscheidungsbaum](#fourth-bullet)
* [5 Optimierter Entscheidungsbaum](#fifth-bullet)
* [6 Abschluss](#sixth-bullet)
* [7 Anhang](#seventh-bullet)
* [8 L√∂sungen](#eight-bullet)
* [9 Quellen](#nineth-bullet)

## 1 Einf√ºhrung (5 min) <a class="anchor" name="first-bullet">

Jupyter Notebooks sind interaktive Entwicklungsumgebungen, die es erm√∂glichen, Code, Visualisierungen und Text in einer einzigen Umgebung zu kombinieren. Sie werden h√§ufig f√ºr die Datenanalyse, den Code-Austausch und die Dokumentation verwendet. Mit Jupyter Notebooks k√∂nnen Python-Codezellen ausgef√ºhrt und die Ergebnisse sofort angezeigt werden. In diesem Jupyter-Notebook werden wir ```Entscheidungsb√§ume``` betrachten.

![alt text for screen readers](./pictures/jupyter_intro_google.png "Einf√ºhrung Jupyter Notebook").

### Erkl√§rungen:
* &#10133; **Code:** Mit diesem Symbol k√∂nnen wir eine neue Code-Zelle in das Notebook einf√ºgen. Die Code-Zellen werden dazu verwendet, um ausf√ºhrbaren Code einzugeben. In einer Code-Zelle k√∂nnen Programmiersprachen wie Python, R, Julia und andere verwendet werden.
* &#10133; **Text:** Mit diesem Symbol k√∂nnen wir eine neue Text-Zelle in das Notebook einf√ºgen. Die Text-Zellen dienen zur Eingabe und Formatierung von Text. Sie erm√∂glichen es, Text, √úberschriften, Aufz√§hlungen, Bilder und andere Formatierungselemente einzuf√ºgen.
* üóëÔ∏è **L√∂schen:** Mit diesem Symbol k√∂nnen wir eine Zelle l√∂schen und deren Inhalt entfernen.
* &#9654; **Ausf√ºhren:** Mit diesem Symbol k√∂nnen wir den Code in einer Zelle ausf√ºhren.
* ```Laufzeit``` -> ```Alle ausf√ºhren``` Der Kernel f√ºhrt den Code aus und gibt die Ergebnisse zur√ºck an das Notebook. Es kann sein, dass der Kernel nicht mehr verbunden ist. In diesem Fall m√ºssen wir den Kernel neustarten und alle Zellen neu laufen lassen

Wichtig: Diese beiden Zeilen m√ºssen zwingend ausgef√ºhrt werden. 

In [None]:
# L√§dt unseren Datensatz aus dem LearningFriday GitHub Repository herunter
!git clone https://github.com/LearningFridayPost/dc-jupyter-notebook.git

In [None]:
# √Ñndert working directory, sodass Daten korrekt eingelesen werden k√∂nnen
%cd dc-jupyter-notebook

---


&#128712; **INFO:**</b> 

- Wir lesen das Notebook durch und bearbeiten die Aufgaben direkt in diesem Notebook
    
- Die L√∂sungen k√∂nnen wir mit dem Link unter den Aufgaben aufrufen
    
- Fragen bitte direkt in den Chat schreiben

- Komplexere Fragen werden in Breakout-Sessions behandelt


---

## 2 Entscheidungsb√§ume: Theorie & Aufgabenstellung (8 min) <a class="anchor" name="second-bullet"></a>

### 2.1 Was ist ein Entscheidungsbaum?

Entscheidungsb√§ume sind eine Methode zur automatischen Klassifizierung von Datenobjekten (z.B. Personen oder Objekte) und damit zur L√∂sung von Entscheidungsproblemen. Ein Entscheidungsbaum besteht immer aus einem Wurzelknoten (root node) und beliebig vielen inneren Knoten (split node) sowie mindestens zwei Bl√§ttern (leaf node). Dabei repr√§sentiert jeder Knoten eine logische Regel und jedes Blatt eine Antwort auf das Entscheidungsproblem. Im Folgenden ist ein Beispiel f√ºr einen Entscheidungsbaum abgebildet:

![alt text for screen readers](./pictures/dt-example-new.png "Beispiel Entscheidungsbaum").

Wir haben einen Datensatz mit vielen Personen. F√ºr jede Person haben wir das Einkommen und die Information, ob eine Person eine Hypothek hat. Das Ziel ist es, herauszufinden, ob eine bestimmte Persone eine Versicherung hat (Klasse: ```Has Insurance```) oder nicht (Klasse: ```No Insurance```). Das heisst konkret: Mit dem abgebildeten Entscheidungsbaum wollen wir mit den Informationen von ```income_usd``` und ```with_mortage``` herausfinden, ob eine Person eine Versicherung hat.

Die folgenden Informationen sind im Entscheidungsbaum (Abbildung oben) enthalten:
* **gini:** Der Gini-Index beschreibt, wie gut ein Knoten verschiedene Klassen (z.B. ```No Insurance```, ```Has Insurance```) separiert. Der Wert ist immer zwischen 0 und 1. Je kleiner der Gini-Index ist, desto besser. Bei der Konstruktion des Entscheidungsbaumes wird bei jedem Knoten der Gini-Index berechnet. Es wird immer die logische Regel gew√§hlt, welche den besten Gini-Index aufweist.
* **samples:** Dieser Wert beschreibt die Anzahl Beobachtungen (z.B. Daten von Personen), welche f√ºr den Split eines spezifischen Knotens zur Verf√ºgung stehen. Wir sehen beispielsweise, dass f√ºr die Konstruktion dieses Baumes Daten von 24 Personen verwendet wurden. Weiter sehen wir, dass der erste Knoten die 24 Personen in eine Gruppe mit 13 und eine Gruppe mit 11 Personen aufteilt.
* **value:** Value beschreibt, wie die Aufteilung der ```samples``` im Knoten aussieht. Der Wert ```[15, 9]``` im ersten Knoten beschreibt beispielsweise, dass von 24 Personen, 15 keine Versicherung (Klasse: ```No Insurance```) und 9 Personen eine Versicherung (Klasse: ```Has Insurance```) haben.
* **class:** Dieser Wert zeigt die Klasse, welche einem spezifischem Knoten zugewiesen wird. Beispiel: Im ersten Knoten sehen wir die Klasse ```No Insurance```, da von den 24 Personen mehr ```No Insurance``` (15) haben, als ```Has Insurance``` (9). Wir k√∂nnen die Klasse auch ahhand der Farben ablesen. Je r√∂ter ein Knoten ist, desto eher geh√∂rt er zur Klasse ```No Insurance``` und je blauer ein Knoten ist, desto eher geh√∂rt er zur Klasse ```Has Insurance```.

---


&#128712; **INFO:**</b>
Wie kann man einen Entscheidungsbaum lesen bzw. wie klassifizert der Entscheidungsbaum neue Beobachtungen (z.B. Personen):

- Wir starten immer beim Wurzelknoten, d.h. ganz oben im Entscheidungsbaum.

- Wenn die logische Regel im Knoten f√ºr die neue Beobachtung erf√ºllt ist, wird der linke Pfad im Entscheidungsbaum gew√§hlt. Wenn die logische Regel im Knoten nicht erf√ºllt ist, wird der rechte Pfad gew√§hlt.

- Wir durchlaufen den Entscheidungsbaum so lange, bis wir bei einem Blatt ankommen. Das ```class``` Attribute im Blatt beschreibt die Klasse des neuen Datenobjekts.


---

<a name='aufgabe_1'></a>
&#9989; **AUFGABE 1:**</b> Bestimme die Klasse der beiden nachfolgeden Personen anhand des oben abgebildeten Entscheidungsbaums:

- Person 1: income_usd = 100'000; with_mortage = 0

- Person 2: income_usd = 73'000; with_mortage = 1

-> L√∂sungen zu [Aufgabe 1](#l√∂sung_aufgabe_1)

In [None]:
# Eigene L√∂sung (mit # Kommentarfunktion):


### 2.2 Aufgabenstellung

In diesem Jupyter-Notebook arbeiten wir mit dem ['heart-disease'](https://archive.ics.uci.edu/dataset/45/heart+disease) (HD) Datenset. Das Datenset ist eine Tabelle mit 14 Spalten (Features) und 303 Zeilen (Beobachtungen). Eine kurze Beschreibung der verschiedenen Features:
* age: Alter
* sex: Mann/Frau
* restbp: resting blood pressure (Ruheblutdruck in mm/Hg bei Aufnahme ins Krankenhaus)
* chol: Serumcholesterin in mg/dl
* fbs: wenn der N√ºchternblutzucker > 120 mg/dl liegt
* thalach: maximale Herzfrequenz erreicht
* exang: Belastungsangina (Richtig/Falsch)
* oldpeak: ST-Depression durch k√∂rperliche Bet√§tigung im Vergleich zur Ruhe
* ca: Anzahl der gro√üen Gef√§√üe (0-3), gef√§rbt durch Fluoroskopie

Unser Ziel ist es, mit den 303 Beobachtungen ein Modell zu generieren, welches neue Beobachtungen (bzw. Personen) klassifizieren und somit bestimmen kann, ob eine Herzerkrankung (HD) vorliegt oder nicht. Im Modell nutzen wir die oben beschriebenen Features um die Zielvariable (HD) vorherzusagen:
* hd: Art der Herzerkrankung (hier: bin√§r)

In einer Experten-Gruppe von Data Scientisten, haben wir besprochen, welches Modell wir verwenden m√∂chten. Wir haben uns entschieden, Entscheidungb√§ume zur Klassifikation von Herzerkrankungen zu benutzen, da diese einfach interpretierbar sind.

## 3 Datenaufbereitung (12 min) <a class="anchor" name="third-bullet"></a>

### 3.1 Read data

Bei jedem neuen Python-Projekt √ºberlegen wir uns, welche Python-Bibliotheken wir verwenden m√∂chten. Eine Python-Bibliothek ist ein wiederverwendbarer Codeblock, den wir in einem Programm bzw. Projekt einbinden k√∂nnen. Das Einbinden von solchen Codeblocks ist einiges schneller als den Code selber zu schreiben.

---


&#128712; **INFO:**</b> 
Wenn wir in Python programmieren ist es wichtig, zu wissen, dass alles was hinter einem '#' steht kein Code ist, sondern nur ein Kommentar um den Code zu beschreiben. </div>


---

In [None]:
%%capture
pip install pandas numpy matplotlib scikit-learn

In [None]:
# Bibliotheken importieren
# pandas: Bibliothek zum Lesen und Bearbeiten von Daten
import pandas as pd
# numpy: Bibliothek zum Berechnen von KPIs
import numpy as np
# plt: Bibliothek zum Plotten von Grafiken
import matplotlib.pyplot as plt
# DecisionTreeClassifier: Modellierungskit f√ºr Entscheidungsb√§ume
from sklearn.tree import DecisionTreeClassifier
# plot_tree: Funktion zum Plotten von Entscheidungsb√§umen
from sklearn.tree import plot_tree
# train_test_split: Funktion, um Testobjekte in Training- bzw. Testset zu splitten
from sklearn.model_selection import train_test_split
# cross_val_score: Funktion zur Kreuzvalidierung
from sklearn.model_selection import cross_val_score
# confusion_matrix: Funktion zum Berechnen der Wahrheitsmatrix (Konfusionsmatrix)
from sklearn.metrics import confusion_matrix
# ConfusionMatrixDispla: Funktion zum Plotten der Konfusionsmatrix
from sklearn.metrics import ConfusionMatrixDisplay
# accuracy_score: Funktion zum Berechnen der Accuracy
from sklearn.metrics import accuracy_score

---


&#128712; **INFO:**</b>   In Python werden Daten mit Hilft des '=' Operators in einer Variable gespeichert. Wenn wir beispielsweise die Zahl 5 in der Variable 'a' speichern m√∂chten, k√∂nnen wir das mit dem folgenden Code machen:
<br><br>
a = 5 


---

In [None]:
# pd.read_csv(filepath_or_buffer, sep, encoding) erm√∂glicht es '.csv' Daten einzulesen
# und in einer Variable als Tabelle zu speichern
df = pd.read_csv(filepath_or_buffer='data/processed_cleveland_small.csv',
                 sep=',',
                 encoding='latin')

In [None]:
# Wenn wir die Variable 'df' aufrufen, wird sie angezeigt
df

<a name='aufgabe_2'></a>
&#9989; **AUFGABE 2:**</b>
Speichere die Daten in der Variable 'df_start'
    
-> L√∂sungen zu [Aufgabe 2](#l√∂sung_aufgabe_2)
</div>

In [None]:
# Eigene L√∂sung:


In [None]:
# .head() zeigt, wie die ersten f√ºnf Zeilen in der Tabelle aussehen
df_start.head()

### 3.2 Fehlende Daten

In [None]:
# Wenn wir den Spaltennamen in eckige Klammer schreiben, z.B. df_start['Spaltenname'], erhalten wir die Werte dieser Spalte
df_start['ca']

Der letzte angezeigte Wert ist ein '?'. Wir wollen kurz pr√ºfen, ob es noch mehr solche 'speziellen' Werte gibt.

In [None]:
# Die Funktion .unique() zeigt alle einzigartigen Elemente in der Spalte 'ca'
df_start['ca'].unique()

Der Wert '?' ist der einzige nicht-numerische Wert in der Spalte 'ca'. Bei solchen Werten m√ºssen wir vorsichtig sein. Es kann sich um einen Ausreisser oder einen fehlenden Wert handeln. Das Data Science Team nimmt deshalb Kontakt mit dem Autor des Datensatzes auf. Nach einigen Abkl√§rungen sind wir uns sicher, dass es fehlende Daten sind. Wir wissen jedoch noch nicht, wie oft solche fehlenden Daten vorkommen.

Um zu sehen, wie oft dieser Wert vorkommt, filtern wir nach dem Wert '?'.

In [None]:
# [Tabellenname['Spaltenname'] == 'zu pr√ºfender Text'] kann verwendet werden, um eine Tabelle nach einem spezifischen Spaltenwert zu filtern
df_start[df_start['ca'] == '?']

Der Wert '?' kommt nur sehr selten vor. Wir beschliessen, dises Beobachtungen aus dem Datensatz zu entfernen. Das heisst: Wir entfernen jede Beobachtung mit einem Fragezeichen. 

Grund: Fehlende Daten k√∂nnen zu Fehlern in der Konstruktion von Entscheidungsb√§umen f√ºhren.

---


&#128712; **INFO:**</b>  Die wichtigsten Vergleichsoperatoren:
    
* ```==```: zu vergleichendes Element muss den gleichen Inhalt haben
* ```!=```: zu vergleichendes Element darf nicht den gleichen Inhalt haben
* ```>=```: zu vergleichende Zahl muss gleich oder gr√∂sser sein
* ```<=```: zu vergleichende Zahl muss gleich oder kleiner sein
     

---

<a name='aufgabe_3'></a>
&#9989; **AUFGABE 3:**</b>
Wir haben gesehen, dass nur 4 Testobjekte in der Spalte 'ca' ein '?' enthalten. Da die Abkl√§rungen ergeben haben, dass es fehlende Daten sind, und dieses Ph√§nomen nur sehr wenige Testobjekte betrifft, wollen wir diese Werte aus unserer 'df_start' Tabelle rausfiltern und die neue Tabelle unter 'df_no_missing' speichern.

-> L√∂sungen zu [Aufgabe 3](#l√∂sung_aufgabe_3)

In [None]:
# Eigene L√∂sung:


In [None]:
# Test: Mit diesem Code pr√ºfen wir, ob alle '?' entfernt worden sind.
df_no_missing['ca'].unique()

### 3.3 Ausreisser

Die Autoren des Datensatzes haben uns bei dem Austausch gesagt, dass es zu unerkl√§rbaren Werten beim Alter gekommen ist. Das heisst: bei dem folgenden Feature vermuten wir Ausreisser (Outliers):
* age: Alter der Testobjekte

Eine weitverbreitete M√∂glichkeit, um die Daten auf Ausreisser zu pr√ºfen, ist mithilfe von Visualisierungen wie etwa den Boxplots. Ein Boxplot ist eine grafische Darstellung statistischer Verteilungen, die den Median, Quartile und Ausreisser visualisiert, indem es die Daten in Boxen darstellt.

![alt text for screen readers](./pictures/boxplot-new.png "Beispiel Boxplot").

In [None]:
# Die Funktion .boxplot(Spaltenname) zeigt einen Boxplot f√ºr ein bestimmtes Feature
df_no_missing.boxplot('age')
plt.show()

Wir sehen, dass es im Feature ```age``` keine Ausreisser hat. Die Autoren des Datensatzes scheinen die Daten schon bereinigt zu haben. Falls Ausreisser vorkommen, sollte man diese entfernen.

### 3.4 Daten formatieren
Im n√§chsten Schritt erfolgt die Aufteilung der Daten in Features und die Zielvariable. Alle Merkmale werden in die Tabelle ```X``` aufgenommen, w√§hrend die Werte der Zielvariable in der Tabelle ```y``` abgebildet werden.

Hierbei repr√§sentiert ```X``` potenzielle Beobachtungen, also Daten von Personen, und ```y``` steht f√ºr die m√∂glichen Klassifizierungen (```0```=```keine Herzkrankheit```; ```1```=```hat Herzkrankheit```). Das √ºbergeordnete Ziel besteht darin, einen Entscheidungsbaum zu erstellen, der ```y``` m√∂glichst genau in Abh√§ngigkeit von ```X``` klassifiziert.

In [None]:
# Mit der Funktion .copy() erstellen wir eine Kopie der Tabelle
df_clean = df_no_missing.copy()

In [None]:
# Alle Features sollen in der Tabelle 'X' gespeichert werden
# Die Funktion .drop('Spaltenname', axis=1) wird verwendet, um eine Spalte zu entfernen
# Mit der Funktion .copy() erstellen wir eine Kopie der Tabelle
X = df_clean.drop('hd', axis=1).copy()
X.head()

In [None]:
# In diesem Schritt speichern wir die Zielvariable als 'y'
y = df_clean['hd'].copy()
y.head()

Im n√§chsten Schritt erfolgt die Aufteilung unserer Daten in ein ```Trainingsset``` und ein ```Testset```:

- ```Trainingsset```: Hierbei handelt es sich um Daten, die verwendet werden, um einen Entscheidungsbaum zu konstruieren und ihn anhand spezifischer Beobachtungen zu trainieren. Das Ziel ist es, dem Baum die charakteristischen Eigenschaften eines Datensatzes beizubringen.
- ```Testset```: Dieses Datenset wird genutzt, um den Entscheidungsbaum zu testen. Es erm√∂glicht die √úberpr√ºfung, wie gut der Baum in der Lage ist, neue Beobachtungen zu klassifizieren und somit seine Leistungsf√§higkeit zu bewerten.

![alt text for screen readers](./pictures/train_test_split.png "Beispiel Boxplot").

In [None]:
# Die Funktion train_test_split(X, y) teilt die Daten in ein Trainings- und in ein Testset
# Standardm√§ssig sind im Testset 25% der Daten vorhanden und im Trainingsset 75%
# Wir sehen, dass train_test_split() 4 Tabellen generiert (je eine X und y Tabelle f√ºr beide Sets)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

## 4 Einfacher Entscheidungsbaum (10 min) <a class="anchor" name="fourth-bullet"></a>
### 4.1 Einfacher Entscheidungsbaum

In diesem Abschnitt konstruieren wir einen ```einfachen Entscheidungsbaum``` (ohne Optimierungen) abh√§ngig von unseren Beobachtungen im Trainingsset. Dieser Entscheidungsbaum erlaubt eine erste Klassifizierung von Objekten (z.B. Personen) hinsichtlich einer Herzkrankheit.

In [None]:
# Die Funktion DecisionTressClassifier() wird f√ºr die Konstruktion eines Entscheidungsbaumes verwendet
clf_dt_e = DecisionTreeClassifier(random_state=42)
# .fit(X_train, y_train) weist dem Entscheidungsbaum ein Trainingsset (X und y) zu
clf_dt_e.fit(X_train, y_train)

In [None]:
# Visualisierung: Mit dem folgenden Code k√∂nnen wir einen Entscheidungsbaum visualisieren/plotten
# Hier wird die Gr√∂sse des Plots definiert (15 steht f√ºr die Breite und 7.5 steht f√ºr die H√∂he)
plt.figure(figsize=(15, 7.5), dpi=600)

# Die Funktion plot_tree(decision_tree, class_names, feature_names) wird f√ºr die Visualisieren eines Entscheidungsbaumes verwendet
# 'decision_tree' steht f√ºr den Entscheidungsbaum der visualisiert werden soll
plot_tree(decision_tree=clf_dt_e,
          # 'filled=True' f√ºhrt dazu, dass die Knoten mit Farben gef√ºllt werden
          filled=True,
          # 'class_names=["kein HD", "hat HD"]' gibt die Klassen an, die in jedem Knoten unter 'class' stehen sollen
          class_names=["keine HD", "hat HD"],
          # 'feature_names=X.columns' muss mitgegeben werden, damit die Features im Plot korrekt bezeichnet werden
          feature_names=X.columns)

# Die Funktion plt.show() zeigt den Plot an
plt.show()

Herlzichen Gl√ºckwunsch! Wir haben unseren ersten einfachen Entscheidungsbaum konstruiert. Jetzt wollen wir sehen, wie gut dieser Entscheidungsbaum, welchen wir mit den Trainingsset trainiert haben, Klassifizierungen im Testset vornehmen kann. Das bedeutet, wir wollen sehen, wie neue Personen klassifiziert werden, welche nicht f√ºr das Training ben√∂tigt worden sind.

In [None]:
# Die Funktion .predict(Tabellenname) wird verwendet, um die Klassifizierungen durchzuf√ºhren
# Als Input muss dieser Funktion ein Tabellenname mitgegeben werden -> die Tabelle muss die Test-Features enthalten
predictions = clf_dt_e.predict(X_test)
# Der Output ist eine Liste mit den Klassifizierungen (0=keine HD; 1=hat HD)
predictions

In einem n√§chsten Schritt wollen wir pr√ºfen, ob diese Klassifizierungen richtig oder falsch sind.

In [None]:
# Die Funktion confusion_matrix(y_true, y_pred, labels) bietet eine M√∂glichkeit zur Pr√ºfung der Klassifizierung
# 'y_true' -> Liste der korrekten Klassifizierungen
cm = confusion_matrix(y_true=y_test,
                      # 'y_pred' -> Liste der vogenommenen Klassifizierungen
                      y_pred=predictions,
                      # 'labels' -> Klassen von clf_dt mitgeben
                      labels=clf_dt_e.classes_)

# Die Funktion ConfusionMatrixDisplay(confusion_matrix, display_labels) dient zur Visualisierung der Confusion-Matrix 'cm'
# 'confusion_matrix' -> Confusion-Matrix die visualisiert werden soll
disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              # 'display_labels' -> welche Labels sollen auf der Visualisierung dargestellt werden
                              display_labels=['keine HD', 'hat HD'])
# Die Funktion .plot() erstellt die Visualisierung
disp.plot()
# Die Funktion plt.show() zeigt den Plot an
plt.show()

Die oben abgebildete Grafik zeigt eine ```Confusion-Matrix```. Sie wird wie folgt gelesen:
- 31: Haben keine Herzkrankheit -> Diese 31 haben wir korrekt klassifiziert (True Negative TN) <br>
- 12: Haben keine Herzkrankheit -> Diese 12 haben wir falsch klassifiziert (False Negative FN) <br>
- 25: Haben eine Herzkrankheit -> Diese 25 haben wir korrekt klassifiziert (True Positive TP) <br>
- 7: Haben eine Herzkrankheit -> Diese 7 haben wir falsch klassifiziert (False Positive FP)

Wie gut ein Entscheidungsbaum ist, definieren wir anhand der ```Accuracy```, welche mit Hilfe der ```Confusion-Matrix``` berechnet werden kann.

---


&#128712; **INFO:**</b> 

Accuracy = (TP + TN) / (TP + TN + FP + FN)
<br>
<br>... bei unserem einfachen Entscheidungsbaum haben wir z.B. folgende accuracy:
<br> 
<br>Accuracy = (25 + 31) / (25 + 31 + 7 + 12) = 0.75
    

---

In [None]:
# Die Funktion accuracy_score(y_true, y_pred) zeigt die berechnete Accuracy
accuracy_score(y_true=y_test,
               y_pred=predictions)

## 5 Optimierter Entscheidungsbaum (10 min) <a class="anchor" name="fifth-bullet"></a>
### 5.1 Pruning

![alt text for screen readers](./pictures/ccp.png "Pruning").

Wir haben bisher einen ```einfachen Entscheidungsbaum``` konstruiert. Zusammen mit dem Data Science Team besprechen wir, ob dieser Entscheidungsbaum ausreichend ist. Jemand aus dem Team hat einen Zweifel: der Entscheidungsbaum k√∂nnte auf die Trainigsset √ºberangepasst (overfitting) sein. √úberanpassung/Overfitting ist ein bekanntes Ph√§nomen. Es bedeutet, dass die Klassifizierung von Beobachtungen aus unserem Trainigsset sehr gut funktioniert, aber weniger gut f√ºr die Klassifizierung von neuen Beobachtungen. Der Entscheidungsbaum ist also zu sehr an die Trainingsdaten angepasst (√ºberangepasst).

Dieses Problem k√∂nnen wir l√∂sen, indem wir die Konstruktion des Entscheidungsbaumes vereinfachen. Dazu verwenden wir verschiedene Parameter (z. B. ```max_ Depth``` oder ```min_samples```) um den Entscheidungsbaum zu optimieren. Das f√ºhrt dazu, dass der Entscheidungsbaum weniger Bl√§tter hat und dadruch einfacher und weniger an die Trainingsdaten angepasst ist. Diesen Prozess nennt man ```Pruning```. Das Ziel ist es, mithilfe des ```Pruning``` die ```Accuracy``` f√ºr neue Beobachtungen zu verbessern.

```Cost Complexity Pruning``` ist eine spezifische Methode, um einen kleineren Entscheidungsbaum zu finden, der bessere Ergebnisse bei neuen Beobachtungen liefert. Wir schauen, ob kleinere Teil-Entscheidungsb√§ume (Baum mit 38 Bl√§ttern, Baum mit 37 Bl√§ttern, etc.) bessere Ergebnisse liefern als gr√∂ssere. Damit kleinere B√§ume mit gr√∂sseren B√§umen verglichen werden k√∂nnen, verwenden wir den Parameter ```alpha``` als ein Strafterm/Penalty, der das Ergebnis von kleineren B√§umen verbessert (√úberanpassung vs. Genauigkeit im Testdatenset).

Eine genauere Anleitung zum ```Cross Complexity Pruning``` findet ihr [hier](#anhang_1).

---


&#128712; **INFO:**</b> 

Die Werte von ```alpha``` sind wie folgt zu interpretieren:
- ``` 0```: Der Entscheidungsbaum ist nicht geprunt. Er hat die maximale Gr√∂sse und entspricht dem in Kapitel 4 konstruierten einfachen Entscheidungsbaum.
- ```>0```: Je gr√∂sser ```alpha``` desto einfacher ist der Entscheidungsbaum. Das heisst, der Entscheidungsbaum wir mit steigendem ```alpha``` weniger Bl√§tter haben.
    

---

In [None]:
# .cost_complexity_pruning_path(X_train, y_train) ist ein Algorithmus um m√∂glichst optimale Werte f√ºr alpha zu finden.
path = clf_dt_e.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas = path.ccp_alphas
ccp_alphas

In [None]:
# Wir w√§hlen einen Wert aus der Liste und konstruieren einen Entscheidungsbaum mit 'alpha' = 0.0077381
value_alpha = 0.0077381

# Definition des Entscheidungsbaums
clf_dt_new = DecisionTreeClassifier(random_state=42,
                                    ccp_alpha=value_alpha)
clf_dt_new.fit(X_train, y_train)

# Visualisierung des Entscheidungsbaums
plot_tree(decision_tree=clf_dt_new,
          filled=True,
          class_names=["keine HD", "hat HD"],
          feature_names=X.columns)

# Die Funktion plt.show() zeigt den Plot an
plt.show()

<a name='aufgabe_4'></a>
&#9989; **AUFGABE 4:**</b>

Konstruiere und plotte drei verschiedene Entscheidungsb√§ume mit verschiedenen 'alpha' Values. F√ºr die Konstruktion kannst du den obigen Code verwenden bzw. kopieren.
    
Bitte stelle sicher, dass du die Entscheidungsb√§ume in den folgenden Variablen abspeicherst:
- clf_dt_1
- clf_dt_2
- clf_dt_3

-> L√∂sungen zu [Aufgabe 4](#l√∂sung_aufgabe_4)

In [None]:
# Eigene L√∂sung:


In [None]:
# f√ºr den konstruierten Entscheidungsbaum 'clf_dt_new' wollen wir die Confusion-Matrix plotten, um zu sehen, wie gut er performt
# Klasifizierungen
predictions = clf_dt_new.predict(X_test)
cm = confusion_matrix(y_true=y_test,
                      y_pred=predictions,
                      labels=clf_dt_new.classes_)

# plotten der Confusion-Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=['keine HD', 'hat HD'])

# .plot() plottet die Visualisierung
disp.plot()
plt.show()

<a name='aufgabe_5'></a>
&#9989; **AUFGABE 5:**</b>

Plotte die Confusion-Matrix f√ºr die in Aufgabe 4 kosnstruierten Entscheidungsb√§ume. F√ºr die Plots kannst du den obigen Code verwenden bzw. kopieren.
<br>
<br>-> L√∂sungen zu [Aufgabe 5](#l√∂sung_aufgabe_5)
    

In [None]:
# Eigene L√∂sung:


Wir haben gesehen, dass je nach ```alpha``` die Ergebnisse schlechter oder besser werden. Die Frage ist, wie wir auf eine einfache Art dasjenige 'alpha' finden, bei welchem die Ergebnisse am besten sind.

Wir schreiben einen Code der Folgendes f√ºr uns erledigt:
1. Einen Entscheidungsbaum pro ```alpha``` Wert konstruieren
2. Pro Entscheidungsbaum die ```Accuracy``` f√ºr das Testset und das Trainingsset berechnen
3. Die ```Accuracy``` f√ºr jeden Entscheidungsbaum in Abh√§ngigkeit von ```alpha``` plotten

Den Code, welcher dies f√ºr uns ausf√ºhrt, findet ihr untenstehend.

<div class="alert alert-block alert-danger"> <b>Komplexe Code-Zelle:</b> 

Die nachfolgende Code-Zelle muss nur ausgef√ºhrt werden. Das Nachvollziehen der Funktionsweise ist nicht Teil dieser Einf√ºhrung, dies w√ºrde √ºber den Scope hinaus gehen.
    
</div>

In [None]:
# mit [:-1] entfernen wir den gr√∂ssten 'alpha' Wert (das gr√∂sste 'alpha' hat keine Bl√§tter)
ccp_alphas = ccp_alphas[:-1]

clf_dts = []

for ccp_alpha in ccp_alphas:
    clf_dt = DecisionTreeClassifier(random_state=42, ccp_alpha=ccp_alpha)
    clf_dt.fit(X_train, y_train)
    clf_dts.append(clf_dt)
    
# mit dem untenstehenden Code plotten wir 'Accuracy' in Abh√§ngigkeit zu 'alpha' (f√ºr Testdaten und Trainingsdaten)
train_scores = [clf_dt.score(X_train, y_train) for clf_dt in clf_dts]
test_scores = [clf_dt.score(X_test, y_test) for clf_dt in clf_dts]

fig, ax = plt.subplots()
ax.set_xlabel('alpha')
ax.set_ylabel('accuracy')
ax.set_title('Accuracy vs alpha for training and testing sets')
ax.plot(ccp_alphas, train_scores, marker='o', label='train', drawstyle='steps-post')
ax.plot(ccp_alphas, test_scores, marker='o', label='test', drawstyle='steps-post')
ax.legend()
plt.show()

Im obigen Plot finden wir die n√∂tigen Informationen, welche wir brauchen, um das beste ```alpha``` zu finden.

Von Interesse ist vor allem die orange Linie (```Testdaten```).

Bei der Auswahl des besten ```alpha``` achten wir auf die folgenden zwei Punkte:
1. Die ```Accuracy``` von ```test``` soll m√∂glichst gross sein
2. Die ```Accuracy``` von ```train``` soll m√∂glichst gross sein

Unter Anbetracht des aufgef√ºhrten Punktes ist das optimale ```alpha``` also der sechstletzte Punkt auf der ```test``` Linie.

In [None]:
# um den sechstletzten Punkt zu finden rufen wir nochmals die Liste mit den 'alpha' Werten auf
ccp_alphas

In [None]:
# optimales 'alpha'
alpha_opt = 0.01081731

In [None]:
# definiere den Entscheidungsbaum
clf_dt_pruned = DecisionTreeClassifier(random_state=42,
                                       ccp_alpha=alpha_opt)
clf_dt_pruned = clf_dt_pruned.fit(X_train, y_train)

In [None]:
# plotte den Entscheidungsbaum
plt.figure(figsize=(15, 7.5))
plot_tree(clf_dt_pruned,
          filled=True,
          class_names=["keine HD", "hat HD"],
          feature_names=X.columns)
plt.show()

In [None]:
# 'Accuracy' des neuen Entscheidungsbaumes
predictions_new = clf_dt_pruned.predict(X_test)
accuracy_score(y_true=y_test,
               y_pred=predictions_new)

Wir erhalten die folgenden ```Accuracy-Werte```:
* einfacher Entscheidungsbaum = ```0.746```
* optimierter Entscheidungsbaum =  ```0.786```

Wenn wir diese beiden Werte vergleichen, sehen wir, dass wir durch die Optimierung einen Entscheidungsbaum erhalten haben, welcher besser mit neuen Beobachtungen umgehen kann.

## 6 Abschluss (5 min) <a class="anchor" name="sixth-bullet"></a>

Was haben wir gelernt:
* Was sind Entscheidungsb√§ume?
* Wie lesen wir Entscheidungsb√§ume?
* Wie bereiten wir Daten auf (fehlende Daten & Ausreisser)?
* Arbeiten mit Trainings- und Testset
* Erstellen von einfachen Entscheidungsb√§umen
* Optimieren von einfachen Entscheidungsb√§umen
* Accuracy und Confusion-Matrix

Was muss man beachten, wenn man Modelle integrieren will:
* Generalisierung
* Software-Engineering-Skills um Modelle in Applikationen einzubinden
* Antwortzeiten
* Monitoren der Vorhersagequalit√§t
* Zusammenarbeit von mehreren Rollen (Data-Engineer, Data-Scientist, Software-Engineer)

## 7 Anhang <a class="anchor" name="seventh-bullet"></a>

<a name='anhang_1'></a>
### Anhang 1: Anleitung Cross Complexity Pruning

Der Algorithmus zur Kostenkomplexit√§tsbeschneidung folgt in der Regel diesen Schritten:

1. Erstelle einen anf√§nglichen Entscheidungsbaum mit einem Trainingsdatensatz unter Ber√ºcksichtigung aller verf√ºgbaren Attribute und Merkmale.
2. Bewerte die Klassifikationsleistung des Entscheidungsbaums anhand eines separaten Validierungsdatensatzes.
3. Berechne f√ºr jeden internen Knoten des Entscheidungsbaums seine potenziellen Kosten in Bezug auf die fehlerhafte Klassifizierung oder anderer Metriken.
4. Weise jedem internen Knoten eine Kostenkomplexit√§tswertung zu, die in der Regel als Summe seiner Kosten f√ºr fehlerhafte Klassifizierung und eines Strafterms berechnet wird, der proportional zur Anzahl der absteigenden Blattknoten ist.
5. Beginnend beim Wurzelknoten beschneide iterativ den Knoten mit der niedrigsten Kostenkomplexit√§tswertung und erstellen eine Reihe von kleineren Entscheidungsb√§umen.
6. Bewerte die Klassifikationsleistung jedes beschnittenen Entscheidungsbaums anhand des Validierungsdatensatzes.
7. W√§hle den beschnittenen Baum mit der besten Leistung aus, die oft anhand der Genauigkeit oder einer anderen geeigneten Metrik gemessen wird.
8. Optional kann man den ausgew√§hlten Baum weiter beschneiden, indem man den Komplexit√§tsparameter Œ± optimiert und die Schritte 5-7 wiederholt.
9. Der endg√ºltige beschnittene Entscheidungsbaum wird erzielt, wenn durch zus√§tzliches Beschneiden keine weiteren Verbesserungen der Leistung erzielt werden k√∂nnen.

## 8 L√∂sungen <a class="anchor" name="eight-bullet"></a>

<a name='l√∂sung_aufgabe_1'></a>
### L√∂sung Aufgabe 1

Klassen:
- Datenobjekt 1 = 'Has Insurance'
- Datenobjekt 2 = 'Has Insurance' 

![alt text for screen readers](./pictures/L√∂sung_mit_Pfaden.png "L√∂sung").

-> Zur√ºck zu [Aufgabe 1](#aufgabe_1)

<a name='l√∂sung_aufgabe_2'></a>
### L√∂sung Aufgabe 2

In [None]:
df_start = df

-> Zur√ºck zu [Aufgabe 2](#aufgabe_2)

<a name='l√∂sung_aufgabe_3'></a>
### L√∂sung Aufgabe 3

In [None]:
df_no_missing = df_start[df_start['ca'] != '?']

-> Zur√ºck zu [Aufgabe 3](#aufgabe_3)

<a name='l√∂sung_aufgabe_4'></a>
### L√∂sung  Aufgabe 4

Die folgenden Code-Zellen bilden eine m√∂gliche L√∂sung zu Aufgabe 4 ab.

In [None]:
plt.figure(figsize=(15, 7.5), dpi=600)

# wir konstruieren jetzt einen Tree mit 'alpha' = 0.0000000000001
value_alpha = 0.0000000000001

# definiere den Entscheidungsbaum
clf_dt_1 = DecisionTreeClassifier(random_state=42,
                                ccp_alpha=value_alpha)
clf_dt_1.fit(X_train, y_train)

# plotte den Entscheidungsbaum
plot_tree(decision_tree=clf_dt_1,
          filled=True,
          class_names=["keine HD", "hat HD"],
          feature_names=X.columns)

# plt.show() zeigt den Plot auf dem Bildschirm an
plt.show()

In [None]:
plt.figure(figsize=(15, 7.5), dpi=600)

# wir konstruieren jetzt einen Tree mit 'alpha' = 0.01425422
value_alpha = 0.01425422

# definiere den Entscheidungsbaum
clf_dt_2 = DecisionTreeClassifier(random_state=0,
                                ccp_alpha=value_alpha)
clf_dt_2.fit(X_train, y_train)

# plotte den Entscheidungsbaum
plot_tree(decision_tree=clf_dt_2,
          filled=True,
          class_names=["keine HD", "hat HD"],
          feature_names=X.columns)

# plt.show() zeigt den Plot auf dem Bildschirm an
plt.show()

In [None]:
plt.figure(figsize=(15, 7.5), dpi=600)

# wir konstruieren jetzt einen Tree mit 'alpha' = 0.2
value_alpha = 0.2

# definiere den Entscheidungsbaum
clf_dt_3 = DecisionTreeClassifier(random_state=42,
                                ccp_alpha=value_alpha)
clf_dt_3.fit(X_train, y_train)

# plotte den Entscheidungsbaum
plot_tree(decision_tree=clf_dt_3,
          filled=True,
          class_names=["keine HD", "hat HD"],
          feature_names=X.columns)

# plt.show() zeigt den Plot auf dem Bildschirm an
plt.show()

-> Zur√ºck zu [Aufgabe 4](#aufgabe_4)

<a name='l√∂sung_aufgabe_5'></a>
### L√∂sung  Aufgabe 5
Die folgenden Code-Zellen bilden eine m√∂gliche L√∂sung zu Aufgabe 5 ab.

In [None]:
# Klassifizierungen
predictions = clf_dt_1.predict(X_test)
cm = confusion_matrix(y_true=y_test,
                      y_pred=predictions,
                      labels=clf_dt_1.classes_)

# plotten der Confusion-Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=["keine HD", "hat HD"])

# .plot() plottet die Visualisierung
disp.plot()
plt.show()

In [None]:
# Klassifizierungen
predictions = clf_dt_2.predict(X_test)
cm = confusion_matrix(y_true=y_test,
                      y_pred=predictions,
                      labels=clf_dt_2.classes_)

# plotten der Confusion-Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=["keine HD", "hat HD"])

# .plot() plottet die Visualisierung
disp.plot()
plt.show()

In [None]:
# Klassifizierungen
predictions = clf_dt_3.predict(X_test)
cm = confusion_matrix(y_true=y_test,
                      y_pred=predictions,
                      labels=clf_dt_3.classes_)

# plotten der Confusion-Matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=["keine HD", "hat HD"])

# .plot() plottet die Visualisierung
disp.plot()
plt.show()

-> Zur√ºck zu [Aufgabe 5](#aufgabe_5)

## 9 Quellen <a class="anchor" name="nineth-bullet"></a>

### &#169; Quellen:
&#128190; **Daten:** https://archive.ics.uci.edu/dataset/45/heart+disease 
<br>
&#128252;  **Video:** https://youtu.be/q90UDEgYqeI?list=PLBq2sVJiEBvA9rPo3IEQsJNI4IJbn81tB

### &#128161; Weitere Informationen:

``` Decision Trees: ``` &nbsp; https://www.youtube.com/watch?v=7VeUPuFGJHk&t=0s
<br>
``` Cross Validation: ``` &nbsp; https://www.youtube.com/watch?v=fSytzGwwBVw&t=0s
<br>
``` Confusion Matrix: ``` &nbsp; https://www.youtube.com/watch?v=Kdsp6soqA7o&t=0s
<br>
``` Cost-Complexity Pruning: ``` &nbsp; https://www.youtube.com/watch?v=D0efHEJsfHo&t=0s
<br>
``` Bias and Variance and Overfitting: ``` &nbsp; https://www.youtube.com/watch?v=EuBBz3bI-aA&t=0s