# Hands On

## Erläuterung zur Übung

Über jeder Zelle finden ist eine **Aufgabe** zu finden, in der eine kurze Aufgabe für die darunter liegende Zelle beschrieben ist. 

In manchen Fällen sind einige Zeilen Code bereits vorgeschrieben, sodass lediglich Anpassungen vorgenommen werden müssen.

Sollten Sie nicht weiter kommen, gibt es zwei Möglichkeiten: 
- (falls vorhanden) führen Sie die Zelle `%load Aufgabe_1_1_Tipp.py` für eine Hilfestellung aus 
- führen Sie die Zelle `%load Aufgabe_1_1_Loesung.py` für die Lösung der Teilaufgabe aus 

Um zu verhindern, dass die Zeilen aus Versehen ausgeführt werden, sind diese als `Raw` Zellen markiert. Für die Ausführung muss die Zellenart auf `Code` umgestellt werden. Die Zellenart kann im Dropdown Menü unter den Reitern der für die verschiedenen Notebook Tabs geändert werden.

## Imports 

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB

%matplotlib inline 

## Problemdefinition

Für die Hands-On Übung wird der [Iris Datensatz](https://en.wikipedia.org/wiki/Iris_flower_data_set) verwendet. 

Dieser enthält Informationen über verschiedene Schwertlilienarten und wurde erstmals 1938 in dem Paper [The Use of Multiple Measurements in Taxonomic Problems](http://www.comp.tmu.ac.jp/morbier/R/Fisher-1936-Ann._Eugen.pdf) veröffentlicht. Der Datensaty ist ein beliebt für Visualisierungen und zum Testen von Klassifikations- und Klusterungsalgorithmen. 

## Laden des Datensatzes

Genauso wie bei dem Titanic Beispiel, ist der Datensatz ebenfalls in den Python Bibliotheken `sklearn` und `seaborn` bereits vorhanden. 

In [None]:
df_iris = sns.load_dataset("iris")
df_iris.head()

Der Datensatz enthält folgende Informationen in den Spalten: 

<table>
<tbody>
<tr><th><b>Variable</b></th><th><b>Erklärung</b></tr>
<tr>
<td>sepal_length</td>
<td>Länge des Kelchblatts in cm</td>
</tr>
<tr>
<td>sepal_width</td>
<td>Breite des Kelchblatts in cm</td>
</tr>
<td>petal_length</td>
<td>Länge des Blüttenblatts in cm</td>
<td></td>
</tr>
<tr>
<td>petal_width</td>
<td>Breite des Blüttenblatts in cm</td>
<td></td>
</tr>
<tr>
<td>species</td>
<td>Name der Blumenart</td>
<td></td>
</tr>
</tbody>
</table>

![alt text](bilder/iris_2.png)

[Quelle](http://suruchifialoke.com/img/ML/iris.png)

## 1. Explorative Analyse

_**Aufgabe 1.1**_: Lassen sie sich die ersten 10 Zeilen des DataFrames `df_iris` anzeigen. 

In [None]:
# Aufgabe 1.1


_**Aufgabe 1.2**_: Wie viele verschiedene Pflanzen sind in dem Datensatz enthalten? 

In [None]:
# Aufgabe 1.2


_**Aufgabe 1.3**_: Lassen sie sich die statistischen Parameter der numerischen Spalten ausgeben. Gibt es Ausreißer in den Daten, die für das Machine Learning entfernt aus den Daten entfernt werden müssen?

In [None]:
# Aufgabe 1.3


_**Aufgabe 1.4**_: 
Wie viele unterschiedliche Anzahl an Spezien befinden sich in dem Datensatz? 
Ist der Datensatz ausgeglichen (d.h. enthält er etwa gleich viele Datenpunkte aller Klassen)

*Tipp* : Durch Ausführen der Funktion `df["Spaltenname"].value_counts()` kann man die Anzahl an einmaligen Werten einer Spalte von kategorischen Werten anzeigen lassen.

In [None]:
# Aufgabe 1.4


_**Aufgabe 1.5**_: Die Python Bibliothek `seaborn` bietet eine Möglichkeit mit wenig Code Zeilen komplexe Plots zu erstellen. 

Die Funktion `sns.pairplot(df)` listet paarweise Plots von numerischen Features bzw. deren Verteilungsfunktion auf. 

a) Führen Sie die Funktion `sns.pairplot(df_iris, hue="species")` aus für eine Visualisierung des Datensatzes aus.

b) Stellen Sie auf Grundlage der Informationen der Plots eine Vermutung auf, welche Blumenart sich einfacher von den anderen unterscheiden lässt.

In [None]:
# Aufgabe 1.5


## 2. Vorbereitung des Datensatzes für das Machine Learning

_**Aufgabe 2.1**_: Müssen aus dem Datensatz aufgrund von fehlenden Werten (`NaN` Werten) Zeilen oder Spalten entfernt werden? 

In [None]:
# Aufgabe 2.1


_**Aufgabe 2.2**_: 
Überlegen Sie sich, welche Spalten die Features und welche Spalten die Label sind. 

Teilen Sie anschließend den Datensatz in ein Feature DataFrame `X` und eine Label Series `y` auf. 

In [None]:
# Aufgabe 2.2


_**Aufgabe 2.3**_: 
Teilen Sie die das Feature DataFrame `X` und die Label Series `y` in ein Trainings- und Testdatensatz auf. 

Nutzen Sie 75% der Daten zum Trainineren und 25% der Daten zum Testen.

In [None]:
# Aufgabe 2.3


_**Aufgabe 2.4**_: 
Skalieren Sie den Trainings- und Testdatensatz mit einem `MinMaxScaler`.  

In [None]:
# Aufgabe 2.4


## 3. Machine Learning 

_**Aufgabe 3.1**_: 
Instanziieren Sie eine oder mehrere Klassifizierer aus der sklearn Bibliothek.

In [None]:
#Aufgabe 3.1


_**Aufgabe 3.2**_: 
Trainieren/ fitten Sie den ausgewählten Klassifizierer für den Trainingsdatensatz

In [None]:
# Aufgabe 3.2 


_**Aufgabe 3.3**_: Nutzen Sie den trainierten Klassifizierer, um die Pflanzenart des Testdatensatzes vorherzusagen.

In [None]:
# Aufgabe 3.3


_**Aufgabe 3.4**_: Bewerten Sie die Güte des Algorithmus, indem Sie die Genauigkeit des Modells für den Testdatensatz bestimmen. 

Welche Genauigkeit ist bei einem Klassifizierer zu erwarten, der zufällig eine Auswahl der Blumenart trifft? 

In [None]:
# Aufgabe 3.4


_**Aufgabe 3.5**_: Bewerten Sie die Güte des Algorithmus, indem Sie die Genauigkeit des Modells für den Testdatensatz bestimmen. 

Welche Genauigkeit ist bei einem Klassifizierer zu erwarten, der zufällig eine Auswahl der Blumenart trifft? 

In [None]:
# Aufgabe 3.5


_**Aufgabe 3.6**_: In folgenden Zelle ist die ganze Machine Learning Pipeline aufgeführt. Probieren welche Auswirkungen das Weglassen von Features, verschiedene Train-Test Splits, unterschiedliche Algorithmen auf das Ergebnis haben. 

In [None]:
# Aufgabe 3.6
X = df_iris[[
    "petal_length",
    "petal_width", 
    "sepal_length", 
    "sepal_width"
]]
y = df_iris["species"]

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.75, random_state=0)

scaler = MinMaxScaler()
scaler = scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#clf = KNeighborsClassifier()
#clf = SVC()
#clf = GaussianNB()
clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train, y_train).score(X_test, y_test)