## Einführung in Machine Learning

## Kurzhinweise
Sie können eine Zelle ausführen, indem Sie in die Zelle klicken und dann "Shift + Enter" drücken.

Bitte führen Sie die Zellen nacheinander aus, da einige Zellen auf den Input vorheriger Zellen angewiesen sind. Falls Sie "mitten im Notebook" anfangen werden Sie das aber ggf. merken, wenn Sie eine Fehlermeldung erhalten.

Die nächste Zelle bitte ausführen aber **nicht** verändern. Sie sorgt für das Layout des Notebooks.

In [None]:
from IPython.core.display import HTML

def _set_css_style(css_file_path):
   """
   Read the custom CSS file and load it into Jupyter.
   Pass the file path to the CSS file.
   """

   styles = open(css_file_path, "r").read()
   s = '<style>%s</style>' % styles     
   return HTML(s)

_set_css_style('assets/styles.css')

## Import der benötigten Pakete
Die nächste Zelle müssen Sie ausführen, um die benötigten Python Pakete für das Notebook zu importieren.

In [None]:
# Pakete für Machine Learning
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.model_selection import train_test_split #zur Aufteilung des Datensatzes in Trainings- und Testdaten
from sklearn.tree import DecisionTreeClassifier #Entscheidungsbaum (Supervised Learning)
from sklearn.cluster import KMeans #KMeans (Unsupervised Learning)

# For computation
import pandas as pd

# For plotting
import matplotlib.pyplot as plt
import matplotlib

## Datenset

In [None]:
# Laden des Datensets
iris = load_iris()

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Das Datenset besteht aus 3 verschiedenen Arten von Schwertlilien (Setosa, Versicolour, and Virginica). <br/><br/>
Die Dimensionen des Blütenblattes und des Kelchblattes sind in einer 150x4 Matrix abgespeichert (s. Output der nächsten Codezeile) <br/><br/>
Die Zeilen repräsentieren die Samples (jeweils eine vermessene Blume).<br/><br/>
Die Spalten stehen für: Länge Blütenblatt, Breite Blütenblatt, Länge Kelchblatt, Breite Kelchblatt
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
iris.data

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Die Target Variable (s. nächsten Output) gibt an, zu welchen Blütenblatt- bzw. Kelchblattdimensionen welche Schwertlilienart gehört. <br/><br/>
    Technisch bedeutet das, zur ersten 
Zeile der Matrix aus der vorherigen Zelle gehört der erste Eintrag des Vektors aus dem nun folgenden Output usw.<br/><br/>

</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
iris.target_names[iris.target]

## Supervised Learning

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Supervised Learning (dt. überwachtes Lernen) zeichnet sich dadurch aus, 
dass ein Datensatz für das Modelltraining vorhanden ist, der die Lösung zur gegebenen Aufgabe beinhaltet. Mit dem trainierten Modell kann dann eine Vorhersage über das korrekte Ergebnis basierend auf unbekannten Daten getroffen werden.
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box question">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
<b>Beispiel:</b><br/><br/>
    In unserem Datenset haben wir zu allen 150 Messungen das Ergebnis, zu welcher Lilienart die Blume gehört. Deshalb spricht man hier von gelabelten Daten.<br/><br/>
    Ziel ist nun auf Basis der 150 Beobachtungen vorhersagen zu treffen, zu welcher Schwertlilienart eine unbekannte Blume 
mit gewissen Dimensionen gehört<br/><br/>
    Nehmen Sie an, Sie finden eine Blume, von der Sie nur wissen, dass es eine Schwertlilie ist, aber nicht welche Art. Sie messen die Dimensionen des Blüten- und Kelchblattes mit 4.7, 4, 3, 1.9.<br/><br/>
    Schauen wir mal, ob ein trainiertes Machine Learning Modell uns hier weiterhelfen kann.
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
    Im folgenden Code wird ein Entscheidungsbaum (bestimmte Art von Modell) trainiert, der auf Basis der Dimensionen vorhersagen soll, zu welcher Lilienart
    eine Blume gehört.<br/><br/>
    Wir nutzen hierzu unser Datenset bestehend aus 150 Einträgen. Wir teilen das Datenset zunächst zufällig in Trainings- und Testdaten. Die Trainingsdaten (80% der Daten) werden zum Trainieren des Modells verwendet, die Testdaten (20% der Daten) um danach zu validieren, wie gut unser trainiertes Modell Vorhersagen treffen kann. 
</div>
<div class="fancy-box__img"></div>
</div>


In [None]:
#Split des Datenset in 80% Trainingsdaten und 20% Testdaten
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state = 1, test_size = 0.2)

#Instanziierung eines Entscheidungsbaum für Klassifizierung
decision_tree = DecisionTreeClassifier(random_state=0, max_depth=2)

#Hier passiert das Training des Entscheidungsbaumes auf Basis der Trainingsdaten
decision_tree = decision_tree.fit(X_train, y_train)

# Hier wird auf Basis der Testdaten berechnet, wie gut unser Modell vorhersagen treffen kann
accuracy = round(decision_tree.score(X_test, y_test) * 100, 2)

print('In '+ str(accuracy)+'% hat das Modell auf den Testdaten das richtige Ergebnis vorhergesagt.')

In [None]:
iris.data

In [None]:
# Plot des Entscheidungsbaumes. Wird in der Vorlesung zusammen mit Methode erklärt
tree.plot_tree(decision_tree)

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
    Im folgenden Code treffen wir eine Vorhersage über unsere vermessene Lilie mit den Dimensionen 4.7, 4, 3, 1.9 
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
#Dimensionen
dimensions = [[4.7, 4, 3, 1.9]]
#Vorhersage der Lilienart
pred_class = decision_tree.predict(dimensions)
#Vorhersage der Wahrscheinlichkeit
pred_prob = decision_tree.predict_proba(dimensions)

print('Mit '+ str(round(pred_prob[0,pred_class][0]*100,2))+' % hat das Modell die Lilienart '+str(iris.target_names[pred_class[0]])+' vorhergesagt.')

## Unsupervised Learning

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Unsupervised Learning (dt. unüberwachtes Lernen) zeichnet sich dadurch aus, 
dass es kein Ergebnis zu den einzelnen Datensätzen gibt (unlabeled data). Vielmehr probiert das Modell
Muster in den Daten zu erkennen und die Datenpunkte nach diesem Muster zu clustern.
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box question">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
<b>Beispiel:</b><br/><br/>
    Nehmen wir an, wir haben ein anderes Datenset über Blütenabmessungen, welches aus einer 300x2 Matrix (nur 2 Dimensionen zur besseren Visualisierung) ohne Ergebnisse bestehen (unlabeled data). 
    Ziel ist es nun auf Basis dieser 300 Messungen Pflanzen jeweils nach ihrer Art zu sortieren (zu clustern), ohne zu wissen,
    um welche Art es sich genau handelt.<br/><br/>
    Nehmen Sie wie oben an, Sie finden eine Blume, mit Dimensionen des Blüten- und Kelchblattes mit 4.7, 4, 3, 1.9.<br/><br/>
    Schauen wir mal, welchem Cluster unser Algorithmus unsere unbekannte Blume zuordnen würde.
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
# Neues Datenset einlesen
df = pd.read_csv('input/clustering_data.csv', delimiter=",")

In [None]:
# Die ersten 5 Reihen des Dataframes
df.head()

In [None]:
# descriptive statistics
df.describe()

In [None]:
# Getting a scatter plot to visualize both dimensions simultaneously
plt.rcParams["figure.figsize"] = (4,3)
plt.scatter(df["Width"], df["Length"])
plt.xlabel('Width')
plt.ylabel('Length')
plt.show()

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
    Im folgenden Code wird der NearestNeighbors Algorithmus trainiert, der auf Basis der Dimensionen vorhersagen soll, zu welchem Cluster eine Blume gehört.<br/><br/>
    <b>Achtung:</b> Den Datensatz müssen wir hier nicht in Trainings- und Testdaten teilen, da wir annehmen, dass wir kein Ergebnis haben. 
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
#Instanziierung des KMeans um die Cluster zu bestimmen
kmeans = KMeans(n_clusters=2, random_state=0)
#Hier passiert die Berechnung der Cluster auf Basis des gesamten Datensatzes
kmeans = kmeans.fit(df)

In [None]:
# Clustermittelpunkte berechnen
# Koordinaten ausgeben
print("Coordinates of the centroids: \n", kmeans.cluster_centers_)

# Visualisierung
plt.scatter(df["Width"], df["Length"], c='blue')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5);
plt.xlabel('Width')
plt.ylabel('Length')
plt.show()

# Kostenfunktion: Ergebnis der Minimierung
print('\033[1m  Distortion of the resulting clustering for two clusters \033[0m')
print(kmeans.inertia_)

In [None]:
# Und jetzt alles noch einmal mit drei Clustern
kmeans2 = KMeans(n_clusters=3, random_state=0)
kmeans2.fit(df)

# Koordinaten ausgeben
print("Coordinates of the centroids: \n", kmeans2.cluster_centers_)

# Visualisierung
plt.scatter(df["Width"], df["Length"], c='blue')
centers2 = kmeans2.cluster_centers_
plt.scatter(centers2[:, 0], centers2[:, 1], c='red', s=200, alpha=0.5);
plt.xlabel('Width')
plt.ylabel('Length')
plt.show()

# Kostenfunktion: Ergebnis der Minimierung
print('\033[1m  Distortion of the resulting clustering for three clusters \033[0m')
print(kmeans2.inertia_)

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Die Bestimmung der Anzahl der Cluster ist ein wichtiges Thema für K-Means. Ein einfacher iterativer Versuch-und-Irrtum-Ansatz, die Ellbogenmethode, bietet eine mögliche Schätzmethode 
zur Bestimmung dieses Parameters. Die Idee besteht darin, die Distortion, die quadrierte Summe der Abstände zu den Clustermittelpunkten, zu nehmen und sie für einen Bereich von Clusterzahlen
zu visualisieren. Die Intuition ist, dass ab einer bestimmten Anzahl von Clustern keine Verbesserung durch Hinzufügen weiterer Cluster erreicht wird, was bedeutet, dass der zusätzliche Cluster
irgendwo in der Nähe der bestehenden Cluster liegt und nicht wesentlich zur Verringerung der Kostenfunktion beiträgt. Die Illustration für unseren Fall ist unten dargestellt:
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
# Liste, um die Werte der Kostenfunktion zu speichern
distortions = []

# Verschiedene Anzahl an Clustern
K = range(1,10)

# Loop, um Modell mit dieser Anzahl zu trainieren
for k in K:
    # Performing K-Means für die gegebene Clusteranzahl
    kmeanModel = KMeans(n_clusters=k, random_state=0).fit(df)
    # Ermittlung des Wertes der Kostenfunktion und Speicherung in Liste
    distortions.append(kmeanModel.inertia_)
    
# Visualisierung
plt.plot(K, distortions, 'ro-')
plt.xlabel('Number of Clusters')
plt.ylabel('Distortion')
plt.title('The Elbow Method for Cluster Number')
plt.show()

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
    Im folgenden Code bestimmen wir die Clusterzuordnung von Blumen mit verschiedenen Abmessungen.</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
#Dimensionen
dimensions = [[2,8], [6,10], [6,1], [5,8]]
#Vorhersage des Clusters
kmeans2.predict(dimensions)