In [None]:
# [Nur Colab] Diese Zellen müssen nur auf *Google Colab* ausgeführt werden und installieren Packete und Daten
!wget -q https://raw.githubusercontent.com/KI-Campus/AMALEA/master/requirements.txt && pip install --quiet -r requirements.txt
!wget --quiet "https://github.com/KI-Campus/AMALEA/releases/download/data/data.zip" && unzip -q data.zip

## Maschinelles Lernen und seine Anwendungen

### Einführung

Wir beginnen diesen Abschnitt mit der Definition einiger Schlüsselbegriffe, die wir in dieser Übung verwenden werden.

__Datensatz (engl. Dataset):__ Eine Sammlung von Daten wird als Datensatz bezeichnet. Im Allgemeinen ist sie wie eine Tabelle aufgebaut. Jede Zeile repräsentiert ein Element, das mehrere Features haben kann. Jede Spalte repräsentiert ein Feature.


__Deskriptive Statistik:__ Sie ist der Vorläufer der _Prädiktiven Statistik_ und basiert auf dem Gewinnen und Zusammenfassen von Informationen aus vergangenen Ereignissen. Zu den grundlegenden deskriptiven Analysetechniken gehören Anzahl, Summe, Durchschnittswert, Prozentsatz, Minimal- und Maximalwert sowie einfache Arithmetik (+, -, × und ÷).  


__Prädiktive Statistik:__ Das Ergebnis einer Weiterentwicklung des Konzepts der _deskriptive Analytik_. Ihr Ziel ist es, basierend auf der Analyse historischer Daten, Vorhersagen über die Zukunft oder über unbekannte Ereignisse zu treffen. Um dies zu erreichen, werden bestimmte Modelle oder Algorithmen verwendet.

![Imagen predictive analytics](images/predictive_analytics_in_a_pic.png)

__Maschinelles Lernen:__ Ist ein Ansatz zum Lösen von Problemen der _Prädiktiven Statistik_. Anstatt explizit definierte Regeln zur Verarbeitung von Daten anzuwenden, versucht maschinelles Lernen, die zugrunde liegenden allgemeinen Konzepte der Beziehungen im Datensatz herauszufinden. Diese Methoden sind in der Lage, die traditionelle regelbasierte Programmierung bei vielen Aufgaben weit zu übertreffen, haben aber auch ihre eigenen Komplikationen und Nachteile, die sorgfältig abgewogen werden müssen.


In dieser Übung werden Sie lernen, Ansätze des maschinellen Lernens anzuwenden, um fundierte (aus Trainingsdaten gelernte) Vermutungen für die Vorhersage aufzustellen.

Beim maschinellen Lernen lernt ein _Prädiktionsmodell_ seine Parameter aus Trainingsdaten. Damit ist das System in der Lage, Vorhersagen aus Eingabedaten zu erstellen. Ein besonderes Merkmal vieler Algorithmen des maschinellen Lernens ist die Fähigkeit, Informationen aus den Trainingsdaten interpolieren und extrapolieren zu können. Es gibt jedoch einige Einschränkungen bei der Generalisierung. Zudem wird das Modell wahrscheinlich am besten mit Daten funktionieren, die den Trainingsdaten ähnlich sind. Daher werden wir unsere Daten meistens in Trainings-, Test- und Validierungsdaten aufteilen. Diese drei Konzepte sind für fast alle Aufgaben des maschinellen Lernens wichtig und werden im Folgenden definiert:


- Trainingsdaten: Die Daten und Beispiele, die für die Optimierung der Parameter des Modells verwendet werden. 
- Testdaten: Normalerweise wollen wir wissen, wie gut der maschinelle Lernalgorithmus mit Daten umgeht, die er zuvor noch nicht gesehen hat. Dadurch können wir abschätzen, wie gut der Algorithmus in der realen Welt funktionieren würde. Diese Leistungsmaße evaluieren wir daher mit einem Testdatensatz, der von den Daten getrennt ist, die für das Training des maschinellen Lernsystems verwendet wurden. (Legen Sie diese Daten beseite und evaluieren Sie nur einmal am Ende Ihrer Optimierung! Sie sollten nicht mit Testdaten trainieren...)
- Validierungsdaten: Der Validierungssatz wird verwendet, um den Generalisierungsfehler während oder nach dem Training zu schätzen, sodass die Hyperparameter (z. B. Lernrate, k, Baumtiefe, Batch-Größe, ...) unabhängig von Test- und Trainingsdaten aktualisiert werden können. Daher ist es wichtig, die Validierungsdaten von Test- und Trainingsdaten zu trennen. Typischerweise verwendet man etwa 80 % der Trainingsdaten für das Training und 20 % für die Validierung.

<!--- www.digitalistmag.com/digital-economy/2018/03/15/differences-between-machine-learning-predictive-analytics-05977121 -->

Das Ziel der _Prädiktiven Modellierung_ ist es, Modelle zu erstellen, die gute Vorhersage treffen. Dies wird erreicht, indem das Modell mithilfe der Trainingsdaten trainiert wird. Die Performanz des Modells wird anschließend mit den Testdaten bestimmt. Für das Optimieren der Hyperparameter werden die Validierungsdaten verwendet. __In dieser Übung werden jedoch keine Hyperparameter optimiert.__ Dementsprechend wird kein Validierungssatz benötigt und alle Daten werden für Training und Test verwendet. Sie werden verschiedene Methoden kennenlernen, um Ihre Daten in Trainings- und Testsätze zu unterteilen.
Zudem werden Sie lernen, wie sie diese Daten verwenden können, um ein maschinelles Lernmodell zu trainieren.

Es gibt mehrere Algorithmen/Netzwerke, die als Vorhersagemodelle verwendet werden können, prominente Beispiele sind:
- K-Nearest Neighbor Algorithmen
- Neuronale Netze (Multi Layer Perceptrons MLPs)
- Convolutional Neural Networks (CNNs)
- Recurrent Neural Networks (RNNs)
- Und viele weitere


![xkcd.png](images/xkcd.png)

### Anwendungen


### Regressionsprobleme
Im Falle von Regressionsproblemen muss ein maschinelles Lernmodell eine _Größe_ (kontinuierlicher Wert) auf Basis von neuen Daten vorhersagen. In der Praxis funktioniert das, indem eine Funktion auf einen bekannten Satz von Datenpunkten angepasst wird. Die Vorhersage des Modells ist nichts anderes als die Ausgabe der Funktion mit der neuen Eingabe.

Häufig verwendete Regressionsmethoden sind die _lineare Regression_ und die _logistische Regression_.
Lineare Funktionen sind einfach anzupassen und zu verstehen. Allerdings kann die Genauigkeit gering ausfallen, wenn die den Daten zugrunde liegende Beziehung nichtlinear ist. Die logistische Regression passt eine logistische Sigmoidkurve an die gegebenen Daten an. Diese wird normalerweise verwendet, um eine Wahrscheinlichkeitsfunktion zu approximieren, die später als Grundlage für eine Klassifizierungsentscheidung verwendet werden kann.


![linear_logistic_regression](images/linear_logistic_regression.jpeg)


### Klassifizierungsprobleme
Bei Klassifizierungsproblemen versucht das Modell, eine diskrete Klasse oder Kategorie von neuen Daten vorherzusagen. 
Um ein Klassifizierungsproblem zu lösen, kann man grundsätzlich auch zunächst ein Regressionsmodell erstellen. Für die Klassifizierung werden jedoch andere Metriken und Modellfunktionen (z. B. logistisch) gewählt. Zusätzlich werden Schwellenwerte für die Klassifikation auf die Modellvorhersage angewendet, um eine diskrete Ausgabe zu erzeugen.

![regression_classification_weather_example](images/regression_classification_weather_example.jpeg)
<p style="text-align: center;">
    Abb. 1 - Regression und Klassifizierung auf Basis der Wettervorhersage
</p>



Sowohl Regressions- als auch Klassifikationsprobleme können mit Methoden des _überwachten Lernens_ gelöst werden.  Bei diesem Ansatz müssen sowohl die Eingabe als auch die entsprechende Lösung (Label) im Voraus bekannt sein. Eingaben und Labels werden dann dem Algorithmus übergeben. Dieser versucht dann, eine allgemeine, konzeptionelle Beziehung zwischen Eingaben und Lösungen zu lernen, bis er schließlich in der Lage ist, eine sinnvolle Ausgabe für neue Eingaben zu liefern.

### Clustering-Probleme
Unüberwachte Lernmethoden wie Clustering benötigen keine Lösungsmenge, um zu funktionieren. Wir werden uns hier nicht auf ihre Leistungsmetriken konzentrieren, da dies tiefergehendes Wissen erfordert. Sie werden mehr über Clustering in Woche 3 erfahren.


## Aufteilen von Datensätzen in Trainings- und Testsätze

Wenn Sie mit einem Modell arbeiten und es trainieren wollen, verfügen Sie bereits über einen Datensatz. Um das Modell nach dem Training zu testen, benötigen Sie neue Daten, die noch nicht im Trainingssatz aufgetreten sind. Vor allem in frühen Entwicklungsphasen kann es allerdings sein, dass Ihnen dazu keine große Menge an Daten zur Verfügung steht.

In solchen Situationen ist die naheliegendste Lösung, den vorhandenen Datensatz in zwei Gruppen zu unterteilen, eine zum Trainieren und eine zum Testen. Diese Unterteilung führen Sie noch vor Beginn des Trainings durch. Ein Teil wird zum Trainieren des Modells verwendet. Sobald die Maschine trainiert ist, werden wir die Vorhersagen mit den Testdaten vergleichen, um die Leistung des Modells abzuschätzen.

Die Größe der Aufteilung kann von der Größe und den Eigenschaften des Datensatzes abhängen. Allerdings ist es üblich, 67 % der Daten zum Trainieren und die restlichen 33 % zum Testen zu verwenden. Ein Split-Verhältnis von 80/20 ist ebenfalls sehr üblich. 

Diese Auswertungstechnik des Algorithmus ist sehr schnell. Sie ist ideal für große Datensätze (Millionen von Einträgen), bei denen es starke Hinweise darauf gibt, dass beide Aufteilungen (engl. splits) der Daten das zugrunde liegende Problem repräsentieren. Wegen der Geschwindigkeit ist es sinnvoll, diesen Ansatz zu verwenden, wenn der zu untersuchende Algorithmus langsam beim Training oder bei der Inferenz ist. 
Ein Nachteil dieser Technik ist, dass sie eine hohe Varianz haben kann. Das bedeutet, dass Unterschiede im Trainings- und Testdatensatz zu bedeutenden Unterschieden in der Schätzung der Genauigkeit führen können.

<div class="alert alert-block alert-success">
<b>Aufgabe 2.1.1:</b> Führen Sie den folgenden Codeblock aus und spielen Sie mit den Kontrollkästchen. Nutzen Sie Ihre gewonnenen Erkenntnisse, um die folgenden Aufgaben zu lösen.
</div>

<div class="alert alert-block alert-success">
<b>Nun sind Sie dran:</b> Führen Sie den Code im nächsten Codeblock aus. Der Code führt eine lineare Regression für einen beispielhaften Diabetes-Datensatz durch. Weitere Informationen zu diesem Datensatz finden Sie unter: 
<a href="https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html">https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html</a>    
 oder im ganzen Paper <a href="http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf">http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf</a> (seien Sie gewarnt, es sind etwa 44 Seiten. Es ist nicht empfehlenswert, alles zu lesen). Außerdem erzeugt der Code ein interaktives Diagramm, um Ihnen bei der Lösung der ersten Aufgabe zu helfen.
</div>

In [1]:
# Code source: Jaques Grobler
# License: BSD 3 clause

# https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

from ipywidgets import interact, interactive, fixed, interact_manual

# Load the diabetes dataset
diabetes = datasets.load_diabetes()

# Use only one feature
diabetes_X = diabetes.data[:, np.newaxis, 2]

# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients
print('Coefficients: \n', regr.coef_)

def f(p1: bool, p2: bool, p3: bool, p4: bool):
    plt.figure(num=None, figsize=(8, 6), dpi=80, facecolor='w', edgecolor='k')

    # Plot outputs
    if p1 == True:
        plt.scatter(diabetes_X_train, diabetes_y_train,  color='black')
    #plt.scatter(diabetes_X_train, diabetes_y_pred, color='blue')
    
    if p2 == True:
        plt.scatter(diabetes_X_test, diabetes_y_test,  color='green')

    if p3 == True:
        plt.scatter(diabetes_X_test, diabetes_y_pred, color='blue')

    if p4 == True:
        plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=1)
    
    plt.xlim(-0.10997004779892904, 0.19024997788107048)
    plt.ylim(8.940894039735102, 362.05910596026484)
    
    # this hides the numbers on the axis
    #plt.xticks(())
    #plt.yticks(())

    plt.show()
    
interactive_plot = interactive(f, p1=True, p2=True, p3=True, p4=True)
output = interactive_plot.children[-1]
output.layout.height = '400px'
interactive_plot


<div class="alert alert-block alert-success">
<b>Aufgabe/Frage 2.1.2:</b> Vervollständigen Sie den folgenden Text, sodass er mit Hilfe der Tabelle unten und der interaktiven Grafik widerspruchsfrei ist, und vervollständigen Sie dann die Tabelle.

    
    
Der folgende Text beschreibt die Schritte zum Erstellen eines Vorhersagemodells für eine lineare Regression: <br>
<br>
Indem Sie ??? und ??? betrachten, können Sie einen Blick auf den gesamten Datensatz werfen.  Im obigen Diagramm wird die Aufteilung der Daten durch unterschiedliche Farben dargestellt. Typischerweise wird der Datensatz in Train, Test und Validierung unterteilt, aber für einfache Modelle kann auch eine einfache Test-Train-Aufteilung verwendet werden. In der Regel ist der Trainingssatz (80 %) größer als der Testsatz (20 %).
Nach der Aufteilung wird der Trainingssatz an das lineare Regressionsmodell übergeben, das über einen Parameter verfügt, der eine lineare Funktion erzeugt. Sie können diese Funktion einblenden, indem Sie auf ??? klicken.<br>
<br>
Mithilfe dieser Linie können wir dann die Werte von y für die Werte x des Testsatzes berechnen. Diese Punkte werden durch ??? dargestellt.  
<br>
Offensichtlich werden alle diese Punkte auf der Linie liegen. In einem nächsten Schritt können verschiedene Metriken berechnet werden, die uns eine Vorstellung davon geben, wie gut dieses Modell mit diesen Daten funktioniert. Mit diesen Metriken würden wir das Modell mit anderen Modellen oder mit anderen Parametern für dieses Modell vergleichen.  
<br>
Wenn wir mit der Auswahl des Modells und seiner Parameter fertig sind, werden wir das Modell erneut trainieren, dieses Mal mit der kompletten Datenbank. 
</div>

|         -          |        -                     |
|--------------------|------------------------------|
| Trainingssatz      | ???                     |
|--------------------|------------------------------|
| Testsatz           | ???                    |
|--------------------|------------------------------|
| Vorhergesagter Datensatz  | ???                    |
|--------------------|------------------------------|
| Regressionsfunktion | ???                    |


<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>























<div class="alert alert-block alert-success">
<b>Aufgabe 2.1.3:</b> Jetzt ist es an der Zeit, Ihre eigene Train-Split Funktion zu schreiben. Verwenden Sie die folgenden Anweisungen und die gegebene Codevorlage.
<ul>
<li> Die Funktion erhält den Originaldatensatz und gibt die beiden Partitionen/Variablen (genannt train und test) zurück.
<li> Außerdem erhält die Funktion eine Zahl zwischen 0 und 1, die das prozentuale Größenverhältnis zwischen "train" und "test" darstellt. Das heißt, wenn z. B. split = 0,7 ist, werden 70 % der Daten für das Training verwendet und die restlichen 30 % sind für das Testen reserviert.
<li> Wir wollen, dass die Aufteilung zufällig ist, also müssen Sie wahrscheinlich aus dem Modul <i>"random.py"</i> (das Teil der <i>Python-Standardbibliothek</i> ist) die Funktionen <i>seed</i> und <i>randrange</i> importieren. Die <i>seed</i> Funktion sorgt dafür, dass das Ergebnis von <i>randrange</i> bei jeder Codeausführung das gleiche ist.
<li>Eine gute Vorgehensweise wäre es, eine Kopie des Originaldatensatzes innerhalb der Funktion zu erstellen. Auf diese Weise wird der Originaldatensatz nicht verändert. Nehmen Sie dann einige Zeilen dieses Datensatzes und fügen Sie diese in eine andere Liste ein. Geben sie beide Listen zurück. Sie können selbst entscheiden können, was train und was test ist.
</ul>
</div>

In [2]:
# Example of Splitting a Contrived Dataset into Train and Test
from random import seed
from random import randrange

# Split a dataset into a train and test set
def my_train_test_split(dataset: list, split: float):
    #STUDENT CODE HERE

    #STUDENT CODE until HERE
    return train, test

<div class="alert alert-block alert-success">
<b>Aufgabe 2.1.4:</b> Testen Sie Ihre train_test_split Funktion anhand des folgenden Beispiels: 
</div>

In [3]:
# test train/test split
seed(1)
dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]  # Dataset is 1 indexed.
train, test = my_train_test_split(dataset,0.7)
print(train)
print(test)

Es gibt viele Methoden, um die Aufteilung des Datensatzes (in Trainings- und Test-Sätze) und die Auswertung des Modells, über die wir gerade gesprochen haben, durchzuführen.
In diesem Abschnitt lernen wir die zwei Hauptmethoden kennen, diese wären:
- Aufteilen, Trainieren und Testen
- k-fache Kreuzvalidierung (engl. k-fold cross validation)

Neben diesen gibt es noch weitere Methoden, die oben vorgestellten Methoden bilden aber die Grundlagen.  
Beiden Verfahren gehören zu den sogenannten __Resampling-Methoden__, also statistischen Methoden, die es ermöglichen, die Leistung des Modells zu __schätzen__, d. h. wie gut es funktionieren wird und wie gut seine Vorhersagen sein werden.
Das Ziel von Resampling-Methoden ist es, die Trainingsdaten bestmöglich zu nutzen, um die Leistung eines Modells auf neuen, zuvor ungesehenen Daten möglichst genau zu schätzen.  

Sobald wir eine genaue Schätzung der Performanz des Modells erreicht haben, können wir diese verwenden, um zu entscheiden, welchen Satz von Modellparametern wir verwenden oder welches Modell wir auswählen.  
Sobald wir ein Modell ausgewählt haben, können wir das endgültige Modell mit dem gesamten Trainingsdatensatz trainieren und damit beginnen, Vorhersagen zu treffen.  
Am Ende dieses Abschnitts erfahren Sie, wann Sie welche Resampling-Methode verwenden sollten.

Ein gemeinsames Merkmal aller Resampling-Methoden ist die Notwendigkeit, die Zeilen für den Trainings-, Test- und Validierungsdatensatz zufällig auszuwählen.
Damit soll sichergestellt werden, dass das Training und die Evaluierung eines Modells objektiv sind.  
Wenn mehrere Algorithmen oder mehrere __Konfigurationen__ desselben Algorithmus verglichen werden, sollte der exakt gleiche Train- und Test-Split des Datensatzes verwendet werden (Reproduzierbarkeit). Dadurch wird sichergestellt, dass der Vergleich der Performanz konsistent ist und wir Äpfel mit Äpfeln vergleichen. Dies kann erreicht werden, indem der __random seed__ des Zufallszahlengenerators vor der Aufteilung der Daten auf die gleiche Weise festgelegt wird, oder indem dieselbe Aufteilung des Datensatzes auf alle Algorithmen angewandt wird.  

## Übung:
Nachdem Sie erfolgreich Ihre erste train/split Funktion geschrieben haben, dürfen Sie nun endlich die train/split-Funktion verwenden, die von der Scikit-Learn-Bibliothek bereitgestellt wird. Scikit-Learn sklearn ist eine häufig verwendete Bibliothek, die Ihre Produktivität booooooostet. 
Es handelt sich hierbei um eine freie Software-Bibliothek für maschinelles Lernen in der Programmiersprache Python. Sie bietet verschiedene Klassifizierungs-, Regressions- und Clustering-Algorithmen, einschließlich Support-Vektor-Maschinen, Random Forests, Gradient Boosting, k-means und DBSCAN, und ist so konzipiert, dass sie mit den numerischen und wissenschaftlichen Python-Bibliotheken NumPy und SciPy zusammenarbeitet.

Eine Auswahl von Funktionen finden Sie in dem [Scikit-Learn Cheatsheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf) (entnommen von https://www.datacamp.com/community/blog/scikit-learn-cheat-sheet). Beantworten Sie die folgende Frage, nachdem Sie das Cheatsheet durchgelesen haben: 

<div class="alert alert-block alert-success">
<b>Frage 2.1.5:</b> Welche Funktion würden Sie zum Aufteilen des Datensatzes wählen? Welche Bibliothek würden Sie importieren?
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>


<div class="alert alert-block alert-success">
<b>Frage 2.1.6:</b> Welche Eingangsparameter hat die Funktion und was ist ihr Rückgabewert?
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>



Nun ist es an der Zeit, die Funktion zu verwenden. Zuerst werden wir die Funktion auf einen künstlichen Datensatz anwenden (nur die Zahlen von 1 bis 10).
Die Größe des Testsatzes soll 20 % betragen.

<div class="alert alert-block alert-success">
<b>Aufgabe 2.1.7:</b> Schreiben und testen Sie Ihre Lösung im folgenden Codeblock.
</div>

In [4]:
# Example of Splitting a Contrived Dataset into Train and Test
from random import seed
from random import randrange

# test train/test split
dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]

#STUDENT CODE HERE

#STUDENT CODE until HERE

print(train)
print(test)

## Übung: Pima-Indianer Diabetes-Datensatz
Der Datensatz ist im KI-Campus verfügbar. Das ursprüngliche Paper, das diesen Datensatz verwendet, finden Sie hier: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2245318/
In dieser Arbeit aus dem Jahr 1984 wurde ein Neuronales Netzwerkmodell für das Auftreten von Diabetes mellitus in einer Hochrisikopopulation von Pima-Indianern erstellt, mit einer Sensitivität und Spezifität von 76 %.

__Datensatzinformationen:__

Bei der Auswahl dieser Fälle aus einer größeren Datenbank wurden mehrere Einschränkungen gemacht. Insbesondere sind alle Patienten hier weiblich, mindestens 21 Jahre alt und stammen von Pima-Indianern ab.

Informationen zu den Features:

1. Anzahl der Schwangerschaften
2. Plasmaglukosekonzentration a 2 Stunden in einem oralen Glukosetoleranztest
3. Diastolischer Blutdruck (mm Hg)
4. Trizeps-Hautfaltendicke (mm)
5. 2-Stunden-Serum-Insulin (mu U/ml)
6. Body-Mass-Index (Gewicht in kg/(Größe in m)^2)
7. Diabetes-Stammbaumfunktion
8. Alter (Jahre)
9. Klassenvariable (0 oder 1)

Nun, da Sie die Features des Datensatzes kennen, können wir mit der Codierung beginnen. 

<div class="alert block alert-warning">
<b>Lösen Sie die Teilaufgaben 1-3 in den entsprechenden nachfolgenden Codeblöcken</b> 
<ul>
  <li>Importieren Sie die CSV-Datei mit dem Datensatz der Pima-Indianer (verwenden Sie Abkürzungen für die Attribute)</li>
  <li>Wie viele Indianer haben keinen Diabetes (Klasse = 0) oder haben Diabetes (Klasse = 1)? Wie ist der Anteil/das Verhältnis dieser beiden Größen?</li>
  <li>Führen Sie einen Datensatzsplit mit der Methode train_test_split von sklearn mit einer Testgröße von 0,25<br> (bzw. einer train-Größe von 0,75) und einem random_state = 0 durch?</li>
</ul>
</div>


In [5]:
# loading Libraries
from pandas import read_csv
import pandas as pd
import numpy as np

#SUBTASK 1: Load the pima-indians-diabetes dataset

#STUDENT CODE HERE

#STUDENT CODE until HERE

In [6]:
#SUBTASK 2:

#How many Indians have diabetes (class =1) or have no diabetes (class = 0)? 
#What is the proportion of these two quantities?
#Hint: the easiest way is to use the groupby method in combination of the size method
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

#STUDENT CODE HERE

#STUDENT CODE until HERE

print("Number of Indians without diabetes: ")
#STUDENT CODE HERE

#STUDENT CODE until HERE

print("Number of Indians with diabetes: ")
#STUDENT CODE HERE

#STUDENT CODE until HERE

print("Ratio of Indians with diabetes over those without diabetes: ")
#STUDENT CODE HERE

#STUDENT CODE until HERE


In [7]:
#SUBTASK 3: 

#Divide the dataset into training and testing data using the train_test_split function

#STUDENT CODE HERE

#STUDENT CODE until HERE

print("Number of elements in the testset: ")
#STUDENT CODE HERE

#STUDENT CODE until HERE

print("Number of elements in the trainingset: ")
#STUDENT CODE HERE

#STUDENT CODE until HERE

<div class="alert alert-block alert-success">
<b>Bonusfrage:</b> Welche indische Frau (ID) hatte den dicksten Arm?
</div>

In [8]:
#STUDENT CODE HERE

#STUDENT CODE until HERE

<div class="alert alert-block alert-success">
<b>Frage 2.1.8:</b> Was wäre der Nachteil, wenn die Verteilung der Klassen (in unserem Datensatz Klasse 0/1) im Trainingsdatensatz anders wäre als im Testdatensatz? Zum Beispiel, wenn die Klasse 1 80 % des Trainingsdatensatzes ausmacht, aber nur 20 % im Testdatensatz.

</div>

<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>



## Kreuz-Validierung (engl. Cross-Validation)

Kreuzvalidierungsverfahren lassen sich einteilen in:
- __erschöpfend:__ Daten werden in Trainings- und Validierungssätze aufgeteilt. Es werden alle Möglichkeiten zur Aufteilung der Daten erprobt.  Zu dieser Gruppe gehören:
    - Leave One Out Cross-Validation (ein Spezialfall der "Leave-p-out cross-validation")

- __nicht-erschöpfend:__ Die Methode berechnet nicht alle möglichen Wege der Aufteilung der Daten.  Bekannte Beispiele sind: 
    - k-fache Kreuzvalidierung
    - Wiederholte zufällige Test-Train-Splits
    - Holdout-Methode
    
### k-fache Kreuzvalidierung (engl. k-fold Cross-Validation)
Die __k-fold Cross-Validation__ (k-fold CV) - Methode ist eine Resampling-Methode, die eine genauere Schätzung der Algorithmus-Performanz liefert, also mit einer geringeren Varianz als eine einfache Training-Test-Satz-Aufteilung.  

Hierbei wird der Datensatz zunächst in k Gruppen aufgeteilt. Jede Gruppe von Daten wird als Fold bezeichnet, daher der Name k-fold cross-validation.

In der folgenden Abbildung sehen Sie, dass jede Zeile einen Fold und jede Spalte eine Trainings- und Testiteration darstellt. Zum Beispiel wird in der ersten Iteration (Modell 1) die Fold 1 die Testfalte sein und die anderen die Trainingsfalten.
![Imagen K-fold](images/K-fold_cross_validation_EN.jpg)

Der Algorithmus wird dann k-mal trainiert und evaluiert. Die Performanz wird anschließend zusammengefasst, indem der Mittelwert der Performanz aller Evaluierungen gebildet wird. 

Der Algorithmus wird auf k - 1 Folds der Daten trainiert und dann auf der k-ten zurückgehaltenen Fold getestet. 
Dies wird wiederholt, so dass jede der k Folds des Datensatzes eine Chance erhält, zurückgehalten und als Testsatz verwendet zu werden. Beachten Sie aber, dass dabei auch k getrennte Modelle trainiert werden, sodass ein Testsatz nie für das Training eines Modells verwendet wird.

Daher sollte die Anzahl der Zeilen in Ihrem Trainingsdatensatz durch k teilbar sein, um sicherzustellen, dass jede der k Gruppen die gleiche Anzahl von Zeilen hat.  

Sie sollten einen Wert für k wählen, der die Daten in Folds mit genügend Zeilen aufteilt, so dass jeder Fold immer noch groß genug ist, um den Originaldatensatzes gut zu repräsentieren. Es sollten jedoch immer genügend Folds vorhanden sein, damit die Anzahl der Wiederholungen der Train-Test-Auswertung des Algorithmus ausreicht, um eine angemessene Schätzung der Leistung der Algorithmen zu liefern.

Für Datensätze von geringer Größe (Hunderte, Tausende oder Zehntausende von Zeilen) ist es eine gute Idee, k=3 für einen kleinen Datensatz oder k=10 für einen größeren Datensatz zu verwenden. Eine schnelle Möglichkeit um zu überprüfen, ob die Fold-Größen repräsentativ sind, ist die Berechnung von zusammenfassenden Statistiken wie der Mittelwert und die Standardabweichung. So könenn Sie herausfinden, wie sehr sich die Werte von den gleichen Statistiken für den gesamten Datensatz unterscheiden.

Wir können die Größe der Folds berechnen, indem wir die Größe des Datensatzes durch die Anzahl der erforderlichen Faltungen teilen:  

$ \textrm{fold size} = \frac{\textrm{Number of rows}}{\textrm{k}} = \frac{\textrm{Number of rows}}{\textrm{Number of folds}} = \frac{count(rows)}{count(folds)} $

Wenn der Datensatz nicht sauber durch die Anzahl der Faltungen geteilt werden kann, kann es einige Restzeilen geben. Diese werden bei der Aufteilung nicht verwendet.

Nach Durchführung der Kreuzvalidierung erhalten Sie k verschiedene Performanz-Werte, die Sie mit einem Mittelwert und einer Standardabweichung zusammenfassen können.  

Das Ergebnis ist eine zuverlässigere Schätzung der Leistung des Algorithmus auf neuen Daten. Es ist genauer, weil der Algorithmus mehrfach auf verschiedenen Daten trainiert und bewertet wurde.

<div class="alert alert-block alert-success">
<b>Tipp:</b> Wenn Sie nach dem Lesen dieses Abschnitts Probleme haben, die k-fold Cross-Validation zu verstehen. So empfiehlt sich, ein Youtube-Video über k-fold Cross-Validation anzuschauen. Die Visualisierung kann Ihnen dabei helfen, den Zusammenhang besser zu verstehen.
</div>

<div class="alert alert-block alert-success">
<b>Freiwillige Aufgabe:</b> Ihre Aufgabe ist es, die Funktion K-fold Cross-Validation von Grund auf zu implementieren. Der Rest des Codes wird als Anleitung gegeben.
<ul>
<li> Die Funktion erhält den Originaldatensatz und die Anzahl der Folds, die wir erhalten wollen, und gibt eine Liste zurück, die die k Folds enthält (in diesem Fall soll sie 4 Faltungen zurückgeben).
<li> Wir wollen, dass die Aufteilung zufällig ist, daher müssen Sie wahrscheinlich aus dem Modul "random.py" (das Teil der Python-Standardbibliothek ist) die Funktionen seed und randrange importieren. Die seed-Funktion wird dafür sorgen, dass das Ergebnis von randrange bei jeder Ausführung des Codes gleich ist.

</ul>
</div>

In [9]:
# Example of Creating a Cross Validation Split
from random import seed
from random import randrange

# Split a dataset into k folds
def cross_validation_split(dataset: pd.DataFrame, folds:int=3):

    dataset_split = list() # Creates an empty list in "dataset_split"
    dataset_copy = list(dataset) # Creates an empty list and copies the dataset in it
    fold_size = int(len(dataset) / folds) # Determine the number of elements for each fold
    print("Quantity of elements that each fold will have: ", fold_size)
    # HINT: use a for loop to iterate through the number of folds and use a while loop to populate the individual folds
    # HINT: You might want to use randrange to get a random index of the available dataset
    
    #STUDENT CODE HERE

    #STUDENT CODE until HERE
    
    return dataset_split

# test cross validation split
seed(1)
dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
folds = cross_validation_split(dataset, 4)
print(folds)

So weit, so gut! Jetzt haben wir verstanden, wie wir die Folds mit unserer eigenen Funktion erzeugen können. Aber was wäre, wenn es eine solche Funktion bereits da draußen in der Wildnis gäbe? Tatsächlich ist das der Fall! Normalerweise codet der Machine-Learning-Ingenieur seine Splits nicht selber, sondern verwendet solche bereits vorhandenen Funktionen. Also probieren wir es aus und verwenden hierbei wieder einmal die Pima-Indians-Diabetes-Datenbank. 


<div class="alert alert-block alert-success">
<b>Freiwillige Aufgabe:</b> Berechnen Sie den Mittelwert und die Varianz der Genauigkeit des Modells, um herauszufinden, ob das k gut gewählt wurde, oder ob wir es anpassen sollten. In dieser Aufgabe werden wir ein lineares Regressionsmodell verwenden.
<ul>
<li>Hinweis 1: Die Funktion <a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html">cross_val_score</a> kann uns dabei helfen. 
<br>
<li>Hinweis 2: Verwenden Sie diese Funktion für die Regression: LogisticRegression (solver = 'liblinear')

</ul>
</div>

<div class="alert alert-block alert-success">
<b>Freiwillige Frage:</b> Was passiert mit der Genauigkeit und der Varianz, wenn k zunimmt? Wie können Sie die Veränderung der Varianz erklären?
</div>

<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>


In [10]:
# Evaluate using Cross Validation
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

filename = 'data/pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

#There might be a function which can do "KFold" with respect to class distribution. What could be the name?
#Hint: Check the Note below
#Hint: you should be able to do this in less then 5 lines
#Hint: you don't need to explicitly fit your model, because "cross_val_score" does this automatically
#STUDENT CODE HERE

#STUDENT CODE until HERE

print(results)

print("Accuracy: %.3f%% (%.3f%%)" % (results.mean()*100.0, results.std()*100.0))

## Geschichtete Zufallsstichprobe (engl. Stratification Sampling)

Geschichtete Zufallsstichprobe versucht, einen Datensatz so zu unterteilen, dass jede Aufteilung in Bezug auf etwas ähnlich ist.

Im Bereich der Klassifizierung wird es oft verwendet um sicherzustellen, dass Trainings- und Testdatensätze ungefähr den gleichen Prozentsatz an Proben jeder Zielklasse aufweisen wie der vollständige Datensatz.

<div class="alert alert-block alert-success">
<b>Optionale Aufgabe:</b> Fügen Sie der Methode train_test_split den Parameter stratify hinzu. 
</div>

In [11]:
#Save features and targets in a separate data structure
features = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age']
target = ['class']
features, targets = diabetes_dataset[features], diabetes_dataset[target]

#Use the train_test_split function for splitting data.
#Task: Add the correct stratify parameter to the function call

train_features, test_features, train_targets, test_targets = train_test_split(
        features, targets,
        train_size=0.75,
        test_size=0.25,
        random_state=41, # important for later, do not change yet
        #STUDENT CODE HERE

        #STUDENT CODE until HERE
    )

print("Proportion of 'targets' in test and train dataset")
print("Training:", np.bincount(train_targets.values.flatten()) / float(len(train_targets)))
print("Test:", np.bincount(test_targets.values.flatten())/ float(len(test_targets)))

<div class="alert alert-block alert-success">
<b>Freiwillige Aufgabe:</b> Was haben wir durch das stratifizierte Sampling erreicht? Schauen Sie sich die Ausgabe des vorherigen Codeblocks an und beschreiben Sie diese mit eigenen Worten. 

(Besprechen Sie dies mit Ihrem Partner, bevor Sie anfangen, etwas zu googeln wie: "stratification machine learning")
</div>


<div class="alert block alert-success">
<b>Ihre Antwort:</b></div>


## Auswählen einer Resampling-Methode

- Allgemeinen ist die k-fold Cross-Validation der Goldstandard für die Bewertung der Performanz eines Algorithmus des maschinellen Lernens, wobei k auf 3, 5 oder 10 gesetzt wird.  
Wenn sie gut konfiguriert ist, liefert die k-fold Cross-Validation eine robuste Schätzung der Leistung im Vergleich zu anderen Methoden, wie z. B. der Aufteilung in Train und Test. Der Nachteil der Kreuzvalidierung ist, dass sie zeitaufwändig sein kann, da k verschiedene Modelle trainiert und ausgewertet werden müssen. Dies ist ein Problem, wenn Sie einen sehr großen Datensatz haben oder wenn Sie ein Modell evaluieren, dessen Training sehr lange dauert.  


- Die Trainings- und Test-Split Resampling-Methode wird am häufigsten verwendet. Der Grund dafür ist, dass sie einfach zu verstehen und zu implementieren ist. Sie fördert die Geschwindigkeit, wenn ein langsamer Algorithmus verwendet wird, da nur ein einziges Modell konstruiert und ausgewertet wird. 
Diese Methode kann eine verrauschte oder unzuverlässige Schätzung der Leistung liefern, aber das wird weniger zum Problem, wenn Sie einen sehr großen Datensatz verwenden. In diesem Fall erzeugt dieser Ansatz geringere Verzerrung.
Große Datensätze haben Hunderttausenden oder Millionen von Einträgen, und sind damit so groß, dass die Training- und Test-Splits nahezu die gleichen statistischen Eigenschaften aufweisen.
In solchen Fällen ist die Verwendung der k-fold Cross-Validation zur Evaluierung des Algorithmus möglicherweise nicht notwendig und eine Aufteilung in Train und Test kann genauso zuverlässig sein.


- Verfahren wie die Leave-One-Out-Cross-Validation und wiederholte zufällige Splits können nützliche Zwischenstufen sein, um einen Mittelweg zwischen der Varianz der geschätzten Performanz, der Trainingsgeschwindigkeit des Modells und der Größe des Datensatzes zu finden.

Es ist sinnvoll, verschiedene Möglichkeiten auszuprobieren, um eine Technik für ihr Problem zu finden, die schnell ist, aber gleichzeitig auch eine vernünftige Schätzungen der Performanz liefert, auf Basis derer sie dann eine Entscheidung treffen können. Im Zweifelsfall sollten Sie die 10-fold Cross-Validation verwenden.
