\tableofcontents  
\pagebreak  

# Machine Learning in Python

Im vorherigen Teil haben wir uns mit wissenschaftlichen Berechnungen und Visualisierungen beschäftigt, als auch einen kurzen Einblick in die digitale Singalverarbeitung erhalten. In diesem Teil soll es um Machine Learning gehen. Mit Machine Learning sind hier die alle statistischen Verfahren gemeint, mit deren Hilfe man aus vorhandenen Daten Rückschlüsse zu ähnlichen Vorgängen ziehen kann. Formal lässt sich Machine Learning so definieren[<sup id="fn1-back">[1]</sup>](#fn1):

> ,,`A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.`"

In diesem Tutorial soll es nur um die klassischen Verfahren gehen, welche ohne neuronale Netze ausgekommen. Neuronale Netzte und Deep Learning werden in einem anderen Tutorial vorgestellt. Nur so viel: Deep Learning zählt zu Machine Learning, hat aber eine andere Herangehensweise, welche mehr auf Heuristik statt exakte Beweise setzt.

## Einteilung von Machine Learning

Machine Learning lässt sich grob in drei Kategorien einteilen:

* Supervised Learning
* Unsupervised Learning
* Reinforcement Learning

Worum es bei jeder Kategorie geht werden wir nun eingehender beleuchten.

![Test](ML_diagram.png)

### Supervised Learning

Supervised Learning ist der simpelste Fall: Wir haben einen Datensatz ("dataset") welcher zu jedem Datenpunkt die Eigenschaften ("features") und das Ziel ("label" oder "target") enthält. Entscheidend ist hier das vorhandensein des Ziels: Wenn wir unseren Algorithmus trainieren können wir ihm vorgeben was er genau lernen soll, ihn also dabei überwachen.

Man unterscheidet dann nochmal zwischen Klassifikation und Regression: Bei Klassifikation ist unser Ziel eine diskrete Variable, beispielsweise die natürlichen Zahlen 1 bis 9 oder ob jemand Brustkrebs hat oder nicht. Wir wollen dann eine Wahrscheinlichkeit ermitteln, dass ein Datenpunkt zu einer der Klassen gehört. Bei der Regression ist unser Ziel eine kontinuierliche Variable, wie beispielsweise der Preis eines Hauses oder der Wert einer Aktie. Dann wollen wir einen numerischen Wert ermitteln.

### Unsupervised Learning

Unsupervised Learning unterscheidet sich von Supervised Learning, als dass wir keine konkrete Variable haben, auf die wir unseren Algorithmus trainieren. Stattdessen suchen wir nach Strukturen in unseren Daten, welche in (einer für uns unbekannten) Beziehung zu den Daten stehen.

Dazu zählt beispielsweise das Clustering, bei welchem man nach Gruppen ("clustern") innerhalb der Daten sucht. Ein Beispiel dafür wäre das Einteilen von Webseitenbesuchern in verschiedene Gruppen, um Werbung auf die Mitglieder der jeweiligen Gruppe zuzuschneiden.

Ebenfalls gehört zum Unsupervised Learning die Anomaly oder Outlier Erkennung. Hierbei geht man davon aus, dass der Großteil der Daten einem Muster folgt, sich also normal verhält. Man will nun die Elemente ermitteln, welche diesem Muster nicht folgen, also Außenseiter sind. Beispielsweise könnte eine Bank durch Anomaly Erkennung versuchen, legitime Überweisungen von betrügerischen zu unterscheiden und so ihre Kunden vor Diebstahl schützen.

Zu guter letzt sei noch die Dimensionsreduzierung zu nennen. Liegen zu unseren Daten sehr viele Eigenschaften vor, von denen viele aber nur wenig aussagekräftig sind, können wir über Dimensionsreduzierung unsere Daten auf die nötigsten Eigenschaften reduzieren, ohne dabei substantiell an Aussagekraft zu verlieren. Wir komprimieren unsere Daten also, was eines der Anwendungsgebiete darstellt.

### Reinforcement Learning

Reinforcement Learning ist im Gegensatz zu Supervised und Unsupervised Learning kein klassisches Lernen anhand von statischer Daten, sondern Lernen auf Grund von Feedback einer (dynamischen) Umgebung. Ein Agent wird dabei in eine simulierte Umgebung gesetzt und kann dort Aktionen ausführen, welche wiederum die Umgebung beeinflussen. Ziel des Agenten ist es nun, Belohnungen ("rewards") zu sammeln und Bestrafungen ("punishments") zu vermeiden. Auf Grund des Feedbacks der Umgebung lernt der Agent so, welche Aktionen er wann ausführen sollte. Ein Beispiel für Reinforcement Learning sind selbstfahrende Autos oder autonome mobile Roboter, aber auch das Spielen eines Videospiels fällt unter diese Kategorie.

Im Gegensatz zu den anderen beiden Kategorien ist Reinforcement Learning auf Grund seiner Dynamik deutlich komplexer und wird heutzutage meist mit neuronalen Netzen gelöst. Wir werden in diesem Tutorial nicht weiter auf Reinforcement Learning eingehen.

## Pakete

Wir werden in den folgenden Abschnitten die Pakete

* [NumPy](https://numpy.org),
* [matplotlib](https://matplotlib.org),
* [pandas](https://pandas.pydata.org) und
* [scikit-learn](https://scikit-learn.org)

verwenden, welche wir deshalb zu nächst importieren. NumPy, pandas und matplotlib werden via alias importiert.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn.datasets

Auf die letzen beiden Pakete werden wir im Laufe dieses Notebooks eingehen.

# Ein erstes Beispiel Projekt: Iris Dataset

Wir wollen uns zur Einführung ein Beispiel zur Klassifikation anschauen. Wir erinnern uns: Klassifikation ist das Einteilen in verschiedene, diskrete Klassen oder Kategorien.

Jedes Data Science Projekt beginnt erstmal damit, dass man sich mit dem Datensatz vertraut macht. Dafür müssen wir die Daten natürlich auch einlesen. In diesem konkreten Fall liegen die Daten in Form einer CSV Datei vor, die sich im selben Verzeichnis befindet wie dieses Notebook. Deshalb müssen wir als Dateipfad nur den Namen der Datei inklusive Dateiendung angeben. Unsere Datei trägt den Namen `iris.csv`.

In [31]:
file_path = "iris.csv"

Wir könnten jetzt die Datei mit NumPy einlesen, allerdings ist NumPy primär für die Verarbeitung von numerischen Werten geeignet, welche noch dazu alle den selben Datentyp haben müssen. Unsere Datei enthält aber gemischte Datentypen, weshalb hier der Einsatz von `pandas` Sinn ergibt.

## Einführung in pandas

`pandas` ist eine Python Bibliothek für die Analyse und Verwaltung von strukturierten Daten. Strukturierte Daten sind geordnete, sortierte und zusammengefasste Daten. Wir müssen uns also nicht aus verschiedenen Quellen unsere Daten zusammensuchen und diese in einer Tabelle zusammenführen, da dieser Schritt bereits erledigt wurde.

`pandas` unterscheidet grob zwischen zwei Arten von strukturierten Daten: 1D-Daten, also Vektoren, welche mit `Series` verwaltet werden, und 2D-Daten, also Matrizen, welche mit `DataFrames` verwaltet werden. Hierbei stellen die Zeilen die Samples dar und die Spalten die Features, im Falle einer `Series` eben nur ein Feature. Jedes `DataFrame` setzt sich aus mehreren `Series` zusammen. Die Einträge einer `Series` müssen alle den selben Datentyp haben, jedoch können unterschiedliche `Series` auch unterschiedliche Datentypen haben. Der Vorteil eines `DataFrames` gegenüber einem `NumPy` Array besteht also in dem vermischen verschiedener Datentypen innerhalb eines `DataFrames`.

### Daten einlesen

Zum Einlesen von CSV Dateien stellt `pandas` die Funktion `read_csv` zur Verfügung. Dazu übergeben wir der Funktion den Dateipfad, an dem sich die Datei befindet, und `pandas` erzeugt ein `DataFrame` mit den entsprechenden Einträgen.

In [32]:
iris_df = pd.read_csv(file_path)

### Überblick verschaffen

Schauen wir uns doch zunächst einmal die Einträge unseres `DataFrames` an. Wir geben dazu einfach den Variablennamen des `DataFrames` ein und uns werden dann 5 Einträge vom Anfang und Ende angezeigt.

In [33]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Mit der Funktion `head` erhalten wir nur den ,,Kopf" des `DataFrames`

In [34]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


Wie wir sehen enthält unser Datensatz 150 Einträge mit 5 Spalten. Die ersten 4 Spalten sind unsere Features, die 5. Spalte ist unser Ziel. Mit der Funktion `describe` erhalten wir die wichtigsten statistischen Kennwerte unseres Datensatzes, wie Anzahl, Mittelwert und auch Standardabweichung.

In [35]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


\pagebreak

# Literaturverzeichnis

[<sup id="fn1">[1]</sup>](#fn1-back) *Mitchell, Tom M.*: Machine Learning, New York: McGraw-Hill, 1997, S. 2