\tableofcontents  
\pagebreak  

# Machine Learning in Python

Im vorherigen Teil haben wir uns mit wissenschaftlichen Berechnungen und Visualisierungen beschäftigt, als auch einen kurzen Einblick in die digitale Singalverarbeitung erhalten. In diesem Teil soll es um Machine Learning gehen. Mit Machine Learning sind hier die alle statistischen Verfahren gemeint, mit deren Hilfe man aus vorhandenen Daten Rückschlüsse zu ähnlichen Vorgängen ziehen kann. Formal lässt sich Machine Learning so definieren[<sup id="fn1-back">[1]</sup>](#fn1):

> ,,`A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.`"

In diesem Tutorial soll es nur um die klassischen Verfahren gehen, welche ohne neuronale Netze ausgekommen. Neuronale Netzte und Deep Learning werden in einem anderen Tutorial vorgestellt. Nur so viel: Deep Learning zählt zu Machine Learning, hat aber eine andere Herangehensweise, welche mehr auf Heuristik statt exakte Beweise setzt.

## Einteilung von Machine Learning

Machine Learning lässt sich grob in drei Kategorien einteilen:

* Supervised Learning
* Unsupervised Learning
* Reinforcement Learning

Worum es bei jeder Kategorie geht werden wir nun eingehender beleuchten.

![Test](ML_diagram.png)

### Supervised Learning

Supervised Learning ist der simpelste Fall: Wir haben einen Datensatz ("dataset") welcher zu jedem Datenpunkt die Eigenschaften ("features") und das Ziel ("label" oder "target") enthält. Entscheidend ist hier das vorhandensein des Ziels: Wenn wir unseren Algorithmus trainieren können wir ihm vorgeben was er genau lernen soll, ihn also dabei überwachen.

Man unterscheidet dann nochmal zwischen Klassifikation und Regression: Bei Klassifikation ist unser Ziel eine diskrete Variable, beispielsweise die natürlichen Zahlen 1 bis 9 oder ob jemand Brustkrebs hat oder nicht. Wir wollen dann eine Wahrscheinlichkeit ermitteln, dass ein Datenpunkt zu einer der Klassen gehört. Bei der Regression ist unser Ziel eine kontinuierliche Variable, wie beispielsweise der Preis eines Hauses oder der Wert einer Aktie. Dann wollen wir einen numerischen Wert ermitteln.

### Unsupervised Learning

Unsupervised Learning unterscheidet sich von Supervised Learning, als dass wir keine konkrete Variable haben, auf die wir unseren Algorithmus trainieren. Stattdessen suchen wir nach Strukturen in unseren Daten, welche in (einer für uns unbekannten) Beziehung zu den Daten stehen.

Dazu zählt beispielsweise das Clustering, bei welchem man nach Gruppen ("clustern") innerhalb der Daten sucht. Ein Beispiel dafür wäre das Einteilen von Webseitenbesuchern in verschiedene Gruppen, um Werbung auf die Mitglieder der jeweiligen Gruppe zuzuschneiden.

Ebenfalls gehört zum Unsupervised Learning die Anomaly oder Outlier Erkennung. Hierbei geht man davon aus, dass der Großteil der Daten einem Muster folgt, sich also normal verhält. Man will nun die Elemente ermitteln, welche diesem Muster nicht folgen, also Außenseiter sind. Beispielsweise könnte eine Bank durch Anomaly Erkennung versuchen, legitime Überweisungen von betrügerischen zu unterscheiden und so ihre Kunden vor Diebstahl schützen.

Zu guter letzt sei noch die Dimensionsreduzierung zu nennen. Liegen zu unseren Daten sehr viele Eigenschaften vor, von denen viele aber nur wenig aussagekräftig sind, können wir über Dimensionsreduzierung unsere Daten auf die nötigsten Eigenschaften reduzieren, ohne dabei substantiell an Aussagekraft zu verlieren. Wir komprimieren unsere Daten also, was eines der Anwendungsgebiete darstellt.

### Reinforcement Learning

Reinforcement Learning ist im Gegensatz zu Supervised und Unsupervised Learning kein klassisches Lernen anhand von statischer Daten, sondern Lernen auf Grund von Feedback einer (dynamischen) Umgebung. Ein Agent wird dabei in eine simulierte Umgebung gesetzt und kann dort Aktionen ausführen, welche wiederum die Umgebung beeinflussen. Ziel des Agenten ist es nun, Belohnungen ("rewards") zu sammeln und Bestrafungen ("punishments") zu vermeiden. Auf Grund des Feedbacks der Umgebung lernt der Agent so, welche Aktionen er wann ausführen sollte. Ein Beispiel für Reinforcement Learning sind selbstfahrende Autos oder autonome mobile Roboter, aber auch das Spielen eines Videospiels fällt unter diese Kategorie.

Im Gegensatz zu den anderen beiden Kategorien ist Reinforcement Learning auf Grund seiner Dynamik deutlich komplexer und wird heutzutage meist mit neuronalen Netzen gelöst. Wir werden in diesem Tutorial nicht weiter auf Reinforcement Learning eingehen.

## Pakete

Wir werden im folgenden Abschnitt die Pakete

* [NumPy](https://numpy.org),
* [scikit-learn](https://scikit-learn.org),
* [pandas](https://pandas.pydata.org) und
* [matplotlib](https://matplotlib.org)

verwenden, welche wir deshalb zu nächst importieren. NumPy, pandas und matplotlib werden via alias importiert.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

# Daten einlesen

Grundsätzlich beginnt jedes Machine Learning Projekt mit dem erfassen der Daten, so auch hier. In diesem konkreten Fall liegen die Daten in Form einer CSV Datei vor, die sich im selben Verzeichnis befindet wie dieses Notebook. Deshalb müssen wir als Dateipfad nur den Namen der Datei inklusive Dateiendung angeben. Unsere Datei trägt den Namen `housing.csv`.

In [1]:
file_path = "housing.csv"

Wir könnten jetzt die Datei mit NumPy importieren, allerdings ist NumPy primär für die Verarbeitung von numerischen Werten geeignet, welche noch dazu alle den selben Datentyp haben müssen. Unsere Datei enthält aber sowohl gemischte Datentypen als auch Strings, weshalb hier der Einsatz von `pandas` Sinn ergibt.

## Einführung in pandas

\pagebreak

# Literaturverzeichnis

[<sup id="fn1">[1]</sup>](#fn1-back) *Mitchell, Tom M.*: Machine Learning, New York: McGraw-Hill, 1997, S. 2