# Maschinelles Lernen - Einführung und genereller Ablauf eines ML-Projektes

Bereits 1959 hat Arthur L. Samuel eine Beschreibung abgegeben, was maschinelles Lernen (ML) ist. Er sagte
> Maschinelles Lernen ist ein Forschungsgebiet, das Computer in die Lage versetzen soll, zu lernen, ohne explizit darauf programmiert zu sein.

Aber was genau soll der Computer lernen? Und wie bringen wir einem Computer bei, etwas zu lernen? 

In dieser Vorlesung fokussieren wir uns auf das maschinelle Lernen im Bereich des datengestützten Prozessmanagements. Dabei werden wir naturwissenschaftliche, ingenieurwissenschaftliche, betriebswirtschaftliche und gesellschaftliche Prozesse betrachten. Wenn der Computer etwas aus diesem Bereich lernt, ist damit gemeint, dass der Computer ein Modell bzw. eine mathematische Funktion aufstellt. Der einfachste Ablauf eines ML-Projektes sieht dabei wie folgt aus:

![Ablauf datengestüztes Prozessmanagement](pics/fig09_datengestuetztes_prozessmanagement.png)

## Beispiel eines einfachen ML-Projektes für CO2-Emissionen 

**Frage: Wie hoch werden voraussichtlich die weltweiten CO2-Emissionen im Jahr 2030 sein?**

Als erstes beschaffen wir uns Daten zu den bisherigen Emissionen. Beispielsweise finden Sie unter https://de.statista.com/statistik/daten/studie/37187/umfrage/der-weltweite-co2-ausstoss-seit-1751/#professional die CO2-Emissionen weltweit in den Jahren 1960 bis 2020 gemessen in Millionen Tonnen.

Nachdem wir also passende Daten gesammelt haben, erkunden wir sie. Zuerst lesen wir die Daten ein und verschaffen uns einen groben Überblick über die statistischen Kennwerte und Trends per Visualisierung.

In [None]:
import pandas as pd
data = pd.read_csv('data/statistic_id37187_co2-ausstoss-weltweit-bis-2020.csv', skiprows=3, index_col=0)
data

In [None]:
data.describe()

In [None]:
data.plot();

Sieht (leider) nach einem Muster aus. Das Muster müssen wir für den Computer als ein Modell bzw. als eine Funktion beschreiben. Probieren wir es mit dem einfachsten Modell, der linearen Funktion. 

Eine lineare Funktion hat zwei Parameter:
* Steigung $m$ und
* y-Achsenabschnitt $b$,
also insgesamt die Funktionsgleichung $y = mx + b$. Dabei ist $x$ die Variable oder der Input und $y$ ist der Funktionswert oder der Output. 

**Mini-Übung:**   

Probieren Sie verschiedene Parameter $m$ und $b$ für das lineare Modell $y = mx+b$ aus, bis die Gerade möglichst gut zu den CO2-Emissionsdaten passt. Zeichen Sie zur Überprüfung die Gerade (mit rot) und die Emissionsdaten in einen gemeinsamen Plot. 

In [None]:
# Hier Ihr Code


Jetzt können wir eine Prognose formulieren, wie viel CO2 voraussichtlich 2030 ausgestoßen wird, wenn sich am jetzigen Muster nichts ändert.

In [None]:
# Hier Ihr Code


**Antwort: Im Jahr 2030 werden voraussichtlich 41271 Millionen Tonnen CO2 ausgestoßen werden.**

Damit hat man die ursprünglich gestellte Frage beantwort. Oft führt das Erkunden der Daten aber dazu, dass man beginnt neue Fragen zu stellen. Beispielsweise:
* Was war denn im Jahr 2020?
* Hat sich der Anstieg von 2010 bis 2020 verlangsamt? Beispielsweise im Vergleich zu den Jahren 2000 bis 2010?

Das sind alles Fragen, die die Daten oder den Prozess selbst betreffen. Dazu kommen noch die Fragen an den ML-Workflow selbst, aber mehr dazu später.

## Grundlegende Begriffe des maschinellen Lernens

Wie Samuel bereits 1959 formuliert hat, ist "...maschinelles Lernen (ML) ein Forschungsgebiet, das Computer in die Lage versetzen soll, zu lernen, ohne explizit darauf programmiert zu sein." Konkret lernt der Computer aufgrund von Daten, wie die Parameter eines mathematischen Modells einzustellen sind. In unserem Beispiel mit den CO2-Emissionen haben wir als Modell eine lineare Funktion $y = mx + b$ verwendet, die zwei Parameter hat (Steigung $m$ und y-Achsenabschnitt $b$).  

### Kategorien des maschinellen Lernens

Es gibt viele verschiedene Lernverfahren in der Praxis. Konkret werden die Lernverfahren durch Algorithmen umgesetzt. Diese Algorithmen wiederum lassen sich grob in die zwei folgenden Kategorien aufteilen:
1. überwachtes Lernen (supervised learning)
2. unüberwachtes Lernen (unsupervised learning)

#### Überwachtes Lernen (Supervised Learning)

Beim überwachten Lernen gehören zu den Daten **Eingabedaten (Input)** und **Ausgabedaten (Output)**. Ziel des überwachten Lernens ist dann, ein mathematisches Modell zu lernen, das die Eingabedaten auf die Ausgabedaten abbildet. In unserem Beispiel waren die Jahre die Eingabedaten und die CO2-Emissionen die Ausgabedaten.

Häufig werden die Eingabedaten auch als **Eigenschaft**, **Merkmal**, **Attribut** oder **Feature** bezeichnet, während die Ausgabedaten oft mit **Klassenbezeichnung**, **Kategorie**, **Label**, **Target** oder **Zielwert** bezeichnet werden. Wir haben also folgende Begriffe:

* Eingabedaten: $x$, $X$, Input, Eigenschaft, Merkmal, Feature oder Attribut
* Ausgabedaten: $y$, Output, Klassenbezeichnung, Kategorie, Label, Target, Zielwert

Beim überwachten Lernen wird zusätzlich noch unterschieden, ob der Output stetig/kontinuierlich oder diskret/diskontinuierlich vorliegt. Falls der Output aus stetigen Werten besteht, spricht man von **Regression**. Sollen jedoch diskrete Kategorien prognostiziert werden, spricht man von **Klassifikation**. Die englischen Begriffe dafür sind **regression** und **classification**.

**Mini-Übung**

Schauen Sie das Video https://www.youtube.com/watch?v=NCCctUdfA3E&list=PLzdtN2eQTAhkXUvlIFciv7RxLneTpD6H9&index=6 zum Thema "So lernen Maschinen: Überwachtes Lernen - Regression" (4:11 min). Beantworten Sie folgende Fragen:
* Was ist in dem Eiskugel-Beispiel der Input?
* Was ist in dem Eiskugel-Beispiel der Output?
* Welche zwei zusätzlichen Eigenschaften schlägt Fabrizio vor, um das Eiskugel-Verkaufsmodell besser zu machen?
* Welche weiteren Eigenschaften könnten Ihrer Meinung nach noch dazugenommen werden, um das Modell besser zu machen? 


# Hier Ihr Antworten


**Mini-Übung**

Schauen Sie das Video https://www.youtube.com/watch?v=g6zuVEDlAzo&list=PLzdtN2eQTAhkXUvlIFciv7RxLneTpD6H9&index=5 zum Thema "So lernen Maschinen: Überwachtes Lernen - Klassifikation" (4:25 min). Beantworten Sie folgende Fragen:

* Welches sind die beiden Inputs des Skulpturen-Beispiels? 
* Wie viele verschiedene Klassen gibt es für den Output? Wie heißen sie? 
* Wo ist der grüne Bereich für die Skulpturen? 

# Hier Ihre Antworten



### Unüberwachtes Lernen (Unsupervised Learning)

Beim unüberwachten Lernen gibt es nur Eingabedaten. Es gibt keinen Trainer, der vorgibt, zu welcher Kategorie ein Datensatz gehört. Stattdessen erkennen Algorithmen selbst, dass bestimmte Eingabedaten zu einer Kategorie und andere Eingabedaten zu einer anderen Kategorie gehören. Das Einteilen in verschiedene Kategorien oder Klassen nennt man **Clustering**. Eine weitere Anwendung des unüberwachten Lernens ist, eine einfachere Beschreibung der Daten zu finden. Das nennt man **Dimensionsreduktion** bzw. im Englischen **dimensionality reduction**.

**Mini-Übung**

Schauen Sie das Video https://www.youtube.com/watch?v=P2Qwc63iCVQ&list=PLzdtN2eQTAhkXUvlIFciv7RxLneTpD6H9&index=4 zum Thema "So lernen Maschinen: Unüberwachtes Lernen" (5:19 min). Beantworten Sie folgende Fragen:

* Wie viele Input-Größen gibt es beim Betrüger-Beispiel? Wie heißen die Eigenschaften? 
* Was ist in dem Betrüger-Beispiel der Output? 
* Handelt das Video von Clustering oder Dimensionsreduktion?


# Hier Ihre Antworten



## Beispiele mit Scikit-Learn

Gute Nachricht vorneweg: Sie müssen die Algorithen nicht selbst implementieren, das haben bereits Wissenschaftler:innen aus der Mathematik und der Informatik erledigt. Eine der bekanntesten Bibliotheken bzw. eines der bekanntesten Module ist Scikit-Learn, siehe https://scikit-learn.org/stable/, das wir auch für diese Vorlesung verwenden werden. Bitte stellen Sie jetzt sicher, dass Scikit-Learn bei Ihnen installiert ist. 

Das Module Scikit-Learn wird mit ``sklearn`` abgekürzt, alle Funktionen würden also z.B. mit

In [None]:
import sklearn

geladen werden. Da das Modul aber so mächtig ist, werden wir immer nur einzelne Funktionen aus Scikit-Learn importieren. 

### Grundlegender ML-Workflow mit Scikit-Learn 

<div class="alert alert-block alert-info">
<ol>
<li>Zuerst wählen wir ein Modell aus, das trainiert werden soll. </li>
<li>Danach wählen wir die Hyperparameter des Modells aus. Hyperparameter sind Parameter des Modells, die wir vorab ohne Kenntnis der Daten festlegen.</li>
<li>Danach packen wir die Inputdaten in eine Matrix X, bei der jede Spalte eine Eigenschaft repräsentiert und in den Zeilen die Daten stehen.</li>
<li>Falls wir ein überwachtes Lernverfahren anwenden wollen, packen wir die Outputdaten in einen Zeilenvektor y.</li>
<li>Wir trainieren das ML-Modell, indem wir die fit()-Methode aufrufen.</li>
<li>Um das Modell zur Prognose neuer Daten zu verwenden, benutzten wir die predict()-Methode</li>
</ol>
</div>

#### Einfache lineare Regression mit Scikit-Learn

Zuerst laden wir die Daten ein. Wir nehmen hier erneut das Beispiel mit den CO2-Emissionen.

In [None]:
import numpy as np
import pandas as pd

data = pd.read_csv('data/statistic_id37187_co2-ausstoss-weltweit-bis-2020.csv', skiprows=3, index_col=0)

Normalerweise würden wir uns nun einen Überblick über die Daten erschaffen, aber das haben wir ja schon erledigt. Die Ausgabedaten sind kontinuierliche Zahlen, also liegt überwachtes Lernen mit Regression vor. Wir schauen bei Scikit-Learn nach, welche Algorithmwn für Regression schon implementiert wurden, siehe

> https://scikit-learn.org/stable/supervised_learning.html#supervised-learning

Das einfachste Modell ist das lineare Regressionsmodell "Ordinary Least-Squares". Wir schauen uns an, welche Parameter es hat. 

> https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression

Die folgenden fünf Parameter werden in der Dokumentation beschrieben:

* fit_intercept 
* normalize 
* copy_X 
* n_jobs 
* positive 

Scikit-Learn hat den Vorteil, dass die Standardeinstellungen bereits sehr gut gewählt sind. Im Zweifelsfall  wählt man also das Modell mit seinen Standardwerten. Vorher muss es noch importiert werden.

In [None]:
# Import des Modells
from sklearn.linear_model import LinearRegression 

# Auswahl mit Standardeinstellungen
model = LinearRegression()

Als nächstes packen wir die Inputdaten in eine Matrix X (also ein NumPy-Array), bei der in der ersten Spalte das Jahr steht (weitere Spalten gibt es hier nicht). Das Jahr steht in dem pandas-DataFrame im Index.

In [None]:
X = data.index.values

Überprüfen wir, ob das geklappt hat. Zuerst geben wir den Inhalt von X aus, dann kontrollieren wir die Dimension der Matrix.

In [None]:
print(X)
print(np.shape(X))

Leider haben wir keine Matrix, sondern einen Spaltenvektor (1D-Array) erhalten. Wir müssen X noch in eine Matrix mit 21 Zeilen und 1 Spalte umwandeln.

In [None]:
X.reshape(21,1)

In [None]:
X = X.reshape(21,1)

Nun packen wir den Output in einen Spaltenvektor.

In [None]:
y = data.loc[:, 'CO2-Emission'].values # y = data.values waere auch gegangen

Überprüfen wir wieder Inhalt und Dimension:

In [None]:
print(y)
print(np.shape(y))

Diesmal müssen wir y nicht ändern, ein Spaltenvektor ist genau das, as wir brauchen. Nun trainieren wir das Modell, indem wir die ``fit()``-Methode aufrufen:

In [None]:
model.fit(X,y)

Nachdem das Modell trainiert wurde, sieht man zunächst nichts. Doch im Hintergrund wurden für dieses Modell nun die gelernten Modellparameter im Modell selbst mit abgespeichert. Welche Modellparameter es gibt, zeigt wiederum die Dokumentation

> https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression

im Abschnitt Attribute. Um die Modellparameter, die au den Daten gelernt werden, von den zu Beginn der Wahl festgelegten Modellparametern (= Hyperparametern) besser zu unterscheiden, werden die datenbasierten Modellparamater mit einem **Unterstrich** gekennzeichnet. Wir finden in der Dokumentation für das lineare Regressionsmodell mit Least-Sqaures folgende datenabhängige Modellparameter:

* coef_ 
* rank_
* singular_ 
* intercept_
* n_features_in_
* feature_names_in_

In ``coef_`` wird die Steigung gespeichert, in ``intercept_`` der y-Achsenabschnitt. Lassen wir uns beides ausgeben:

In [None]:
print('Steigung: ', model.coef_)
print('y-Achsenabschnitt: ', model.intercept_)

Zuletzt können wir dieses Modell nun zu einer Prognose benutzen und für neue Daten auswerten. Wir werten nun das trainierte Modell für 1960 bis 2030 aus. Damit können wir zum einen mit den echten Daten bis 2020 vergleichen, zum anderen einen Blick in die Zukunft werfen.

In [None]:
X_prediction = np.linspace(1960, 2030).reshape(-1,1)
y_prediction = model.predict(X_prediction)

import matplotlib.pylab as plt
fig, ax = plt.subplots()
ax.plot(X, y, 'o')
ax.plot(X_prediction, y_prediction, '-');

Hinweis: wir werden öfters aus einem 1d-Array ein 2d-Array machen. Dazu bietet sich die Kurzform ``.reshape(-1,1)`` an.

Und jetzt noch einmal alles zusammen:

In [None]:
import matplotlib.pylab as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
import seaborn as sns; sns.set()

# Datenimport
data = pd.read_csv('data/statistic_id37187_co2-ausstoss-weltweit-bis-2020.csv', skiprows=3, index_col=0)

# Auswahl des Modells mit Wahl der Hyperparameter (hier nur Standardwerte)
model = LinearRegression()

# Selektion Input und Output im richtigen Format
X = data.index.values.reshape(-1,1)
y = data.values

# Training des ML-Modells
model.fit(X, y)

# Vergleich mit Messung und Prognose für die Zukunft
X_predict = np.linspace(1960, 2030).reshape(-1,1)
y_predict = model.predict(X_predict)

# Visualisierung
fig, ax = plt.subplots(figsize=(16,9))
ax.plot(X,y, 'o', label='Messung')
ax.plot(X_predict,y_predict, '-', label='Modell')
ax.set_xlabel('Jahr')
ax.set_ylabel('CO2-Emission')
ax.legend()
ax.set_title('Training eines linearen Regressionsmodells für CO2-Emissionen');


### Einfache Klassifikation mit Scikit-Learn

Um an einem einfachen Beispiel die Vorgehensweise für Klassifikationsaufgaben vorzustellen, verwenden wir ein sehr bekanntes Beispiel aus dem maschinellen Lernen, die Klassifikation von Irisblumen. Der Iris-Datensatz wird bereits seit 1936 genutzt, um Klassifikationsverfahren zu testen, siehe https://en.wikipedia.org/wiki/Iris_flower_data_set. In dem Datensatz sind drei verschiedene Irisarten:

Iris setosa | Iris versicolor | Iris virginica
- | - | -
<img src="pics/fig09_iris_setosa.jpg" alt="Iris setosa" style="width: 200px;"/> | <img src="pics/fig09_iris_versicolor.jpg" alt="Iris versicolor" style="width: 200px;"/> | <img src="pics/fig09_iris_virginica.jpg" alt="Iris vriginica" style="width: 200px;"/>

Quelle linkes Bild: CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=170298, ansonsten lizenzfrei

Für jede dieser drei Arten gibt es 50 Beispiele, bei denen vier Eigenschaften erfasst sind:

* sepal_length: Länge des Kelchblatts in cm
* sepal_width: Breite des Kelchblatts in cm
* petal_length: Länge des Kronblatts in cm
* petal_width: Breite des Kronblatts in cm

Da dieses Beispiel so häufig verwendet wird, ist es sogar in Scikit-Learn hinterlegt und die Iris-Daten können direkt geladen werden:

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
iris

Nach dem Laden des Iris-Datensatzes stellen wir fest, dass die Variable `iris` nun ein Dictionary enthält. Wir können also mit eckigen Klammern auf die einzelnen Bestandteile des Datensatzes zugreifen. In `data` stehen die Eingabedaten, in `target`die Ausgabedaten.

In [None]:
X = iris['data']
print('Dimension von X: ', np.shape(X))

In [None]:
y = iris['target']
print('Dimension von y: ', np.shape(y)) 

Wenn wir uns den Inhalt von `y` betrachten, stellen wir fest, dass dort nicht etwa 'setosa', 'versicolor' oder 'virginica' steht, sondern nur 0, 1 oder 2.

In [None]:
print(y)

Für die mathematischen ML-Algorithmen müssen wir die Kategorien, d.h. in diesem Fall die drei Iris-Arten, codieren. Damit ist gemeint, dass jede Kategorie einen Zahlencode bekommt. Hier steht also die 0 für Iris setosa, 1 für Iris versicolor und 2 für Iris virginica.

Erkunden wir zunächst die Daten. Wir nehmen immer zwei Eigenschaften und stellen die Iris-Art über die Farbe dar, Scatterplots!

In [None]:
fig, ax = plt.subplots()
ax.scatter(X[:, 0], X[:, 1], c=y)

Da es mühsam ist, alle Kombinationen von Hand zu bilden, lassen wir das Python machen.

In [None]:
merkmale = ['Länge Kelchblatt (cm)', 'Breite Kelchblatt (cm)', 'Länge Kronblatt (cm)', 'Breite Kronblatt (cm)']

for i in range(4):
    for j in range(4):
        fig, ax = plt.subplots()
        ax.scatter( X[:,i], X[:,j], c=y )
        ax.set_xlabel(merkmale[i])
        ax.set_ylabel(merkmale[j])
        
        

Als nächstes wählen wir ein Modell mit Hyperparametern und trainieren es. Diesmal wird es aber schwierig zu testen, ob das trainierte Modell gute Prognosen liefert. Daher legen wir von Anfang einige der Datensätze zur Seite. Diese Daten nennen wir **Testdaten**. Mit den übriggebliebenen Daten trainieren wir das ML-Modell. Diese Daten nennen wir **Trainingsdaten**. Später nutzen wir dann die Testdaten, um zu überprüfen, wie gut das Modell funktioniert.

Für die Aufteilung in Trainings- und Testdaten nehmen wir eine maßgeschneiderte Funktion von Scikit-Learn namens `train_test_split`, siehe auch https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html. 

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y)

print('Dimension X_train: ', np.shape(X_train))
print('Dimension X_test: ',  np.shape(X_test))
print('Dimension y_train: ', np.shape(y_train))
print('Dimension y_test: ',  np.shape(y_test))

Jetzt können wir ein ML-Modell wählen. Eines der einfachsten Klassifikationsmodelle ist das Gaußsche naive Bayes Modell, auch wenn der Name überhaupt nicht einfach ist. 
> https://scikit-learn.org/stable/modules/naive_bayes.html

Dafür hat es gar keine Hyperparameter und kann direkt eingesetzt werden:

In [None]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

Jetzt das Training mit den Trainingsdaten (!):

In [None]:
model.fit(X_train, y_train)

Nun können wir testen, wie gut das Training funktioniert hat, indem wir mit dem ML-Modell prognostizieren, welche Iris-Art es für die Testdaten voraussagen würde:  

In [None]:
y_predict = model.predict(X_test)

Sehen wir uns mal die Vorhersage `y_predict` und die tatsächlichen Daten `y_test` an, die wir ja zuvor beiseite gelegt hatten:

In [None]:
print(y_predict)
print(y_test)

Sieht eigentlich ganz gut aus, doch an der 26. Stelle liegt unser Modell falsch. Überhaupt, das Vergleichen ist händisch etwas mühsam. Aber uach hier hilft Scikit-Learn, das eine Funktion zur Verfügung stellt, die den Anteil der korrekt prognostizierten Werte berechnet, nämlich `accuracy_score()`, siehe auch
> https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html


In [None]:
from sklearn.metrics import accuracy_score

correct = accuracy_score(y_test, y_predict)
print('Es wurden {:.2f} % Irisblumen korrekt klassifiziert.'.format(correct*100))

Und hier noch einmal alles zusammen:

In [None]:
# Module
from sklearn import datasets
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Datenimport
iris = datasets.load_iris()

# Auswahl des Modells mit Wahl der Hyperparameter (hier nur Standardwerte)
model = GaussianNB()

# Selektion Input und Output, Split in Trainings- und Testdaten
X = iris['data']
y = iris['target'] 
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Training des ML-Modells
model.fit(X_train, y_train)

# Vergleich mit Messung 
y_predict = model.predict(X_test)

correct = accuracy_score(y_test, y_predict)
print('Es wurden {:.2f} % Irisblumen korrekt klassifiziert.'.format(correct*100))

### Einfaches Clustering mit Scikit-Learn

Wir verwenden für das nächste Beispiel den Iris-Datensatz weiter. Angenommen, wir wüssten nicht, dass es sich um drei Iris-Arten handelt. Eines der einfachsten Clustering-Verfahren ist das sogenannte Gauß'sche Mixture-Modell (GMM), siehe

> https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn.mixture.GaussianMixture

Hier müssen wir allerdings Hyperparameter setzen. Insgesamt hat GMM 14 Hyperparameter. Wichtig ist allerdings nur erste Parameter `n_components`, der die Anzahl der Cluster vorgibt.  


In [None]:
from sklearn.mixture import GaussianMixture

# Wahl des Modells
model = GaussianMixture(n_components=3)

# Training des Modells mit allen Daten
model.fit(X)

# Prognose
y_predict = model.predict(X)

print(y_predict)
print(y)

## Nachtrag: Import von Daten mit Pandas

In dieser Vorlesung gehen wir davon aus, dass alle Daten in einem csv-Format vorliegen, d.h. als comma separated values. Wir lesen die Daten mit Pandas ein, die Dokumentation der Funktion ``read_csv()`` finden Sie hier:

> https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

Folgende optionale Parameter hat die Funktion, die relevant sind:

* **sep**: Hiermit wird das Trennzeichen angegeben. Normalerweise sind die Daten durch ein Komma getrennt, aber manchmal wird auch ein Leerzeichen, ein Tabulator oder ein Strichpunkt/Semikolon verwendet. Falls dem so ist, kann man hier das Trennzeichen beim import angeben, also z.B. ``sep=';'``, falls die Daten durch Strichpunkt getrennt sind. Beispiel: ``data = pd.read_csv('beispieldatei.csv', sep=';')``.
* **header**: Hier kann eine Zeilennummer angegeben werden. Die Einträge in dieser Zeile werden dann als Spalennamen übernommen. Da die Überschriften der Spaltenin der csv-Datei normalerweise in der 1. Zeile, also Zeile 0, stehen, ist der Standardwert ``header=0`` voreingestellt. 
* **index_col**: Mit diesem Parameter kann angegeben werden, welche Spalte als Zeilenindex übernommen werden soll. Wenn nichts angegeben wird, erzeugt Pandas einen impliziten Index von 0, 1, 2, usw.
* **skiprows**: Manchmal werden in den ersten Zeilen Kommentare zu den Daten geschrieben. Beispielsweise, wann das letzte Mal die Daten aktualisiert wurden oder eine E-Mail-Adresse, an wen man sich wenden kann, wenn man Fragen hat. Diese Kommentarzeilen müssen beim Einlesen der Daten übersprungen werden. Mit ``skiprows=3`` werden beispielsweise die ersten drei Zeilen übersprungen. 

<div class="alert alert-block alert-success"><b>Aufgabe 9.1</b></br>
Laden Sie den Datensatz ``bundesliga_top7_offensive.csv``und filtern Sie die Daten nach Borussia Dortmund. 

* Wie viele Spieler N spielten in der Saison bei Borussia Dortmund?
* Nummerieren Sie die Spieler von 0 bis N und plotten Sie die Spielnummer auf der x-Achse und die Anzahl der Spielminuten, die dieser Spieler eingesetzt wurde, auf der y-Achse. Könnte ein linearer Zusammenhang bestehen?
* Trainieren Sie ein linares Regressionsmodell, das die Anzahl der Spielminuten in Abhängigkeit der Spielernummer beschreibt.
* Angenommen, Borussia Dortmund hätte einen Spieler mehr eingekauft, sprich Nummer N+1. Wie viele Minuten wäre dieser Spieler wohl eingesetzt worden? Plausibel?
</div>

<div class="alert alert-block alert-success"><b>Aufgabe 9.2</b></br>
Laden Sie den Datensatz ``bundesliga_top7_offensive.csv``und filtern Sie die Daten nach Borussia Dortmund. 

* Führen Sie ein Clustering der Spieler nach Toren durch. Verwenden Sie 4 Cluster.
* Schreiben Sie eine schöne Ausgabe, die die Namen der Fußballer eines jeden Clusters gemeinsam mit den Toren des Fußballers ausgibt.
* Wie viele Fußballer sind gemeinsam mit Erling Haaland in einem Cluster?
* Was passiert mit Marco Reus, wenn Sie die Anzahl der Cluster von 4 auf 3 Cluster reduzieren. Mit wem ist er jetzt in einem Cluster?
</div>