In [None]:
from IPython.display import display
from IPython.core.display import HTML

# Machine Learning - Aufgabenblatt 1

Als Vorbereitung für das CAS sollten Sie bereits `python`, `pandas`, `numpy`, `matplotlib` weitgehends angeschaut haben.
Die Aufgaben hier wiederholen wichtige Funktionen an einem Anwendungsbeispiel.

## Datensatz

Wir arbeiten in dieser Aufgabenblatt mit dem `fish.csv` Datensatz.

Es handelt sich um **157 Fische** die am Finland’s Lake Laengelmaevesi gefangen wurden und folgende **7 Features** wurden erhoben:

| Feature | Descriptiopn                                                                  |
|---------|-------------------------------------------------------------------------------|
| Species | Fischspezies                                                                  |
| Weight  | Gewicht vom Fisch (in Gramm)                                                  |
| Length1 | Länge des Fisches von der Nase bis zum Schwanzansatz (in Zentimetern)         |
| Length2 | Länge des Fisches von der Nase bis zur Schwanzkerbe (in Zentimetern)          |
| Length3 | Länge des Fisches von der Nase bis zum Schwanzende (in Zentimetern)           |
| Height  | Maximale Höhe des Fisches (in Zentimetern)                                    |
| Width   | Maximale Breite des Fisches (in Zentimetern)                                  |

### (Extra) Weitere Links

* Kaggle Competition auf dem Datensatz: https://www.kaggle.com/aungpyaeap/fish-market 
* Beschreibung: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/imlsug/imlsug_ugappdatasets_sect009.htm


## Aufgabe 1 - pandas

In dieser Aufgabe machen wir uns mit wichtigen Funktionen von `pandas` vertraut.

### Aufgabe 1.1 - ```pd.read_csv```, ```df.head```

1. Schauen Sie sich die `.csv` Datei `data/fish.csv` an.
2. Lesen Sie die Datei mit Hilfe von `pd.read_csv` als pandas `DataFrame` ein.
3. Geben Sie die ersten Zeilen des DataFrames mit Hilfe von `df.head` aus.

#### Hilfreiche Links

* pd.read_csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
* pd.DataFrame.head: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html

In [None]:
# TODO

### Aufgabe 1.2 - ```df.describe```

1. Schauen Sie sich die Statistiken der **numerischen Features** mittels `df.describe` an.
2. Was fällt Ihnen auf?

#### Hilfreiche Links

* pd.DataFrame.describe: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

In [None]:
# TODO

### Aufgabe 1.3 - Boolean Indexing

Selektieren wir übungshalber einmal nur die Fische der Spezies `Roach`.

Dazu können wir Boolean Indexing verwenden.
Hier ist ein Beispiel wie Boolean Indexing funktioniert.

In [None]:
df_mask = df['Weight'] == 0 # Gibt uns eine sogenannte Bool-Maske
df_mask.head() # Bool-Masken sind überall False oder True (hier: entsprechend ob 'Weight' 0 ist oder nicht.)

In [None]:
# Wir können alle Zeilen selektieren, wo die Maske True ist mit df[df_mask]
# Das Ergebnis sind alle Fische, wo das Gewicht gleich 0 ist (hier nur eine Zeile).
df[df_mask]               

In [None]:
# Oben haben wir es für das Verständnis in zwei Schritten gemacht: Zuerst die Maske gespeichert und dann die Maske angewandt.
# Üblicherweise schreibt man es kompakt in einer Zeile.
df[df['Weight'] == 0]

1. Wenden Sie Boolean Indexing auf das DataFrame `df` an, dass wir alle Zeilen der Spezies `Roach` selektieren.
2. Geben Sie die Anzahl Zeilen mittels `shape[0]` aus, es sollten **20 Zeilen** sein.

In [None]:
# TODO

#### (Extra) Fortgeschrittene Links

* Pandas hat viele weitere Index verfahren, die nützlich sein können: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### Aufgabe 1.4 - ```df.mean```, ```df.groupby```

1. Berechnen Sie den **Durchschnitt aller Feature** mit ```df.mean``` für die Fische der Spezies `Roach`.
2. Berechnen Sie den **Durchschnitt aller Features** mit ```df.mean``` **für alle Spezien**.
Dies kann man auf zwei Varianten machen:
    - Manuell mit `for` über alle Spezien (`df['Species'].unique()` gibt uns ein Array aller Spezien zurück) loopen und analog zu Schritt 1. `df.mean` anwenden.
    - Automatisch für alle Spezien mit `df.groupby`.

#### Hilfreiche Links
* `df.mean`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html
* `for` loop: https://www.w3schools.com/python/python_for_loops.asp
* `df.groupby`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

In [None]:
# TODO

### (Extra) Aufgabe 1.5 - ```df.to_numpy```

`pandas` speichert die Daten im Hintergrund in `numpy`-Matrizen ab.
Mittels ```to_numpy``` kann man die Werte als Matrix erhalten.

In [None]:
matrix = df.to_numpy()
print(matrix)
print(matrix.shape)

Die Spalten haben in dieser Form **keine Namen** mehr und man muss wissen, welches Feature (Spalte) welchen Index hat.

Daher ist es oft angenehmer mit `pandas` DataFrames zu arbeiten, als direkt mit `numpy` Matrizen.
Numpy ist aber hinter den Kulissen extrem wichtig, da `sklearn`, wie auch `pandas` und `matplotlib` damit arbeiten.

Es macht also durchaus Sinn sich mit `numpy` vertraut zu machen: https://numpy.org/devdocs/index.html

Die Aufgabenblätter konzetrieren sich mehrheitlich auf `pandas`, `matplotlib`, `seaborn` und `sklearn`, da es üblicherweise mehr dem Arbeitsalltag entspricht.
Nur in Spezialfällen muss man direkt auf `numpy` zurückgreift.

### (Extra) Aufgabe 1.6  - Weitere Resourcen

In diesem Aufgabenblatt haben wir nur an der Oberfläche gekratzt, was Pandas alles kann.
Wir werden Pandas in den späteren Aufgabenblättern immer wieder antreffen.
Für Interessierte empfehlen wir den User Guide (oder andere Online-Resourcen), wenn man sich weiter einarbeiten möchte: https://pandas.pydata.org/docs/user_guide/index.html


## Aufgabe 2 - matplotlib und seaborn

In dieser Aufgabe machen wir uns mit wichtigen Funktionen von `matplotlib` und `seaborn` vertraut.
`matplotlib` hilft uns beim erstellen von Plots (Grafiken).
`seaborn` benutzt intern `matplotlib`, bietet aber oft benötigte Plots out-of-the-box an, die man sich sonst mühsam selbst mit `matplotlib` bauen müsste.

In der Praxis wird oft `seaborn` verwendet, da es einfacher zu nutzen und oft ausreichend flexibel ist.


### Aufgabe 2.1 - matplotlib - ```plt.scatter```

Ein `scatter plot` repräsentiert Werte von zwei numerischen Features als Punktwolke.
Die Punktwolke kann uns helfen Zusammenhänge zwischen diesen Features schnell zu verstehen.

1. scatter-plotten Sie die Features `Width` und `Height` mittels `plt.scatter`
2. Interpretieren Sie den Plot

#### Hilfreiche Links
* `scatter plot`: https://data36.com/scatter-plot-pandas-matplotlib/

In [None]:
# TODO

### Aufgabe 2.2 - Seaborn - ```sns.scatterplot```

1. Erstelle den selben Scatterplot von Aufgabe 2.1 nun mittels `seaborn` mittels `sns.scatterplot`. Anders als bei matplotlib geben wir bei `seaborn` immer das ganze DataFrame als `data` Parameter herein und geben die Achsen mittels Featurenamen mit den Parametern `x` und `y` an.
2. Nutze den `hue` Parameter von `sns.scatterplot`, um die Punkte mit der jeweiligen Spezies (`Species`) einzufärben.

#### Hilfreichelinks:

* `sns.scatterplot`: https://seaborn.pydata.org/generated/seaborn.scatterplot.html

In [None]:
# TODO

### Aufgabe 2.3 - Seaborn - ```sns.countplot```

Oft möchten wir die Verteilung eines **diskreten Features** mittels einem `countplot` oder `histplot` anschauen.

1. Erstelle ein Histogram-Plot für die Species mittels `sns.countplot` (oder `sns.histplot`). Der Name des Feature, dass wir untersuchen wollen müssen wir in den `x` Parameter geben.
2. Was zeigt uns dieser Plot?

#### Hilfreichelinks:

* `sns.countplot`:
* `sns.histplot`: https://seaborn.pydata.org/generated/seaborn.histplot.html

In [None]:
# TODO

### (Extra) Aufgabe 2.4 - Seaborn - `sns.boxplot`, `sns.violinplot`, `sns.pairplot`

Seaborn hat viele nützliche Plots out-of-the-box, wie:

1. `sns.boxplot` oder `sns.violinplot`: Zusammenhänge von einem numerischen Feature zu einem kategorischen Feature zu untersuchen.
2. `sns.pairplot`: Zusammenhänge von allen numerischen Features paar-weise zu untersuchen.
3. `sns.histplot`: Der `histplot` von Aufgabe 2.3 kann auch zwei Parameter `x` und `y` entgegennehmen.
4. `sns.kdeplot`: Plottet eine Verteilung anhand der gegeben Datenpunkte. Mit Vorsicht zu benutzen, da die dargestellte Verteilung eine Annäherung an die tatsächlichen Daten ist und allenfalls zu stark vereinfacht.
5. Weitere plots finden Sie hier**: https://seaborn.pydata.org/examples/index.html

Lesen Sie die Dokumentation zu den plots und erstellen Sie jeweils einen Plot für unseren Datensatz. Können Sie etwas Interessantes erkennen?

In [None]:
# TODO

## Schlusswort - Aufgabenblatt 1

Wir haben wichtige Funktionen für `pandas` und `seaborn` gelernt und haben ein wenig `matplotlib` angeschaut.

Nach diesen Aufgaben sollten Sie ein ungefähres Gefühl haben wie diese Programmier-Libraries funktionieren.

Die Erwartung von uns ist, dass Sie diese Aufgaben (Extra ausgeschlossen) gut lösen konnten.
Hatten Sie Probleme mit diesem Aufgabenblatt, sollten Sie dringend für das nächste Mal Ihre `python` und `pandas` Kenntnisse aufbessern.
Alle weiteren Aufgabenblätter werden Machine Learning anwenden, wo wir immer wieder auch auf `pandas` und `seaborn` treffen werden.