## Wichtiger Hinweis für Google Colab Nutzer

Die folgende Code-Zelle ist speziell für die Ausführung in **Google Colab** gedacht. Wenn du dieses Notebook lokal auf deinem Rechner oder über Plattformen wie myBinder verwendest, **musst du diese Zelle nicht ausführen** (du kannst sie einfach überspringen). Sie dient dazu, in der Colab-Umgebung die notwendigen Python-Pakete zu installieren und die Datensätze herunterzuladen, die wir in diesem Notebook brauchen werden.

Für die lokale Installation solltest du sicherstellen, dass du alle Pakete aus der `amalea.yml` (wie in der Installationsanleitung beschrieben) installiert und die Daten bereits heruntergeladen hast.

In [1]:
# [Nur Colab] Diese Zellen müssen nur auf *Google Colab* ausgeführt werden und installieren Packete und Daten
!wget -q https://raw.githubusercontent.com/KI-Campus/AMALEA/master/requirements.txt && pip install --quiet -r requirements.txt
!wget --quiet "https://github.com/KI-Campus/AMALEA/releases/download/data/data.zip" && unzip -q data.zip

zsh:1: command not found: wget
zsh:1: command not found: wget
zsh:1: command not found: wget


# Pandas rettet den Tag – Daten einlesen wie ein Profi!

## Einführung – Warum sind Daten so wichtig?

Ihr habt sicher schon mal gehört:

_"Machine Learning at its most basic is the practice of using algorithms to parse data, learn from it, and then make a determination or prediction about something in the world." -- Nvidia (Quelle: https://emerj.com/ai-glossary-terms/what-is-machine-learning/)_

Genau darum geht's! Maschinelles Lernen (ML) ist ohne Daten wie ein Auto ohne Sprit – es kommt nicht weit. Vereinfacht gesagt, nutzen ML-Algorithmen eine Menge an Datenpunkten, um Muster zu erkennen und daraus allgemeine Lösungen für bestimmte Probleme zu finden. Diese Lösungen können dann auf neue, unbekannte Daten angewendet werden, um Vorhersagen zu treffen oder Entscheidungen zu fällen.

Bevor wir aber coole ML-Modelle trainieren können, müssen wir uns erstmal um die **Datenaufbereitung** kümmern. Das ist ein super wichtiger Schritt, denn die Qualität eurer Daten hat einen riesigen Einfluss auf die Qualität eures ML-Modells. Müll rein, Müll raus – das gilt hier ganz besonders.

In diesem Notebook lernt ihr deshalb, wie ihr in Python Dateien einlest und wie ihr mit den Daten umgeht. Wir schauen uns an, wie ihr Daten so aufbereitet, dass ihr die bestmöglichen Ergebnisse mit euren ML-Algorithmen erzielen könnt. Und unser Held für diese Aufgabe ist die Python-Bibliothek **Pandas**!

<div class="alert alert-block alert-info">
<b>Kurz & knackig: Ein paar wichtige Begriffe</b>

Bevor wir loslegen, hier ein paar Definitionen, die euch immer wieder begegnen werden:

<ul>
    <li>Stellt euch einen typischen Datensatz wie eine Tabelle vor (z.B. eine Excel-Tabelle). Jede **Zeile** in dieser Tabelle nennen wir ein **Sample** (oder auch Datenpunkt, Beobachtung, Instanz). Das ist quasi ein einzelnes "Ding", das ihr untersucht (z.B. ein Kunde, ein Haus, ein Patient).
    <li>Jede **Spalte** in der Tabelle ist ein **Feature** (oder auch Merkmal, Attribut, Variable). Das beschreibt eine Eigenschaft des Samples (z.B. beim Kunden das Alter, beim Haus die Wohnfläche, beim Patienten der Blutdruck).
    <li>Eine ganz besondere Spalte ist oft das **Label** oder **Target** (Zielvariable). Das ist die Spalte, die ihr mit eurem ML-Modell vorhersagen wollt (z.B. ob ein Kunde ein Produkt kauft, wie teuer ein Haus ist, ob ein Patient eine bestimmte Krankheit hat).
    <li>Ganz allgemein kann man sagen: Die Features sind eure **Eingabedaten** (Input) für das ML-Modell, und das Label ist die **Ausgabe** (Output), die das Modell lernen soll vorherzusagen.
</ul>
</div>

## CSV-Dateien einlesen – Daten in Reih und Glied

**Moment mal, was sind überhaupt CSV-Dateien?**

Ein super verbreitetes Dateiformat, um Daten (besonders tabellarische, also wie in einer Tabelle) zu speichern, sind CSV-Dateien. CSV steht für **C**omma **S**eparated **V**alues, also "durch Komma getrennte Werte".

Stellt euch eine einfache Tabelle vor:

| Name  | Alter | Stadt   |
|-------|-------|---------|
| Max   | 25    | Berlin  |
| Anna  | 30    | Hamburg |

In einer CSV-Datei würde das so aussehen:

```
Name,Alter,Stadt
Max,25,Berlin
Anna,30,Hamburg
```

Jede Zeile in der Tabelle wird zu einer Zeile in der Datei. Die einzelnen Werte (Spalten) innerhalb einer Zeile werden durch ein Komma (`,`) getrennt. Manchmal werden auch andere Trennzeichen wie Semikolons (`;`) oder Tabs (`\t`) verwendet, aber das Komma ist der Standard.

CSV-Dateien sind einfach aufgebaut, menschenlesbar (zumindest bei kleineren Datenmengen) und können von fast jeder Datenanalyse-Software importiert werden. Deshalb sind sie im Data-Science-Bereich sehr beliebt, um Datensätze auszutauschen oder zu speichern, besonders wenn sie nicht riesig sind.


### CSV-Dateien mit Pandas einlesen – Der einfache Weg!

Um CSV-Dateien in Python effizient einzulesen und damit zu arbeiten, ist die Bibliothek **Pandas** euer bester Freund. Pandas ist *die* Standardbibliothek für Datenmanipulation und -analyse in Python. Sie bietet eine unglaublich mächtige Datenstruktur namens **DataFrame**, die im Grunde eine Tabelle mit Zeilen und Spalten ist, aber mit vielen coolen Zusatzfunktionen.

Die wichtigste Funktion, die wir hier brauchen, ist [`pandas.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv). Diese Funktion ist super flexibel und kann mit allen möglichen Arten von CSV-Dateien umgehen. Sie gibt uns ein Pandas DataFrame-Objekt zurück.

Mit diesem DataFrame-Objekt könnt ihr dann ganz einfach:

*   Euch eine schnelle Zusammenfassung des Datensatzes anschauen (z.B. wie viele Zeilen und Spalten, welche Datentypen).
*   Daten filtern, sortieren, gruppieren.
*   Fehlende Werte behandeln.
*   Neue Spalten berechnen.
*   Und sogar direkt Diagramme (Plots) erstellen!

Ein wichtiger Punkt: Die `read_csv()`-Funktion kann auch automatisch die Spaltennamen (den "Header" der Datei) erkennen und verwenden. Wenn eure CSV-Datei keine Spaltennamen hat, könnt ihr sie auch manuell übergeben.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.1: Ran an die Daten!</b>

Okay, genug der Vorrede, jetzt wird's praktisch! Lest die CSV-Datei `data/pima-indians-diabetes.csv` mit der Funktion `pandas.read_csv()` ein.

*   Verwendet die vorgegebene Liste `names` als Spaltennamen für euren DataFrame.
*   Speichert den eingelesenen DataFrame in der Variable `data`.

Unten im Code-Block ist schon einiges vorbereitet. Ihr müsst nur die Zeile für das eigentliche Einlesen ergänzen.
</div>

In [2]:
from pandas import read_csv
import pandas as pd

filename = 'data/pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

### STUDENT CODE HERE

### STUDENT CODE until HERE

print(type(data)) # Sollte  <class 'pandas.core.frame.DataFrame'> sein

ModuleNotFoundError: No module named 'pandas'

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.2: Erster Blick auf die Daten</b>

Super! Jetzt habt ihr die Daten in einem DataFrame. Eine der ersten Sachen, die man immer macht, ist sich die ersten paar Zeilen anzuschauen, um ein Gefühl für die Daten zu bekommen. Verwendet dafür die Methode `.head()` auf eurem `data`-DataFrame.
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.3: Spaltenweise Inspektion</b>

Manchmal interessiert man sich nur für bestimmte Spalten. Gebt mal die ersten 10 Einträge der Spalte `preg` (Anzahl Schwangerschaften) aus eurem `data`-DataFrame aus.

<ul>
    <li> Hinweis: Ihr könnt auf eine Spalte zugreifen, indem ihr ihren Namen in eckigen Klammern an den DataFrame hängt (z.B. `data['preg']`). Um dann die ersten 10 Einträge zu bekommen, könnt ihr wieder Slicing verwenden (z.B. `[:10]`).
</ul>
</div>


In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.4: Wie groß sind unsere Daten?</b>

Es ist immer gut zu wissen, mit wie vielen Daten man es zu tun hat. Speichert die "Shape" (also die Dimensionen: Anzahl Zeilen, Anzahl Spalten) eures `data`-DataFrames in der Variable `shape` ab. Pandas DataFrames haben dafür ein praktisches Attribut namens `.shape`.
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
shape

Wie ihr seht, ist es immer eine gute Idee, sich den Datensatz erstmal genauer anzuschauen, bevor man ihn blindlings einliest. Manchmal lauern da kleine Tücken oder Unregelmäßigkeiten (z.B. falsche Trennzeichen, unerwartete Kommentarzeilen, seltsame Anführungszeichen), die man besser vorher entdeckt und beim Einlesen berücksichtigt. Das erspart später oft Kopfzerbrechen!

### CSV-Dateien – Was gibt's noch zu beachten?

Bevor ihr euch auf eure Daten stürzt, nehmt euch kurz Zeit, die "Form" eures Datensatzes genauer unter die Lupe zu nehmen. Das kann euch später viel Ärger ersparen. Hier ein paar Punkte, auf die ihr achten solltet:

*   **Hat die Datei eine Kopfzeile (Header)?** Das ist die erste Zeile in der CSV-Datei, die oft die Namen der Spalten enthält. Wenn ja, super! Pandas kann die dann meist automatisch als Spaltennamen für euren DataFrame verwenden. Wenn nicht, müsst ihr die Spaltennamen eventuell manuell definieren (so wie wir es oben mit dem `names`-Parameter gemacht haben).

*   **Gibt es Kommentare in der Datei?** In CSV-Dateien werden Kommentarzeilen manchmal mit einem `#` (Hashtag/Rautezeichen) am Anfang der Zeile markiert. Die `read_csv()`-Funktion hat einen `comment`-Parameter, mit dem ihr Pandas sagen könnt, welches Zeichen Kommentarzeilen einleitet, damit diese ignoriert werden.

*   **Welches Trennzeichen (Delimiter/Separator) wird verwendet?** Standardmäßig geht `read_csv()` von einem Komma (`,`) als Trennzeichen aus. Wenn eure Datei aber Tabs (`\t`), Semikolons (`;`) oder Leerzeichen als Trenner benutzt, müsst ihr das mit dem `sep` (oder `delimiter`) Parameter explizit angeben.

*   **Wie werden Werte zitiert (Quoting)?** Manchmal werden Werte in CSV-Dateien in Anführungszeichen (meist doppelte `"`) eingeschlossen. Das ist besonders dann nötig, wenn die Werte selbst das Trennzeichen enthalten (z.B. ein Komma in einem Textfeld). Pandas erkennt das meist automatisch, aber falls eure Datei andere Zitatzeichen verwendet oder ein spezielles Quoting-Verhalten hat, könnt ihr das mit Parametern wie `quotechar` und `quoting` steuern.

Im Folgenden könnt ihr ein bisschen mit den verschiedenen Parametern von `read_csv()` experimentieren. Das Ziel ist, ein Gefühl dafür zu bekommen, wie flexibel diese Funktion ist und wie ihr sie an verschiedene CSV-Formate anpassen könnt.

**Keine Sorge, wenn ihr nicht alle Parameter auswendig wisst!** Das Wichtigste ist zu verstehen, *dass* es diese Möglichkeiten gibt. Wenn ihr mal auf eine knifflige CSV-Datei stoßt, ist die [offizielle Pandas-Dokumentation zur read_csv()-Funktion](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) euer bester Freund. Da sind alle Parameter detailliert erklärt.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.5: Pandas auf Autopilot</b>

Jetzt probieren wir mal, was passiert, wenn wir Pandas einfach machen lassen. Lest die Datei `data/pima-indians-diabetes.csv` nochmal ein, aber diesmal übergebt ihr der `read_csv()`-Funktion **nur den Dateinamen** (also keine Spaltennamen oder andere Parameter).

Speichert das Ergebnis in der Variable `data_without_params`.
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_without_params.head()

In [None]:
data_without_params.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.6: Was ist hier anders?</b>

Schaut euch den `data_without_params`-DataFrame an (besonders die ersten Zeilen mit `.head()` und die `.shape`). Wie unterscheidet er sich von unserem ursprünglichen `data`-DataFrame, bei dem wir die Spaltennamen explizit übergeben haben? Was hat Pandas hier gemacht?
</div>
<div class="alert alert-block alert-success">
<b>Deine Antwort:</b>

*Schreib hier deine Beobachtungen rein. Was ist mit den Spaltennamen passiert? Hat sich die Anzahl der Zeilen oder Spalten geändert?*

</div>


<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.7: Andere Trennzeichen, andere Sitten</b>

Manchmal sind CSV-Dateien nicht mit Kommas, sondern mit anderen Zeichen getrennt. Lest die Datei `data/pima-indians-diabetes.csv` nochmal ein, aber diesmal geht ihr davon aus, dass die Werte durch ein **Leerzeichen** (`' '`) getrennt sind. Verwendet dafür den `sep`-Parameter in `read_csv()`.

Speichert das Ergebnis in der Variable `data_with_separator`.
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_with_separator.head()

In [None]:
data_with_separator.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.8: Und was ist jetzt der Unterschied?</b>

Vergleiche den `data_with_separator`-DataFrame (eingelesen mit Leerzeichen als Trenner) mit unserem ursprünglichen `data`-DataFrame. Was fällt dir auf? Hat das Einlesen mit dem falschen Trennzeichen funktioniert? Wie sieht der DataFrame aus?
</div>
<div class="alert alert-block alert-success">
<b>Deine Antwort:</b>

*Schreib hier deine Beobachtungen rein. Sind die Daten sinnvoll in Spalten aufgeteilt? Was ist mit den Spaltennamen?*

</div>


<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.9: Nur das Nötigste – Spalten auswählen</b>

Manchmal braucht man nicht alle Spalten aus einer CSV-Datei. Pandas erlaubt es euch, schon beim Einlesen nur bestimmte Spalten auszuwählen. Lest die Datei `data/pima-indians-diabetes.csv` nochmal ein, aber diesmal ladet ihr **nur die erste und die dritte Spalte** (also die Spalten an Index 0 und Index 2, wenn man bei 0 anfängt zu zählen).

*   Verwendet dafür den `usecols`-Parameter in `read_csv()`. Diesem Parameter könnt ihr eine Liste der Spaltenindizes übergeben, die ihr laden wollt.
*   Denkt daran, auch hier wieder die `names` für die Spaltennamen zu übergeben, damit Pandas weiß, wie die Spalten heißen sollen (auch wenn ihr nur zwei davon ladet, braucht `read_csv` die Info für die ursprüngliche Struktur, um die richtigen auszuwählen).

Speichert das Ergebnis in der Variable `data_columns`.
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_columns.head()

In [None]:
data_columns.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.10: Der DataFrame-Vergleich</b>

Schau dir den `data_columns`-DataFrame an. Wie unterscheidet er sich von `data_with_separator` und von unserem ursprünglichen `data`-DataFrame? Welche Spalten sind enthalten? Sind die Spaltennamen korrekt?
</div>
<div class="alert alert-block alert-success">
<b>Deine Antwort:</b>

*Beschreibe hier die Unterschiede. Welche Dimensionen (`.shape`) haben die jeweiligen DataFrames? Welche Spaltennamen siehst du?*

</div>
