## 1. Download der Daten

Wir laden die Datei `audi.csv` der Lektion herunter und speichern diese an einem selbst gewählten Ort. Natürlich merken wir uns den Speicherort der Datei, denn der Pfad der Datei ist zwingend erforderlich, um diese Datei später in dieses Notebook zu importieren.

Die Ordnerstruktur könnte nach dem Download zum Beispiel so aussehen:


```
machine_learning_kurs
|
└───data
│   │   audi.csv
│   │   data_folder_1
|   |   data_folder_2
|   |   (...)
|
|
└───thema1
│   │   slides.pdf
│   │   code.py
|   |   (...)
|
|
└───daten_kennenlernen
│   │   'Daten kennenlernen.ipynb'
|
|
└───thema3
    │   slides.pdf
    │   code.py
    |   (...)
```

In diesem Fall befindet sich die Datei `audi.csv` in einem Ordner `data` der sich auf der gleichen Ebene befindet wie der Ordner `daten_kennenlernen` in dem sich wiederum dieses Notebook `'Daten kennenlernen.ipynb'` befindet. Alle Ordner sind Unterordner des Ordners `machine_learning_kurs`. Dieser Ordner wiederum könnte sich irgendwo in unserem Dateisystem befinden.

## 2. Import der Daten

### 2.1 Öffnen in Excel

Der Dateityp der heruntergeladenen Datei ist **CSV**, erkennbar an der Dateiendung *.csv* was für *comma-separated values* steht und im Wesentlichen genau beschreibt, was in dieser Datei zu finden ist: eine gewisse Menge an Zeilen, die jeweils aus einer Reihen von (typischerweise numerischen) Werten besteht, die mit Kommata voneinander getrennt werden.

Bei diesem Dateityp handelt es sich um einen der häufigsten Dateitypen überhaupt. Deshalb ist zunächst gar kein Python erforderlich, um diese Datei und die darin gespeicherten Werte zu untersuchen. Geöffnet werden kann die Datei alternativ zum Beispiel durch eine wesentlich bekanntere Software - *Excel*. Wenn *Excel* oder ein vergleichbares Programm auf unserem Rechner installiert ist, können wir versuchen, die Datei sofort durch Doppelklick zu öffnen oder mit *Excel* zu öffnen.

Hier eine Darstellung des Inhalts der Datei, wie sie uns in *Excel* einem vergleichbaren Programm erscheinen würde:

<img src="https://raw.githubusercontent.com/layerwise/training/main/assets/audi_in_excel.png" width="800" >


Die entscheidende Erkenntnis dabei: Der Inhalt der Datei ist im Wesentlichen eine **Tabelle**! Diese Tabelle hat 9 Spalten und durch die Überschriften der Spalten sind sofort die Bedeutung der Werte erkennbar: Es handelt sich um die Spalten **model**, **year**, **price**, **transmission**, **mileage**, **fuelType**, **tax**, **mpg**, **engineSize**.

### 2.2 Import mit Pandas

Ein zentrales Problem jeder Datenanalyse ist der Import der Daten, das heißt das Einladen der relevanten Dateien in den Arbeitsspeicher und das Verfügbarmachen der Daten in Python in einem geeigneten Format.

Für diesen Zwischenschritt gibt es fast ebenso viele Optionen wie es verschiedene Arten von Daten gibt.

Wir beschränken uns hier auf eine einzige, und das ist die speziell für Datenanalyse gemachte Bibliothek **Pandas**. Zunächst ist es erforderlich, die Bibliothek zu importieren, und das geschieht auf folgende Weise:

In [None]:
import pandas as pd

Die Syntax dieses Befehls ist olgendermaßen zu verstehen: mit `import pandas` wird die entsprechende Bibliothek importiert - die Bibliothek muss hierzu installiert sein und der Name muss exakt stimmen - und mit dem Zusatz `as pd` wird der Bibliothek ein Kürzel zugewiesen, über die wir im Weiteren die Bibliothek ansprechen können. Tatsächlich wäre dieser Zusatz nicht zwingend nötig, ist aber eine Konvention - und Konventionen zählen in Python viel, weil sie die Lesbarkeit des Codes erhöhen. Wir halten uns daran.

Wichtig ist: wollen wir auf Funktionen und Klassen dieser Bibliothek zugreifen, tun wir dies, indem wir `pd.` dieser Funktion voranstellen. Hier einige Beispiele:

```python
>>> import pandas as pd
>>> pd.DataFrame
>>> pd.Series
>>> pd.merge
```

Die Funktion, nach der wir suchen, ist speziell für das Einlesen von **CSV**-Dateien konzipiert. Sie heißt tatsächlich genau so: `pd.read_csv`. Die Funktion `pd.read_csv` ist zwar eine bekannte und häufig verwendete Funktion in **Pandas**, aber da niemand jemals alle Funktionen einer Bibliothek kennen kann, tun wir auch hier so, als ob wir diese Funktion nur zufällig gefunden und wir den Verdacht haben, sie könnte uns helfen, obwohl wir ihre genaue Funktionsweise noch nicht kennen.

In solchen Fällen sollte unser erster Schritt das Aufrufen des sogannten *Docstring* sein - eine Kurzzusammenfassung der Funktionsweise einer Funktion, die für jede gut dokumentierte Bibliothek existiert. Diese Kurzzusammenfassung enthält
- eine kurze Bebschreibung der Funktionsweise
- ein Liste der wesentlichen oder sogar aller Argumente der Funktion
- eine Aufstellung darüber, welche Argumente der Funktion zwingend und welche optional sind
- eine Beschreibung, was jedes Argument bewirkt und welche Werte möglich sind
- einige Beispiele zur Verwendung der Funktion

Vor allem der letzte Punkt kann oft besonders hilfreich sein. Der Docstring einer Funktion lässt sich in einem Jupyter Notebook besonders einfach aufrufen, nämlich so (alternativ lässt sich die Dokumentation auch unter folgendem Link aufrufen - https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.read_csv.html):

In [None]:
pd.read_csv?

In [None]:
# TODO: Import mit pd.read_csv

### 2.3 Exploration mit Pandas

Bei der Variable `data` handelt es sich um ein sogenanntes *DataFrame* - das grundlegende Objekt der Pandas-Bibliothek. Wir überprüfen den Datentyp der Variable `data`

In [None]:
# TODO: Typ der einer Variable

Das Objekt `DataFrame` in Pandas ist ein richtiger Alleskönner. Wir werden später sehen, dass mit jedem `DataFrame` eine Reihe von Funktionen mitgeliefert werden, die uns einen großen Teil der Arbeit, den wir uns andernfalls in Python machen müssten, abnehmen. Dazu gehören auch Funktionen zur Visualisierung. Wir zeigen das `DataFrame` zunächst an:

In [None]:
# TODO: DataFrame anzeigen lassen

Außerdem gibt es weitere Funktionen, die uns die Struktur des `DataFrame` sowie die dort gespeicherten Daten zusammenfassen:

In [None]:
# TODO: DataFrame Zusammenfassung

### 2.4 Zugreifen (Indexing)

Der Zugriff auf die Elemente eines DataFrame ist auf verschiedenste Weise möglich. In diesem Abschnitt lernen wir:
- wie sich auf die Überschriften der Spalten eines `DataFrame` anzeigen lassen
- wie sich auf eine bestimmte Spalte eines `DataFrame` zugreifen lässt
- wie sich auf eine bestimmte Zeile eines `DataFrame` zugreifen lässt
- wie sich auf einzelne Elemente eines `DataFrame` zugreifen lässt

Wir lassen uns zunächst die Überschriften der Spalten anzeigen:

In [None]:
# TODO: Spaltenname

Dann greifen wir auf bestimmte Spalten des `DataFrame` zu:

In [None]:
# TODO: Spaltenzugriff

Sowie auf bestimmte Zeilen des `DataFrame`:

In [None]:
# TODO: Zeilenzugriff

Ebenso ist es auf verschiedenste Weise möglich, auf die einzelnen Elemente des Objekts zuzugreifen:

In [None]:
# TODO: Zugriff auf Elemente

### 2.5 Summary Functions

Die Bibliothek sowie die dortigen `DataFrames` werden in einem Paket mit verschiedensten, nützlichen Funktionen geliefert. Wir lernen hier einige davon kennen:

- Durschnittswerte berechnen: `mean`
- Maxima und Minima berechnen: `max` und `min`
- Standardabweichung berechnen: `std`
- Median berechnen: `median`
- Häufigkeiten berechnen: `value_counts`

In [None]:
# TODO: summary functions

## 3. Visualisieren

Zentrale Aufgabe der Datenanalyse ist das Visualisieren. Hier lernen wir erste Beispiele kennen, wie wir dies mit der Bibliothek `pandas` bewerkstelligen:

- Histogramme
- Scatterplots

In [None]:
# TODO: Visualisieren