# **1  Pandas retten den Tag**

## **1.1  Einführung**

"Machine Learning at its most basic is the practice of using algorithms to parse data, learn from it, and then make a determination or prediction about something in the world." -- Nvidia (Source: https://emerj.com/ai-glossary-terms/what-is-machine-learning/)

Wie Sie wahrscheinlich bereits wissen, basiert Maschinelles Lernen auf der Verwendung von Daten. Einfach gesagt, verwenden Machine Learning Algorithmen viele Datenpunkte, um eine generelle Lösung für ein spezifisches Problem zu finden. Das passiert entweder mit unbekannten oder neuen Daten. Aus diesem Grund ist es wichtig, die Daten vorzuverarbeiten.

Im ersten Aufgabenschritt werden Sie daher lernen, wie in Python Dateien eingelesen werden können. Dabei wird auch der richtige Umgang mit den Daten gezeigt. Im Anschluss daran, werden Sie herausfinden, wie Daten verwendet, um ein bestmögliches Machine Learning Ergebnis erreichen zu können.

<div class="alert alert-block alert-info">
<b>Hinweis:</b> Ein paar Definitionen.
<ul>
    <li> In einem reguläreren Datensatz ist ein <b>Sample</b> eine <b>Zeile</b> und ein <b>Feature</b> eine <b>Spalte</b> über alle Samples.
<li> Alle Spalten sind Features, aber die Spalte die vorhergesagt werden soll bzw. zu der Tendenzen aufgezeigt werden sollen wird als Label/ Ziel (engl. target) bezeichnet.
<li> Man kann also sagen, dass Features im Allgemeinen als Eingabe und Labels als Ausgabe verwendet werden.

</ul>
</div>

## **1.2  CSV Datein einlesen**

Zunächst einmal: Was sind CSV Dateien?

Ein weit verbreitetes Dateiformat zum Speichern von (in der Regel kleinen Datensätzen) sind CSV Dateien. Die Abkürzung CSV steht für Comma Separated Values. Eine CSV Datei besteht aus Zeilen und Spalten, ähnlich wie in einer Tabelle. Dabei werden Spalten durch Kommas (,) abgetrennt und jede Zeile im Datensatz durch eine Zeile in der CSV Datei wiedergegeben.

### **1.2.1 CSV-Dateien mit Pandas einlesen**

Um CSV Dateien effizient einlesen zu können, ist es in der Regel sinnvoll, das Python Package `pandas` zu verwenden. Es enthält die Funktion [`pandas.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv) die sehr anpassungsfähig ist und ein Pandas Dataframe Objekt zurückgibt. Mit diesem Objekt kann dann direkt eine Zusammenfassung des Datensatzes ausgegeben und Plots erstellt werden. Dabei ist es wichtig zu wissen, dass die `read_csv` Funktion auch die „Namen“ der Spalten lesen kann.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.1:</b>
    Lesen Sie die Daten mit Hilfe der <code>pandas.read_csv()</code> Funktion ein. Verwenden Sie dabei <code>names</code> als Spaltennamen und speichern Sie die Daten in der Variablen <code>data</code> ab.
</div>

In [None]:
from pandas import read_csv
import pandas as pd

filename = 'data/pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

### STUDENT CODE HERE

### STUDENT CODE until HERE

print(type(data)) # Sollte  <class 'pandas.core.frame.DataFrame'> sein

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.2:</b>
    Verwenden Sie die <code>head</code> Methode um einen Blick auf die Daten zu werfen
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.3:</b>
    Gebe Sie die ersten 10 Einträge der <code>preg</code> Spalte aus
<ul>
    <li> Hinweis: Verwende Sie dazu slicing
</ul>
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
shape

Allgemein ist es immer eine gute Idee, den Datensatz genauer zu betrachten, bevor man ihn einließt. Manchmal liegen gewissen Unregelmäßigkeiten vor, die es vor dem Einlesen zu lösen gilt.

### **1.2.2  Weitere Informationen zu CSV Dateien**

Bevor Sie damit beginnen, Ihre Daten zu laden, ist es ratsam, die Form des Datensatzes genauer zu betrachten. Es empfiehlt sich, den Datensatz nach den folgenden Kriterien zu untersuchen:

Hat der Datensatz einen Dateikopf (file header)? Dies kann hilfreich sein, um den Spalten des Datensatzes automatisch Attribute/ Features zuweisen zu können. Andernfalls ist es vielleicht eine gute Idee, Spalten manuell zu benennen.

Im nächsten Schritt sollten Sie überprüfen, ob die Datei Kommentare enthält. In CSV Dateien werden Kommentare durch ein # am Anfang der Zeile markiert. Allgemein hängt es von der zum Laden des Datensatzes verwendeten Methode ab, wie das potenzielle Auftreten solcher Kommentaren angegeben werden muss.

Fall Ihre Daten Tabs oder Leerzeichen statt Kommas verwenden, sollten Sie dies auch explizit angeben. Desweitern werden in manchen CSV Dateien Werte mit doppelten Anführungszeichen versehen (beispielsweise, wenn die Daten selbst wieder Kommas verwenden). Falls Ihre Datei davon abweicht, sollten Sie das Zitierzeichen spezifizieren.

Im folgenden können Sie weiter mit Pandas experimentieren. Achten Sie dabei besonders auf die Parameter, die read_csv übergeben werden. Falls Sie nicht weiterkommen, können Sie alle Parameter auch in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) finden.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.5:</b>
    Lesen Sie die Datei ein, indem Sie ausschließlich den Dateinamen angeben und speichern Sie die Daten in der Variable <code>data_without_params</code>
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_without_params.head()

In [None]:
data_without_params.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.6:</b>
    Wie unterscheidet sich <code>data_without_params</code> von <code>data</code>?
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.7:</b> Lesen Sie die Datei nun mit einem Leerzeichen '&nbsp;' als Trennzeichen ein und speichern Sie diese in der Variablen <code>data_with_separator</code>
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_with_separator.head()

In [None]:
data_with_separator.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.8:</b>
    Wie unterscheidet sich <code>data_with_separator</code> von <code>data</code>?
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.9:</b> Lesen Sie die erste und dritte Spalte der Datei ein und speichern Sie diese in der Variable <code>data_columns</code>
</div>

In [None]:
### STUDENT CODE HERE

### STUDENT CODE until HERE
data_columns.head()

In [None]:
data_columns.shape

<div class="alert alert-block alert-success">
<b>Aufgabe 1.2.10:</b>
    Wie unterscheidet sich <code>data_with_separator</code> von <code>data_columns</code>?
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>
