# 02 - Einführung Pandas DataFrame
Um die Pandas Bibliothek benutzen zu können müssen wir diese zunächst importieren. Dies erreichen wir, indem wir Python anweisen die Bibliothek mit dem Namen **pandas** als Modul zu importieren. <!-- Hinweis: Das Modul muss installiert sein -->

In Modulen sind zahlreiche Funktionen gebündelt, so dass wir diese auf einfache Art und Weise benutzen können. Sie stellen daher ein zentrales Objekt in der Programmierung mit Python dar.

## Import der Pandas Bibliothek
Die erste <font color="purple">Codezelle</font> im jupyter Notebook ist traditionell die <font color="purple">Codezelle</font> in der alle Bibliotheken importiert werden. Füge daher immer alle **Import Statements** für dein Notebook in der ersten <font color="purple">Codezelle</font>. Vor dieser Zelle sollte niemals Code stehen.

Ein Import eines Python Moduls funktioniert immer nach dem selben Prinzip:

`` import pandas ``

oder aber als import mit Alias

`` import pandas as pd``

In [None]:
# Importieren der Pandas Bibliothek. Da wir die Bibliothek öfter benutzen und wir 
# pandas nicht immer ausschreiben wollen, geben wir der Bibliothek das Alias pd
import pandas as pd

## Einlesen einer CSV-Datei
Einlesen eines CSVs mit `pd.read_csv()`


Stellen wir uns vor, wir haben die folgende Ordnerstruktur gegeben und wir möchten in der **my_jupyter.ipynb** die Datei data.csv in einen DataFrame einlesen:
```
C<br>
|-- User<br>
    |-- Documents<br>
        |-- my_jupyter.ipynb<br>
        |-- data.csv
```

Wir können die benötigte CSV-Dateie auf zwei Arten referenzieren:


* Mit einem **absoluten** Pfad: ``"C:/User/Documents/data.csv``
* Mit einem **relativen** Pfad: ``data.csv``


Mit ``../`` bewegen wir uns in der Verzeichnisstruktur einen Ordner nach oben, dh. wir gehen aus dem Documents Ordern in den User Ordner. Mit ``../../`` landen wir dementsprechend auf dem Laufwerk C.

**Achtung:** Beachte das wir hier ``/`` - Frontslash benutzen nicht wie in Windows üblich ``\``-Backslashes

In [None]:
# anzeigen des ergebnisses ohne den Dataframe in einer Variable zu speichern
pd.read_csv('../src/beispiele/02_kunden.csv')

In [None]:
# speichern in einer variablen
df_kunden = pd.read_csv('../src/beispiele/02_kunden.csv')

In [None]:
# damit es sichtbar wird, geben lassen wir uns den wert der variable anzeigen
df_kunden = pd.read_csv('../src/beispiele/02_kunden.csv')
df_kunden

## Sich eine Übersicht verschaffen
Mit den Funktionen ``.head()``, ``.tail()`` und ``.sample()`` können wir uns exemplarisch Datensätze anzeigen lassen, ohne den gesamten DataFrame angezeigt zu bekommen.

Mit den Funktionen ``len()`` und ``.info()`` erhalten wir die Länge des DataFrames und bei ``.info()`` noch zusätzliche Informationen

In [None]:
# head gibt uns die ersten 5 Zeilen des Dataframes
df_kunden.head()

In [None]:
# tail gibt uns die letzten 5 Zeilen des Dataframes
df_kunden.tail()

In [None]:
# .sample() gibt uns 3 beliebige Datensätze zurück. 
# Diese werden bei jeder Ausführung der Zelle zufällig ausgewählt. 
df_kunden.sample(3)

In [None]:
# Wir können auch .head() und .tail() ein Zahl übergeben
df_kunden.head(2)

In [None]:
# Länge des DataFrames erhalten wir mit len()
len(df_kunden)

In [None]:
df_kunden.info()

# Spalten oder Zeilen betrachten
Möchten wir nur Spalten oder Zeilen betrachten müssen wir diese auswählen. Betrachten wir nur eine Spalte oder eine Zeile bekommen wir als Rückgabewert keinen DataFrame sondern eine sogenannte **Series**.

In [None]:
# Zur Orientierung lassen wir uns die ersten 5 Elemente des DataFrames ausgeben
df_kunden.head()

In [None]:
# Spaltennamen erfahren
df_kunden.columns

In [None]:
# Zeilennamen erfahren
df_kunden.index

In [None]:
# Spalte 'first_name' auslesen
df_kunden['first_name']

In [None]:
# Spalte 'last_name' auslesen
df_kunden['last_name']

In [None]:
# Zeile auslesen funktioniert wie das auslesen einer Spalte
df_kunden.loc[4]

# Mit Spalten arbeiten
Kommen in einer Spalte Werte öfter vor, wie in unserem Beispiel in der Spalte 'gender', dann können wir uns eine Zusammenfassung geben lassen, wie oft welcher Wert vorkommt. Dafür wählen wir die entsprechende Spalte aus und wenden auf diese die Funktion `.values_counts()`an

In [None]:
# Die Spalte Gender enthält Werte öfter
df_kunden['gender']

In [None]:
# Mit .value_counts() können wir uns eine Zusammenfassung geben lassen
df_kunden['gender'].value_counts()

# Mehrer Spalten oder Zeilen über den Namen auswählen

In [None]:
df_kunden.head()

In [None]:
# Wir wählen mehrer Spalten aus und erhalten als Ergebnis diesmal einen DataFrame
df_kunden[['first_name', 'gender']]

In [None]:
# Auch wenn wir mehrer Zeilen auswählen erhalten wir als Ergebnis einen DataFrame
df_kunden.loc[[0,2,4]]

In [None]:
# Wir können sogar beide Methoden kombinieren
df_kunden.loc[[0,2,4]]['gender']

In [None]:
df_kunden.loc[[0,2,4]][['first_name', 'gender']]

In [None]:
# Natürlich können wir uns auch das Ergebnis einer Selektion in einer neuen Variable speichern
df_select = df_kunden.loc[[0,2,4]]
df_select

In [None]:
df_select = df_kunden.loc[[0,2,4]]
df_select[['first_name', 'gender']]

# Tipps und Tricks
### Datentypen
* Übersicht aller [Datentypen](https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#basics-dtypes)

### Erweiterter Zugriff auf Spalten und Zeilen (Für Fortgeschritten)
* Für Fortgeschritten Pandas User: [Advanced Indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)