## Einführung in Pandas

In [None]:
import pandas as pd

## Einlesen von Daten

- Viele unterschiedliche Dateiformate einlesbar mit Pandas (pd.read_*)
- Mit pd.to_* können Dateien mit unterschiedlichen Dateformaten gespeichert werden

![Entnommen von Pandas Webseite](images/pandas_read_write.png)


In [None]:
df = pd.read_csv('./dataset/titanic.csv')

Aufpassen mit unterschiedlichen Seperatoren:

In [None]:
df = pd.read_csv('./dataset/diff_titanic.csv')

In [None]:
# Anpassung des Seperators durch delimiter=""
df = pd.read_csv('./dataset/diff_titanic.csv', sep=';')

## DataFrame und Series

### DataFrame

Ein DataFrame ist 2 dimensional und besteht aus Spalten, Reihen, sowie einem Index:

<div>
<img src="./images/dataframe_structure.png" width="400"/>
</div>

In [None]:
# Anzahl an Reihen und Spalten des DataFrames:
df.shape

In [None]:
# Anzeigen aller Spaltennamen
df.columns

In [None]:
# Anzeigen des Index
df.index

Auswahl von Reihen und Columns entweder mit *iloc* oder *loc*:
- iloc für integer indexing
- loc für label indexing

#### Auswahl von Spalten

Auswahl bestimmter Spalten mit loc:

In [None]:
# Alternative: df[['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex']]
column_names = ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex']
df.loc[:,column_names]

Auswahl bestimmter Spalten mit iloc:

In [None]:
# Alternative mit Range: df.iloc[:,1:4]
df.iloc[:,3]

#### Auswahl von Reihen

Auswahl bestimmter Reihen mit loc:

In [None]:
# Alternative mit Range: df.loc[1:5]
df.loc[[1,2,3,4]]

Auswahl bestimmter Reihen mit iloc:

In [None]:
# Alternative mit Range:
df.iloc[1:5]

<b>Aufgabe 1:</b> <br>
Lesen Sie das csv File (kann auf Moodle gefunden werden) als DataFrame ein und selektieren Sie die Spalten Age, Cabin und Survived, sowie die Reihen mit einem Index Wert von 10 bis einschließlich 15.

In [None]:
# Lösung:
df = pd.read_csv('./dataset/titanic.csv')
df.loc[10:15, ['Age', 'Cabin', 'Survived']]

#### Auswahl von Reihen basierend auf Konditionen 

- Es können Reihen basierend auf unterschiedliche Konditionen ausgewählt werden
- Mehrere Konditionen können mit den Operatoren & (und), sowie | (oder verknüpft werden). ~ steht für Not.
- Es ist zu beachten, dass bei mehreren Konditionen die jeweiligen Konditionen in einer Klammer stehen müssen
- Gängige Fallunterscheidungen von Python möglich mit unterschiedlicher Syntax in bestimmten Fällen.
- Erstellt neues DataFrame!

In [None]:
# Selektiere alle Personen, die älter als 70 sind
df.loc[
    (df['Age'] > 70) & (df['Sex'] == 'female')
]

In [None]:
# Selektiere Männer die älter als 70 sind oder alle Frauen
df.loc[
    ((df['Sex'] == 'male') & (df['Age'] > 70)) |
    (df['Sex'] == 'female')
]

In [None]:
# Selektiere alle Personen deren Ticket ID nicht folgenden sind: 347082, CA. 2343, 1601 und 3101295
df.loc[
    ~df['Ticket'].isin(['347082', 'CA. 2343', '1601', '3101295'])
]

<b>Aufgabe 2:</b><br> 
Selektiere alle Männer, die älter als 50 sind, nicht überlebt haben (Nicht Survived = 0) und deren Name "Patrick" enthält.

In [None]:
# Lösung:
df.loc[
    (df['Sex'] == 'male') & 
    (df['Age'] > 50) &
    (df['Survived'] == 0) & 
    (df['Name'].str.contains('Patrick'))
]

### Series

- Eine Pandas Series ist 1 dimensional und besteht aus einer Sequenz von Werten (ähnlich zu einer Liste)
- Datenstruktur einer DataFrame Spalte

In [None]:
# Anzeigen einer Series mit Informationen, wie Name, Length und Data Type
df['Age']

In [None]:
# Series zu Python Liste:
df['Age'].to_list()

## Daten Analyse

In [None]:
# Anzeigen der ersten 5 Reihen
# Anzeigen der letzten 5 Reihen mit df.tail()
df.head(5)

In [None]:
# Anzeigen von zufälligen Reihen
df.sample()

Mithilfe von .info() können wir generelle Informationen über das DataFrame erhalten, welche zu Beginn einer Analyse wichtig sind:
- Index
- Anzahl an Spalten
- Spalten Index, Name, Datentype und Anzahl an Non-Null Werten 
- Memory Usage

In [None]:
# Information über das DataFrame
# Object Dtype ist String oder vermischte Datentypen in einer Spalte
df.info()

- Die Funktion .describe() berechnet deskriptive Statistiken, wie Durchschnitt, Standardabweichung, Minimum, Maxium pro Spalte. 
- Achtung: Per Default werden lediglich numerische Variablen berücksichtigt, kann aber mit include="all" geändert werden.

In [None]:
df.describe()

Statistiken können auch für einzelne Spalten berechnet werden:

In [None]:
print('Durchschnittsalter =', round(df['Age'].mean(),2))
print('Max Alter =', df['Age'].max())
print('Min Alter =', df['Age'].min())

In [None]:
# Anzeigen der Anzahl an unique Werten einer Spalte:
df["Sex"].value_counts()

## Cleaning & Manipulation

#### Duplikate
Mithilfe von drop_duplicates können wir Duplikate entfernen:

In [None]:
print(df.shape)
df = df.drop_duplicates()
print(df.shape) # Erfolgskontrolle

### Leere Datenpunkte

<b>Aufgabe 3:</b></br> 
Unser DataFrame hat 177 Null Werte in der Spalte "Age". Zeigen Sie alle Datenpunkte die keinen "Age" Wert haben.

In [None]:
# Lösung: 
df.loc[
    df['Age'].isna()
]

In [None]:
# Entfernt alle Reihen die mindestens einen Null Wert haben
df.dropna()

In [None]:
# Entfernt alle Reihen die ausschließlich Null Werte haben
df.dropna(how='all')

In [None]:
# Entfernt alle Reihen die Null Werte in den angegebenen Spalten haben
# Beispiel equivalent zu df.loc[df['Age'].notna()]
df.dropna(subset=['Age'])

Wir wollen nicht alle Reihen verlieren, die kein Alter haben, deshalb füllen wir die Nan Werte mit dem Median des Alters auf.

In [None]:
# Verwendung der fillna Funktion
age_median = df['Age'].median()
df["Age"] = df["Age"].fillna(age_median)

In [None]:
df["Age"].isna().sum()

#### Falsche Datentypen
Wollen wir beispielsweise eine Spalte mit Integers in String umwandeln, haben wir folgende Möglichkeit:

In [None]:
df['Survived'] = df['Survived'].astype(str)

Das Anpassen und Ändern von Datentypen kommt vor allem häufig bei Spalten mit Datum vor.

#### Ändern von Werten
- In vielen Datensätzen kann es vorkommen, dass fehlerhafte Werte enthalten sind.
- Betrachtet man die "Age" Spalte, so fällt auf, dass mehrere unrealistische Werte auftauchen
- In der kommenden Vorlesung lernen wir, wie solche Werte durch Visualisierungen gefunden und veranschaulicht werden können

Mit Pandas können mehrere Werte basierend auf Konditionen ersetzt werden. Wir ersetzen alle unrealistischen Werte (Alter > 100 und Alter < 0) mit dem Median Alter.

In [None]:
age_median = df.loc[(df['Age'] < 100) & (df['Age'] > 0)]['Age'].median()

In [None]:
df.loc[(df["Age"] > 100) | (df["Age"] < 0), "Age"] = age_median

In [None]:
df['Age'].describe()