# Datenanalyse mit *Pandas* und *Matplotlib*

## Pandas
Pandas ist eine der am weiten verbreitesten Python-Biblitheken für Data Science. Pandas stellt 2 verschiedene Datentypen bereit:
* **Series**: entspricht einer Excel Spalte mit Index
<img src="series.png" alt="pands Series" width="100"/>
* **DataFrame**: 2D-Tabellenobjekt mit Spalten und Reihen (zusammengesetzt aus mehreren Series)
<img src="df.png" alt="pandas DataFrame" width="150"/>

Liegen Daten in dieser Form vor, können einfach Analysen, Datenmanipulation, Datenzusammenführung etc. damit durchgeführt werden.

Pandas liefert zudem eine `plot()` Funktion, die es ermöglicht die im DataFrame gehaltenen Daten direkt zu plotten. `plot()`  basiert auf der Python-Bibliothek *matplotlib*.

## Seaborn

Seaborn ist eine pythonbasierte Plotting-Bibliothek, die ebenfalls auf matplotlib basiert. Seaborn kann einfach mit pandas *DataFrame* Objekten umgehen.

## Jupyter notebook Grundlagen
* Ausführen einer Zelle und Sprung zur nächsten Zelle `Shift + Enter`
* Auswahl der nächsten Zelle `Esc -> Down`, Auswahl der vorigen Zelle `Esc -> Up`
* Printing
  1. Nutzung der Python-`print()` Funktion
  2. Formatierte Ausgabe: Aufrufen einer Variablen in der letzten Zeile einer Zelle (ohne `print()`)

# Übungsaufgaben

## Dataset: Titanic

Verfügbar unter: https://www.kaggle.com/c/titanic/data. Arbeitsgrundlage für die Übungsaufgaben: **train.csv**.

### Erläuterung des Datensatzes
Der Datensatz enthält Passagierdaten des Kreuzfahrtschiffes Titanic, das am 15. April 1912 gesunken ist. Für jeden Passagier sind verschiedene Merkmale verfügbar:

| Merkmal | Erklärung|
| --------| ---------|
|survival | Hat der Passagier den Untergang überlebt? (0 = Nein, 1 = Ja) |
|pclass   | Ticket-/Passagierklasse (1= 1. Klasse, 2= 2. Klasse, 3 = 3. Klasse)|
|sex      | Geschlecht |
|age      | Alter in Jahren |
|sibsp    | Anzahl von Geschwistern/Ehepartnern  an Bord der Titanic |
|parch    | Anzahl von Eltern/Kindern an Bord der Titanic |
|ticket   | Ticket Nummer |
|fare     | Fahrpreis |
|cabin    | Kabinennummer |
|embarked | Einschiffungshafen (C = Cherbourg, Q = Queenstown, S = Southhampton)| 

In [None]:
# Load pandas
import pandas as pd

# Plotting library
import seaborn as sns
import matplotlib.pyplot as plt

# render plots in jupyter notebook
%matplotlib inline

## 2. CSV-Datei einlesen

Lade die Datei "titanic-train.csv" und weise sie der Variablen `df` zu. Setze hierbei die *PassengerId* als DataFrame-Index.

**Tipp:** um zu kontrollieren, ob das Einlesen richtig funktioniert hat kannst du dir den Kopf des DataFrames anzeigen lassen.

## 3. Infos anzeigen

Erste Analyse des `df` DataFrames. Lasse dir Folgendes ausgeben:

#### 1. die Dimensionen des DataFrames

#### 2. die ersten 8 Zeilen des DataFrames anzeigen

#### 3. alle Spaltennamen des DataFrames ausgeben

#### 4. eine statistische Zusammenfassung des DataFrames anzeigen

## 4. Indexing & Sorting

#### 1. Selektiere die Spalten *Fare* und *Age* und gib den Head der Selektion aus

#### 2. Selektiere die letzten 4 Reihen

#### 3. Selektiere die Namen und Ticket Nummern für die Reihen 100-105

#### 4. Selektiere die Reihen [10,20,30,40,50,60,70,80,90,100] und sortiere sie absteigend nach dem Alter

### 4.1 Bedingte Selektion

#### 1. Wie viele Passagiere reisen in Passagierklasse 1?

#### 2. Welche Passagiere haben Geschwister (SibSp) und sind älter als 60 Jahre?

## 5. Verschiedenes

#### 1. Lasse dir eine Auflistung der Anzahlen von eindeutigen Werten der Spalte *Embarked* ausgeben

#### 2. Binary Encoding
1. Ersetze die String-Werte der Spalte 'Sex' durch Integer Werte (0 = female,1 =male).
2. Benenne die Spalte in `Male` um.

## 6. Missing values

1. Enthält der DataFrame missing values?

In [None]:
df.isnull().any()

#### 2. Wie viele NaN Werte enthält der DataFrame in jeder einzelnen Spalte?

#### 3. Entferne die Spalte mit den meisten NaN Werten aus dem DataFrame

#### Entferne diejenigen Reihen, die NaN Werte in der Spalte *Embarked* enthalten

#### 5. Ersetze die NaN Werte der Spalte *Alter* mit dem durchschnittlichen Alter

## Plots (Data Anlaysis)
### Seaborn

#### 1. Erstelle einen pairplot für die Spalten: [Pclass, Fare, Male, Parch, SibSp, Age]

Fragestellungen:
* Welche Zusammenhänge zwischen dem Überleben des Untergangs der Titanic und den einzelnen Features lassen sich ablesen?
* Welche Zusammenhänge zwischen den Features lassen sich ablesen?

#### 2. Erstelle ein Diagramm über die Klassenverteilung (Gegenüberstellung der Anzahl an Einträgen in den beiden Klassen)

#### ZUSATZAUFGABE
#### 3. Erstelle einen Violinenplot mit folgenden Eigenschaften:
* X-Achse: "Pclass", Y-Achse: "Age", Farbtonvariable (engl. "hue"): "Survived", split=True

Was lässt sich daran ableiten?

# Quiz

### 1. Wie hieß der jüngste Passagier der Titanic und wie alt war er?

### 2. Unter welcher Passagierklasse und Ticketnummer ist Familie *Goodwin* gereist?

### 3. Überleben männlicher Passagiere:
#### Haben mehr männliche Passagiere der Passagierklasse 1 oder der Passagierklasse 3 den Untergang überlebt?

#### Plotte die Anzahl der männlichen Überlebenden für den Passagierklassen 1, 2 und 3.

Tipp: Nutze hierfür ein pandas Bar-Diagramm oder Seaborn Countplots

### 4. Subplots
Erstelle einen Plot mit 2 Subplots (1 Reihe, 2 Spalten).

Die beiden Plots sollen die Anzahl der 
* a) Passagiere in den 3 Passagierklassen,
* b) der männlichen Passagiere,

getrennt nach Überleben/nicht-Überleben darstellen.

# Principle Component Analysis

Entferne zunächst die Features `Name` und `Ticket` aus dem Dataframe. Das Feature `Embarked` enthält noch Strings, die für unsere weitere Analyse nicht verarbeiten können. Wende hier die One-Hot-Encoding Methode an. Tipp: Pandas besitzt dafür die `get_dummies()`-Methode.

Lass dir nun die Korrelationsmatrix des Datensatzes ausgeben und plotten. Welche Zusammenhänge sind erkennbar?

Wir wollen jetzt die PCA-Methode (Principal Component Analysis) verwenden, um die Dimension des Datensatzes zu reduzieren. In der nächsten Zelle werden daher die notwendigen Pakete importiert und das Dataframe vorverarbeitet. Führe die Zelle aus. Die Datenpunkte sind danach in der Variable `arr` gespeichert.

In [None]:
from sklearn.decomposition import PCA
from sklearn import preprocessing

X = df.to_numpy()

arr = preprocessing.normalize(preprocessing.scale(X))

Initialisiere jetzt eine Instanz der `PCA`-Klasse mit **2** Komponenten und fitte diese mit ihrer eingebauten Methode auf den Datensatz. Transformiere den gleichen Datensatz danach. Überprüfe die Dimension des neuen Datensatzes mit `.shape`.

Weise nun deinen transformierten Datensatz der Variable `data` zu und führe die Zelle aus. Was wird hier geplottet? Wieso sind die Ausprägungen der einzelnen Features in Clustern zu sehen?

In [None]:
data = # füge hier deinen transformierten Datensatz ein

feat_list = list(df.columns)

for feat in feat_list:
    plt.title(feat)
    plt.scatter(data[:,0], data[:,1], edgecolors='face', c=df[feat].values)
    plt.show()