# Python Tutorial

## Kurzhinweise
Sie können eine Zelle ausführen, indem Sie in die Zelle klicken und dann "Shift + Enter" drücken.

Bitte führen Sie die Zellen nacheinander aus, da einige Zellen auf den Input vorheriger Zellen angewiesen sind. Falls Sie "mitten im Notebook" anfangen werden Sie das aber ggf. merken, wenn Sie eine Fehlermeldung erhalten.

Die nächste Zelle bitte ausführen aber **nicht** verändern. Sie sorgt für das Layout des Notebooks.

In [None]:
from IPython.core.display import HTML

def _set_css_style(css_file_path):
   """
   Read the custom CSS file and load it into Jupyter.
   Pass the file path to the CSS file.
   """

   styles = open(css_file_path, "r").read()
   s = '<style>%s</style>' % styles     
   return HTML(s)

_set_css_style('assets/styles.css')

# Agenda
1) <a href=#bookmark5>Pandas</a><br></br>
2) <a href=#bookmark6>Exercise</a><br></br>


## Pandas <a name='bookmark5' />

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
<b>pandas</b> ist eine open-source Programmbibliothek für Python. Sie verfügt über Funktionen zum Analysieren, Bereinigen, Erkunden, Manipulieren und Darstellen von Daten. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen. Der Name leitet sich von dem englischen Begriff <b>panel data</b> (Paneldaten) ab. Die wichtigste Datenstruktur ist das <b>DataFrame</b>.
</div>
<div class="fancy-box__img"></div>
</div>

In [1]:
import pandas as pd


<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Das DataFrame ist sehr umfangreich und in seiner gesamten Darstellung geradezu erschlagend. Um einen Überblick über ein DataFrame zu verschaffen, gibt es verschiedene Methoden. Für einen ersten Überblick sind v. a. die Methoden <code>head()</code>, <code>info()</code>, <code>describe()</code> nützlich.
</div>
<div class="fancy-box__img"></div>
</div>

### DataFrames Filtern

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Es kann mittels der Syntax <i>df_name</i>[<i>'Spaltenname'</i>] auf eine Spalte in einem Dataframe zugegriffen werden. Mittels der <code>loc</code> und <code>iloc</code> Methoden kann auf eine Zeile/Zeilen zugegriffen werden (Syntax: <i>df_name</i>.iloc['Zeilennummer']. Probieren Sie es aus. Was ist der Unterschied zwischen <code>loc</code> und <code>iloc</code>?
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
<code>loc</code> berücksichtigt Zeilen auf der Grundlage von Indexbezeichnungen. <code>iloc</code> hingegen berücksichtigt Zeilen auf der Grundlage der Position im Index und nimmt daher nur Ganzzahlen.</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Oft soll ein DataFrame nicht nur nach Spalte oder Zeile sondern auch nach dessen Inhalt gefiltert. Hierfür benötigt man die booleschen Operatoren und ggf. die <code>loc</code> Methode.<br>
Im Folgenden wird das DataFrame nach bestimmten Kriterien gefiltert. 
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Btw: mit der <code>sort_values[<i>'Spaltenname'</i>]</code> Methoden, kann ein DataFrame nach einer bestimmten Spalte sortiert werden.
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Filtern Sie das DataFrame <code>df</code> nach Ländern, die weniger als 5 Liter Wein konsumieren aber mehr als 5 Liter reinen Alkohol. Geben Sie nur die Spalten country und continent aus.
</div>
<div class="fancy-box__img"></div>
</div>

### Groupby

<div class="fancy-box python">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Berechnen Sie von jedem Kontinent die durchschnittliche Menge an konsumiertem Bier. Nutzen Sie hierfür die Funktion <code>mean()</code>.<br>
<i>Hinweis: in den eingelesenen Daten kommen 'Africa', 'Asia', 'Europe', 'North America', 'Oceania', 'South America' als Kontinente vor</i>.

</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
Um Daten auf der Ebene von Kategorien zu analysieren, ist <b>groupby</b> die geeignete Methode. Mit groupby ist ein Prozess gemeint, der einen oder mehrere der folgenden Schritte umfasst:</br>
- <b>Split</b> teilt die Daten in Gruppen nach bestimmten Kriterien auf</br>
- <b>Apply</b> wendet eine Funktion unabhängig auf jede Gruppe an</br>
- <b>Combine</b> kombiniert die Ergebnisse in einer Datenstruktur
</div>
<div class="fancy-box__img"></div>
</div>

<div class="fancy-box definition">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
mean() ist nur eine von vielen Aggregationsfunktionen. Weitere sind min(), max(), sum(), count() und viele mehr. Um mehrere dieser Funktionen auf einmal anzuwenden, kann man die Methode agg() nutzen.
</div>
<div class="fancy-box__img"></div>
</div>

# Exercise <a name='bookmark6' />

1. Lesen Sie das Titanic Datenset ein (Pfad: 'input/titanic.csv') und speichern Sie es in einem DataFrame mit Namen df

2. Löschen Sie die Spalte 'PassengerId' aus dem DataFrame mit der Methode drop(columns = *Spaltenname*, inplace = True)

__Description of columns:__
- *Survived*: Boolean (0 = not survived, 1 = survived). This is our __target__
- *Pclass*: Travel class (1 = 1st; 2 = 2nd; 3 = 3rd)
- Name: Title, given name and surname
- Sex: male or female
- Age: Age of passenger
- SibSp: Number of siblings and/or spouses aboard
- Parch: Number of parents or children aboard
- Ticket: Ticket number.
- Fare: Ticket price.
- Cabin: Cabin in which passenger lived during the stay on the Titanic
- Embarked: Where did the passengers go aboard (C = Cherbourg; Q = Queenstown; S = Southampton)

3. Verschaffen Sie sich einen Überblick über das DataFrame

<div class="fancy-box question">
<div class="fancy-box__img"></div>
<div class="fancy-box__text">
    
Beantworten Sie folgende Fragen:<br>
    1) Wie groß ist das Dataframe?<br>
    2) Filtern Sie das Dataframe auf weibliche Personen!<br>
    3) Filtern Sie das Dataframe auf weibliche Personen, die älter sind als 35 Jahre!<br>
    4) Geben Sie die Namen und PClass der weiblichen Personen aus, die älter als 35 Jahre sind oder überlebt haben!<br>
    5) Filtern Sie das Dataframe auf Personen, die älter sind als das mittlere Alter der Passagiere an Bord!<br>
    6) Welche weibliche Person ist mit 5 SibSp an Bord?<br>
    7) Wie viel Prozent der weiblichen und wie Prozent der männliche Personen haben überlebt?<br>
    8) Wie viele weibliche und wie viele männliche Personen haben in den jeweiligen Passagierklassen überlebt?<br>
    9) Wie viele weiblichen Personen gibt es pro PClass, die älter als 35 Jahre sind oder überlebt haben! (Nutzen Sie das Ergebnis aus 4))<br>
</div>
<div class="fancy-box__img"></div>
</div>

In [None]:
#1



In [None]:
#2


In [None]:
#3


In [None]:
#4


In [None]:
#5


In [None]:
#5


In [None]:
#6


In [None]:
#7


In [None]:
#8


In [None]:
#9
