# Wissenschaftliches Programmieren in Python

## Wichtige Packages
* Im Gegensatz zu R, wurde Python nicht als Statistiksprache konzipiert.

* In R oder Matlab sind viele unterschiedliche Funktionen enthalten.

* In Python müssen wir diese explizit importieren

Was benötigen wir für Datenanalyse?

* **Numpy / Scipy** : Numerisches Rechnen 
    * Matrix Operationen
    * Numerische Approximationen
    * Effizientere Speicher- und Datenoperationen als Base-Python
    * SciPy beinhaltet zusätzliche statistische Funktionalitäten
    
    
* **Pandas**: Datentransformation
    * Implementiert DataFrames auf NumPy
    * DataFrames erlauben es uns Daten zu labeln, gruppieren und summieren und ebenso mit fehlenden Werten zu arbeiten
    * Es ist das Hauptwerkzeug für Datentransformation
    
    
* **Matplotlib/Seaborn**: Datenvisualisierung
    * Matplotlib ist die meistgenutzte library in Python, um Plots zu erstellen.
    * Seaborn basiert auf Matplotlib, ist aber einfacher in der Anwendung, und erstellt besser aussehende Graphiken.


* **statsmodels / scikit-learn**: Datenmodellierung
    * Wird für statistische Modelle / machine Learning verwendet


* In diesem Abschnitt stellen wir euch vor, wie man mit arrays in NumPy arbeitet, um ein grundlegendes Verständnis davon zu erhalten, was hinter den Kulissen bei der Verwendung von Pandas passiert.

* Dann zeigen wir, wie Daten mit Pandas bearbeitet werden können.

# Numpy

## Unterschiede zwischen NumPy und SciPy

* Wir besprechen die Unterschiede zwischen NumPy und SciPy nicht im Detail.

* SciPy und NumPy haben eine sehr **ähnliche Funktionalität**

* NumPy bietet die Infrastruktur, um schnelle statistische Berechnungen durchführen zu können.

* SciPy hingegen beinhaltet mehr umfangreiche statistische Funktionalität wie Tests

* Wenn eine Funktion mit demselben Namen in **NumPy** und **SciPy** enthalten ist, liegt dies an **Kompatibilitätsproblemen**. Lasst Euch davon nicht verwirren. 

## Wann wird NumPy und wann SciPy verwendet?

* **Numpy** wird hauptsächlich im Umgang mit Vektoren und Matrizen verwendet

* **SciPy** wird eher für umfangreichere Funktionen verwendet (Statistik, Linear Algebra, Approximationen, ...)

## Importing Numpy

* Das Standardalias für `numpy` ist `np`

In [56]:
## Wie wird Numpy importiert?

import numpy as np # Jedoch muss es vorher über die (Windows-) Shell installiert werden

## Erstellen eines Arrays

### Matrizen und Vektoren

* Wir verwenden normalerweise Vektoren und Matrizen, um mit multiplen Werten umzugehen

* Vektoren sind Listen von Werten

* Wenn wir Matrizen verwenden, beschränken wir uns auf zwei Dimensionen.

### Matrizen und Vektoren in Python

* Wir müssen eine Möglichkeit finden, wie Matrizen und Vektoren in Python repräsentiert werden können.

* Python lists sind sehr vielseitig, aber sie neigen dazu langsam im Umgang mit großen Datenmengen zu sein

* Ein **Array** ist eine geeignetere Liste von Werten, insbesondere bei großen Datenmengen

In [57]:
# Erstelle einen array indem eine Liste oder eine Liste von Listen übergeben wird

a = np.array([20, 12, 30, 40])
a

array([20, 12, 30, 40])

* **Good Practice Anmerkung**: Vermeidet in echten Projekten den Gebrauch von Variablennamen, die nur aus einem Buchstaben bestehen

* In diesen kurzen Lehrbeispielen werden sie verwendet, da wir den Code nicht mit langen Variablennamen überladen wollen

* Dennoch, achtet darauf euren Variablen sinnvolle Namen zu geben!

* Wir werden im nächsten Kapitel Beispiele sehen, wie Variablen benannt werden sollten

## Allgemeine Eigenschaften eines Arrays

In [58]:
# Zeige die Form des Arrays
# Hier: 4 Zeilen, 1 Spalte

a.shape

(4,)

In [59]:
# Zeige die Anzahl an Dimensionen des Objekts
# Wir haben einen Vektor, deswegen haben wir nur eine Dimension

a.ndim

1

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Verwendet `size`, um die Gesamtzahl der Elemente des Arrays zu erfahren </div>

In [60]:
# Zeige den Datentyp der Objekte im Array
# Bei Arrays muss der Datentyp ein numerischer Wert sein
a.dtype

dtype('int32')

In [61]:
# Erinnerung: type() zeigt uns die Klasse des Objekts, aber nicht die Klasse des Inhalts des Objekts
type(a)

numpy.ndarray

# Umformen des Arrays und erneutes Prüfen der Eigenschaften

In [62]:
# Wir transformieren den eindimensionalen Array in eine 2D-Matrix
a1 = a.reshape(2, 2)

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Prüfe die Form, Dimension, size und die Klasse erneut
</div>

## Nützliche Funktionen

In [63]:
np.zeros(4) # Gibt ein neues Array der angegebenen Form und des angegebenen Typs zurück, gefüllt mit Nullen.

array([0., 0., 0., 0.])

In [64]:
np.ones(3) # Gibt ein neues Array der angegebenen Form und des angegebenen Typs zurück, gefüllt mit Einsen.

array([1., 1., 1.])

In Python beginnt die Nummerierung bei 0 und die letzte Zahl ist somit nicht in der Range enthalten.

&rarr; Große potentielle Fehlerquelle!

In [65]:
np.arange(5) # Gibt gleichmäßig verteilte Werte innerhalb eines bestimmten Intervalls zurück.

array([0, 1, 2, 3, 4])

Es ist auch möglich eine Untergrenze der Range anzugeben, wenn zwei Argumente dem Befehl übergeben werden

In [66]:
np.arange(2, 5)

array([2, 3, 4])

In [67]:
# Das dritte Argument von arange ist die Schrittgröße der Range (von 1 bis 20 in 2)
np.arange(1, 20, 2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Erstellt eine Range, die bei 2 startet und in einer Schritten die Zahlen bis 40 ausgibt. </div>

## Grundlegende Operationen

* Die meisten Operationen werden elementweise durchgeführt: +, -, *, /

* Matrixmultiplikation wird durch @ angegeben

In [68]:
A = np.array( [[1, 1],
             [0, 1]] )

B = np.array( [[2, 0],
             [3, 4]] )

In [69]:
A

array([[1, 1],
       [0, 1]])

In [70]:
B

array([[2, 0],
       [3, 4]])

In [71]:
# Elementweise Multiplikation

A * B

array([[2, 0],
       [0, 4]])

In [72]:
# Matrixmultiplikation

A @ B

array([[5, 4],
       [3, 4]])

* Manche gebräuchlichen mathematische Operationen sind in NumPy enthalten.

In [73]:
# Die Liste wird automatisch in einen ndarray konvertiert

np.log([1, 2, 3])

array([0.        , 0.69314718, 1.09861229])

Es wird nicht in alles bzgl. NumPy eingeführt, jedoch ist es mehr als nützlich die Grundfunktionen zu kennen.

# Pandas

* Pandas stellt das Grundwerkzeug für Datenanalyse und Datentransformation zur Verfügung

* Datenbereinigung braucht meist einiges an Zeit, die man in ein Projekt investiert, es lohnt sich also Pandas gründlich zu lernen

* Pandas wird meistens mit dem Alias `pd` importiert

In [74]:
import pandas as pd

## Daten importieren und einen ersten Überblick erhalten

* Vor jeder Analyse, sollte man sich mit den Variablen und deren Eigenschaften vertraut machen

* Man sollte einen generellen Überblick bekommen

* Wir werden einen Datensatz über 'Harry Potter' Charaktere und einen über Bike Sharing des UCI Machine Learning Repository verwenden(Quelle: https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)

* Die Datensätze haben ein CSV-Format (Comma-Separated values)

* In dem [Pandas User Guide](#https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html) gibt es einen kompletten Überblick über die unterstützen Formate(JSON, Excel, Stata, SAS, etc.)




In [75]:
# Verwende read_csv um den Datensatz zu importieren
# In diesem Fall sind die Werte durch ein Semikolon (",") getrennt
# Wir verwenden jetzt sinnvolle Namen

hp_characters = pd.read_csv("data/NB2/shortversioncharacters.csv",
                            sep = ",")

* Schauen wir uns die ersten Elemente der Daten mit dem Befehl `head` an.

In [76]:
hp_characters.head()

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image
0,Harry Potter,human,male,Gryffindor,31-07-1980,1980.0,half-blood,green,black,"{'wood': 'holly', 'core': 'phoenix feather', '...",stag,True,False,Daniel Radcliffe,True,http://hp-api.herokuapp.com/images/harry.jpg
1,Hermione Granger,human,female,Gryffindor,19-09-1979,1979.0,muggleborn,brown,brown,"{'wood': 'vine', 'core': 'dragon heartstring',...",otter,True,False,Emma Watson,True,http://hp-api.herokuapp.com/images/hermione.jpeg
2,Ron Weasley,human,male,Gryffindor,01-03-1980,1980.0,pure-blood,blue,red,"{'wood': 'willow', 'core': 'unicorn tail-hair'...",Jack Russell terrier,True,False,Rupert Grint,True,http://hp-api.herokuapp.com/images/ron.jpg
3,Draco Malfoy,human,male,Slytherin,05-06-1980,1980.0,pure-blood,grey,blonde,"{'wood': 'hawthorn', 'core': 'unicorn tail-hai...",,True,False,Tom Felton,True,http://hp-api.herokuapp.com/images/draco.jpg
4,Minerva McGonagall,human,female,Gryffindor,04-10-1925,1925.0,,,black,"{'wood': '', 'core': '', 'length': ''}",tabby cat,False,True,Dame Maggie Smith,True,http://hp-api.herokuapp.com/images/mcgonagall.jpg


* Wir können auch eine zufällige Auswahl an Elementen aus dem Dataframe ziehen, dafür verwenden wir den Befehl `sample` 

In [77]:
hp_characters.sample(5)

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image
13,Remus Lupin,werewolf,male,Gryffindor,10-03-1960,1960.0,half-blood,green,brown,"{'wood': 'cypress', 'core': 'unicorn tail-hair...",wolf,False,True,David Thewlis,False,http://hp-api.herokuapp.com/images/lupin.jpg
6,Cho Chang,human,female,Ravenclaw,,,,brown,black,"{'wood': '', 'core': '', 'length': ''}",swan,True,False,Katie Leung,True,http://hp-api.herokuapp.com/images/cho.jpg
21,Vincent Crabbe,human,male,Slytherin,,,pure-blood,black,black,"{'wood': '', 'core': '', 'length': ''}",,True,False,Jamie Waylett,False,http://hp-api.herokuapp.com/images/crabbe.jpg
12,Sirius Black,human,male,Gryffindor,03-11-1959,1959.0,pure-blood,grey,black,"{'wood': '', 'core': '', 'length': ''}",hare,False,False,Gary Oldman,False,http://hp-api.herokuapp.com/images/sirius.JPG
17,Horace Slughorn,human,male,Slytherin,,,pure-blood,green,blonde,"{'wood': 'cedar', 'core': 'dragon heartstring'...",,False,True,Jim Broadbent,True,http://hp-api.herokuapp.com/images/slughorn.JPG


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Zeigt die Dimensionen des Dataframes mit `shape` </div>

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Lasst euch eine deskriptive Zusammenfassung des Dataframes mit `describe` ausgeben, was fällt euch auf? </div>

## Auswählen und Indizieren von Daten

* Manchmal möchte man nicht mit dem ganzen Datensatz arbeiten, sondern nur mit einem Teildatensatz
* Deshalb ist es wichtig zu wissen, wie Variablen und Elemente eines Datensatzes ausgewählt werden können

Es gibt drei Möglichkeiten wie man mit Pandas auf Variablen zugreifen kann:
* Einfaches Indizieren mit [ ]
* Indizieren mit Label: loc
* Indizieren per Position: iloc

Um den Output kleiner zu halten wird hier manchmal mit der head-Funktion gearbeitet.

### Einfaches Indizieren 

* Für Dataframes werden hierbei alle Observationen einer Spalte ausgewählt
* Diese Variable wird hauptsächlich verwendet, wenn ein kurzer Blick über die Daten ausreicht, oder wenn Variablen verändert oder neu zugewiesen werden.

#### Eine Variable
* Gibt einen niedriger dimensionalen Typ zurück (gibt eine Serie von einem Dataframe zurück)
* Man kann die unterschiedlichen Datentypen anhand der Formatierung des Outputs in Jupyter erkennen.

In [78]:
# Die Auswahl einer einzelnen Spalte gibt eine Serie zurück
hp_characters["name"].head()

0          Harry Potter
1      Hermione Granger
2           Ron Weasley
3          Draco Malfoy
4    Minerva McGonagall
Name: name, dtype: object

In [79]:
# Alternative Notation
# Dies funktioniert nicht wenn der Variablenname Leerzeichen enthält!

hp_characters.name.head()

0          Harry Potter
1      Hermione Granger
2           Ron Weasley
3          Draco Malfoy
4    Minerva McGonagall
Name: name, dtype: object

In [80]:
# Überprüfen, dass die ausgewählte Spalte eine Serie ist, auch wenn hp_characters ein Dataframe ist.
f"hp_characters ist ein {type(hp_characters)}, aber mit einfachem Indizieren mit einer Variable wird es ein {type(hp_characters.name)}"

"hp_characters ist ein <class 'pandas.core.frame.DataFrame'>, aber mit einfachem Indizieren mit einer Variable wird es ein <class 'pandas.core.series.Series'>"

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Convertiert den Sting so, dass das Zeichenlimit nicht überschritten wird.</div>

#### Multiple Werte

* Um multiple Werte auszuwählen muss man eine Liste an Werten übergeben
* Der zurückgegebene Datentyp ist ein Pandas Dataframe

In [81]:
# Werden mehrere Spalten ausgewählt, wird uns ein Dataframe zurückgegeben
hp_characters[["name", "house"]].head()

Unnamed: 0,name,house
0,Harry Potter,Gryffindor
1,Hermione Granger,Gryffindor
2,Ron Weasley,Gryffindor
3,Draco Malfoy,Slytherin
4,Minerva McGonagall,Gryffindor


In [82]:
type(hp_characters[["name", "house"]])

pandas.core.frame.DataFrame

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Indiziert die Spalten 'patronus' und 'wand' </div>

### Indizieren mit Label: loc

* Es ist Label basiert
* Sowohl die Zeilen- als auch die Spaltenauswahl müssen angegeben werden
* Die Notation ist die gleiche wie die Standard Python slicing Notation
* Gültige Inputs sind:
    * ein einzelnes Label (Zahlen werden auch als Labels behandelt!)
    * eine Liste an Labels
    * ein Auszug an Labels (Sowohl der Startwert als auch der Stopwert werden mit berücksichtigt, anders als übliche Python slices)
* Wenn nur eine Zeile oder nur eine Spalte ausgewählt wird, ist der daraus resultierende Typ eine Serie

In [83]:
# Äquivalent zu hp_characters["name"]
# Dies gibt eine Pandas Serie zurück
hp_characters.loc[:, "name"]

0             Harry Potter
1         Hermione Granger
2              Ron Weasley
3             Draco Malfoy
4       Minerva McGonagall
5           Cedric Diggory
6                Cho Chang
7            Severus Snape
8            Rubeus Hagrid
9       Neville Longbottom
10           Luna Lovegood
11           Ginny Weasley
12            Sirius Black
13             Remus Lupin
14          Arthur Weasley
15     Bellatrix Lestrange
16          Lord Voldemort
17         Horace Slughorn
18    Kingsley Shacklebolt
19        Dolores Umbridge
20           Lucius Malfoy
21          Vincent Crabbe
22           Gregory Goyle
23              Mrs Norris
24             Argus Filch
Name: name, dtype: object

In [84]:
# Zwei Variablen auswählen
hp_characters.loc[:, ["name", "house"]]

Unnamed: 0,name,house
0,Harry Potter,Gryffindor
1,Hermione Granger,Gryffindor
2,Ron Weasley,Gryffindor
3,Draco Malfoy,Slytherin
4,Minerva McGonagall,Gryffindor
5,Cedric Diggory,Hufflepuff
6,Cho Chang,Ravenclaw
7,Severus Snape,Slytherin
8,Rubeus Hagrid,Gryffindor
9,Neville Longbottom,Gryffindor


In [85]:
# Mit basic-Indizieren ist es nicht möglich nur eine Zeile auszuwählen!
# Der zurückgegebene Typ ist eine Serie
hp_characters.loc[0, :]

name                                                    Harry Potter
species                                                        human
gender                                                          male
house                                                     Gryffindor
dateOfBirth                                               31-07-1980
yearOfBirth                                                   1980.0
ancestry                                                  half-blood
eyeColour                                                      green
hairColour                                                     black
wand               {'wood': 'holly', 'core': 'phoenix feather', '...
patronus                                                        stag
hogwartsStudent                                                 True
hogwartsStaff                                                  False
actor                                               Daniel Radcliffe
alive                             

In [86]:
type(hp_characters.loc[0, :]) # Serie, kein DataFrame 

pandas.core.series.Series

In [87]:
type(hp_characters.loc[:, :]) # DataFrame

pandas.core.frame.DataFrame

In [88]:
# Einen Ausschnitt aus Variablen und Observationen auswählen
hp_characters.loc[1:4, "name":"dateOfBirth"]

Unnamed: 0,name,species,gender,house,dateOfBirth
1,Hermione Granger,human,female,Gryffindor,19-09-1979
2,Ron Weasley,human,male,Gryffindor,01-03-1980
3,Draco Malfoy,human,male,Slytherin,05-06-1980
4,Minerva McGonagall,human,female,Gryffindor,04-10-1925


In [89]:
# Einen Ausschnitt der Zeilen auswählen
hp_characters.loc[8:10]

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image
8,Rubeus Hagrid,half-giant,male,Gryffindor,06-12-1928,1928.0,half-blood,black,black,"{'wood': 'oak', 'core': '', 'length': 16}",,False,True,Robbie Coltrane,True,http://hp-api.herokuapp.com/images/hagrid.png
9,Neville Longbottom,human,male,Gryffindor,30-07-1980,1980.0,pure-blood,,blonde,"{'wood': 'cherry', 'core': 'unicorn tail-hair'...",,True,False,Matthew Lewis,True,http://hp-api.herokuapp.com/images/neville.jpg
10,Luna Lovegood,human,female,Ravenclaw,13-02-1981,1981.0,,grey,blonde,"{'wood': '', 'core': '', 'length': ''}",hare,True,False,Evanna Lynch,True,http://hp-api.herokuapp.com/images/luna.jpg


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font>  Verbindet Zeilen- und Spaltenauswahl: Wählt die Zeilen mit den Labels 5, 8 und 9 und die Spalten `species` und `ancestry`. </div>

In [90]:
hp_characters.head()

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image
0,Harry Potter,human,male,Gryffindor,31-07-1980,1980.0,half-blood,green,black,"{'wood': 'holly', 'core': 'phoenix feather', '...",stag,True,False,Daniel Radcliffe,True,http://hp-api.herokuapp.com/images/harry.jpg
1,Hermione Granger,human,female,Gryffindor,19-09-1979,1979.0,muggleborn,brown,brown,"{'wood': 'vine', 'core': 'dragon heartstring',...",otter,True,False,Emma Watson,True,http://hp-api.herokuapp.com/images/hermione.jpeg
2,Ron Weasley,human,male,Gryffindor,01-03-1980,1980.0,pure-blood,blue,red,"{'wood': 'willow', 'core': 'unicorn tail-hair'...",Jack Russell terrier,True,False,Rupert Grint,True,http://hp-api.herokuapp.com/images/ron.jpg
3,Draco Malfoy,human,male,Slytherin,05-06-1980,1980.0,pure-blood,grey,blonde,"{'wood': 'hawthorn', 'core': 'unicorn tail-hai...",,True,False,Tom Felton,True,http://hp-api.herokuapp.com/images/draco.jpg
4,Minerva McGonagall,human,female,Gryffindor,04-10-1925,1925.0,,,black,"{'wood': '', 'core': '', 'length': ''}",tabby cat,False,True,Dame Maggie Smith,True,http://hp-api.herokuapp.com/images/mcgonagall.jpg


In [91]:
hp_characters.loc[1, :]

name                                                Hermione Granger
species                                                        human
gender                                                        female
house                                                     Gryffindor
dateOfBirth                                               19-09-1979
yearOfBirth                                                   1979.0
ancestry                                                  muggleborn
eyeColour                                                      brown
hairColour                                                     brown
wand               {'wood': 'vine', 'core': 'dragon heartstring',...
patronus                                                       otter
hogwartsStudent                                                 True
hogwartsStaff                                                  False
actor                                                    Emma Watson
alive                             

* Für `loc` ist es essentiell Label und Position nicht zu verwechseln
* Wenn wir mit `loc`  eine Zeile mit Index 4 indizieren wollen, schaut es nicht die fünfte Zeile an (Zur Erinnerung: Python Indizierung startet mit 0!)
* `loc` sucht nach der Beobachtung, bei welcher der Index gleich 0 ist. Dies muss nicht unbedingt die erste Zeile sein!

###  Indizieren per Position: iloc

* Die Semantik des positionsbasierten slicing folgt den normalen Python Konventionen
    * 0 basiertes Indizieren
    * Beim Slicen ist der Startwert mit inbegriffen, der höhere Wert ist ausgeschlossen, da wir in diesem Fall an der Position und nicht dem Label interessiert sind.
    
* Funktionierende Inputs sind:
    * Integer-Werte
    * Listen von Integer-Werten
    * Ausschnitte von Integer-Werten

In [92]:
hp_characters.iloc[:, [2, 4]] # Alle Zeilen, sowie die zweite und vierte Spalte

Unnamed: 0,gender,dateOfBirth
0,male,31-07-1980
1,female,19-09-1979
2,male,01-03-1980
3,male,05-06-1980
4,female,04-10-1925
5,male,
6,female,
7,male,09-01-1960
8,male,06-12-1928
9,male,30-07-1980


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font>  Wählt die 1. und 4. Zeile und die 6. bis zur einschließlich 9. Spalte aus. </div>

## Arbeiten mit Kategorien: Warum Datentypen wichtig sind

* Betrachtet die Datentypen, die das `dtypes`-Attribut haben

* Datentypen sind sehr wichtig! Sie geben uns Informationen darüber, wie mit den Variablen umgegangen werden muss. Zum Beispiel ergibt es keinen Sinn, sich den Mittelwert der Kategorien "apfel" und "orange" ausgeben zu lassen $\rightarrow$ eine der häufigsten Fehlerquellen

* Sie können auch dabei helfen ein schnelleres Verständnis über die Daten zu erlangen

* Mit `dtypes` ist es möglich den Datentypen jeder Variable zu sehen

In [93]:
hp_characters.dtypes

name                object
species             object
gender              object
house               object
dateOfBirth         object
yearOfBirth        float64
ancestry            object
eyeColour           object
hairColour          object
wand                object
patronus            object
hogwartsStudent       bool
hogwartsStaff         bool
actor               object
alive                 bool
image               object
dtype: object

* Zu diesem Zeitpunkt sind nicht alle Variablen richtig kodiert
* Die Variable "house" sollte nicht so interpretiert werden! Wir ändern den Datentypen der Variable zu einer Kategorie mit `astype` 

In [94]:
hp_characters["house"] = hp_characters["house"].astype("category")

Überprüfen wir den Datentypen erneut

In [95]:
hp_characters.dtypes

name                 object
species              object
gender               object
house              category
dateOfBirth          object
yearOfBirth         float64
ancestry             object
eyeColour            object
hairColour           object
wand                 object
patronus             object
hogwartsStudent        bool
hogwartsStaff          bool
actor                object
alive                  bool
image                object
dtype: object

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font>
Betrachtet nun die Variable `house` mit `describe`

* `count` beschreibt die Anzahl der Observationen
* `unique` ist die Anzahl der verschiedenen Werte
* `top` ist die häufigste Kategorie
* `freq` ist die Häufigkeit des Vorkommens der häufigsten Kategorie
</div>

* Problematisch: Es gibt viele Variablen, die wir per Hand rekodieren müssen.

* Eine gute Lösung wäre, man würde einen **for-loop** verwenden, der die Arbeit für uns erledigt

* Wir schauen uns zunächst an, wie eine for-Schleife grundsätzlich für Listen funktioniert, und wenden dies dann auf unseren Datensatz an.

In [96]:
# Aufbau einer for-Schleife für Listen:

my_list = [1, 2, 3, 4, 'Python', 'ist', 'cool', 5]
for item in my_list:
    print(item)

1
2
3
4
Python
ist
cool
5


* Mit break lässt sich die Ausführung der Schleife unterbrechen

* Mit continue geht es weiter zum nächsten Element der Liste, ohne die Befehle nach continue innerhalb der Schleife auszuführen

In [97]:
for item in my_list:
    if item == 'Python':
        break
    print(item)

1
2
3
4


In [98]:
for item in my_list:
    if item == 1:
        continue
    print(item)

2
3
4
Python
ist
cool
5


In [99]:
# Auf unser Beispiel angewendet:
# Erstelle eine Liste mit all den Variablennamen, die wir als kategorial behandeln wollen

print(hp_characters.columns)
     
      
cat_variables = ['species', 'house', 'ancestry', 'eyeColour', 'hairColour', 'patronus']

# Erstelle einen for loop, um den Datentypen der Spalten zu ändern

for variable in cat_variables:
    hp_characters[variable] = hp_characters[variable].astype("category")


Index(['name', 'species', 'gender', 'house', 'dateOfBirth', 'yearOfBirth',
       'ancestry', 'eyeColour', 'hairColour', 'wand', 'patronus',
       'hogwartsStudent', 'hogwartsStaff', 'actor', 'alive', 'image'],
      dtype='object')


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Überprüft die Datentypen erneut.
</div>

In [100]:
# Für alle Levels der Kategorie
hp_characters["house"].cat.categories

Index(['Gryffindor', 'Hufflepuff', 'Ravenclaw', 'Slytherin'], dtype='object')

* Oft interessiert uns, wie oft jede Kategorie im Datensatz vorkommt
* Dies gibt uns eine generelle Idee darüber, wie die unterschiedlichen Observationen verteilt sind

In [101]:
# Zähle wie häufig jede Kategorie vorkommt
hp_characters["house"].value_counts()

Gryffindor    10
Slytherin      9
Ravenclaw      2
Hufflepuff     1
Name: house, dtype: int64

In [102]:
# Wenn man an den relativen Häufigkeiten und nicht den absoluten Häufigkeiten interessiert ist, kann man das Argument normalize=True verwenden
hp_characters["house"].value_counts(normalize = True)

Gryffindor    0.454545
Slytherin     0.409091
Ravenclaw     0.090909
Hufflepuff    0.045455
Name: house, dtype: float64

### Stetige Variablen in diskrete Variablen umwandeln
* Ein weiteres häufiges Anwendungsgebiet kategorialer Variablen ist das Gruppieren metrischer Variablen in Klassen
* Z.B.: Wir würden gerne generellere Aussagen über das Alter treffen 
* Wir möchten drei Kategorien für age implementieren: "very young", "young" und "not so young"
* Mit der `cut` Funktion ist es möglich stetige Variablen in Klassen aufzuteilen
* Wenn wir *k* Klassen haben, werden *k* unterschiedliche Klassen der selben Größe erzeugt

In [103]:
# Errechnung des Alters als 23.05.2024 - Geburtstag
import math 
hp_characters["dateOfBirth"] 
from datetime import datetime, date
age = pd.to_datetime("23-05-2024", format = '%d-%m-%Y') - pd.to_datetime(hp_characters["dateOfBirth"] , format = '%d-%m-%Y')  
# in float konvertieren
hp_characters["age"] = age / np.timedelta64(1, 'Y')
hp_characters["age"].dropna() # NaN's werden hierbei ausgeschlossen


0     43.811988
1     44.677167
2     44.228150
3     43.965311
4     98.635838
7     64.370932
8     95.462604
9     43.814726
10    43.272620
11    42.782535
12    64.554371
13    64.203919
14    74.293107
16    97.395566
Name: age, dtype: float64

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Führt den describe-Befehl erneut auf das Dataframe aus. 
Was sehen wir?
</div>

In [104]:
pd.cut(hp_characters["age"].dropna(), bins = 3, 
                 labels = ["very young", "young", "not so young"])

0       very young
1       very young
2       very young
3       very young
4     not so young
7            young
8     not so young
9       very young
10      very young
11      very young
12           young
13           young
14           young
16    not so young
Name: age, dtype: category
Categories (3, object): ['very young' < 'young' < 'not so young']

In [105]:
# und umgekehrt implementieren
age_cat = pd.DataFrame(data = {"age": ["very young", "young", "not so young", "very young", "very young", "young"]})
age_cat

Unnamed: 0,age
0,very young
1,young
2,not so young
3,very young
4,very young
5,young


In [106]:
age_cat = pd.cut(hp_characters["age"], bins = [25, 29.9, 49.9, 60], 
        labels = ["very young", "young", "not so young"])

## Sort

* Es ist möglich Werte mit der `sort_values(by = vars)` Methode zu sortieren
* Sortieren kreiert eine Kopie des Datensatzes. Will man die Änderungen speichern, so muss man das Ergebnis neu zuweisen
* Der Standard ist aufsteigend

In [107]:
# Verwende das Argument 'by', um festzulegen nach welcher Variable sortiert werden soll
hp_characters.sort_values(by = "age")

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image,age
11,Ginny Weasley,human,female,Gryffindor,11-08-1981,1981.0,pure-blood,brown,red,"{'wood': 'yew', 'core': '', 'length': ''}",horse,True,False,Bonnie Wright,True,http://hp-api.herokuapp.com/images/ginny.jpg,42.782535
10,Luna Lovegood,human,female,Ravenclaw,13-02-1981,1981.0,,grey,blonde,"{'wood': '', 'core': '', 'length': ''}",hare,True,False,Evanna Lynch,True,http://hp-api.herokuapp.com/images/luna.jpg,43.27262
0,Harry Potter,human,male,Gryffindor,31-07-1980,1980.0,half-blood,green,black,"{'wood': 'holly', 'core': 'phoenix feather', '...",stag,True,False,Daniel Radcliffe,True,http://hp-api.herokuapp.com/images/harry.jpg,43.811988
9,Neville Longbottom,human,male,Gryffindor,30-07-1980,1980.0,pure-blood,,blonde,"{'wood': 'cherry', 'core': 'unicorn tail-hair'...",,True,False,Matthew Lewis,True,http://hp-api.herokuapp.com/images/neville.jpg,43.814726
3,Draco Malfoy,human,male,Slytherin,05-06-1980,1980.0,pure-blood,grey,blonde,"{'wood': 'hawthorn', 'core': 'unicorn tail-hai...",,True,False,Tom Felton,True,http://hp-api.herokuapp.com/images/draco.jpg,43.965311
2,Ron Weasley,human,male,Gryffindor,01-03-1980,1980.0,pure-blood,blue,red,"{'wood': 'willow', 'core': 'unicorn tail-hair'...",Jack Russell terrier,True,False,Rupert Grint,True,http://hp-api.herokuapp.com/images/ron.jpg,44.22815
1,Hermione Granger,human,female,Gryffindor,19-09-1979,1979.0,muggleborn,brown,brown,"{'wood': 'vine', 'core': 'dragon heartstring',...",otter,True,False,Emma Watson,True,http://hp-api.herokuapp.com/images/hermione.jpeg,44.677167
13,Remus Lupin,werewolf,male,Gryffindor,10-03-1960,1960.0,half-blood,green,brown,"{'wood': 'cypress', 'core': 'unicorn tail-hair...",wolf,False,True,David Thewlis,False,http://hp-api.herokuapp.com/images/lupin.jpg,64.203919
7,Severus Snape,human,male,Slytherin,09-01-1960,1960.0,half-blood,black,black,"{'wood': '', 'core': '', 'length': ''}",doe,False,True,Alan Rickman,False,http://hp-api.herokuapp.com/images/snape.jpg,64.370932
12,Sirius Black,human,male,Gryffindor,03-11-1959,1959.0,pure-blood,grey,black,"{'wood': '', 'core': '', 'length': ''}",hare,False,False,Gary Oldman,False,http://hp-api.herokuapp.com/images/sirius.JPG,64.554371


In [108]:
# Sortiere absteigend, indem das Argument 'ascending' auf False gesetzt wird
hp_characters.sort_values(by = "age", ascending = False)

Unnamed: 0,name,species,gender,house,dateOfBirth,yearOfBirth,ancestry,eyeColour,hairColour,wand,patronus,hogwartsStudent,hogwartsStaff,actor,alive,image,age
4,Minerva McGonagall,human,female,Gryffindor,04-10-1925,1925.0,,,black,"{'wood': '', 'core': '', 'length': ''}",tabby cat,False,True,Dame Maggie Smith,True,http://hp-api.herokuapp.com/images/mcgonagall.jpg,98.635838
16,Lord Voldemort,human,male,Slytherin,31-12-1926,1926.0,half-blood,red,bald,"{'wood': 'yew', 'core': 'phoenix feather', 'le...",,False,False,Ralph Fiennes,False,http://hp-api.herokuapp.com/images/voldemort.jpg,97.395566
8,Rubeus Hagrid,half-giant,male,Gryffindor,06-12-1928,1928.0,half-blood,black,black,"{'wood': 'oak', 'core': '', 'length': 16}",,False,True,Robbie Coltrane,True,http://hp-api.herokuapp.com/images/hagrid.png,95.462604
14,Arthur Weasley,human,male,Gryffindor,06-02-1950,1950.0,pure-blood,blue,red,"{'wood': '', 'core': '', 'length': ''}",weasel,False,False,Mark Williams,True,http://hp-api.herokuapp.com/images/arthur.jpg,74.293107
12,Sirius Black,human,male,Gryffindor,03-11-1959,1959.0,pure-blood,grey,black,"{'wood': '', 'core': '', 'length': ''}",hare,False,False,Gary Oldman,False,http://hp-api.herokuapp.com/images/sirius.JPG,64.554371
7,Severus Snape,human,male,Slytherin,09-01-1960,1960.0,half-blood,black,black,"{'wood': '', 'core': '', 'length': ''}",doe,False,True,Alan Rickman,False,http://hp-api.herokuapp.com/images/snape.jpg,64.370932
13,Remus Lupin,werewolf,male,Gryffindor,10-03-1960,1960.0,half-blood,green,brown,"{'wood': 'cypress', 'core': 'unicorn tail-hair...",wolf,False,True,David Thewlis,False,http://hp-api.herokuapp.com/images/lupin.jpg,64.203919
1,Hermione Granger,human,female,Gryffindor,19-09-1979,1979.0,muggleborn,brown,brown,"{'wood': 'vine', 'core': 'dragon heartstring',...",otter,True,False,Emma Watson,True,http://hp-api.herokuapp.com/images/hermione.jpeg,44.677167
2,Ron Weasley,human,male,Gryffindor,01-03-1980,1980.0,pure-blood,blue,red,"{'wood': 'willow', 'core': 'unicorn tail-hair'...",Jack Russell terrier,True,False,Rupert Grint,True,http://hp-api.herokuapp.com/images/ron.jpg,44.22815
3,Draco Malfoy,human,male,Slytherin,05-06-1980,1980.0,pure-blood,grey,blonde,"{'wood': 'hawthorn', 'core': 'unicorn tail-hai...",,True,False,Tom Felton,True,http://hp-api.herokuapp.com/images/draco.jpg,43.965311


# Filtern

* Häufig möchte man Daten nach einem bestimmten Kriterium filtern
* Wir laden den Datensatz "day.csv", der Informationen über Leihfahrräder enthält.
* Sagen wir, wir sind ausschließlich an den Daten aus dem Winter (season == 1) interessiert. 

## Filtern per Indizierung
* Die normale Syntax ist ```df[Bedingung]```

In [109]:
bike_sharing = pd.read_csv("data/NB2/day.csv", sep = ",")

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Lasst euch 3 zufällige Zeilen des Datensatz ausgeben.
</div>

In [110]:
bike_sharing.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
1,2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
2,3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
3,4,2011-01-04,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562
4,5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600


In [111]:
# Die Variable season sollte nicht als Zahl interpretiert werden, genauso wie die anderen kategorialen Variablen, deswegen
# werden diese rekodiert
bike_categories = ['season', 'holiday', 'weekday', 'workingday', 'weathersit']

for variable in bike_categories:
    bike_sharing[variable] = bike_sharing[variable].astype("category")


In [112]:
# Fügen wir der Variable 'season' Labels hinzu, sodass wir leichter sehen, um welche Jahreszeit es geht
bike_sharing['season'] = bike_sharing['season'].map({1: 'winter', 2: 'spring', 3: 'summer', 4: 'autumn'})

In [113]:
winter_bike_sharing = bike_sharing[bike_sharing.season == 'winter']

In [114]:
winter_bike_sharing.season.value_counts()

winter    181
spring      0
summer      0
autumn      0
Name: season, dtype: int64

* Wir möchten jetzt herausfinden, ob es mehr Fahrer (Variable "cnt") im Frühling und Sommer (season 2 und 3) gibt
* Wir verwenden die `isin`-Methode, um sie gegen eine Reihe von möglichen Werten zu prüfen

In [115]:
bike_sharing[ bike_sharing.season.isin(['spring', 'summer'])][["cnt"]].describe()

Unnamed: 0,cnt
count,372.0
mean,5321.822581
std,1612.281762
min,795.0
25%,4337.0
50%,5119.0
75%,6701.75
max,8714.0


In [116]:
winter_bike_sharing[["cnt"]].describe()

Unnamed: 0,cnt
count,181.0
mean,2604.132597
std,1399.942119
min,431.0
25%,1538.0
50%,2209.0
75%,3456.0
max,7836.0


* Es ist möglich unterschiedliche Bedingungen zu kombinieren, um die Daten zu filtern
* Für Pandas verwendet man boolean Operatoren wie `&` (und), `|` (oder) und `~` (nicht)
* Um dies zu zeigen, schauen wir uns als nächstes Informationen zu Leihrädern, die im Sommer an einem Arbeitstag ausgeliehen wurden, an.

In [117]:
bike_sharing[ (bike_sharing.season == 'summer') & (bike_sharing["workingday"] == 1)].describe()

Unnamed: 0,instant,yr,mnth,temp,atemp,hum,windspeed,casual,registered,cnt
count,131.0,131.0,131.0,131.0,131.0,131.0,131.0,131.0,131.0,131.0
mean,400.221374,0.496183,7.679389,0.706132,0.654654,0.627369,0.167582,906.458015,4811.656489,5718.114504
std,185.766242,0.501905,0.946794,0.069989,0.074525,0.121672,0.057888,276.001484,1253.534172,1470.323646
min,172.0,0.0,6.0,0.469167,0.2424,0.36,0.070283,118.0,1689.0,1842.0
25%,218.5,0.0,7.0,0.665833,0.615544,0.551458,0.129667,737.0,3844.0,4615.5
50%,265.0,0.0,8.0,0.716667,0.656583,0.633333,0.156717,888.0,4488.0,5515.0
75%,584.5,1.0,8.0,0.751667,0.700773,0.703542,0.198702,1077.0,5973.0,7108.5
max,630.0,1.0,9.0,0.848333,0.840896,0.939565,0.357587,1511.0,6917.0,8173.0


## Filtern mit query
* Mit der `query()`-Methode kann man einfach einen String mit der Bedingung übergeben
* `query()` hat den Vorteil, dass man nicht den Namen des Datensatzes schreiben muss
* Man muss jedoch vorsichtig sein, und die richtige Art Anführungszeichen verwenden
* Filtern wir dieses Mal nach der Jahreszeit Sommer

In [118]:
# Schauen wir uns nur die Daten des Sommers an
bike_sharing.query("season == 'summer'")

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
171,172,2011-06-21,summer,0,6,0,2,1,2,0.680833,0.637646,0.770417,0.171025,774,4061,4835
172,173,2011-06-22,summer,0,6,0,3,1,1,0.733333,0.693829,0.707500,0.172262,661,3846,4507
173,174,2011-06-23,summer,0,6,0,4,1,2,0.728333,0.693833,0.703333,0.238804,746,4044,4790
174,175,2011-06-24,summer,0,6,0,5,1,1,0.724167,0.656583,0.573333,0.222025,969,4022,4991
175,176,2011-06-25,summer,0,6,0,6,0,1,0.695000,0.643313,0.483333,0.209571,1782,3420,5202
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
626,627,2012-09-18,summer,1,9,0,2,1,2,0.623333,0.565067,0.872500,0.357587,371,3702,4073
627,628,2012-09-19,summer,1,9,0,3,1,1,0.552500,0.540404,0.536667,0.215175,788,6803,7591
628,629,2012-09-20,summer,1,9,0,4,1,1,0.546667,0.532192,0.618333,0.118167,939,6781,7720
629,630,2012-09-21,summer,1,9,0,5,1,1,0.599167,0.571971,0.668750,0.154229,1250,6917,8167


## Datenaggregation

* Aggregation ist ein sehr nützliches Werkzeug, um die Daten auf einem globalen Level zu verstehen
* Häufig verwendete Funktionen hierbei sind: sum, minimum, maximum, mean, median, etc.
* Meistens wird die Funktion `agg` verwendet, es gibt aber auch `aggregate`
* Es ist auch möglich eigene Funktionen zu benutzen
* Wir sind an den aggregierten Statistiken der normalisierten Variablen temp, hum und der Anzahl an Passagieren (cnt) interessiert

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Erstellt ein neues Dataframe `bike_sharing_part`, welches nur die Spalten "temp", "hum", und "cnt" enthält und schaut euch die ersten Zeilen des Dataframes an. </div>

In [119]:
bike_sharing_part.agg(max)

NameError: name 'bike_sharing_part' is not defined

* Viele der Funktionen, wie beispielsweise `max`, können auch in numpy gefunden werden
* Man *muss* sie nicht verwenden, aber es ist empfohlen sie aus Performance Gründen zu verwenden
* Das ist besonders wichtig wenn man mit sehr großen Datensätzen arbeitet

In [None]:
# max mit numpy, das Ergebnis ist identisch
bike_sharing_part.agg(np.max)

temp       0.861667
hum        0.972500
cnt     8714.000000
dtype: float64

* Es ist auch möglich mehrere Funktionen zur selben Zeit auszuführen, indem man sie als Liste an Funktionen übergibt

In [None]:
bike_sharing_part.agg(["max", "min", "mean", "sum"])

Unnamed: 0,temp,hum,cnt
max,0.861667,0.9725,8714.0
min,0.05913,0.0,22.0
mean,0.495385,0.627894,4504.349
sum,362.12628,458.99056,3292679.0


* Bisher erhalten wir Ergebnisse, die sehr ähnlich zur describe()-Funktion sind
* Lasst uns jetzt eine eigene Überblicksstatistik erstellen
* Sie soll uns die range ausgeben: Die Differenz zwischen Maximum und Minimum
* Wir können eine neue Funktion erstellen und der `agg`-Methode übergeben

In [None]:
def range_diff(array):
    """Gibt die Differenz zwischen Minimum und Maximum eines Arrays zurück"""
    return max(array) - min(array)

bike_sharing_part.agg(range_diff)

temp       0.802537
hum        0.972500
cnt     8692.000000
dtype: float64

In [None]:
# Mehr als eine Funktion übergeben
bike_sharing_part.agg([max, min, range_diff])

Unnamed: 0,temp,hum,cnt
max,0.861667,0.9725,8714
min,0.05913,0.0,22
range_diff,0.802537,0.9725,8692


## Gruppieren von Daten


* Gruppieren ist eine der am häufigsten verwendeten und nützlichsten Operationen im Umgang mit Daten
* Wenn Daten gruppiert werden, können bestimmte Transformationen gruppenweise angewandt werden
* In diesem Abschnitt wollen wir herausfinden, ob es irgendwelche Muster in temp, hum und cnt in einer der Jahreszeiten gibt

In [None]:
bike_sharing_grouped = bike_sharing[["temp", "hum", "cnt", "season"]].groupby("season")
bike_sharing_grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002A953EDDCD0>

* Wenn wir uns den gruppierten Datensatz ansehen wollen, passiert nichts und nur der Datentyp wird ausgegeben
* `DataFrameGroupBy` ist faul, was bedeutet, dass es nichts macht ohne dass man es explizit anfordert

In [None]:
bike_sharing_grouped.head()

Unnamed: 0,temp,hum,cnt,season
0,0.344167,0.805833,985,winter
1,0.363478,0.696087,801,winter
2,0.196364,0.437273,1349,winter
3,0.2,0.590435,1562,winter
4,0.226957,0.436957,1600,winter
79,0.430435,0.737391,2077,spring
80,0.441667,0.624583,2703,spring
81,0.346957,0.839565,2121,spring
82,0.285,0.805833,1865,spring
83,0.264167,0.495,2210,spring


* Wenn man an einer einzelnen Gruppe interessiert ist, kann die `get_group`-Methode verwendet werden

In [None]:
bike_sharing_grouped.get_group('winter')

Unnamed: 0,temp,hum,cnt,season
0,0.344167,0.805833,985,winter
1,0.363478,0.696087,801,winter
2,0.196364,0.437273,1349,winter
3,0.200000,0.590435,1562,winter
4,0.226957,0.436957,1600,winter
...,...,...,...,...
726,0.254167,0.652917,2114,winter
727,0.253333,0.590000,3095,winter
728,0.253333,0.752917,1341,winter
729,0.255833,0.483333,1796,winter


<div class="alert alert-block alert-warning">
<font size="3"><b>Exercise:</b></font> Prüft mit Überblicksstatistiken, ob es Hinweise darauf gibt, dass im Winter weniger Personen Fahrräder leihen als im Herbst.</div>

* Mit `count` können wir sehen wie viele Werte wir in jeder Gruppe haben, ausgeschlossen sind fehlende Werte 

In [None]:
# Wir haben keine fehlenden Werte
bike_sharing_grouped.count()

Unnamed: 0_level_0,temp,hum,cnt
season,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
winter,181,181,181
spring,184,184,184
summer,188,188,188
autumn,178,178,178


* Wenn wir die `agg`-Funktion auf ein gruppiertes Dataframe anwenden, wird die **Aggregation** **gruppenweise** durchgeführt

In [None]:
bike_sharing_grouped.agg(np.mean)

Unnamed: 0_level_0,temp,hum,cnt
season,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
winter,0.297748,0.582903,2604.132597
spring,0.544405,0.626948,4992.331522
summer,0.706309,0.633482,5644.303191
autumn,0.422906,0.668719,4728.162921


In [None]:
# Dies ist äquivalent zu
bike_sharing_grouped.mean()

Unnamed: 0_level_0,temp,hum,cnt
season,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
winter,0.297748,0.582903,2604.132597
spring,0.544405,0.626948,4992.331522
summer,0.706309,0.633482,5644.303191
autumn,0.422906,0.668719,4728.162921


# Funktionen auf ein ganzes Dataframe anwenden

* Mit `apply` ist es möglich eine Funktion auf ein ganzes Dataframe anzuwenden
* Wir wollen eine eigene Funktion erstellen, die nicht in einem Paket wie numpy enthalten ist
* Lasst uns zum Beispiel die normalisierte Windgeschwindigkeit `windspeed` zurückwandeln, in die tatsächliche Windgeschwindigkeit

In [None]:
# create a new function
def no_norm(x):
    return x*67

bike_sharing["windspeed"].apply(no_norm).head()

bike_sharing["windspeed"].apply(lambda x: x*67).head()

0    10.749882
1    16.652113
2    16.636703
3    10.739832
4    12.522300
Name: windspeed, dtype: float64

* Erstellen einer neuen Spalte

In [None]:
bike_sharing["absolute_windspeed"] = bike_sharing["windspeed"].apply(no_norm)
bike_sharing.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt,absolut_windspeed
0,1,2011-01-01,winter,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985,10.749882
1,2,2011-01-02,winter,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801,16.652113
2,3,2011-01-03,winter,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349,16.636703
3,4,2011-01-04,winter,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108,1454,1562,10.739832
4,5,2011-01-05,winter,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82,1518,1600,12.5223


* Mit der `apply`-Funktion kann eine Funktion auf **alle** Variablen eines Dataframe angewandt werden

* Dies ist besonders nützlich wenn alle Variablen die gleiche Einheit haben

* Für weiterführende Möglichkeiten der `apply`-Funktion, schaut euch `pandas` Hilfeseite an

## Method chaining

* Methoden können **aneinander gekettet** werden, um wiederholte Befehlsausführungen zu vermeiden

* Die Kette wird durch wiederholten Gebrauch der **dot notation** gebildet

* Die Kette muss in runden **Klammern** stehen, um einen Syntax error zu vermeiden 

* Wir zeigen die Verwendung einer Kette anhand des Folgenden *Beispiels*:

* Wir wollen die Temperatur (in absteigender Reihenfolge) aller Passagiere im Sommer und einer Windgeschwindkeit von über 11 anschauen

* Wir wollen diese Spalte zu personal_temp umbenennen, und alle anderen Spalten ausschließen

In [None]:
(
    bike_sharing[(bike_sharing["season"] == 'summer') & (bike_sharing["absolute_windspeed"] > 11)]
    .rename(columns = {"temp":"wind11_temp"})
    .sort_values("wind11_temp", ascending = False)
    .loc[:, "wind11_temp"]
)

209    0.838333
545    0.834167
204    0.830000
551    0.827500
547    0.815833
         ...   
627    0.552500
248    0.540000
260    0.507500
259    0.491667
258    0.469167
Name: personal_temp, Length: 99, dtype: float64

* Method chaining ist mächtig, aber passt auf es nicht zu häufig zu verwenden
* Achtet darauf, dass nicht mehr als 10 Ausdrücke in einer Kette sind, da der Code sonst schwerer zu lesen und debuggen wird

# Datensätze miteinander verbinden

* Eine häufig verwendete Datenoperation ist es, zwei oder mehr Datensätze anhand einer bestimmten Bedingung miteinander zu mergen
* Wir haben einen Datensatz mit den normalisierten Temperaturen einiger Tage und eine Variable, die angibt ob bei den Temperaturen die Straßen rutschig waren oder nicht
* Da gleich dictionaries verwendet werden, um ein Dataframe zu erstellen, erfolgt zunächst eine kürzere Einführung wie dictionaries funktionieren

In [83]:
# Bei dictionaries handelt es sich um eine Sammlung von 'key'-'value' Paaren
# Erstellung eines dictionaries:

my_empty_dict = {}  # alternativ: my_empty_dict = dict()
print('dict: {}, type: {}'.format(my_empty_dict, type(my_empty_dict)))

dict: {}, type: <class 'dict'>


In [84]:
# Dictionaries können auf zwei unterschiedliche Arten initialisiert werden
dict1 = {'value1': 1.6, 'value2': 10, 'name': 'John Doe'}
dict2 = dict(value1 = 1.6, value2 = 10, name = 'John Doe')

print(dict1)
print(dict2)

print('equal: {}'.format(dict1 == dict2))
print('length: {}'.format(len(dict1)))

{'value1': 1.6, 'value2': 10, 'name': 'John Doe'}
{'value1': 1.6, 'value2': 10, 'name': 'John Doe'}
equal: True
length: 3


In [85]:
# Zugriff auf und setzen von Werten:
my_dict = {}
my_dict['key1'] = 'value1'
my_dict['key2'] = 99
my_dict['key1'] = 'new value'  # existierender Wert wird überschrieben
print(my_dict)
print('value of key1: {}'.format(my_dict['key1']))

{'key1': 'new value', 'key2': 99}
value of key1: new value


In [86]:
# Hier verwenden wir dictionaries, um ein Dataframe zu erstellen
# Der dictionary key ist der Variablenname
# Die Liste beinhaltet die Werte
# Die Liste jeder Variable muss die gleiche Länge haben
rutschige_strassen = pd.DataFrame({"temp": [0.2, 0.695, 0.285, 0.861667, 2],
                        "rutschige Strassen": [0, 1, 0, 0 ,1]})
rutschige_strassen

Unnamed: 0,temp,rutschige Strassen
0,0.2,0
1,0.695,1
2,0.285,0
3,0.861667,0
4,2.0,1


* Wir verbinden jetzt die zwei Dataframes anhand der temp-Variable
* Dafür verwenden wir die `merge` Methode 
* **Verwendet nicht** die join Methode. Sie ist veraltet und funktioniert nicht gut 

In [87]:
rutschige_strassen.merge(bike_sharing, on = "temp")

Unnamed: 0,temp,rutschige Strassen,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,atemp,hum,windspeed,casual,registered,cnt,absolut_windspeed
0,0.2,0,4,2011-01-04,winter,0,1,0,2,1,1,0.212122,0.590435,0.160296,108,1454,1562,10.739832
1,0.695,1,176,2011-06-25,summer,0,6,0,6,0,1,0.643313,0.483333,0.209571,1782,3420,5202,14.041257
2,0.285,0,83,2011-03-24,spring,0,3,0,4,1,2,0.270833,0.805833,0.243787,166,1699,1865,16.333729
3,0.861667,0,554,2012-07-07,summer,1,7,0,6,0,1,0.804913,0.492083,0.163554,1448,3392,4840,10.958118


* Wir haben jetzt eine extra Spalte die angibt ob die Strassen an dem Tag rutschig waren oder nicht
* Wir haben jetzt weniger Beobachtungen, da nur die Beobachtungen ausgewählt werden, die mit den Temperaturen des ersten Datensatzes übereinstimmen
* Auch die Temperaturen, die nicht in den Daten gefunden wurden, verschwinden (z.B temp = 2) 

* Es gibt unterschiedliche Arten von joins
* `merge` führt standardmäßig einen **inneren** join aus. In unserem Fall bedeutet das, dass eine Beobachtung nur aufgenommen wird, wenn sie einen exakten Match in beiden Datensätzen hat
* Deswegen verschwinden bestimmte Temperaturen wie 2 in dem kombinierten Datensatz

* Wir können die Art des join mit dem Argument `how` ändern
* Im nächsten Beispiel wird ein **left** join benutzt

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe:</b></font> Verwendet das Argument `how`, um rutschige_strassen und bike_sharing mit einem left join zu mergen.</div>

* In diesem Fall bleiben alle Temperaturen des ersten Datensatzes bestehen 
* Da diese jedoch kein Match im zweiten Datensatz haben, werden die extra Spalten mit fehlenden Werten `NaN` gefüllt