# Deskriptive Datenanalyse

mittels Python (Pandas, Seaborn, NumPy, Matplotlib)

* Pandas https://pandas.pydata.org
* Seaborn https://seaborn.pydata.org
* Numpy https://numpy.org
* Matplotlib https://matplotlib.org

Mit den Jupyter Notebook koennen Sie auch Notizen machen.

* Durch ein ``#`` Symbol vor dem Text
* In der Menueleiste bei ``Insert`` neue Zeile einfuegen und bei und im ``Dropdown Menue Code`` durch ``Markdown`` ersetzen.
* Der Code wird durch das ``PLAY / Run`` Symbol ausgefuehrt, oder durch ``Hochtaste`` + ``Enter``

Mehr Informationen zum Jupyter Notebook finden Sie hier: https://jupyter.org

In [None]:
# Softwarepakete werden geladen
import pandas as pd
import numpy as np
import seaborn as sns

# folgenden 3 Zeilen braucht man nur im Jupyter Notebook
%matplotlib inline 
import warnings
warnings.filterwarnings('ignore')

#### Agenda: 

* 1  |  Daten einlesen
* 2  |  Daten bereinigen
* 3  |  Daten gruppieren
* 4  |  Daten darstellen
* 5  |  Daten analysieren


## 1 | Daten einlesen

Wir benutzen dafuer Pandas und Numpy.

### 1.1 | Wir verschaffen uns einen ersten Ueberblick

In [None]:
# einlesen der CSV Datei in den pandas DataFrame genannt df
df = pd.read_csv('2020_11_24_Beispieldaten_DA_Professur.csv')

# DataFrame anzeigen
print(df)

Durch die Eingabe des ``delimiter`` (Spaltentrennungszeichen) kann Pandas die CSV einlesen.

In [None]:
# einlesen der CSV Datei in den pandas DataFrame genannt df
df = pd.read_csv('2020_11_24_Beispieldaten_DA_Professur.csv', delimiter=';')

# DataFrame anzeigen
print(df)

Im Notebook ist es aber auch moeglich, ``df`` auch einfach ohne ``print`` Kommando darzustellen.

In [None]:
df

### 1.2 | Untersuchen von Zeilen und Spalten

Zeilenweises anschauen ... Achtung: bei PYTHON beginnt man mit Null zu zaehlen.

In [None]:
# nur Zeile mit Index 1 ansehen
df.iloc[[5]]

Wir untersuchen einen Ausschnitt der Spalten ... 

In [None]:
df.Alter

In [None]:
df.Groesse

In [None]:
df.Geschlecht

In [None]:
df.NoteMathe

In [None]:
df.MatheZufr

### 1.3 | Datentypen

Wie in allen Programmiersprachen ueblich, gibt es verschiedene Datentypen (``float`` Gleitkommazahl, ``int`` Ganze Zahl, ``object`` undefiniertes, ``str`` Text)

In [None]:
# untersuchen des Datentypes
df.info(verbose=True)

### FAZIT 

``Geschlecht``, ``AnzSchuhe``, ``NoteMathe`` und ``MatheZufr`` muss bereinigt werden.

## 2 | Daten bereinigen

### 2.1 | Bereinigung nach Datentypen

Im folgenden wird untersucht ob der DataFrame Spalten (numerich, nicht numerisch) ordentlich erkennt.

In [None]:
df

#### Bereinigen der Spalte ``Alter``?

In [None]:
# sucht alle einzigartigen Eintraege
df.Alter.unique()

#### Bereinigen der Spalte ``Groesse``?

In [None]:
# sucht alle einzigartigen Eintraege
df.Groesse.unique()

#### Bereinigen der Spalte ``Geschlecht``?

In [None]:
# sucht alle einzigartigen Eintraege
df.Geschlecht.unique()

In [None]:
# ersetzen von 'Frau' und 'frau' durch 'w' und 'mann' und 'Mann' durch 'm'
df.Geschlecht = df.Geschlecht.replace({'Frau':str('w'), 'frau': str('w'), 'Mann':str('m'), 'mann':str('m')}) 

In [None]:
df

#### Bereinigen von Spalte ``AnzSchuhe``?

In [None]:
df.AnzSchuhe

In [None]:
# sucht alle einzigartigen Eintraege
df.AnzSchuhe.unique()

In [None]:
# ersetzt 'wort' durch Zahl (Spalte in ganzzahlige Werte umwandeln)
df.AnzSchuhe = df.AnzSchuhe.replace('fünfzehn', '15').astype('int')

In [None]:
df

#### Bereinigen von Spalte ``NoteMathe``?

In [None]:
# sucht alle einzigartigen Eintraege
df.NoteMathe.unique()

In [None]:
# ersetzen von Komma durch Punkt als Deziamaltrennung (Umwandlung in Spalte mit Dezimalzahlen)
df.NoteMathe = df.NoteMathe.str.replace(',','.').astype('float')

In [None]:
df

#### Bereinigen von Spalte ``MatheZufr``?

In [None]:
# sucht alle einzigartigen Eintraege
df.MatheZufr.unique()

In [None]:
df

In [None]:
# gibt Datentypen der Spalten aus
df.info(verbose=True)

### 2.2 | Logische Bereinigung (Maskierungsbedingungen)

Manchmal muessen aber auch unlogische Eingaben bereinigt werden. Dazu bietet es sich an den DataFrame vorher zu kopieren, damit man das original nicht veraendert. Solche logischen Bereinigungen muessen genau dokumentiert und spaeter in Publikationen angegeben werden.

In [None]:
# kopiert den Dataframe
dfl = df.copy(deep = True)

In [None]:
# gibt statistische Werte fuer Spalten aus
dfl.describe()

Logische Bereinigung noetig bei ...?

* ``Alter``: hohe Werte
* ``Groesse``: niedrige Werte
* ``AlterV``: hohe Werte
* ``AlterM``: hohe Werte
* ``AnzSchuhe``: hohe Werte
* ``MatheNote``: ok

#### Logische Bereinigung ``Alter``

In [None]:
# gibt Spalte aus
dfl.Alter

In [None]:
# gibt sortierte Spalte aus
dfl.Alter.sort_values()

In [None]:
# Bedingung fuer unrealistisches Alter
unreal_Alter = (dfl.Alter > 100.)

In [None]:
# Bedingung ansehen
unreal_Alter
#unreal_Alter[961]

#### Logische Bereinigung ``Groesse``

In [None]:
# gibt sortierte Spalte aus
dfl.Groesse.sort_values()

In [None]:
# Bedingung fuer unrealistische Groesse
unreal_Groesse = (dfl.Groesse < 50)

#### Logische Bereinigung ``AlterV``

In [None]:
# gibt die sortierte Spalte aus
dfl.AlterV.sort_values()

In [None]:
# Bedingung fuer unrealistisches AlterV
unreal_AlterV = (dfl.AlterV > 150.)

#### Logische Bereinigung ``AlterM``

In [None]:
# gibt die sortierte Spalte aus
dfl.AlterM.sort_values()

In [None]:
# Bedingung fuer unrealistisches AlterM
unreal_AlterM = (dfl.AlterM > 150.)

#### Logische Bereinigung ``AnzSchuhe``

In [None]:
# gibt die sortierte Spalte aus
dfl.AnzSchuhe.sort_values()

In [None]:
# Bedingung fuer unrealistische AnzSchuhe
unreal_AnzSchuhe = (dfl.AnzSchuhe > 100)

### AUFGABE
Ueberlegen Sie ob es wirklich sinnvoll ist ``AnzSchuhe`` zu bereinigen?

### 2.3 | Maskierung

Nun werden die oben Bedingungen genutzt um unrealistische Werte zu maskieren. 

In [None]:
# gibt nur Zeilen des DataFrames aus, die unrealistisches Alter haben 
dfl[unreal_Alter]

In [None]:
# in diesen Zeilen wird nun das Alter durch eine NaN ersetzt (NaN = 'not a number')
dfl.Alter[unreal_Alter] = np.nan

In [None]:
# gibt nur Zeilen des DataFrames aus, die unrealistisches Alter haben 
dfl[unreal_Alter]

Vergleichen Sie mit der Ausgabe von oberhalb.

In [None]:
# maskieren alle restlichen Spalten
dfl.Groesse[unreal_Groesse] = np.nan
dfl.AlterV[unreal_AlterV] = np.nan
dfl.AlterM[unreal_AlterM] = np.nan
dfl.AnzSchuhe[unreal_AnzSchuhe] = np.nan

In [None]:
dfl

### ANMERKUNG
Es gibt auch die Moeglichkeit, Zeilen so zu maskieren, damit bei einen unrealistischen Wert die gesamte Zeile ``NaN`` gesetzt wird (siehe https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mask.html).

Dabei wird allerdings Information vernichtet, beispielsweise wenn man sich nur fuer die Zufriedenheit der Studierenden interessiert, und Angaben wie ``Groesse`` fuer diese Fragestellung uninteressant sind.

## 3 | Datengruppierung


In diesen DataFrame gibt es die nicht numerische Spalten ``Geschlecht`` und ``MatheZufr``. Um spaeter den Datensatz nach diesen Gruppen zu untersuchen, gibt es in PANDAS die praktische Moeglichkeit Gruppierungen zu erstellen. Es bietet sich auch an, weitere Gruppierungen zu erstellen.

In [None]:
dfl

### 3.1 |  Gruppierung nach ``Geschlecht``

In [None]:
gr_nach_geschlecht = dfl.groupby(['Geschlecht'])

### 3.2 | Gruppierung nach ``MathZufr``

In [None]:
gr_nach_zufr = dfl.groupby(['MatheZufr'])

### 3.3 | Gruppierung nach ``Alter``

In [None]:
# gibt den Median in der Alterspalte aus (PANDAS ignoriert dabei die Eingraege NaN)
median_Alter = np.nanmedian(dfl['Alter'])

Neue Spalte erstellen mit Aufteilung "aeltere" und 'juengere' im Bezug auf den Median

In [None]:
# Bedingung fuer die Aufteilung in aeltere und juengere
dfl['Altersgruppe'] = np.nan
dfl['Altersgruppe'][dfl['Alter'] <= median_Alter] = 'juengere'
dfl['Altersgruppe'][dfl['Alter'] > median_Alter] = 'aeltere'

In [None]:
dfl

In [None]:
# erstellen der Gruppierung in 2 Altersgruppen
gr_nach_alter = dfl.groupby(['Altersgruppe'])

### 3.4 | Gruppierung nach 2 Spalten

Es gibt die Moeglichkeit auch nach 2 Spalten zu Gruppieren, z. B. nach ``Geschlecht`` und nach ``MatheZufr``.

In [None]:
gr_nach_zufr_geschlecht = dfl.groupby(['MatheZufr','Geschlecht'])

### AUFGABE

Erstellen Sie eine weitere Gruppierung "bestanden?" im Bezug auf die Matheklausur.

## 4 | Daten darstellen (eine kleine Auswahl)

### 4.1 | Schnellansicht mit Pandas

Die Schnelluebersicht ermoeglicht es alle numerischen Spalten in Histogrammen zu sehen. Allerdings werden so die nicht-numischen Spalten nicht ausgegeben.

In [None]:
# Histogramme Schnellansicht des Datensatzes (nur numerische Spalten)
dfl.hist()#figsize=(25,3), layout=(1,6))

In [None]:
# nicht numerische Spalten koennen gesondert aufgerufen werden
dfl.Geschlecht.hist()
dfl.MatheZufr.hist()

### 4.2 | Plot Funktion in Pandas

Die ``plot`` Funktion in Pandas ermoeglicht es auch zu formatieren. Es gibt dort verschiedenste Arten von Darstellungen z. B. Histogramme ``'hist'``, Kuchendiagramme ``'pie'``, Balken ``'barh'`` etc. 
Der Aufruf erfolgt in folgender Struktur: 

In [None]:
dfl.Alter.plot(kind='hist', title='Alter')

### 4.3 | Histogramme und Gruppierung nach ``Geschlecht``

Mittels einer Zeile koennen in Pandas auch Histogramme fuer die unterschiedlichen Gruppen untersucht werden. Hier am Beispiel der ``AnzSchuhe`` nach ``Geschlecht``.

In [None]:
# alpha entspricht Transparenz, Legende angeschaltet, titel eingabe
gr_nach_geschlecht.AnzSchuhe.plot(kind='hist', alpha=0.7, legend=True, title='AnzSchuhe')

### 4.4 | Kuchediagramme am Beispiel Gruppierung nach ``Geschlecht``

#### Gruppengroesse Spalte ``Geschlecht``

In [None]:
# Aufteilung Geschlechterverteilung (autopct='%1.1f%%' gibt Prozentwerte an)
gr_nach_geschlecht.size().plot(kind='pie', y='Geschlecht', autopct='%1.1f%%')

#### Anteil auf die Gruppenmitglieder ``Geschlecht`` im Bezug auf Spalte ``AnzSchuhe``

In [None]:
# Schuhverteilung
gr_nach_geschlecht.sum().plot(kind='pie', y='AnzSchuhe', autopct='%1.1f%%')

#### ZWISCHENFAZIT
Obwohl nur ca. 40% der Befragten Männer sind, haben sie nur ca. 20% der Schuhe. 

#### Anteil auf die Gruppenmitglieder ``Geschlecht`` im Bezug auf Spalte ``MatheZufr``

In [None]:
gr_nach_zufr_geschlecht.size().plot(kind='pie', y='MatheZufr', autopct='%1.d%%')
gr_nach_zufr.size().plot(kind='pie', y='MatheZufr', autopct='%1.d%%')

### 4.5 | Balkendiagramme am Beispiel Gruppierung nach 2 Spalten 
In 3.4 haben wir nach 2 Spalten gruppiert (``Geschlecht``, ``MatheZufr``). Nun sehen wir uns dazu das passende Balkendiagramm an.

In [None]:
gr_nach_zufr_geschlecht.size().unstack().plot(kind='barh')

### AUFGABE
In Python gibt eine sehr hilfbereite Community. Falls Sie fragen haben oder nach einer etwas anderen Variante suchen, hilft googlen of weiter.
Versuchen Sie das Balkendiagramm so zu veraendern, dass es auch noch die Gesamtwerte der vier Rubriken enthaelt. Starten Sie dabei mit:
https://www.oreilly.com/content/exploring-data-with-pandas/#explore_cat_gen_sort
Ueberlegen Sie, warum diese zusaetzliche Balken nuetzlich ist.

### 4.5 | Scatter plots (Streudiagramme)

Bis lang haben wir uns jede numerische Spalte einzeln, mit Streudiagrammen, kann man nach Korrelationen (Beziehungen) suchen zwischen Datenspalten suchen.

#### Beziehung ``Alter`` und ``Groesse``?
Bei Streudiagrammen ist es besonders bei streng diskreten Werten wichtig, dass man beachtet, dass die Punkte andere decken koennten.

In [None]:
dfl.plot.scatter(x='Alter', y='Groesse', color='DarkBlue', alpha=0.1)

Hierbei kann ein Dichtediagramm oder ein Hexabindiagramm abhilfe schaffen.

In [None]:
dfl.plot.hexbin(x='Alter', y='Groesse', gridsize=20, colormap='Blues', reduce_C_function=np.sum, sharex=False)

## 5 | Datenanalyse

Bislang sind wie mit einer gewissen Vorahnung an die Auswertung herangegangen. Angenommen wir haetten keine Vermutungen im Bezug auf die Beziehungen zwischen den Spalten.
Achtung: Unsere Vermutungen koennen uns auch Taeuschen und die Auswahl verfaelschen. Deshalb ist es besonders wichtig sich ueber die Korrelationen aller Spalten ein Bild zu machen. 

In [None]:
dfl

### 5.1 | Numerische Spalte ``ZufrNum`` analog zu ``MatheZufr``
Es bietet sich an, eine neue Spalte ``ZufrNum`` zu erstellen, die die nicht-numerische Spalte ``MatheZufr`` in eine numerische im System 1-4 ueberfuehrt.

In [None]:
# erstellen der Spalte voller NaNs 
dfl['ZufrNum'] = np.nan
dfl

In [None]:
# befuellen der neuen Spalte
dfl['ZufrNum'][dfl['MatheZufr'] == 'unzufrieden'] = 4.
dfl['ZufrNum'][dfl['MatheZufr'] == 'geht so'] = 3.
dfl['ZufrNum'][dfl['MatheZufr'] == 'zufrieden'] = 2.
dfl['ZufrNum'][dfl['MatheZufr'] == 'sehr zufrieden'] = 1.

In [None]:
dfl

### 5.2 | Schnellausgabe Korrelationen
Pandas kann mittels einer Befehls die Korrelationskoeffizienten zwischen allen numerischen Spalten ausgeben. Ueberlegen Sie warum die Korrelationsmatrix symmetisch ist. Erinnern Sie sich auch daran, dass eine proportionale Groessen Korrelationswerte von +-1 haben, wohingegen unkorrelierte Groessen Werte nahe Null haben.

In [None]:
# Korrelationsmatrix der Spaltenkombinationen mit Pandas
dfl.corr()

In [None]:
# Darstellung der Korrelationsmatrix mit Seaborn
sns.heatmap(dfl.corr(), vmin=-1, vmax=1, annot=True, fmt="0.2f",  linewidths=.5, cmap="YlGnBu")

Im folgenden schauen wir uns einige interessanten Korrelationen genauer an.

### 5.3 | Korrelation ``NoteMathe`` und ``ZufrNum``

In [None]:
sns.jointplot(x=dfl['ZufrNum'], y=dfl['NoteMathe'], kind='kde')

In [None]:
dfl.groupby(['Geschlecht'])['NoteMathe', 'ZufrNum'].corr()

### FAZIT

Die Zufriedenheit mit der Matheklausur stark korrelliert mit der erhaltenen Note und variiert geschlechterspezifisch.

### 5.4 | Korrelation ``AlterM`` und ``AlterV``

In [None]:
sns.jointplot(x=dfl['AlterM'], y=dfl['AlterV'], kind='kde')
sns.jointplot(x=dfl['AlterM'], y=dfl['AlterV'], kind='reg')

### FAZIT

Das Alter von Muettern und Vatern korreliert miteinander. Man koennte dies mittels Ausgleichsrechnung genauer untersuchen (fitting).


### 5.4 | Korrelation ``Alter`` und ``AnzSchuhe``

In [None]:
# Custom the inside plot: options are: “scatter” | “reg” | “resid” | “kde” | “hex”
sns.jointplot(x=dfl["Alter"], y=dfl["AnzSchuhe"], kind='kde')


### FAZIT

Altere haben weniger Schuhe manche als Juengere

### 5.5 | Seaborn Scatter Matrix - der Startpunkt fuer Experten

Analog zur Korrelationsmatrix kann auch eine Visualisierung als Scatter Matrix ausgegeben werden. Auf der Diagonalen sind dann die Histogramme.

In [None]:
sns.pairplot(dfl)

In [None]:
sns.pairplot(dfl, hue="Geschlecht")

In [None]:
g = sns.PairGrid(dfl, hue="Geschlecht", diag_sharey=False)
g.map_upper(sns.scatterplot, s=15)
g.map_lower(sns.kdeplot)
g.map_diag(sns.kdeplot, lw=2)

Es ist auch moeglich Gruppierungen darzustellen. Aus diesem Diagrammen kann man sehr viel herauslesen. U. a. sieht man folgendens:
    * Groesse: ...
    * Groesse: ...
    * Schuhe: ...
    * Schuhe: ...
    * Schuhe: ...
    * NoteMathe: ...
    * NoteMathe: ... 
    * Alter: ...
    * ...

## 6 | HAUSAUFGABE

Untersuchen Sie die Scattermatrix fuer die ``Altersgruppe``.


In [None]:
sns.pairplot(dfl, hue="Altersgruppe")

In [None]:
g = sns.PairGrid(dfl, hue="Altersgruppe", diag_sharey=False)
g.map_upper(sns.scatterplot, s=15)
g.map_lower(sns.kdeplot)
g.map_diag(sns.kdeplot, lw=2)