<img src="./src/logo.png" width="250">

**Baustein:** Daten  $\rightarrow$ **Subbaustein:** Deskriptive Statistik, Visualisierung und Datenvorverarbeitung $\rightarrow$ **Übungsserie**

**Version:** 1.0, **Lizenz:** <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">CC BY-NC-ND 4.0</a>

***

# Daten: Deskriptive Statistik, Visualisierung und Datenvorverarbeitung

---
## Importieren der notwendigen Python-Bibliotheken

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.preprocessing import OneHotEncoder, StandardScaler
import seaborn as sns

%run src/setup.ipynb

---
## Importieren der Daten
#### Aufgabe 1: Passen Sie den Importierbefehl so an, dass der gewünschte Datensatz *Studierende.csv* in der Variable ```df``` gespeichert ist.
Hierbei hilft die Bibliothek `pandas`, die es erlaubt, zum Beispiel eine `.csv`-Datei als **Dataframe-Objekt** einzulesen. Andere Formate, die mit `pandas` eingelesen werden können sind z.B. `.xlsx`, `.hdf5` oder `.json`.

In [None]:
PATH = './data/' # Setzen eines (relativen) Pfades zum Verzeichnis, das unseren Datensatz enthält

In [None]:
df = pd.read_csv(PATH + # Datensatz )

---
## Datensatz
Machen Sie sich mit dem Datensatz vertraut.
#### Aufgabe 2: Wie groß ist der Datensatz? Was bedeuten die Zeilen und Spalten? Handelt es sich hier um strukturierte Daten?
Der erzeugte Dataframe kann in Jupyter Notebooks so ausgegeben werden:

Antwort: 

In [None]:
df

---
## Duplikate und Leerstellen
#### Aufgabe 3: Gibt es im vorliegenden Datensatz Leerstellen oder Duplikate? Untersuchen Sie den Datensatz daraufhingehend und entfernen Sie diese Daten ggf.
Tipp: Nutzen Sie die Methoden für Dataframes von `pandas` hierfür. Wenn die Variable `ignore_index = False` gesetzt ist, werden die Indizes neu durchnummeriert.

---
## Deskriptive Statistik
Um einen Eindruck vom Datensatz zu erhalten, sollen im Nachfolgenden die statistischen Kennzahlen berechnet und analysiert werden.
#### Aufgabe 4: Lassen Sie sich mithilfe von `pandas`-Methoden die folgenden Kennzahlen ausgeben:
- Mittelwert 
- Standardabweichung
- Median
- Minimum
- Maximum

In [None]:
#Mittelwerte

In [None]:
#Standardabweichungen

In [None]:
#Median

In [None]:
#Minimum

In [None]:
#Maximum

#### Aufgabe 5: Gibt es Auffälligkeiten bei den Kennzahlen? Woran könnte die starke Abweichung von Mittelwert und Median für das Alter liegen?

Antwort:

---
## Ausreißer
Wir nehmen an, dass die Daten selbst aufgenommen wurden und wir einen Fehler gemacht haben in der Übertragung der handschriftlichen Tabelle. Für die nachfolgenden Analysen sollen diese Daten daher nicht mit berücksichtigt und damit vom Datensatz entfernt werden. 

**Vorsicht:** Das Entfernen von Datenpunkten nur weil sie nicht zur Hypothese o.ä. passen ist wissenschaftlich schlechtes Verhalten und sollte unter keinen Umständen passieren. Ein Entfernen von Datenpunkten muss immer gut begründet und dokumentiert sein. Außerdem gibt es auch noch andere Möglichkeiten mit Ausreißern umzugehen. 


In diesem Fall nehmen wissen wir, dass wir einen Übertragungsfehler gemacht haben und können die entsprechende Zeile aus dem Datensatz entfernen. 

In [None]:
df.loc[(df['Alter']==7800)]

#### Aufgabe 6: Entfernen Sie die Zeile mit dem Ausreißer aus dem Datensatz.

Mithilfe von `describe()` können die wichtigsten statistischen Kennzahlen zusammen ausgegeben werden. Beachte hierbei aber immer, dass nicht jede Kennzahl sinnvoll ist für die Beurteilung von Daten, sondern immer angepasst sein muss, auf den Datentyp. 

#### Aufgabe 7: Überprüfen Sie im Nachfolgenden, ob das Entfernen des Ausreißers erfolgreich war.

---
## Boxplot
#### Aufgabe 8: Lassen Sie sich die Verteilung des Alters und der wöchentlichen Lernzeit als Boxplot mithilfe der Methode `plot()` der pandas-Dataframes darstellen. Ist die Darstellung für beide Merkmale sinnvoll? 

Antwort:

---
## Visualisierung
Da die statistischen Kennzahlen alleine nicht aussagekräftig sind, ist es immer sinnvoll, sich die Daten noch einmal visualisieren zu lassen. Zur Visualisierung wird hier das Paket `seaborn` (kurz: `sns`) genutzt. Visualisierungen sind ebenfalls mithilfe von `pandas`, `matplotlib`, usw. möglich. Im Folgenden soll sich aber auf `seaborn` beschränkt werden.
#### Aufgabe 9: Beurteilen Sie die Visualisierung der Verteilung des Merkmals "woechentliche Lernzeit". 

In [None]:
plt.figure()
sns.histplot(df['woechentliche Lernzeit in h'])
plt.title('Verteilung des Merkmals "woechentliche Lernzeit"')
plt.xticks([1,2,3,4])
plt.xlabel('woechentliche Lernzeit in h')
plt.ylabel('absolute Anzahl')

Antwort:

#### Aufgabe 10: Lassen Sie sich nun die Verteilung des Merkmals 'Alkoholkonsum werktags' ausgeben.

In [None]:
df['Alkoholkonsum werktags'] = pd.Categorical(df['Alkoholkonsum werktags'], ['sehr niedrig','niedrig','moderat','hoch','sehr hoch']) # Festlegen der Sortierreihenfolge des Merkmals
plt.figure()
# Ergänzen

#### Aufgabe 11: Beurteilen Sie den untenstehenden Scatterplot. Ist die Visualiserungsmethode gut geeignet? 

In [None]:
plt.figure()
sns.scatterplot(x=df['Alter'],y=df['woechentliche Lernzeit in h'])
plt.title('Scatterplot des Alters in Bezug auf die wöchentliche Lernzeit')
plt.xlabel('Alter in Jahren')
plt.ylabel('wöchentliche Lernzeit in h')

Antwort:

---
## Korrelation
Korrelationen können auf einen Zusammenhang zwischen Merkmalen hinweisen. Um die Korrelationen berechnen zu können, wird ein Datensatz importiert, bei dem die kategorischen Merkmale in numerische umgewandelt worden sind. Zur Überprüfung des Datensatzes lassen Sie sich diesen einmal ausgeben.

In [None]:
df_num = pd.read_csv(PATH + 'Studierende_numeric.csv') # Laden des Datensatzes
df_num

#### Aufgabe 12: Untersuchen Sie den Datensatz auf Korrelationen zwischen den einzelnen Merkmalen mithilfe der `pandas`-Methode `corr()`. Lassen Sie sich die Korrelationen in einer Korrelationsmatrix darstellen mithilfe der Funktion `heatmap()` von seaborn.

**Achtung**: Es handelt sich hierbei um sehr wenige ordinale Ausprägungen pro Merkmal (z.B. 5 Ausprägungen für den Alkoholkonsum am Wochenende (`'sehr niedrig','niedrig','moderat','hoch','sehr hoch'`) für das Merkmal Geschlecht) und die Korrelationen müssen daher mit vorsicht interpretiert werden. Für konkretere Aussagen müssten mehr Ausprägungen vorliegen. Zudem werden Korrelationen für den ganzen Datensatz mithilfe von `corr()` berechnet. Dadurch werden auch Korrelationen für nominal skalierte Merkmale berechnet, für die eigentlich keine Korrelation interpretiert werden können.



In [None]:
plt.figure(figsize=(16, 16))
sns.heatmap(#Ergänzen, cmap="Blues", annot=True, fmt=".2f")
plt.title("Korrelation zwischen den Merkmalen",size=20)
plt.show()

#### Aufgabe 13: Welche Merkmale haben einen besonders starken Zusammenhang. Welche haben einen schwachen Zusammenhang? Sind diese Korrelationen aus eigener Erfahrung nachvollziehbar/begründbar?

Antwort:

---
## One Hot Encoding
Um weiter Analysen mit dem ursprünglichen Datensatz machen zu können, müssen die vorliegenden kategorischen Merkmale binär codiert werden mithilfe des **One Hot Encodings** des Pakets von `pandas`. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html
#### Aufgabe 14: Transformieren Sie die nominal skalierte Merkmale in binär codierte. Überprüfen Sie die Transformation, indem Sie sich den transformierten Dataframe ausgeben lassen.

---
## Normalisierung/Standardisierung
Damit Klassifikationsalgorithmen später bessere Ergebnisse erzielen können, müssen die Daten normalisiert werden.
#### Aufgabe 15: Z-transformieren Sie die fehlenden metrischen Daten mithilfe des `StandardScaler` von `scikit learn`. Überprüfen Sie das Ergebnis indem Sie sich den Dataframe ausgeben lassen.

In [None]:
scaler = StandardScaler()
df['Alter'] = scaler.fit_transform(df[['Alter']])


In [None]:
df

---

<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/"><img alt="Creative Commons Lizenzvertrag" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Die Übungsserie begleitend zum AI4ALL-Kurs</span> der <span xmlns:cc="http://creativecommons.org/ns#" property="cc:attributionName">EAH Jena</span> ist lizenziert unter einer <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">Creative Commons Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 International Lizenz</a>.

Der AI4ALL-Kurs entsteht im Rahmen des Projekts MoVeKI2EAH. Das Projekt MoVeKI2EAH wird durch das BMBF (Bundesministerium für Bildung und Forschung) und den Freistaat Thüringen im Rahmen der Bund-Länder-Initiative zur Förderung von Künstlicher Intelligenz in der Hochschulbildung gefördert (12/2021 bis 11/2025, Föderkennzeichen 16DHBKI081).