<img src="./src/logo.png" width="250">

**Baustein:** Daten  $\rightarrow$ **Subbaustein:** Deskriptive Statistik und Visualisierung$\rightarrow$ **Übungsserie**

**Version:** 2.0, **Lizenz:** <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">CC BY-NC-ND 4.0</a>

***

# Daten: Deskriptive Statistik und Visualisierung

---
## Importieren der notwendigen Python-Bibliotheken

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

%run src/setup.ipynb

---
## Importieren der Daten

Für den Import von tabellarischen Daten hilft die Bibliothek `pandas`. `pandas` ist eine leistungsstarke Python-Bibliothek, die speziell für die Datenanalyse und -manipulation entwickelt wurde. 

Sie bietet Datenstrukturen wie **Dataframes**, die den Umgang mit tabellarischen Daten erleichtern und effizienter gestalten. 

Zum Beispiel kann so eine `.csv`-Datei als **Dataframe** eingelesen werden. Andere Formate, die mit `pandas` eingelesen werden können sind z.B. `.xlsx`, `.hdf5` oder `.json`.

### Aufgabe 1: Passen Sie den Importierbefehl `pd.read_csv()` so an, dass der gewünschte Datensatz *penguins.csv* aus dem Ordner *data* in der Variable `df` gespeichert ist.

**Hinweis**: In einem Jupyter Notebook können Sie `./` verwenden, um zu dem aktuellen Verzeichnis zu gelangen, in dem das aktuelle Notebook liegt. `df` ist hierbei nur der Variablenname des Dataframes. Dieser ist grundsätzlich beliebig wählbar.

In [None]:
PATH =  # Setzen eines (relativen) Pfades zum Verzeichnis, das unseren Datensatz enthält

In [None]:
df = pd.read_csv() # Laden des Datensatzes

---
## Datensatz
Der Palmer-Pinguine Datensatz, mit dem Sie im nachfolgenden arbeiten werden, wurde von 2007 bis 2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program, einem Teil des US Long Term Ecological Research Network, erhoben. Er enthält Merkmale über 3 Pinguinarten, die auf drei Inseln des Pamer-Archipels in der Antarktis beobachtet wurden. 

<img src="./src/penguins.png" width="350">
(Artwork by @allison_horst)

Machen Sie sich mit dem Datensatz vertraut.

Die ersten ```n``` Zeilen des erzeugten Dataframes können in Jupyter Notebooks mit `df.head()` ausgegeben werden, dies ist für kleinere Datensätze (mit wenigen Spalten) sinnvoll und dient nur für einen ersten Überblick.

In [None]:
df.head(n=8)

Genauso können mit `df.tail()` die letzten `n` Zeilen des Dataframes ausgegeben werden.

In [None]:
df.tail(n=3)

Um nur die Namen der Spalten/Merkmale auszugeben, kann `df.columns` genutzt
werden.

In [None]:
df.columns

Mit `df.shape` kann die Dimension des **Dataframes** ausgegeben werden. Die Ausgabe ist ein Tuple (Anzahl_Zeilen, Anzahl_Spalten).

In [None]:
df.shape

### Aufgabe 2: Beantworten Sie die nachfolgenden Fragen zum Datensatz.

In [None]:
%run src/01_Fragen.ipynb

Weiterhin kann `df.info()` genutzt werden, um z.B. Informationen über die
einzelnen Spalten (`Column`), den Datentyp (`Dtype`) der Merkmalsausprägungen
und die Anzahl an Nicht-Null-Merkmalsausprägungen (`Non-Null Count`) innerhalb
einer Spalte zu erhalten.

In [None]:
df.info()

### Aufgabe 3: Beantworten Sie die nachfolgenden Fragen zum Datensatz.

In [None]:
%run src/02_Fragen.ipynb

---
### Zugriff auf Spalten des Dataframes

In `Pandas`  kann auf die Spalten eines **Dataframes** einfach über deren Namen zugegriffen werden. Dies geschieht, indem man den Spaltennamen in eckigen Klammern angibt, z.B. `df['Spaltenname']`. Diese Methode ermöglicht es gezielt, Daten zu filtern, zu analysieren und zu manipulieren.

In [None]:
df['Pinguinart'] # gesamte Spalte der Pinguinarten wird zurückgegeben

So kann auch auf mehrere Spalten gleichzeitig zugegriffen werden. 

**Achtung:** Die doppelten Klammern sind hier nötig, weil die inneren Klammern `['Pinguinart', 'Gewicht']` eine Python-Liste definieren, die angibt welche Spalten wir haben wollen, während die äußeren Klammern `df[ ]` den eigentlichen DataFrame-Zugriff darstellen.

In [None]:
df[['Pinguinart', 'Gewicht']] # mehrere Spalten werden zurückgegeben

---
### Filtern von Zeilen des Dataframes

So können die Daten auch gefiltert und z.B. Berechnungen durchgeführt werden. In diesem Code-Snippet wird der Dataframe `df`, der alle Pinguine enthält, gefiltert, um nur die Zeilen zu behalten, in denen die Spalte `Pinguinart` den Wert `Adelie` hat. Das Ergebnis ist ein neuer Dataframe `adelie_pinguine`, der nur die Daten/Zeilen der Pinguine der Art Adelie enthält.

1. `df['Pinguinart']`:
   Dies greift auf die Spalte `Pinguinart` des Dataframes `df` zu. Das Ergebnis ist eine Pandas Series, die alle Werte dieser Spalte enthält.
2. `df['Pinguinart'] == 'Adelie'`:
   Hier wird ein Vergleich durchgeführt, bei dem jeder Wert in der `Pinguinart`-Spalte mit dem String `Adelie` verglichen wird. Beachten Sie das `==` und überlegen Sie, warum `=` zu einem ungewünschten Ergebnis führt. 
3.  Das Ergebnis ist eine Pandas Series von booleschen Werten (`True` oder `False`), wobei `True` an den Positionen steht, an denen der Wert 'Adelie' ist, und `False` an allen anderen Positionen.

In [None]:
df['Pinguinart'] == 'Adelie'

3. `df[df['Pinguinart'] == 'Adelie']`:
Diese Zeile verwendet die boolesche Series, um den Dataframe aller Pinguine `df` zu filtern.
Nur die Zeilen, bei denen der entsprechende Wert in der booleschen Series True ist, werden beibehalten.
Das Ergebnis ist ein neuer Dataframe, der nur die Zeilen enthält, in denen die Pinguinart 'Adelie' ist. 
4. Der neue gefilterte Dataframe wird in der Variable `adelie_pinguine` gespeichert.

In [None]:
# Filtern von Daten 
adelie_pinguine = df[df['Pinguinart'] == 'Adelie'] # Filtern der Daten nach der Pinguinart 'Adelie'
print(adelie_pinguine.shape) # 139 Pinguine gehoeren zur Art 'Adelie' und sind in der Variable 'adelie_pinguine' gespeichert, shape gibt die Anzahl der Zeilen und Spalten des DataFrames an

In [None]:
# Filtern von Daten
schwere_pinguine = df[df['Gewicht'] > 4000] # Filtern der Daten nach Pinguinen, die mehr als 4000g wiegen
display(schwere_pinguine) # 166 Pinguine wiegen mehr als 4000g und sind in der Variable 'schwere_pinguine' gespeichert

---
### Berechnung auf einzelnen Spalten
Pandas bietet eine Vielzahl von Methoden, um statistische Berechnungen auf einzelne Spalten eines DataFrames durchzuführen, wie z.B. `df['spalte'].mean()`, `df['spalte'].sum()`, `df['spalte'].min()`, und `df['spalte'].max()`. 

Diese Funktionen ermöglichen es, den Mittelwert, die Summe, den Minimal- und Maximalwert einer Spalte zu ermitteln.

In [None]:
# Berechnungen von Daten
durchschnitts_gewicht = df['Gewicht'].mean() # Berechnung des Durchschnittsgewichts aller Pinguine
print(durchschnitts_gewicht) # Ausgabe des Durchschnittsgewichts

### Aufgabe 4: Lassen sie sich das Durchschnittsgewicht der Pinguine, die leichter als 4000g sind, ausgeben.

In [None]:
leichte_pinguine = 
leichte_pinguine_durchschnitts_gewicht = 
print(leichte_pinguine_durchschnitts_gewicht)

---
## Deskriptive Statistik
Um einen Eindruck vom Datensatz zu erhalten, sollen im Nachfolgenden die statistischen Kennzahlen berechnet und analysiert werden.
### Aufgabe 5: Was sind die statistischen Kennzahlen der einzelnen numerischen Spalten? Welche Bedeutung hat das 50% Percentil? Worauf könnte die relative hohe Differenz zwischen Mittelwert und dem 50% Percentil in der Spalte *Gewicht* hinweisen?
Mithilfe von ```df.describe()``` können mehrere statistische Werte der einzelnen Spalten/Merkmale des Datensatzes in ```df``` bestimmt werden. 

In [None]:
df.describe()

Antwort: 

---
## Boxplot
### Aufgabe 6: Die Verteilung aller numerischen Merkmale wird im Folgenden als Boxplot mithilfe der Methode `df.plot.box()` der pandas-Dataframes dargestellt. Ist die Darstellung für alle Merkmale in einer Abbildung sinnvoll? Weiterhin sind *Gewicht* und *Schnabellaenge* in einzelnen plots dargestellt. Erklären Sie Vor- und Nachteile der einzelnen Darstellung.

In [None]:
# Gesamtplot
plt.close('all')
df.plot.box(figsize=(10, 6))

In [None]:
# Einzelplots
plt.close('all')

df.plot.box(column='Schnabellaenge')
plt.show()

df.plot.box(column='Gewicht')
plt.show()

Antwort:

---
## Visualisierung
Da die statistischen Kennzahlen alleine nicht aussagekräftig sind, ist es immer sinnvoll, sich die Daten noch einmal visualisieren zu lassen. Zur Visualisierung wird hier zusätzlich das Paket `seaborn` (kurz: `sns`) genutzt. Visualisierungen sind ebenfalls mithilfe von `pandas`, `matplotlib`, usw. möglich.

Im folgenden ist das kategorische Merkmale `Insel` mithilfe der Funktion `countplot()` als Säulendiagramm dargestellt. Die `Schnabellaenge` ist mithilfe der Funktion `histplot()` von `seaborn` in einem Histogramm visualisiert. Hier ist die Anzahl der darzustellenden Balken auf 3 gesetzt (`bin=3`). 
### Aufgabe 7: Begründen Sie, ob die Wahl von `bin=3` für die `Schnabellaenge` sinnvoll ist. Ändern Sie die Anzahl und beobachten Sie die Auswirkung.


In [None]:
plt.close('all')

# Säulendiagramm der Insel
plt.figure()
sns.countplot(x=df['Insel'])
plt.show()

#Histogramm der Schnabellaenge
plt.figure()
sns.histplot(data=df['Schnabellaenge'], bins=3)
plt.show()

Antwort:

### Aufgabe 8: Stellen Sie im einem Histogramm dar, wie die Verteilung der `Pinguinart` von allen Pinguinen ist, die leichter als 4000g sind. Lassen sich Aussagen treffen?

**Hinweis**: Nutzen Sie die bereits verwendete Variable `leichte_pinguine`.

In [None]:
plt.close('all')
sns.histplot(data=)

Antwort:

Mithilfe von `sns.scatterplot()` lassen sich zwei Merkmale in einem Scatterplot darstellen. Mit `sns.histplot()` lassen sich zusätzlich auch gestapelte Histogramme darstellen. 
### Aufgabe 9: Vergleichen Sie beiden Visualisierungsmethoden. Welche ist besser geeignet und warum?

In [None]:
plt.close('all')

#Histogramm
plt.figure()
sns.histplot(data=df, stat='count', x='Pinguinart', hue='Insel', multiple='stack')#, ax=axes[0])
plt.show()

# Scatterplot
plt.figure()
sns.scatterplot(x=df['Pinguinart'], y=df['Insel'])
plt.show()

Antwort: 

### Aufgabe 10: Vervollständigen Sie den Code für den Scatterplot, sodass er auch die Schnabellänge in Abhängigkeit des Gewichts darstellt. Vergleichen Sie wieder die beiden Visualisierungsmethoden. Welche ist besser geeignet und warum?

In [None]:
plt.close('all')

plt.figure()
sns.histplot(data=df, stat='count', x='Schnabellaenge', hue='Gewicht', multiple='stack')
plt.show()

plt.figure()
sns.scatterplot(x=df[''], y=df[''])
plt.show()

Antwort:

Mithilfe von `sns.pairplot()` lassen sich alle numerischen Merkmale angegeben in `vars` in einer Scatterplot-Matrix vergleichend darstellen. Mit `diag_kind='hist'` wird eingestellt, dass auf der Diagnonalen die Histogramme der einzelnen Merkmale dargestellt werden. Zur weiteren Veranschaulichung werden die Pinguinarten farblich dargestellt (`hue=Pinguinart`). Können Sie schon Zusammenhänge zwischen den Merkmalen anhand der Scatterplot-Matrix erkennen?

In [None]:
plt.close('all')
sns.pairplot(df, vars=['Schnabellaenge','Schnabelhoehe','Flossenlaenge','Gewicht','VerhaeltnisIsotope13N_12N','VerhaeltnisIsotope15N_14N'], hue='Pinguinart', diag_kind='hist')

### Aufgabe 11: Beantworten Sie die nachfolgenden Fragen zu den Zusammenhängen zwischen den Merkmalen.

In [None]:
%run src/03_Fragen.ipynb

---
## Korrelation
Um die in der Scatterplot-Matrix erahnbaren Zusammenhänge zwischen den Merkmalen weiter zu untersuchen können Korrelationen untersucht werden. Sie können quantitativ auf einen Zusammenhang zwischen Merkmalen hinweisen.

### Aufgabe 12: Untersuchen Sie den Datensatz auf Korrelationen zwischen den einzelnen Merkmalen mithilfe der `pandas`-Methode `df.corr()`. 
Entscheiden Sie auch, welchen Korrelationskoeffizienten Sie berechnet haben wollen (`method="pearson"`/`method="spearman"`).

Schauen Sie für genauere Informationen gern in die Dokumentation von [corr](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html).


**Achtung**: Korrelationen zwischen den Merkmalen können mithilfe von `df.corr()` nur zwischen numerischen Merkmalen berechnet werden, daher muss `numeric_only=True` gesetzt werden. 

In [None]:
korrelationen = 
display(korrelationen)

Mithilfe der Funktion `heatmap()` von seaborn lassen sich die Korrelationen in einer Korrelationsmatrix darstellen.

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(korrelationen, cmap="Blues", annot=True, fmt=".2f")
plt.title("Korrelation zwischen den Merkmalen", size=16)
plt.show()

### Aufgabe 13: Welche Merkmale haben einen besonders starken Zusammenhang. Welche haben einen schwachen Zusammenhang? Sind diese Korrelationen Ihrer Meinung nach nachvollziehbar/begründbar? Deckt sich das mit den Erkenntnissen aus der Scatterplot-Matrix? Betrachten Sie den Korrelationskoeffizienten zwischen `Flossenlaenge` und `Schnabelhoehe`. Wie verhält sich dieser im Vergleich zu dem Scatterplot, den Sie mit `sns.pairplot()` erstellt haben? Stellt der Korrelationskoeffizient ein vollständiges Bild des Zusammenhangs dar?

Antwort:

---
## Anwendung auf einem neuen Datensatz
Wenden Sie nun die vorgestellten Methoden eigenständig auf einem neuen Datensatz an. Bearbeiten Sie dafür die nachfolgenden Aufgaben.

### Aufgabe 14: Laden Sie den neuen Datensatz `fahrradverleih.csv` und speichern ihn in einem neuen Dataframe.

### Aufgabe 15: Was sind für Informationen/Merkmale in dem Datensatz enthalten. Für welche Fragstellung(en) könnte dieser Datensatz später genutzt werden?

Antwort:

### Aufgabe 16: Was haben die Spalten für Datentypen?

### Aufgabe 17: Wie viele Zeilen hat der Datensatz?

### Aufgabe 18: Lassen Sie sich die Durchschnittstemperatur für Oktober ausgeben.

### Aufgabe 19: Lassen Sie sich die statistischen Kennzahlen für den Datensatz ausgeben. Vergleichen Sie die `min`/`max`-Werte der gefühlten und gemessenen Temperatur.

### Aufgabe 20: Visualisieren Sie die gefühlte und die gemessene Temperatur in einem oder zwei einzelnen Boxplots. Wählen Sie die Methode, die sie am geeignetsten finden und begründen Sie.

### Bonusaufgabe 21: Jemand möchte die Daten zweckentfremden und schauen, welche Monate die besten sind für einen Urlaub. Gute Monate sind für die Person Monate ohne Schnee/Gewitter/Regen. Ein paar Wolken und Nebel sind toleriert. Erstellen Sie für diese Person eine Visualisierung, wo diese Information schnell abgelesen werden können (z.B. gestapeltes Histogramm).

### Bonusaufgabe 22: Jemand anderes behauptet, er leiht sich nur noch Fahrräder, wenn es kalt ist, da hier die Nachfrage nicht so hoch ist, bzw. nicht so viele Fahrräder verliehen werden und sie dann nicht so lange anstehen muss. Welcher statistische Parameter könnte untersucht werden, um die Behauptung zu überprüfen? Lassen Sie diesen berechnen und erstellen Sie auch einen Scatterplot. 


---

<a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/"><img alt="Creative Commons Lizenzvertrag" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Die Übungsserie begleitend zum AI4ALL-Kurs</span> der <span xmlns:cc="http://creativecommons.org/ns#" property="cc:attributionName">EAH Jena</span> ist lizenziert unter einer <a rel="license" href="http://creativecommons.org/licenses/by-nc-nd/4.0/">Creative Commons Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 International Lizenz</a>.

Der AI4ALL-Kurs entsteht im Rahmen des Projekts MoVeKI2EAH. Das Projekt MoVeKI2EAH wird durch das BMBF (Bundesministerium für Bildung und Forschung) und den Freistaat Thüringen im Rahmen der Bund-Länder-Initiative zur Förderung von Künstlicher Intelligenz in der Hochschulbildung gefördert (12/2021 bis 11/2025, Föderkennzeichen 16DHBKI081).