# **Statistik mit Python**

Herzlich willkommen, liebe Datenanalyse-Begeisterte! 🎉
Im letzten Modul habt ihr bereits das Jupyter Notebook kennengelernt.
In den Code-Zellen könnt ihr, wie ihr schon wisst, Python-Code ausführen, bearbeiten und anpassen.

**Schritt 1: Bibliotheken importieren**

Wir beginnen damit, die wichtigsten Bibliotheken zu laden.
Allen voran pandas – der ultimative Alleskönner für Datenanalyse in Python.
Mit pandas könnt ihr tabellarische Daten einlesen, bereinigen und statistisch auswerten.
Dafür importieren wir diese Bibliothek und geben ihr den Kurz-Namen pd:



In [None]:
import pandas as pd

**Schritt 2: Datendatz einlesen**

Nun lesen wir mit der Funktion .read_excel() aus der pandas Bibliothek unseren Excel-Datensatz ein und speichern diesen unter dem Namen sauberwald_df ab. 'df' steht dabei für 'DataFrame' : das ist der Name der Tabellenobjekte, mit denen die pandas Bibliothek arbeitet.

In [None]:
sauberwald_df = pd.read_excel("data/08_SaubereWaelder_Datensatz.xlsx")

Jetzt wollen wir uns anschauen, wie dieses DataFrame Objekt aussieht. Dafür können wir die 'print' Funktion nutzen, oder wir können einfach den Namen der Variable ohne eine Zuweisung in eine Code-Zelle schreiben:

In [None]:
sauberwald_df

Wie ihr seht, habt ihr jetzt in der Variable 'sauberwald_df' ein Tabellenobjekt gespeichert. Die Tabelle hat die Spalten Teilnehmer, Wissen, Spende, Alter und Geschlecht und 35 Zeilen (nummeriert von 0 bis 34). Wenn ihr nur eine der Spalten ausgeben lassen wollt, könnt ihr das mit eckigen Klammern und dem Namen der Spalte in Anführungszeichen tun.

In [None]:
# Anzeige der Spalte "Geschlecht"
sauberwald_df["Geschlecht"]

**Schritt 3: Lagemaße berechnen**

Nun könnt ihr euch austoben und die Code-Schnipseln aus den Folien hier ausprobieren!

So berechnet ihr den Mittelwert der Variable "Wissen":

In [None]:
# Mittelwert Wissen:
sauberwald_df["Wissen"].mean()

👉 Als Ausgabe bekommt ihr hier np.float64(5.285714285714286).
Das ist kein Fehler, sondern nur die interne Zahlendarstellung von Python: Sie zeigt den Datentyp des Rückgabewerts "np.float64" und den eigentlichen Mittelwert "(5.285714285714286)" in Klammern  an.

Für eine schönere und besser lesbare Ausgabe könnt ihr den Rückgabewert der Funktion in einer Variable abspeichern und einfach mit print() ausgeben lassen:

In [None]:
mw_wissen = sauberwald_df["Wissen"].mean()
print(mw_wissen)

Für noch bessere Lesbarkeit könnt ihr optional die Ausgabe auf zwei Nachkommastellen mit round() abrunden:

In [None]:
print(round(mw_wissen, 2))

So berechnet ihr den Median und den Modus der Variable "Wissen":

In [None]:
# Median Wissen:
sauberwald_df["Wissen"].median()

In [None]:
# Mode Wissen
sauberwald_df["Wissen"].mode()

👉 Das ist eine kleine Tabelle mit einem Index links (0) und dem Wert des Modus rechts (4). Wenn es mehrere Modi gibt (wenn zwei Werte gleich häufig vorkommen), gibt mode() mehrere Werte zurück.

💪 Jetzt seid ihr an der Reihe! 💪


*   Berechnet Mittelwert, Median und Modus für die Variable „Spende“ und/oder „Alter“!

*   Welches Geschlecht kommt im Datensatz am häufigsten vor?

In [None]:
# Mittelwert:


In [None]:
# Median:


In [None]:
# Modus:


In [None]:
# Das häufigste Geschlecht:


**Schritt 4: Streuungsmaße berechnen**

Varianz der Variable "Wissen":

In [None]:
sauberwald_df["Wissen"].var()

Standardabweichung der Variable "Wissen":

In [None]:
sauberwald_df["Wissen"].std() # std steht für Standard Deviation (en für Standardabweichung)

👉 Das bedeutet also, dass das Wissen über die Folgen der Waldverschmutzung sich im Durchschnitt um +-2.45 Punkte vom Mittelwert (≈ 5 Punkte) abweicht.

Diese Verteilung kann man nun durch ein Histogramm veranschaulichen:

In [None]:
sauberwald_df["Wissen"].plot(kind='hist')


Oder mit einem Boxplot grafisch darstellen:

In [None]:
sauberwald_df["Wissen"].plot(kind="box")

Hier seht ihr, dass es keine Ausreißer gibt (keine Punkte außerhalb der Boxplot-Whiskers), und dass der Median bei 5.0 liegt.

💪 Jetzt seid ihr an der Reihe! 💪


*   Wie groß sind Varianz und Standardabweichung für „Alter“?

*   Wie sieht die Verteilung des Alters der Teilnehmenden aus? Erstellt ein Histogramm oder Boxplot: Ist die Variable „Alter“ normalverteilt? Gibt es Ausreißer?

In [None]:
# Varianz Alter


In [None]:
# Standardabweichung Alter


In [None]:
# Histogramm oder Boxplot Spende


Noch eine Möglichkeit: Mit describe()-Funktion können wir einige deskriptive Statistiken wie Mittelwert (mean), Standardabweichung (std) sowie maximalen und minimalen Wert der Variable für alle numerischen Variablen uns auf einen Blick ausgeben lassen.

In [None]:
sauberwald_df.describe()

**Schritt 5: Korrellation berechnen**

Nun berechen wir, wie in den Folien, die Pearson-Korrelation *r* zwischen dem Wissen über die Folgen der Waldverschmutzung und dem Alter. Wie würdet ihr den Korrelationskoeffizient (die Richtung und die Stärke) hier interpretieren?

In [None]:
#Korrelation zwischen Alter und Wissen
print(sauberwald_df["Alter"].corr(sauberwald_df["Wissen"]))

Mit so einem Streudiagramm könnt ihr übrigens veranschaulichen, wie zwei numerische Variablen miteinander zusammenhängen:

In [None]:

sauberwald_df.plot.scatter(x="Alter", y="Wissen")


💪 Jetzt seid ihr an der Reihe! 💪


*   Berechnet den Pearson-Korrelationskoeffizienten (r) für die Variablen „Wissen“ und „Spende“ im Datensatz.

*   Interpretiert die Stärke und Richtung der Korrelation (z. B. mit einem Satz: „Je mehr …, desto …“).

*   Kann man somit sagen, dass mehr Wissen zu höheren Spenden führt?

In [None]:
# Korrelation zwischen Wissen und Spendehöhe
