# Import & Datensatz laden
Hier geht es um die grundlegenden Methoden der deskriptiven Statistik und deren Anwendung auf reale Daten. Als Datengrundlage wird das `penguins`-Dataset genutzt. Es enthält biologische Messdaten verschiedener Pinguinarten, wie:

- Spezies (`species`)
- Insel (`island`)
- Schnabellänge (`bill_length_mm`)
- Schnabeltiefe (`bill_depth_mm`)
- Flossenlänge (`flipper_length_mm`)
- Körpergewicht (`body_mass_g`)
- Geschlecht (`sex`)
- Jahr (`year`)

Zuerst wird der Datensatz importiert.


In [None]:
%pip install pandas==2.2.2 seaborn==0.13.2 numpy==2.0.2

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Penguins-Dataset laden
def load_penguins():
    try:
        return sns.load_dataset("penguins")
    except Exception:
        path = "dataset/penguins.csv"
        return pd.read_csv(path)

df = load_penguins()

df.head()

## 1. Aufgabe: Definition numerischer Spalten
Identifizieren Sie die numerischen Variablen im penguins-Dataset und bereiten Sie diese für die statistischen Analysen vor.

**Aufgaben:**

1. Sehen Sie sich die ersten Zeilen des Datensatzes an.
2. Überlegen Sie, welche Spalten numerisch sind und sich für statistische Berechnungen eignen.
3. Erstellen Sie eine Python-Liste mit den numerischen Spaltennamen.
4. Speichern Sie diese Liste in einer Variable numerische_spalten.
5. Erstellen Sie anschließend einen DataFrame df_num, der nur diese Spalten enthält.
<br/>

---

<br/>
<details>
<summary>Tipp</summary>

- Im Penguins-Dataset bieten sich besonders die Spalten `bill_length_mm`, `bill_depth_mm`, `flipper_length_mm`, `body_mass_g` an.
</details>
<br/>
<details>
<summary>Lösung</summary>

```python
numerische_spalten = [
    "bill_length_mm",
    "bill_depth_mm",
    "flipper_length_mm",
    "body_mass_g"
]

df_num = df[numerische_spalten]
df_num.head()
```
</details>
<br/>

In [None]:
numerische_spalten = [""]

df_num = df[]

df_num.head()

# 2. Aufgabe Berechnung statistischer Lagemaße
Berechnen und interpretieren Sie grundlegende deskriptive Maße.

**Aufgaben:**

Berechnen Sie für alle ausgewählten numerischen Variablen:
1. Mittelwerte (Mean)
2. Medianwerte
3. Varianzen
4. Standardabweichungen
5. Interquartilsabstand (IQR)

Analysieren Sie anschließend:
- Welche Variablen weisen große Streuung auf?
- Wo liegen Median und Mittelwert nahe beieinander (≈ symmetrische Verteilung)?
- Wo unterscheiden sie sich deutlich (→ mögliche Schiefe)?
<br/>

---

<br/>
<details>
<summary>Tipp</summary>

- Verwenden Sie Pandas-Methoden wie `.mean()`, `.median()`, `.var()`, `.std()`, `.quantile()`.
</details>
<br/>
<details>
<summary>Lösung</summary>

```python
mean_values = df_num.mean()
median_values = df_num.median()
variance_values = df_num.var()
std_values = df_num.std()
iqr_values = df_num.quantile(0.75) - df_num.quantile(0.25)
```
</details>
<br/>

**Mean:**

In [None]:
mean_values = df_num.
print("Mean:\n", mean_values)

**Median:**

In [None]:
median_values = df_num.
print("\nMedian:\n", median_values)

**Varianz:**

In [None]:
variance_values = df_num.
print("\nVarianz:\n", variance_values)

**Standardabweichung:**

In [None]:
std_values = df_num.
print("\nStandardabweichung:\n", std_values)

**Interquartilsabstand:**

In [None]:
iqr_values = df_num.quantile(0.75) - df_num.
print("\nIQR:\n", iqr_values)

## 3. Berechnung Korrelationen
Zusammenhänge zwischen Messgrößen der Pinguine erkennen.

**Aufgaben:**
1. Berechnen Sie die Pearson-Korrelationen aller numerischen Variablen.
2. Berechnen Sie außerdem die Spearman-Korrelationen.

Vergleichen Sie die beiden Korrelationsarten:
- Wo sind die Werte ähnlich?
- Wo unterscheiden sie sich?
- Wie interpretieren Sie diese Unterschiede?
<br/>

---

<br/>
<details>
<summary>Tipp</summary>

- Nutzung von:
```python
df_num.corr(method="pearson")
df_num.corr(method="spearman")
```
</details>
<br/>

**Pearson-Korrelation:**

In [None]:
pearson_corr = df_num.corr(method="")
print("\nPearson-Korrelation:\n", pearson_corr)

**Spearmen-Korrelation:**

In [None]:
spearman_corr = df_num.
print("\nSpearman-Korrelation:\n", spearman_corr)

# 4. Grafische Darstellung der Ergebnisse
Statistische Zusammenhänge visuell darstellen und interpretieren.

**Aufgaben:**
#### Teil A - Heatmap
Erstellen Sie eine Heatmap, die die Pearson-Korrelationen darstellt.
- Welche Messgrößen korrelieren besonders stark?
- Sind die Zusammenhänge positiv oder negativ?

#### Teil B - Scatterplot
Wählen Sie zwei numerische Variablen (z. B. Schnabellänge und Körpergewicht) und erstellen Sie einen Scatterplot.
- Lässt sich ein Trend erkennen?
- Ist der Zusammenhang linear?
- Gibt es Ausreißer?

**Zusatz:**
Fügen Sie eine Regressionslinie mit hinzu.
<br/>

---

<br/>
<details>
<summary>Lösung</summary>

```python
# Heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(pearson_corr, annot=True, cmap="viridis")
plt.title("Heatmap der Pearson-Korrelation")
plt.show()

# Scatterplot
x_var = "bill_length_mm"
y_var = "body_mass_g"

plt.figure(figsize=(6, 5))
sns.scatterplot(data=df, x=x_var, y=y_var)
plt.title(f"Scatterplot: {x_var} vs. {y_var}")
plt.show()
```
</details>
<br/>
<details>
<summary>Tipp Zusatz</summary>

- Eine Regressionslinie lässt sich mit `sns.regplot()` darstellen.
</details>
<br/>
<details>
<summary>Lösung Zusatz</summary>

```python
sns.regplot(data=df, x=x_var, y=y_var, ci=None)
```
</details>
<br/>

In [None]:
# Heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(, annot=True, cmap="viridis")
plt.title("Heatmap der Pearson-Korrelation")
plt.show()


# Scatterplot
x_var =
y_var =

plt.figure(figsize=(6, 5))
sns.scatterplot(data=, x=x_var, y=y_var)
plt.title(f"Scatterplot: {x_var} vs. {y_var}")
plt.show()