# Anforderung laut Syllabus

Understand and describe measures of central tendency and spread.

- statistische Kennzahlen
- werden verwendet, um zentrale Tendenzen und die Streuung einer Datenverteilung zu beschreiben
- diese Kennzahlen helfen dabei, ein besseres Verständnis über den typischen Wert (Mitte) und die Variabilität (Verteilung) der Daten zu erhalten

In [4]:
# Beispieldatensatz

import numpy as np
import pandas as pd

# Beispiel-Daten
data = {
    'Alter': [23, 45, 31, 35, 50, 42, 29, 37, 33, 28],
    'Einkommen': [30000, 45000, 32000, 40000, 60000, 52000, 31000, 47000, 35000, 38000],
    'Arbeitsstunden_pro_Woche': [40, 50, 40, 38, 60, 55, 40, 48, 42, 45]
}

df = pd.DataFrame(data)
df.describe()

Unnamed: 0,Alter,Einkommen,Arbeitsstunden_pro_Woche
count,10.0,10.0,10.0
mean,35.3,41000.0,45.8
std,8.340663,9899.494937,7.345445
min,23.0,30000.0,38.0
25%,29.5,32750.0,40.0
50%,34.0,39000.0,43.5
75%,40.75,46500.0,49.5
max,50.0,60000.0,60.0


Interpretation der Ergebnisse

    Anzahl (count): Anzahl der Werte  
    Mittelwert (mean): Der durchschnittliche Wert jeder Spalte.
    Standardabweichung (std): Wie stark die Datenpunkte vom Mittelwert abweichen.
    Minimum (min): Der kleinste Wert jeder Spalte.
    25% (1. Quartil): 25% der Werte sind kleiner als dieser Wert.
    Median (50%): Der mittlere Wert der Daten. 50% der Werte liegen darunter, 50% darüber.
    Maximum (max): Der größte Wert jeder Spalte.



---
<a id="masse_der_zentralen_tendenz"></a>
# Maße der zentralen Tendenz 
(Measures of Central Tendency)  

Diese Kennzahlen geben an, wo sich der "Mittelwert" der Daten befindet, also welcher Wert am repräsentativsten ist:

## 1. Mittelwert (Mean)
- Durchschnittswert aller Datenpunkte
- berechnet durch: Summe aller Werte, geteilt durch Anzahl der Werte

In [6]:
mittelwert = df.mean()
mittelwert

Alter                          35.3
Einkommen                   41000.0
Arbeitsstunden_pro_Woche       45.8
dtype: float64

## 2. Median (= 2. Quartil)
- der mittlere Wert, wenn die Daten der Größe nach sortiert werden
- teilt den Datensatz in 2 gleichgroße Hälften:
    - 50% der Daten < Median
    - 50% der Daten > Median
- bei ungerader Anzahl von Datenpunkten ist es der mittlere Wert
- bei gerader Anzahl von Datenpunkten das arithmetische Mittel der beiden mittleren Werte

In [10]:
median = df.median()
median

# alternativ auch
median = df.quantile(0.5)
median

Alter                          34.0
Einkommen                   39000.0
Arbeitsstunden_pro_Woche       43.5
dtype: float64

## 3. Modus (Mode)
- der am häufigsten vorkommende Wert in einem Datensatz
- es kann auch mehrere Modi geben, wenn mehrere Werte gleich oft auftreten

## 4. Quartile

- 1. Quartil:
     - 25% der Daten < 1. Quartil
     - 75% der Daten > 1. Quartil
- 2. Quartil:  
      -> Median
- 3. Quartil:
     - 75% der Daten < 3. Quartil
     - 25% der Daten > 3. Quartil

In [19]:
# z.B. 3. Quartil
q3 = df.quantile(0.75)
q3

Alter                          40.75
Einkommen                   46500.00
Arbeitsstunden_pro_Woche       49.50
Name: 0.75, dtype: float64

---
<a id="masse_der_streuung"></a>
# Maße der Streuung
(masures of Spread)  

- zeigen, wie stark die Datenwerte um den Mittelwert variieren
  
## 1. Spannweite (Range)
- Differenz zwischen Minimum und Maximum

In [11]:
spannweite = df.max()-df.min()
spannweite

Alter                          27
Einkommen                   30000
Arbeitsstunden_pro_Woche       22
dtype: int64

## 2. Varianz
- Maß für die durchschnittliche quadratische Abweichung der Werte vom Mittelwert
- gibt an, wie stark die Werte um den Mittelwert streuen

## 3. Standardabweichung (Standard Deviation)
- Wurzel aus der Varianz
- gibt an, wie weit die Datenwerte im Durchschnitt vom Mittelwert entfernt sind

siehe Datei 'Grundbegriffe'

In [18]:
std = df.std()
std

Alter                          8.340663
Einkommen                   9899.494937
Arbeitsstunden_pro_Woche       7.345445
dtype: float64

## 4. Interquartilsabstand (Interquartile Range, IQR)
- Differenz zwischen dem 75. und dem 25. Perzentil (Q3 - Q1)
- zeigt die Streuung der mittleren 50 % der Datenpunkte
- ist weniger anfällig für Ausreißer