# Einführung in die Statistik

## Grundlagen der Statistik
- **Deskriptive Statistik**  
  → Beschreibt, zusammenfasst und zeigt die Daten (mean, median, sd, etc.)
- **Inferenzstatistik**  
  → Zieht Schlüsse auf die Grundgesamtheit (Hypothesentests, Konfidenzintervalle, etc.)


In [19]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Beispiel-Datensatz: Monatliche Mietpreise in einer Stadt (mit einem Ausreißer)
data = [780, 820, 850, 900, 920, 950, 980, 1000, 1050, 1100,
        1150, 1200, 1250, 1300, 1400, 1500, 1600, 1800, 2000, 4500]  # 4500 = Ausreißer

df = pd.DataFrame({'Miete': data})

# describe() gibt eine schnelle Übersicht
print(df['Miete'].describe())

# Einzelne Kennzahlen
print("\nMittelwert (Mean):",     df['Miete'].mean())
print("Median:",                df['Miete'].median())
print("Modus:",                 df['Miete'].mode()[0])
print("Standardabweichung:",    df['Miete'].std())
print("Varianz:",               df['Miete'].var())
print("Minimum:",               df['Miete'].min())
print("Maximum:",               df['Miete'].max())
print("Spannweite (Range):",    df['Miete'].max() - df['Miete'].min())

count      20.000000
mean     1352.500000
std       811.916997
min       780.000000
25%       942.500000
50%      1125.000000
75%      1425.000000
max      4500.000000
Name: Miete, dtype: float64

Mittelwert (Mean): 1352.5
Median: 1125.0
Modus: 780
Standardabweichung: 811.9169973133435
Varianz: 659209.2105263158
Minimum: 780
Maximum: 4500
Spannweite (Range): 3720


### Datentypen (wichtig für die Wahl der Statistik!)
- Qualitative (kategorial): nominal, ordinal  
- Quantitative (numerisch): diskret, stetig

### Lagemaße (Measures of Center)
| Maß          | Definition                                      | Vorteile                          | Nachteile                          | Wann verwenden?                  |
|--------------|--------------------------------------------------|------------------------------------|-------------------------------------|----------------------------------|
| **Mittelwert (Mean)** | arithmetisches Mittel aller Werte               | berücksichtigt jeden Wert          | sehr anfällig für Ausreißer         | symmetrische, ungestörte Daten   |
| **Median**   | Wert in der Mitte (50%-Quantil)                 | robust gegen Ausreißer             | ignoriert die Größe extremer Werte  | schiefe Verteilungen, Ausreißer  |
| **Modus**    | häufigster Wert                                 | einzig sinnvoll bei kategor. Daten | kann mehrere oder keinen Modus haben| nominale Daten, Multimodalität   |


In [20]:
mean_val   = df['Miete'].mean()
median_val = df['Miete'].median()
mode_val   = df['Miete'].mode()[0]   # Modus kann mehrere Werte haben → [0] nimmt den ersten

print(f"Mittelwert (Mean):   {mean_val:.1f} €")
print(f"Median:              {median_val:.1f} €")
print(f"Modus:               {mode_val:.1f} €")

Mittelwert (Mean):   1352.5 €
Median:              1125.0 €
Modus:               780.0 €


### Streuungsmaße (Measures of Spread)
- **Varianz**  
  → Durchschnitt der quadrierten Abweichungen vom Mittelwert  
  → σ² (Population) vs. s² (Stichprobe)
- **Standardabweichung**  
  → Wurzel der Varianz → gleiche Einheit wie die Daten  
  → Interpretierbar als „typische Abweichung vom Mittelwert“
- **Spannweite (Range)**  
  → Max – Min (sehr anfällig für Ausreißer)
- **Interquartilsabstand (IQR)**  
  → Q3 – Q1 → robustes Streuungsmaß


In [21]:
print(f"Standardabweichung:  {df['Miete'].std():.1f} €")
print(f"Varianz:             {df['Miete'].var():.1f} €²")
print(f"Spannweite:          {df['Miete'].max() - df['Miete'].min():.1f} €")

Standardabweichung:  811.9 €
Varianz:             659209.2 €²
Spannweite:          3720.0 €


### Quantile / Perzentile
- **Quartile**: Q1 (25%), Q2 = Median (50%), Q3 (75%)
- **Quantile** allgemein: p%-Quantil teilt die Daten in p% unten und (100-p)% oben
- **Quintile**: Fünftel (20%-Schritte)


In [22]:
q1 = df['Miete'].quantile(0.25)
q2 = df['Miete'].quantile(0.50)  # = Median
q3 = df['Miete'].quantile(0.75)
iqr = q3 - q1

print(f"Q1 (25%): {q1:.1f} €")
print(f"Median (Q2): {q2:.1f} €")
print(f"Q3 (75%): {q3:.1f} €")
print(f"IQR: {iqr:.1f} €")

Q1 (25%): 942.5 €
Median (Q2): 1125.0 €
Q3 (75%): 1425.0 €
IQR: 482.5 €


### Ausreißererkennung mit IQR-Methode
Klassische Regel:  
Ein Wert ist ein **Ausreißer**, wenn er außerhalb folgender Grenzen liegt:

In [23]:
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

print(f"Untere Grenze: {lower_bound:.0f} €")
print(f"Obere Grenze:  {upper_bound:.0f} €")

# Ausreißer finden
outliers = df[(df['Miete'] < lower_bound) | (df['Miete'] > upper_bound)]
print("\nAusreißer:")
print(outliers)

Untere Grenze: 219 €
Obere Grenze:  2149 €

Ausreißer:
    Miete
19   4500


## Random Numbers and Probability  

### Binomialverteilung
#### Erwartungswert und Varianz

### Normalverteilung

### Gleichverteilung


np.random.seed(42)  # für Reproduzierbarkeit