# Kapitel 0: Einf√ºhrung in die Statistik

> **Leitfrage:** Wie kommt man von den ‚Äûrohen Zahlen" zu begr√ºndeten Aussagen und Entscheidungen?

> **Lernziele:**  
> (i) grundlegende Begriffe der Statistik sauber verwenden,  
> (ii) statistische Fragestellungen pr√§zise formulieren und  
> (iii) den Unterschied zwischen Deskription und Induktion erkl√§ren.

---

**Autor:** Karsten Ke√üler  
**Zielgruppe:** Studierende der Informatik

In [1]:
# Ben√∂tigte Bibliotheken importieren
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter
import random

# Konfiguration f√ºr bessere Darstellung
plt.rcParams['figure.figsize'] = [10, 6]
plt.rcParams['font.size'] = 12
np.random.seed(42)  # F√ºr Reproduzierbarkeit

# Pandas-Ausgabe konfigurieren
pd.set_option('display.max_columns', 10)
pd.set_option('display.width', 100)

ModuleNotFoundError: No module named 'pandas'

---

## Was bedeutet ‚ÄûStatistik"?

Der Begriff **Statistik** wird in der Praxis in drei typischen Bedeutungen verwendet:

### 1. Statistik als Datenmaterial

Ver√∂ffentlichte Zahlen, Tabellen oder Kennzahlen  
(z. B. Umsatzstatistik, Arbeitslosenstatistik, Wahlstatistik).  

‚Üí Statistik als **Ergebnis** einer Datenerhebung.

**üíª Informatik-Beispiele:**
- Server-Uptime-Statistiken
- GitHub-Repository-Statistiken (Stars, Forks, Commits)
- App-Store-Bewertungsstatistiken
- Website-Traffic-Reports

In [None]:
# Beispiel: Statistik als Datenmaterial - Server-Uptime-Report
server_stats = {
    'Server': ['web-01', 'web-02', 'db-01', 'cache-01', 'api-01'],
    'Uptime (%)': [99.95, 99.87, 99.99, 99.92, 99.78],
    'Requests/Tag': [1_250_000, 980_000, 450_000, 2_100_000, 750_000],
    'Avg Response (ms)': [45, 52, 12, 3, 89],
    'Errors/Tag': [125, 187, 5, 42, 215]
}

df_stats = pd.DataFrame(server_stats)
print("=" * 60)
print("SERVER-STATISTIK (Beispiel f√ºr 'Statistik als Datenmaterial')")
print("=" * 60)
print(df_stats.to_string(index=False))
print("\n‚Üí Dies sind die 'rohen Zahlen' - aber was bedeuten sie?")

### 2. Statistik als Methode

Verfahren zur **Erhebung**, **Aufbereitung**, **Darstellung** und **Analyse** von Daten:  
H√§ufigkeitstabellen, Diagramme, Mittelwert/Varianz, Modelle, Tests.

**üíª Informatik-Beispiele:**
- Log-Analyse und Aggregation
- A/B-Testing-Frameworks
- Performance-Monitoring-Tools (Grafana, Prometheus)
- Machine-Learning-Evaluationsmetriken

In [None]:
# Beispiel: Statistik als Methode - Log-Analyse
np.random.seed(42)

# Simulierte Response-Zeiten
response_times = np.random.lognormal(mean=4.0, sigma=0.5, size=1000)

# Statistische Methoden anwenden
print("=" * 60)
print("LOG-ANALYSE (Beispiel f√ºr 'Statistik als Methode')")
print("=" * 60)
print(f"\nAnzahl Messungen: {len(response_times)}")
print(f"Mittelwert: {np.mean(response_times):.2f} ms")
print(f"Median: {np.median(response_times):.2f} ms")
print(f"Standardabweichung: {np.std(response_times):.2f} ms")
print(f"95%-Percentil: {np.percentile(response_times, 95):.2f} ms")

# Visualisierung
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

ax1.hist(response_times, bins=40, edgecolor='black', alpha=0.7)
ax1.axvline(np.mean(response_times), color='red', linestyle='--', label=f'Mittelwert: {np.mean(response_times):.1f}')
ax1.axvline(np.median(response_times), color='green', linestyle='--', label=f'Median: {np.median(response_times):.1f}')
ax1.set_xlabel('Response Time (ms)')
ax1.set_ylabel('H√§ufigkeit')
ax1.set_title('Histogramm der Response-Zeiten')
ax1.legend()
ax1.grid(alpha=0.3)

ax2.boxplot(response_times, vert=True)
ax2.set_ylabel('Response Time (ms)')
ax2.set_title('Boxplot')
ax2.grid(alpha=0.3)

plt.suptitle('Statistik als Methode: Datenaufbereitung und Visualisierung', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### 3. Statistik als Wissenschaft

Mathematische Disziplin, die Modelle f√ºr **Zufall und Unsicherheit** entwickelt und untersucht, wie zuverl√§ssig Schlussfolgerungen aus Stichproben sind.

**üíª Informatik-Beispiele:**
- Wahrscheinlichkeitstheorie f√ºr Kryptographie
- Stochastische Prozesse f√ºr Netzwerkanalyse
- Bayessche Inferenz f√ºr Machine Learning
- Statistische Lerntheorie

> **üìå Merksatz:**  
> In dieser Vorlesung steht Statistik vor allem als **Methode** und **Wissenschaft** im Vordergrund.

---

## Warum brauchen wir Statistik?

In vielen realen Situationen sind Ergebnisse **nicht deterministisch** und Daten **unvollst√§ndig**:

| Bereich | Unsicherheit / Unvollst√§ndigkeit |
|---------|----------------------------------|
| Qualit√§tskontrolle | Nicht jedes Teil wird gepr√ºft |
| Umfragen | Nicht alle Personen werden befragt |
| IT-Systeme | Antwortzeiten und Ausfallraten schwanken |
| Wirtschaft | Nachfrage, Preise und Lieferzeiten variieren |

### üíª Warum Informatiker Statistik brauchen

| Anwendungsbereich | Statistische Fragen |
|-------------------|---------------------|
| **Software-Testing** | Wie viele Tests reichen, um Qualit√§t sicherzustellen? |
| **Performance-Optimierung** | Ist die neue Version wirklich schneller? |
| **Machine Learning** | Wie gut generalisiert mein Modell? |
| **Security** | Ist dieses Login-Verhalten anomal? |
| **Kapazit√§tsplanung** | Wie viele Server brauchen wir f√ºr Spitzenlasten? |
| **A/B-Testing** | Hat die √Ñnderung einen signifikanten Effekt? |
| **Datenqualit√§t** | Wie gehen wir mit fehlenden/fehlerhaften Daten um? |

In [None]:
# Beispiel: Warum wir Statistik brauchen - Variabilit√§t in IT-Systemen
np.random.seed(42)

# Simuliere 5 identische Messungen derselben Operation
print("=" * 60)
print("WARUM STATISTIK? - Variabilit√§t in IT-Systemen")
print("=" * 60)
print("\nDieselbe Datenbankabfrage, 5x ausgef√ºhrt:")

query_times = [12.3, 14.1, 11.8, 45.2, 13.5]  # ms
for i, t in enumerate(query_times, 1):
    print(f"  Messung {i}: {t} ms")

print(f"\nMittelwert: {np.mean(query_times):.1f} ms")
print(f"Median: {np.median(query_times):.1f} ms")
print(f"\n‚Üí Messung 4 ist ein Ausrei√üer (evtl. Cache-Miss oder GC-Pause)")
print("‚Üí Der Median (13.5 ms) ist repr√§sentativer als der Mittelwert (19.4 ms)")
print("\nüí° Statistik hilft uns, solche Situationen systematisch zu analysieren!")