# Deskriptive Statistik

### Was ist die deskriptive Statistik?

Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, empirische Daten (z. B. Ergebnisse aus Experimenten, Messwerte, etc.) durch Tabellen, Kennzahlen (auch: Maßzahlen oder Parameter genannt) und Grafiken übersichtlich darzustellen und zu ordnen.

Ein Hauptanwendungsgebiet der Statistik ist es, eine Aussage über eine [Grundgesamtheit (Population)](../../Zentral_Ordner/Fachwörter/Population.ipynb) zu treffen. Da es in den meisten Fällen aber nicht möglich ist, alle Daten der Grundgesamtheit zu erhalten, wird eine Stichprobe gezogen. Diese Stichprobe kann nun mithilfe der Deskriptiven Statistik beschrieben werden, z. B. mit [Lageparametern](../../Zentral_Ordner/Fachwörter/Lagemaß.ipynb), wie dem Mittelwert und Streuungsparametern wie der [Standardabweichung](../../Zentral_Ordner/Formeln/Standardabweichung.ipynb).

Einstieg: [Wikipedia: deskriptive Statistik](https://de.m.wikipedia.org/wiki/Deskriptive_Statistik)

### Dichte der Daten:

In der deskriptive Statistik gibt es drei Methoden zur Datenpräsentation, die alle ihre Vor- und Nachteile haben:

1. **Tabellen**: Daten in Zeilen und Spalten, bei großen Datensätzen schwer überschaubar.
2. **Diagramme**: Grafisch übersichtlich, aber oft mit Informationsverlust.
3. **Parameter**: Beschreiben Datenaspekte mit einzelnen Werten, mehrere Parameter nötig, um Informationsverlust auszugleichen.

Tabelle zur Veranschaulichung:



| **Kriterium**          | **Tabelle** | **Diagramm** | **Parameter** |
|------------------------|-------------|--------------|---------------|
| Bündelung der Daten    | niedrig     | mittel       | hoch          |
| Übersichtlichkeit      | niedrig     | mittel       | hoch          |
| Informationsgehalt     | hoch        | mittel       | niedrig       |


## Daten
In diesem Beispiel betrachten wir eine fiktive Datentabelle mit den folgenden Variablen:
- **Alter** (in Jahren)
- **Einkommen** (in EUR pro Jahr)
- **Arbeitsstunden pro Woche**


In [2]:
import pandas as pd

# Beispiel-Daten
data = {
    'Alter': [23, 45, 31, 35, 50, 42, 29, 37, 33, 28],
    'Einkommen': [30000, 45000, 32000, 40000, 60000, 52000, 31000, 47000, 35000, 38000],
    'Arbeitsstunden_pro_Woche': [40, 50, 40, 38, 60, 55, 40, 48, 42, 45]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Alter,Einkommen,Arbeitsstunden_pro_Woche
0,23,30000,40
1,45,45000,50
2,31,32000,40
3,35,40000,38
4,50,60000,60
5,42,52000,55
6,29,31000,40
7,37,47000,48
8,33,35000,42
9,28,38000,45


## Deskriptive Statistiken
Im nächsten Schritt berechnen wir einige grundlegende deskriptive Statistiken wie Mittelwert, Median, Standardabweichung usw.

In [3]:
# Deskriptive Statistiken
df.describe()

Unnamed: 0,Alter,Einkommen,Arbeitsstunden_pro_Woche
count,10.0,10.0,10.0
mean,35.3,41000.0,45.8
std,8.340663,9899.494937,7.345445
min,23.0,30000.0,38.0
25%,29.5,32750.0,40.0
50%,34.0,39000.0,43.5
75%,40.75,46500.0,49.5
max,50.0,60000.0,60.0


## Interpretation der Ergebnisse
- **Mittelwert (mean):** Der durchschnittliche Wert jeder Spalte.
- **Standardabweichung (std):** Wie stark die Datenpunkte vom Mittelwert abweichen.
- **Minimum (min):** Der kleinste Wert jeder Spalte.
- **25% (1. Quartil):** 25% der Werte sind kleiner als dieser Wert.
- **Median (50%):** Der mittlere Wert der Daten. 50% der Werte liegen darunter, 50% darüber.
- **Maximum (max):** Der größte Wert jeder Spalte.


## Statistische Kennzahlen

Wie berechnet man die wichtigsten statistischen Kennzahlen?


In [1]:
# Berechnung von Mittelwert, Standardabweichung, Minimum, Quartil 25%, Median und Maximum
import numpy as np

# Beispiel-Zahlenliste
zahlen_liste = [10, 20, 30, 40, 50]

np_list = np.array(zahlen_liste)
print(f'Der Type des Objekts "np_list" ist: {type(np_list)}')


# Berechnung der Werte
mittelwert = np_list.mean()
print(f"Mittelwert: {mittelwert}")

median = np_list.

std = np_list.std()
print(f"Standardabweichung (gerundet): {std:.4f}")

minimum = np_list.min()
print(f"Minimum: {minimum}")

quartil_25 = np.percentile(np_list, 25)
print(f"25%-Quartil: {quartil_25}")
# Das 25. Perzentils ist der Wert, unterhalb dessen 25% der Datenpunkte liegen.

Der Type des Objekts "np_list" ist: <class 'numpy.ndarray'>
Mittelwert: 30.0
Standardabweichung (gerundet): 14.1421
Minimum: 10
25%-Quartil: 20.0


## Deskriptive Statistik vs. Inferenzstatistik

Mit der deskriptiven Statistik kann aber noch keine Aussage über die Grundgesamtheit getroffen werden, das ist Aufgabe der Inferenzstatistik. Die Inferenzstatistik verwendet eine Stichprobe aus der Grundgesamtheit, um mit Hilfe dieser Stichprobe Schlussfolgerungen über die Grundgesamtheit zu ziehen. Ziel der Inferenzstatistik ist es also, von bekannten Parametern einer Stichprobe auf unbekannte Parameter der Grundgesamtheit zu schließen.

Die Inferenzstatistik versucht daher, im Gegensatz zur deskriptiven Statistik, Schlussfolgerungen zu ziehen, die über die unmittelbaren Daten hinausgehen. Um eine Hypothese zu bewerten, werden in der Inferenzstatistik Hypothesentests wie der t-Test oder die Varianzanalyse verwendet.

Ausgehend von der Stichprobe kann nun mit Hilfe der Inferenzstatistik eine Aussage über die Grundgesamtheit getroffen werden.

Einstieg: https://datatab.de/tutorial/deskriptive-inferenz-statistik


Was hat das mit der Grundgesamtheit und der Stichprobe auf sich?



![](../../Zentral_Ordner/Bilder/inferenz_deskriptiv.jpg)

[Bild-Quelle](https://datatab.de/tutorial/deskriptive-inferenz-statistik)