## Die 5-Zahlen-Zusammenfassung
----------------------------------------

In [2]:
import pandas as pd
import numpy as np

Aus den drei Quartilen $(Q1, Q2, Q3)$können wir ein Maß für die Lage der Mitte (den Median, $Q2$) und ein Maß für die Variation der beiden mittleren Quartale der Daten, $Q2-Q1$ für die zweite Quartile und $Q3-Q2$ für die dritte Quartile ableiten. Die drei Quartilen sagen jedoch nichts über die Variation der ersten und vierten Quartile aus.

Um diese Informationen zu erhalten, beziehen wir auch die Beobachtungen des Minimums und des Maximums mit ein. Die Variation der ersten Quartile kann als Differenz zwischen dem Minimum und der ersten Quartile, $Q1-Min$, gemessen werden, und die Variation der vierten Quartile kann als Differenz zwischen der dritten Quartile und dem Maximum, $Max-Q3$, gemessen werden. Somit liefern das Minimum, das Maximum und die Quartile zusammen unter anderem Informationen über Zentrum und Variation (Weiss 2010).

Die so genannte **Tukey-Fünf-Zahlen-Zusammenfassung** (nach dem Mathematiker <a href="https://en.wikipedia.org/wiki/John_Tukey">John Wilder Tukey</a>) eines Datensatzes besteht aus den Werten $Min, Q1, Q2, Q3$ und $Max$ des Datensatzes.

Die Fünf-Zahlen-Zusammenfassung lässt sich in Python durch `np.percentile` und die `min()`, `max()` Funktionen berechnen. Zu Demonstrationszwecken berechnen wir die Fünf-Zahlen-Zusammenfassung für die Variable `nc.score`

In [3]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
df = pd.read_csv('students.csv', index_col=0)

# Berechne Fünf-Zahlen-Zusammenfassung
data = df['nc.score']

# Berechne die Quartilen
quartiles = np.percentile(data, [25, 50, 75])

# Berechne minimal/maximal Datenpunkte
data_min, data_max = min(data), max(data)

# Ausgabe der Daten
print('Min: %.3f' % data_min)
print('Q1: %.3f' % quartiles[0])
print('Median: %.3f' % quartiles[1])
print('Q3: %.3f' % quartiles[2])
print('Max: %.3f' % data_max)

Min: 1.000
Q1: 1.460
Median: 2.040
Q3: 2.780
Max: 4.000


Diese Funktion liefert Minimum, untere Quartile, Median, obere Quartile und Maximum für die Eingabedaten.

In Python gibt es eine ähnliche Methode namens `describe()`, die, auf einem Vektor aufgerufen, ähnliche Statistiken liefert, allerdings auch das arithmetische Mittel.

In [8]:
data.describe()

count    8239.000000
mean        2.166481
std         0.811548
min         1.000000
25%         1.460000
50%         2.040000
75%         2.780000
max         4.000000
Name: nc.score, dtype: float64