# Quantile und Boxplots

In der Statistik sind Quantile bestimmte Werte (Grenzen), die festlegen, welcher Teil der Datenreihe unterhalb und oberhalb des bestimmtes Wertes liegt.
Der bereits kennen gelernte Median ist ebenfalls ein Quantil, denn er unterteilt eine Datenreihe in zwei gleich große Bereiche. Der Median bekommt die Bezeichnung `0,5-Quantil`, weil sowohl über dem Median als auch unter dem Median $p=0,5=50\%$ der Merkmalsausprägungen liegen.

## Definition des p-Quantils

Das p-Quantil $x_p$ ist eine Zahl, welche eine der Größe nach geordnete Datenreihe in zwei Teile spaltet. Links vom p-Quantil liegt der Anteil $p$ der Daten, die kleiner oder gleich $x_p$ sind. Rechts von $x_p$ liegt der Rest der Daten, die größer oder gleich $x_p$ sind ($1-p$).
<br>
<br>
Ähnlich der Berechnungsvorschrift für den Medians wird auch die Berechnungsvorschrift für das p-Quantil festgelegt:

> Definition: $$x_{p}=\begin{cases}x_{[n\cdot{p}]+1}&{\text{falls }n\cdot{p}\text{ nicht ganzzahlig ist}}\\\frac{x_{n\cdot{p}}+x_{n\cdot{p}+1}}{2}&\text{falls }n\cdot{p} \text{ ganzzahlig ist}\end{cases}$$
> Die Klammer um "$n\cdot{p}$" bedeutet dass auf die nächstkleinere ganze Zahl abgerundet werden soll! 

## Beispiele zur Berechnung

Schauen wir uns einige Beispiele an, um den Umgang der Formel $x_p$ zu üben.

### 1. Beispiel

Bei den Olympischen Spielen 1916 in Rio de Janeiro gab es im Weitsprungfinale der Frauen folgende Weiten:<br>
`6,58; 6,61; 6,63; 6,69; 6,74; 6,79; 6,81; 6,95; 7,08; 7,15; 7,17`
<br>
<br>
**Gesucht ist das 0,75-Quantil:**
- Es sind $n=11$ Datenpunkte vorhanden
- $n\cdot{p}=11\cdot{0,75}=8,25$
- $8,25$ ist nicht ganzzahlig, somit berechnet man: $[n\cdot{p}+1]=[8,25]+1=9$
- $x_{0,75}=x_{[n\cdot{p}]+1}=x_9=7,08$

### 2. Beispiel

Bei den Olympischen Spielen 2016 in Rio de Janeiro gab es im Weitsprungfinale der Männer folgende Weiten:<br>
`7,82; 7,86; 7,87; 7,97; 8,05; 8,06; 8,1; 8,17; 8,25; 8,3; 8,37; 8,38`
<br>
<br>
**Gesucht ist das 0,75-Quantil:**
- Es sind $n=12$ Datenpunkte vorhanden
- $n\cdot{p}=12\cdot{0,75}=9$
- $9$ ist ganzzahlig, somit berechnet man: $x_{0,75}=\frac{x_{n\cdot{p}}+x_{n\cdot{p}+1}}{2}=\frac{x_{9}+x_{10}}{2}=8,275$

## Perzentile und weitere Bezeichnungen

Eine weitere Bezeichnung für Quantile ist Perzentile. Bei dieser Bezeichnung gibt man $p$ in Prozent an. Somit ist z.B. das 0,75-Quantil das 75te-Perzentil.
<br>
<br>
Weitere Bezeichnungen sind:
- Quartil:
  Quantile, welche das obere bzw. untere Viertel der Datenpunkte abschneiden, heißen Quartile.
- Dezil:
  Dezile geben $p$ in Zehntelwerten an, z.B. das 0,2-Quantil ist das 2. Dezil.

Häufig verwendete Quantile sind:

| Quantil      | Bezeichnung             |
| ------------ | ----------------------- |
| 0-Quantil    | 0. Quartil oder Minimum |
| 0,25-Quantil | 1. Quartil              |
| 0,5-Quantil  | 2. Quartil oder Median  |
| 0,75-Quantil | 3. Quartil              |
| 1-Quantil    | 4. Quartil oder Maximum |
| 0,1-Quantil  | 1. Dezil                |
| ...          | ...                     |
| 0,9-Quantil  | 9. Dezil                |

## Der Boxplot

Für die grafische Darstellung der Quantile wird das sogenannte Boxplot genutzt, andere Bezeichnungen dafür sind auch Kastendiagramm oder Box-Whisker-Plot. Boxplots bieten eine schnelle Möglichkeit die vorliegenden Daten grafisch Darzustellen, um einen Überblick über die Verteilung der Daten zu gewinnen. 

### Erstellung enes Boxplots

Um einen Boxplot zu zeichnen, geht man folgendermaßen vor:
1. Sortieren der Daten aufsteigend
2. Berechnung der fünf Quartile der Datenreihe
3. Einen Kasten zeichnen, der sich vom 1. Quartil bis zum 3. Quartil erstreckt
4. Auf der Höhe des Medians eine waagerechte Linie im Kasten einzeichnen
5. Einzeichnen der Antennen (Whiskers), welche sich vom Ende des Kastens zum Minimum bzw. vom Anfang des Kastens zum Maximum erstrecken

**Beispiel:**

Bei den olympischen Spielen 1916 in Rio de Janeiro gab es im Weitsprungfinale der Frauen folgende Weiten:<br>
`6,58; 6,61; 6,63; 6,69; 6,74; 6,79; 6,81; 6,95; 7,08; 7,15; 7,17`

Berechnungen ergeben:
- Maximum: $7,17$
- $3$. Quartil: $7,08$
- Median: $6,79$
- $1$. Quartil: $6,63$
- Minimum: $6,58$

<img src="../img/boxplot_01.png" alt="Empirische Verteilungsfunktion" width="500">

Interpretation des Boxplots:
- Die Gesamtlänge entspricht der Spannweite der Daten (min. Wert bis max. Wert)
- Innerhalb der Box sind 50% der Datenpunkte enthalten (zwischen 1. und 3. Quartil)
- Box-Größe beschreibt die "Streuung" der Datenpunkte 
  (kleinere Box -->umso dichter liegen die Datenpunkte beieinander )
- Unterhalb der Box liegen 25% der Datenpunkte
- Oberhalb der Box liegen 25% der Datenpunkte
- Unterhalb und über dem Median befinden sich 50% der Datenpunkte

## Boxplot mit Ausreißern

In der Praxis verwendet man kein Boxplot falls die Stichprobe sehr klein ist. Es reicht bereits ein Ausreißer in den Daten aus, damit sich die Form des Boxplots völlig verändert!
<br>
<br>
In der Statistik wird ein Ausreißer als ein Datenpunkt bezeichnet, der von den restlichen Datenpunkten in einem Datensatz signifikant abweicht. 
Es handelt sich also um einen ungewöhnlichen oder unerwarteten Datenpunkt, der möglicherweise ein Messfehler, ein Zufallsereignis oder ein Hinweis auf eine ungewöhnliches Ereignis sein kann.
<br>
<br>
Es ist wichtig zu beachten, dass nicht alle Ausreißer fehlerhaft oder unbrauchbar sind. Einige können tatsächlich wichtige Informationen liefern und sollten sorgfältig geprüft werden. Andere Ausreißer können jedoch tatsächlich durch Messfehler oder Datenmanipulationen entstanden sein und sollten daher entfernt oder korrigiert werden.
<br>
<br>
Für eine erweiterte Form des Boxplots bestimmt man zunächst die Ausreißer im Datensatz. Dabei werden Alle Datenpunkte als Ausreißer gewertet, die mehr als das 1,5-fache der Box-Höhe vom 3. Quantil nach oben und vom 1. Quartil nach unten abweichen. Dies bedeutet ein Wert $x$ heißt Ausreißer, wenn gilt:
- $x>x_{0,75}+1,5\cdot{(x_{0,75}-x_{0,25})}$
- $x<x_{0,25}-1,5\cdot{(x_{0,75}-x_{0,25})}$

Im Boxplot werden die Ausreißer anschließend durch einen Punkt gekennzeichnet. Um die Längen der Antennen (Whiskers) festzulegen, lässt man aus dem Datensatz die Ausreißer weg und bestimmt aus diesem neuen "bereinigten" Datensatz das Minimum und das Maximum. Dadurch können die Antennen höchstens das 1,5-fache der Box-Höhe sein.
<br>
<br>
**Anwendungsbeispiel:**

Folgender Datensatz liegt vor:<br>
`15; 25,75; 28,29; 32,79; 33,03; 33,16; 35; 35,52; 39; 47`
<br>
<br>
Bestimmung der Quantile:
- $p=0,25$
- $n=10$
- $n\cdot{p}=0,75\cdot{10}=7,5$ (nicht ganzzahlig)
- $x_{0,75}=x_8=35,52$

Bestimmung der Grenzen für Ausreiser:
- $x_{0,75}+1,5\cdot{(x_{0,75}-x_{0,25})}=35,52+1,5\cdot{(35,52-28,29)}=46,37$
- $x_{0,25}-1,5\cdot{(x_{0,75}-x_{0,25})}=28,29-1,5\cdot{(35,52-28,29)}=17,45$

Bestimmung der Ausreißer:
- Wenn $x>46,37$ dann ist $x$ ein Ausreißer
- Wenn $x<17,45$ dann ist $x$ ein Ausreißer

Somit is:
- $x_{10}=47$ ein Ausreißer
- $x_1=15$ ein Ausreißer

<img src="../img/boxplot_02.png" alt="Empirische Verteilungsfunktion" width="500">

## Ablaufplan für die Erstellung des Boxplot

Um ein Boxplot unter Berücksichtigung von Ausreißern zu erstellen geht man folgendermaßen vor:
1. Sortieren der Datenpunkte aufsteigend
2. Berechnung von $x_{0,25}$, $x_{0,5}$ und $x_{0,75}$
3. Kasten zeichnen mit der höhe von $x_{0,25}$ bis $x_{0,75}$
4. Waagerechte Linie bei $x_{0,5}$ zeichnen
5. Untersuchen ob es Ausreißer gibt:
- $x>x_{0,75}+1,5\cdot{(x_{0,75}-x_{0,25})}$
- $x<x_{0,25}-1,5\cdot{(x_{0,75}-x_{0,25})}$
6. Kennzeichnen der Ausreißer durch Punkte
7. Entfernen der Ausreißer aus dem Datensatz
8. Minimum und Maximum des neuen Datensatzes bestimmen (für nächsten Schritt erforderlich) 
9. Antennen (Whiskers) einzeichnen
