# Die Streuungsmaßzahlen

Streuungsmaße, auch Dispersionsmaße oder Streuungsparameter genannt, fassen in der deskriptiven Statistik verschiedene Maßzahlen zusammen, welche die Streubreite von Beobachtungswerten beziehungsweise einer Häufigkeitsverteilung um einen geeigneten Lageparameter herum beschreiben. Man ist somit mit den Streuungsmaßzahlen in der Lage, die Streubreite von Daten anzugeben.
Eine der Gemeinsamkeiten von Lagemaßen und Streuungsmaßen liegt darin, dass sie verwendet werden, um die Informationen aus großen Datensätzen zusammenzufassen und übersichtlich darzustellen.

## Einführungsbeispiel

Als Einführung in die Welt der Streuungsmaßzahlen soll folgendes Beispiel dienen:
<br>
<br>
In einer Stadt gibt es zwei Krankenhäuser, ein großes und ein kleines. In dem großen Krankenhaus kommen jeden Tag etwas $45$ Kinder zur Welt, in dem kleinen Krankenhaus etwa $15$. Bekanntlich sind ca. $50$% der Geburten Jungen. Natürlich schwankt der tatsächliche Prozentsatz der Knabelgeburten von Tag zu Tag, mal ist er höher, mal niedriger als $50$%. Für die Dauer eines Jahres registriert nun jedes der beiden Krankenhäuser die Tage, an denen mehr als $60$% der Geburten Jungen sind.
<br>
<br>
Was glaubt Ihr, in welchem der Krankenhäuser ist eine größere Anzahl von Tagen vorhanden, an denen mehr als $60$% der Geburten Jungen sind?
<br>
<br>
Folgende drei Möglichkeiten stehen zur Auswahl vorhanden:
- Im großen Krankenhaus
- Im kleinen Krankenhaus
- In den beiden Krankenhäusern etwa gleich

Um eine erste Antwort auf dieses Problem geben zu können, simuliert man die Situation. Geburten kann man mit einem Zufallsgenerator simulieren, welcher Zahlen liefert, die zu $50$% gleich $1$ und zu $50$% gleich $0$ sind. Ein Tag in dem kleinen Krankenhaus wird dann durch eine Kette aus $15$ Nullen oder Einsen dargestellt. Interpretiert man eine Eins als Geburt eines Knaben, dann erhält man die Zahl der Kabengeburten durch Summieren der $15$ Ziffern. Führt man für beide Krankenhäuser eine Simulation für 365 Tage durch und stellt die relativen Häufigkeiten der Knabengeburten geeignet klassiert dar, dann ergeben sich folgende Grafiken:

<img src="../img/hospital_example_01.png" alt="Linda Mengendiagramm" width="400">

<img src="../img/hospital_example_02.png" alt="Linda Mengendiagramm" width="400">

Bei solchen Simulationen zeigt sich, dass im kleinen Krankenhaus deutlich mehr Tage mit mehr als $60$% Knabengeburten als im großen Krankenhaus auftreten. Außerdem ist zu erkennen, dass die Säulen im Diagramm des großen Krankenhauses auf einen engeren Bereich konzentriert sind. Man könnte auch sagen: Die Daten für das kleine Krankenhaus eine größere Streuung aufweisen, als die im großen Krankenhaus!
<br>
<br>
Dass die Streuung vom Umfang der Stichprobe abhängig ist, wiederspricht offenbar unserer Intuition, da die meißten der Befragen die Antwort "In den beiden Krankenhäusern etwa gleich viele Geburten" gewählt haben. Um genau diese Streuung beschreiben zu können, benötigt man die Streuungsmaßzahlen.

## Spannweite und Quartilsabstand

In der Tabelle kann man den Temperaturverlauf für München zu einem bestimmten Zeitraum sehen:


| $03:00$ | $06:00$ | $09:00$ | $12:00$ | $15:00$ | $18:00$ | $21:00$ | $00:00$ |
| ------- | ------- | ------- | ------- | ------- | ------- | ------- | ------- |
| $-1$    | $0$     | $3$     | $9$     | $13$    | $12$    | $8$     | $4$     |

Sortiert man die Temperaturen aufsteigen dann erhält man:<br>
`-1; 3; 4; 8; 9; 12; 13`

Minimalste Temperatur ist: $x_{\text{Min}}=-1$

Maximalste Temperatur ist: $x_{\text{Max}}=13$

Temperaturdifferenz ist: $\Delta x=x_{\text{Max}}-x_{\text{Min}}=13-(-1)=14$ (auch als Spannweite der Daten bezeichnet)

> Definition Spannweite:
> Ist: $$x_1, x_2,..., x_n$$ eine aufsteigende sortierte Folge von Datenpunkten, dann ist die Spannweite: $$\Delta x=x_{n}-x_{1}$$

Man muss aber beachten, dass die Spannweite nur zwei Werte der Daten berücksichtigt und deshalb wenig Informationen über die Datenreihe beinhaltet. Außerdem ist sie sehr anfällig gegenüber Ausreißern! Aus diesem Grund ist es sinnvoll, zusätzlich die Mitte des Datensatzes zu betrachten. Dies geschieht mit dem sogenannten Quartilsabstand.
<br>
<br>
Der Mittlere Quartilsabstand ist die Differenz zwischen dem dritten und dem ersten Quartil. Also zwischen dem $0.75$-Quantil und dem $0.25$-Quantil, zwischen diesen beiden Werten befinden sich $50$% der Daten. Der Mittlere Quartilsabstand stellt im Vergleich zur Spannweite ein robusteres Maß der Streuung dar.

> Definition mittlere Quartilsabstand:
> Ist: $$x_1, x_2,..., x_n$$ eine aufsteigende sortierte Folge von Datenpunkten, dann ist der mittlere Quartilsabstand: $$\Delta x=x_{0.75}-x_{0.25}$$



