<style>
    /* Design für Blockquote */
    .important-box {
        background-color: #023047; 
        padding: 20px;
        max-width: 600px;
        border-radius: 8px;
        box-shadow: 0 2px 10px rgba(0, 0, 0, 0.1);
        font-family: 'Open Sans', sans-serif;
        font-size: 1em; 
        margin: 20px;
    }

    .important-title {
        font-size: 1.2em;
        font-weight: 600; 
        color: #ffff99;
        margin-bottom: 10px; 
        display: flex;
        align-items: center;
    }

    .important-title::before {
        content: "💡"; 
        margin-right: 10px; 
    }

    .main-title {
        font-size: 1.1em;
        color: #ffff99;
        font-weight: 500;
        margin-bottom: 15px;
    }

    .text {
        font-size: 1em;
        color: #D3D3D3;
        line-height: 1.6em;
        padding-bottom: 20px;
    }

</style>

# Darstellung quantitativ stetiger Daten

Die Darstellung von quantitativ stetigen Daten erfolgt oft durch Histogramme, die einen klaren grafischen Überblick über die Verteilung der Daten bieten.
<br>
<br>
Viele Merkmale in der Statistik, wie physikalische Messgrößen oder Verteilungen natürlicher Prozesse, werden als stetige Daten modelliert. Diese können theoretisch unendlich viele Ausprägungen annehmen, was ihre Analyse kompliziert macht. In der Praxis werden die Messungen jedoch häufig gerundet oder mit einer bestimmten Genauigkeit erfasst, sodass sie diskrete Werte annehmen. Dennoch behandelt man sie häufig wie stetige Daten, um eine aussagekräftigere und anschaulichere Darstellung zu erhalten.
<br>
<br>
In diesem Kapitel lernen wir, wie quantitativ stetige Daten mithilfe von Histogrammen effektiv dargestellt werden und warum die Berechnung der Häufigkeitsdichte bei diesem Prozess von entscheidender Bedeutung ist.

## Einführungsbeispiel

Wir betrachten wie lange Videospiel Spieler, in einem Zeitraum von 24 Stunden gewöhnlich mit Videospielen verbringen.

| Stunden    | Absolute Häufigkeit |
| ---------- | ------------------- |
| `[0; 1)`   | 4300                |
| `[1; 3)`   | 6900                |
| `[3; 5)`   | 4900                |
| `[5; 10)`  | 2000                |
| `[10; 24)` | 2100                |


Das erste was hier auffällt, sind die Klassenbreiten bzw. Intervallbreiten, sie sind nicht konstant oder eifnach gesagt unterschiedlich breit.
Hätte man die Ausgangsdaten vorliegen, könnte man die Klassenbreite konstant wählen, dies ist in diesem Beispiel jedoch nicht der Fall.
<br>
<br>
Bisher hatten wir bei der Erstellung unserer Histogramme immer die absolute oder relative Häufigkeit auf der y-Achse abgetragen. Jedoch hatten wir aber auch immer eine kosntante Klassenbreite.
Nun stellt sich die Frage: Kann man wie bisher fortfahren und ein Histogramm mit unterschiedichen Klassenbreiten sinnvoll darstellen?
<br>
<br>
Um eine Antwort zu finden stellen wir erstmal das Histogramm dar:

<img src="../img/histogram_06.png" alt="Bild vom Histogramm" width="700">

Was fällt hier auf? Warum ist der Balken im Intervall `[10; 24)` so groß?
<br>
Das Problem mit diesem Histogramm ist: Wenn die Breite der Balken die Breite ihrer Intervalle wiedergibt, wirken mancha Balken "überproportional" groß. Man könnte von diesem Histogramm einen falschen Eindruck bekommen, wie viele Stunden pro Tag gespielt wird.
Beispielweise ist der Balken, der die Größte Fläche einnimmt, der für 10 bist 24 Stunden Spieldauer pro Tag, auch wenn die meisten Leute gar nicht so lange spielen. Man erkennt also, dass wenn die Klassen unterschiedlich breit sind, ein Histogramm mit Häufigkeiten auf der y-Achse zu optische irreführenden Balkenhöhen führt.
<br>
<br>
Um die Balken entsprechen darzustellen, muss man die Balkenfläche proportional zur dazugehörigen Häufigkeit gestallten.<br>
Um dies zu erreichen, wählt man die Höhe der Balken so, dass der Flächeninhalt des jeweiligen Balkens als absolute Häufigkeit der Klasse interpretiert werden kann:

<img src="../img/balkenhöhe_absolut.png" alt="Bild vom Histogramm" width="400">

Durch folgende Berechnungen kommt man auf die Säulenhöhe bzw. Balkenhöhe:

$A_{\text{Säule}}={\text{Höhe}}\cdot{Breite}$ $\rightarrow$ $A_{Säule}={h_{\text{Säule}}\cdot}{d}$ 

Umstellen nach $h_{\text{Säule}}$ liefert: 

$h_{Säule}=\frac{A_{\text{Säule}}}{d}$

Die Fläche der Säule soll ja der absoluten Häufigkeit $n(x_i)$ entsprechen, somit folgt mit $A_{\text{Säule}}=n(x_i)$

$h_{\text{Säule}}=\frac{n(x_i)}{d}$

Man bezeichnet die Rechtecks Höhe bzw. Säulenhöhe $h_{\text{Säule}}$ auch als Häufigkeitsdichte $f(x_i)$ , mit $h_{\text{Säule}}=f(x_i)$ folgt:

$$f(x_i)=\frac{n(x_i)}{d}$$

Setzen wir nun dieses Konzept der Häufigkeitsdichte an dem Beispiel mit der Spieldauer um, so erhalten wir folgende Tabelle:

| Stunden    | Absolute Häufigkeit (Säulenfläche) | Klassenbreite (Säulenbreite) | Säulenhöhe (Häufigkeitsdichte) |
| ---------- | ---------------------------------- | ---------------------------- | ------------------------------ |
| `[0; 1)`   | 4300                               | 1                            | 4300                           |
| `[1; 3)`   | 6900                               | 2                            | 3450                           |
| `[3; 5)`   | 4900                               | 2                            | 2450                           |
| `[5; 10)`  | 2000                               | 5                            | 400                            |
| `[10; 24)` | 2100                               | 14                           | 150                            |

Nachdem die Breite und Höhe jeder Säule bestimmt wurde, kann man das neue Histogramm erstellen. Jetzt wird aber auf der y-Achse die Häufigkeitsdichte bzw. die Säulenhöhe abgetragen und auf der x-Achse die Klassenbreite:

<img src="../img/histogram_07.png" alt="Bild vom Histogramm" width="700">

Die Häufigkeitsdichte zeigt an, wie stark die Daten in einer bestimmten Klasse konzentriert sind. Sie hängt zwar mit der absoluten Häufigkeit zusammen, ist aber auf keinen Fall dasselbe. 
Man könnte auch sagen die Häufigkeitsdichte gibt an, wie "dicht" die Datenpunkte innerhalb einer Klasse liegen, das heißt  wie viele Datenpunkte pro Einheit Klassenbreite in der Klasse enthalten sind.
Der zweite Balken hat deutlich mehr Datenpunkte (absolute Häufigkeiten) als der erste Balken. Trotzdem ist der zweite Balken kleiner, weil wir jetzt eben die Häufigkeitsdichte auf der y-Achse abtragen. Dies verdeutlicht uns dass die Konzentration
bzw. die Dichte der Datenpunkte im ersten Balken deutlich größer ist. Wie haben sozusagen im 1. Balken deutlich mehr Datenpunkte pro Balkenlänge Einheit.
<br>
<br>
Nun falls man noch Probleme bei der Vorstellung der Häufigkeitsdichte hat, sollte folgende Analogie behilflich sein:
<br>
Stell euch ein Glas vor, das mit Wasser gefüllt ist und eine bestimmte Höhe erreicht. Wenn man dieses Wasser in ein viel breiteres Glas umfüllt, verteilt es sich auf eine größere Fläche, und der Wasserstand wird niedriger.
<br>
Genauso ist es bei der Häufigkeitsdichte: Eine breite Klasse hat, selbst wenn sie viele Daten enthält, eine niedrigere „Dichte“ (Höhe) im Vergleich zu einer schmaleren Klasse mit derselben Anzahl an Datenpunkten.
<br>
<br>
Nun haben wir dass erreicht was wir wollten: Die Proportionalität der Häufigkeitsdichte zur absoluten Häufigkeit!<br>
Wenn die Klassenbreite variiert, also nicht konstant ist, wird die Säulenhöhe angepasst, sodass die Fläche der Säule weiterhin die relabsoluteative Häufigkeit repräsentiert.<br>
Das bedeutet, dass die Höhe der Säule größer wird, wenn:
1. Mehr Datenpunkte in die Klasse fallen (höhere absolute Häufigkeit): Wenn mehr Datenpunkte in einer Klasse liegen, nimmt die Säulenhöhe zu, weil die Dichte der Daten in diesem Bereich höher ist.
2. Die Klassenbreite kleiner ist: Wenn die gleiche Anzahl an Datenpunkten in einer schmaleren Klasse konzentriert ist, verteilt sich die absolute Häufigkeit über eine kleinere Breite. Dadurch erhöht sich die Säulenhöhe, um dieselbe Fläche darzustellen.

<div class="important-box">
    <strong class="important-title">Wichtig</strong>
    <p class="main-title">Häufigkeitsdichte:</p>
    <ul>
        <li class="text">Die Häufigkeitsdichte kann als Konzentration der Häufigkeiten verstanden werden.</li>
        <li class="text">Die Häufigkeitsdichte sorgt dafür, dass die Fläche der Säulen im Histogramm die Häufigkeit repräsentiert.</li>
        <li class="text">Wenn alle Klassen die gleiche Breite haben, ist die Häufigkeitsdichte proportional zur relativen Häufigkeit. Wenn die Klassenbreiten jedoch unterschiedlich sind, wird die Höhe (Häufigkeitsdichte) so angepasst, dass die Fläche jeder Säule die Häufigkeit der Klasse korrekt darstellt.</li>
        <li class="text">Durch die Häufigkeitsdichte wird die Höhe der Balken normalisiert, indem die Häufigkeit durch die Klassenbreite geteilt wird. Dadurch wird der Flächeninhalt jedes Balkens proportional zur tatsächlichen Häufigkeit der Daten in dieser Klasse, unabhängig von der Breite des Intervalls.</li>
    </ul>
</div>

Die Häufigkeitsdichte muss nicht durch die absolute Häufigkeit berechnet werden, man darf auch die relative Häufigkeit verwenden. Somit ergibt sich die allgemeine Formel:
$$\text{Häufigkeitsdichte}=\frac{\text{Häufigkeit}}{\text{Klassenbreite}}$$

Da wir sowohl die absolute als auch relative Häufigkeit für die Berechnung der Häufigkeitsdichte verwenden können, berechnen wir die Häufigkeitsdichte mit der relativen Häufigkeit. Man könnte auch sagen dass wir die relative Häufigkeitsdichte ausrechnen.
Somit wird die Fläche der Säule der relativen Häufigkeit entsprechen und es ergeben sich folgende Berechnungen:


$A_{\text{Säule}}={\text{Höhe}}\cdot{Breite}$ $\rightarrow$ $A_{Säule}={h_{\text{Säule}}\cdot}{d}$ 

Umstellen nach $h_{\text{Säule}}$ liefert: 

$h_{Säule}=\frac{A_{\text{Säule}}}{d}$

Die Fläche der Säule soll ja der relativen Häufigkeit $h(x_i)$ entsprechen, somit folgt mit $A_{\text{Säule}}=h(x_i)$

$h_{\text{Säule}}=\frac{h(x_i)}{d}$

Man bezeichnet die Rechtecks Höhe bzw. Säulenhöhe $h_{\text{Säule}}$ auch als Häufigkeitsdichte $f(x_i)$ , mit $h_{\text{Säule}}=f(x_i)$ folgt:

$$f(x_i)=\frac{h(x_i)}{d}$$

Wir erweitern unsere Tabelle mit der Häufigkeitsdichte (relativ):

| Stunden    | Absolute Häufigkeit (Säulenfläche) | Relative Häufigkeit (Säulenfläche) | Klassenbreite (Säulenbreite) | Säulenhöhe (absolute Häufigkeitsdichte) | Säulenhöhe (relative Häufigkeitsdichte) |
| ---------- | ---------------------------------- | ---------------------------------- | ---------------------------- | --------------------------------------- | --------------------------------------- |
| `[0; 1)`   | 4300                               | 0,2128                             | 1                            | 4300                                    | 0,2128                                  |
| `[1; 3)`   | 6900                               | 0,3415                             | 2                            | 3450                                    | 0,1707                                  |
| `[3; 5)`   | 4900                               | 0,2425                             | 2                            | 2450                                    | 0,1212                                  |
| `[5; 10)`  | 2000                               | 0,0990                             | 5                            | 400                                     | 0,0198                                  |
| `[10; 24)` | 2100                               | 0,1039                             | 14                           | 150                                     | 0,0074                                  |
| Summe:     | 20200                              | 1                                  | -                            | -                                       | -                                       |

Jetzt können wir die Histogramme erstellen, einmel ohne die Häufigkeitsdichte und einmal mit, um einen Vergleich zu haben:

<img src="../img/histogram_08.png" alt="Bild vom Histogramm" width="700">

<img src="../img/histogram_09.png" alt="Bild vom Histogramm" width="700">

<div class="important-box">
    <strong class="important-title">Wichtig</strong>
    <p class="main-title">Häufigkeitsdichte Zusammenfassung:</p>
    <ul>
        <li class="text">Definition: Die Häufigkeitsdichte zeigt, wie „dicht“ die Daten in einer Klasse liegen. Sie beschreibt, wie viele Datenpunkte pro Einheit Klassenbreite in einer Klasse enthalten sind.</li>
        <li class="text">Unterschied zur absoluten Häufigkeit: Obwohl sie mit der absoluten Häufigkeit zusammenhängt, ist die Häufigkeitsdichte nicht dasselbe. Während die absolute Häufigkeit nur die Anzahl der Datenpunkte in einer Klasse angibt, normalisiert die Häufigkeitsdichte diese Zahl durch die Klassenbreite.</li>
        <li class="text">Vorteil bei unterschiedlichen Klassenbreiten: Die Häufigkeitsdichte erlaubt es, Klassen mit unterschiedlichen Breiten fair zu vergleichen, da sie sicherstellt, dass der Flächeninhalt einer Säule die relative Häufigkeit in der Klasse repräsentiert. So bleibt die Darstellung der Daten konsistent und proportional zur tatsächlichen Datenverteilung.</li>
        <li class="text">Höhe der Säule: Die Säulenhöhe (also die Häufigkeitsdichte) wird größer, wenn entweder mehr Datenpunkte in eine Klasse fallen oder wenn die Klassenbreite kleiner wird – dies gewährleistet, dass die Fläche (nicht die Höhe allein) die Häufigkeit in jeder Klasse zeigt.</li>
        <li class="text">Kurz gesagt, die Häufigkeitsdichte ist entscheidend, wenn Klassenbreiten variieren, da sie eine vergleichbare und anschauliche Darstellung der Datenverteilung ermöglicht.</li>
    </ul>
</div>

## Häufige Fragen

**Warum nimmt man zur Darstellung der Häufigkeit in einem Histogramm die Fläche?**

Man verwendet im Histogramm die Fläche der Säulen, um die Häufigkeit darzustellen, weil dies eine korrekte und faire Visualisierung der Datenverteilung ermöglicht, besonders bei unterschiedlichen Klassenbreiten. Wenn die Klassenbreiten variieren würden, könnte die Säulenhöhe allein die Häufigkeit verzerrt wiedergeben, da breite Klassen optisch dominieren würden, auch wenn sie nicht mehr Daten enthalten. Die Fläche hingegen bleibt proportional zur tatsächlichen Häufigkeit in jeder Klasse, wodurch das Histogramm die Datenverteilung zuverlässig abbildet. Durch die Fläche als Maß für die Häufigkeit bleibt die Darstellung der Daten konsistent und vergleichbar, unabhängig von der Breite der einzelnen Klassen.

**Was genau ist nochmal die Häufigkeitsdichte?**

Die Häufigkeitsdichte ist ein Maß, das angibt, wie dicht die Datenpunkte innerhalb einer bestimmten Klasse eines Histogramms verteilt sind. Sie beschreibt, wie viele Datenpunkte pro Einheit der Klassenbreite in einer Klasse liegen. Die Häufigkeitsdichte ermöglicht es also, die Datenverteilung unabhängig von der Breite der Klassen korrekt zu visualisieren.

**Wenn man quantitative diskrete oder stetige Daten vorliegen hat und alle Intervalle bzw. Klassen die gleiche Breite haben, kann ich dann ein normales Histogramm bzw. Balkendiagramm verwenden?**

Ja, wenn man quantitative diskrete oder stetige Daten mit gleich breiten Intervallen bzw. Klassen vorliegen hat, kann man ein normales Histogramm verwenden, ohne auf die Häufigkeitsdichte zurückgreifen zu müssen. In diesem Fall ist die Säulenhöhe direkt proportional zur Häufigkeit in jeder Klasse, und die Fläche muss nicht zusätzlich berechnet werden, da alle Klassen gleich breit sind.

**Müssen Histogramme zwingend gruppierte Daten darstellen? Kann man das Histogramm nicht auch für individuelle diskrete Werte verwenden, statt für Gruppen von zahlen?**

Es ist möglich, man muss nur einiges beachten. Es dürfen zwischen den Säulen bzw. Balken keine Lücken entstehen. Dazu muss jeder Balken eine Einheit breit sein, indem man in der Mitte des Balkens die jeweilige Zahl platziert.
Wenn man also einen Balken zeichnen möchte, welcher die Zahl "1" darstellen soll, dann zeichnet man den Balken von 0,5 bis 1,5 mit der "1" in der Mitte. Diese Methode entspricht zwar formal einem Histogramm, kommt aber der Darstellung eines Balkendiagramms für diskrete Werte nahe.
Ein Histogramm ist also nicht ideal für individuelle, ungegruppte Werte, sie sind in der Regel darauf ausgelegt, gruppierte Daten darzustellen.

## Anwendungsbeispiel

Wir betrachten die Sprungweite von $30$ Springern der Skiflugweltmeisterschaft im Jahre 2018. Die Sprungweiten aller $n=60$ Sprünge sind in der folgenden Tabelle zusammengefasst:

| 1. Sprung | 2. Sprung | 1. Sprung | 2. Sprung | 1. Sprung | 2. Sprung |
| --------- | --------- | --------- | --------- | --------- | --------- |
| 227,5     | 218       | 208,5     | 210,5     | 181,5     | 196       |
| 234,5     | 222,5     | 193       | 210       | 190       | 204       |
| 222,5     | 217       | 185,5     | 216       | 188       | 201,5     |
| 215,5     | 229       | 195       | 219,5     | 181,5     | 180,5     |
| 220       | 211       | 217,5     | 197       | 171,5     | 177,5     |
| 220       | 211,5     | 188,5     | 220,5     | 186,5     | 186,5     |
| 207       | 215       | 205,5     | 210,5     | 185       | 185,5     |
| 211,5     | 214,5     | 188,5     | 204       | 183,5     | 188       |
| 214       | 203       | 185       | 214,5     | 185,5     | 162,5     |
| 195,5     | 214       | 183       | 215,5     | 169,5     | 179,5     |

Die Sprungweiten der Springer sind in der Regel kontinuierliche, reelle Zahlen, was sie zu einem stetigen Merkmal macht. In diesem Fall wurden die Sprungweiten jedoch nur auf halbe Meter genau gemessen, wodurch es sich streng genommen um quantitativ diskrete Daten handelt. Aufgrund der Vielzahl unterschiedlicher Messwerte und der geringen Rundungsschritte (halber Meter) behandeln wir diese Daten jedoch wie stetige Daten. Diese Annäherung ist sinnvoll, da die feinen Abstufungen der Werte nahezu stetig erscheinen und eine solche Darstellung die Analyse und Interpretation der Verteilung der Daten erleichtert.
<br>
<br>
Wir entscheiden uns eine Klasseneinteilung durchzuführen mit einer Klassenbreite von $d=5$. Es werden dadurch $15$ Klassen gebildet, die letzte Spalte kann zunächst ignoriert werden:

| Klasse       | Klassenmitte $x_i$ | Absolute Häufigkeit $n_i$ | Relative Häufigkeit $h(x_i)=n_i/n$ | Relative Häufigkeitsdichte $h(x_i)/d$ |
| ------------ | ------------------ | ------------------------- | ---------------------------------- | ------------------------------------- |
| `[160; 165)` | 162,5              | 1                         | 0,01667                            | 0,00333                               |
| `[165; 170)` | 167,5              | 1                         | 0,01667                            | 0,00333                               |
| `[170; 175)` | 172,5              | 1                         | 0,01667                            | 0,00333                               |
| `[175; 180)` | 177,5              | 2                         | 0,03333                            | 0,00667                               |
| `[180; 185)` | 182,5              | 5                         | 0,08333                            | 0,01667                               |
| `[185; 190)` | 187,5              | 11                        | 0,18333                            | 0,03667                               |
| `[190; 195)` | 192,5              | 2                         | 0,03333                            | 0,00667                               |
| `[195; 200)` | 197,5              | 4                         | 0,06667                            | 0,01333                               |
| `[200; 205)` | 202,5              | 4                         | 0,06667                            | 0,01333                               |
| `[205; 210)` | 207,5              | 3                         | 0,05                               | 0,01                                  |
| `[210; 215)` | 212,5              | 10                        | 0,16667                            | 0,03333                               |
| `[215; 220)` | 217,5              | 8                         | 0,13333                            | 0,02667                               |
| `[220; 225)` | 222,5              | 5                         | 0,08333                            | 0,01667                               |
| `[225; 230)` | 227,5              | 2                         | 0,03333                            | 0,00667                               |
| `[230; 235)` | 232,5              | 1                         | 0,01667                            | 0,00333                               |

Nun können wie die Histogramme erstellen:

<img src="../img/histogram_10.png" alt="Bild vom Histogramm" width="700">

<img src="../img/histogram_11.png" alt="Bild vom Histogramm" width="700">


Wenn man ein Histogramm mit konstanten Klassenbreiten erstellt und sowohl die relative Häufigkeit als auch die relative Häufigkeitsdichte darstellt, sieht das Histogramm in beiden Fällen äußerlich identisch aus – die Höhe der Balken bleibt gleich. Hier ist der Grund:

1. Relative Häufigkeit: Die relative Häufigkeit zeigt, wie viel Prozent der Gesamtdaten in jeder Klasse liegen. Sie wird berechnet, indem man die absolute Häufigkeit jeder Klasse durch die Gesamtanzahl der Datenpunkte teilt.

2. Relative Häufigkeitsdichte bei konstanten Klassenbreiten: Bei konstanter Klassenbreite ist die relative Häufigkeitsdichte im Wesentlichen die relative Häufigkeit geteilt durch die Klassenbreite. Da die Klassenbreite jedoch überall gleich ist, ändert sich die Form des Histogramms nicht. Die Balkenhöhen sind direkt proportional zur relativen Häufigkeit, sodass das Histogramm mit der relativen Häufigkeitsdichte genau so aussieht wie das mit der relativen Häufigkeit.

<div class="important-box">
    <strong class="important-title">Wichtig</strong>
    <p class="main-title">Häufigkeitsdichte bei konstanter Klassenbreite:</p>
    <ul>
        <li class="text">Bei konstanten Klassenbreiten ist die Darstellung der relativen Häufigkeit und der relativen Häufigkeitsdichte identisch, da die Klassenbreite überall gleich ist und daher keine zusätzliche Skalierung für die Säulenhöhe notwendig ist.</li>
    </ul>
</div>

Betrachten wir nun die Daten mit einer unterschiedlichen Klassenbreite, dazu wurden folgende Klassen festgelegt:

| Klasse       | Absolute Häufigkeit |
| ------------ | ------------------- |
| `[160; 175)` | 3                   |
| `[175; 190)` | 18                  |
| `[190; 210)` | 13                  |
| `[210; 230)` | 25                  |

Jetzt wird man den unterschied bei einer nicht konstanten Klassenbreite feststellen:

<img src="../img/histogram_04.png" alt="Bild vom Balken" width="700">

<img src="../img/histogram_05.png" alt="Bild vom Balken" width="700">

Nun sieht man wieder wie durch die Häufigkeitsdichte, die Höhe der Balken normalisiert wird.