# Der Median

Der Median ist definiert als der Wert, welcher genau in der Mitte der sortierten Daten liegt, wenn diese in aufsteigender oder absteigender Reihenfolge angeordnet sind. Der Median wird also ebenfalls, zur Beschreibung der zentralen Tendenz verwendet.
<br>
<br>
Im Gegensatz zum arithmetischen Mittel berücksichtigt der Median jedoch nicht alle Datenpunkte, sondern nur denjenigen in der Mitte, was ihn besonders nützlich macht, wenn die Datenverteilung Ausreißer (Datenpunkte welche signifikant von anderen abweichen) enthält oder nicht normal Verteilt ist (Zur Normalverteilung kommen wir erst später).
<br>
<br>
Der Median kann auch als Werkzeug zur Erkennung von Ausreißern verwendet werden. Wenn ein Datenpunkt weit vom Median entfernt ist, kann das ein Hinweis darauf sein, dass er ein Ausreißer ist.

## Einführungsbeispiel

Stellt man sich vor, entlang einer Straße befindet sich ein Unternehmen, welches entlang dieser Straße $5$ Geschäfte beliefern muss. Diese Geschäfte befinden sich an den Stellen:
- $x_1=1$
- $x_2=3$
- $x_3=4$
- $x_4=7$
- $x_5=9$

Jetzt soll man heraus finden an welcher Stelle $m$ muss sich das Unternehmen befinden, damit man die kleinste mögliche Strecke zum beliefern erhält?
<br>
<br>
Für eine grafische Darstellung des Problems wird die folgende Grafik verwendet, dabei wurde erstmal ein zufälliger Punkt entlang der Strecke für  $m$ festgelegt:

<img src="../img/median.svg" alt="Empirische Verteilungsfunktion" width="400">

Insgesamt ergibt sich aus der Grafik die folgende Fahrstrecke (Mit $2$ multipliziert wegen Hin- und Rückweg.):

$$2\cdot(\vert{m-1}\vert+\vert{m-3}\vert+\vert{m-4}\vert+\vert{m-7}\vert+\vert{m-9}\vert)$$

Dabei befindet sich $m$ an einer bestimmten Koordinate $x$, allgemeiner formuliert erhalten wir die folgende Funktion:

$$f(x)=(\vert{x-1}\vert+\vert{x-3}\vert+\vert{x-4}\vert+\vert{x-7}\vert+\vert{x-9}\vert)$$

Die konkrete Frage lautet nun: Welche Zahl $m$ müssen wir für $x$ einsetzen, damit der Funktionswert $f(x)$ möglichst klein wird? Diese Frage beantworten wir anschaulich, indem wir diese Funktion zeichnen:

<img src="../img/strecke_median.png" alt="Empirische Verteilungsfunktion" width="400">

Wir können in dem Graphen deutlich erkennen dass für $x=4$ der Weg, also $y$ am kleinsten ist. 
Somit gilt: $f(x=4)=12$
<br>
<br>
Bei der Zahl $x=4$ handelt es sich tatsächlich um die Mitte weswegen wir auch $m=4$ schreiben. Das Minimum der "Abstandssumme" liegt immer bei dem Wert, der in der Mitte der Datenreihe liegt. 
<br>
<br>
Dieser Wert bekommt den Namen ==Median (Zentralwert)==. Da es sich um den Wert in der Mitte der Daten handelt, liegen von ihn aus gesehen sowohl links als auch rechts 50% der Daten.
<br>
<br>
In dem Beispiel hatten wir insgesamt $n=5$ Werte gegeben (Standorte der Unternehmen), da es sich um eine ungerade Zahl handelt, findet man immer den Median. Was passiert jedoch wenn wir eine gerade Anzahl von Datenpunkten vorliegen haben? Im vorliegenden Beispiel betrachten wir das vorherige Beispiel, mit dem Unterschied, das wir ein Unternehmen entlang der Straße mehr haben und somit eine gerade Zahl von Datenpunkten vorhanden ist.
<br>
<br>
Es sind folgende Datenpunkte gegeben:
- $x_1=1$
- $x_2=3$
- $x_3=4$
- $x_4=5$
- $x_5=7$
- $x_6=9$

<img src="../img/median_01.svg" alt="Empirische Verteilungsfunktion" width="400">

Nun wird die Funktion gebildet, welche die Abstandssumme darstellt:

<img src="../img/strecke_median_2.png" alt="Empirische Verteilungsfunktion" width="400">

Es zeigt sich, dass die Abstandssumme für die beiden Zahlen $m_1=4$ und $m_2=5$ am minimalsten wird. Natürlich wird sie auf zwischen den beiden Werten $4$ und $5$ am minimalsten! Somit gibt es bei einer geraden Anzahl von Datenpunkten nicht einen einzelnen "Zentralwert", sondern ein zentrales Intervall. Um den Median eindeutig zu definieren, wählt man den Mittelpunkt dieses Intervalls als Median.
<br>
<br>
Bei der Festlegung des Medians als Mittelpunkt des Intervalls $[m_1;m_2]$ kann es sich ergeben, dass der Median ein Wert ist, der nicht als Merkmalsausprägung auftritt. Aus diesem Grund wird manchmal die Festlegung getroffen, dass der Median gleich $m_1$ oder $m_2$ sein soll.

## Definition des Medians für quantitative Daten

Der Median ist ein Wert, der in der Mitte einer sortierten Liste von Zahlen oder Datenpunkten liegt. Wenn man alle Zahlen in der Liste der Größe nach sortiert, ist der Median derjenige, der genau in der Mitte steht. Mit anderen Worten, es gibt gleich viele Zahlen oberhalb und unterhalb des Medians.
<br>
<br>
Um den Median zu bestimmen, sind grundlegend folgende Schritte notwendig:
- Aus einer Datenliste werden alle $n$ Daten entweder aufsteigend oder absteigend sortiert.
- Ist $n$ ungerade, dann ist der Median das mittlere Element der geordneten Liste.
- Ist $n$ gerade, dann gibt es zwei mittlere Elemente. In diesem Fall ist der Median das arithmetische Mittel dieser beiden Elemente. Kommt eine ungerade Zahl bei dem arithmetischen Mittel raus, so kann auch willkürlich eine der beiden Zahlen als MEdian gewählt werden.

Betrachtet wird eine Menge von Daten, die ein quantitatives Merkmal beschreiben. Mit $x_1,...,x_n$ wird die der Größe nach geordnete Liste dieser Daten bezeichnet. Dann ist der Median der Daten gleich:

> Definition: $$x_{0,5}=\begin{cases}x_{\frac{n+1}{2}}&\text{falls n ungerade ist}\\\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}&\text{falls n gerade ist}\end{cases}$$ mit $n$ für Anzahl der Gesamtdaten.