# <span style="color:rgb(160,0,86)">Datenbeschreibung</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie können absolute und relative Häufigkeiten und Summenhäufigkeiten berechnen und verstehen ihre Bedeutung.
- Sie kennen Lagemasse und Streumasse für nominale, ordinale und metrische Merkmale und können sie berechnen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine Häufigkeitsanalyse?</span>

Die grundlegendste Aufbereitung statistischer Daten ist die Darstellung, wie häufig die Ausprägungen eines Merkmals vorkommen. 

- Die **absolute Häufigkeit** $n(x)$ ist die Anzahl, wie oft ein Wert $x$ vorkommt.
- Die **relative Häufigkeit** $h(x)=\displaystyle\frac{n(x)}{n}$ ist der Anteil, mit dem ein Wert $x$ vorkommt. 

Weil *oridinale* und *metrische* Merkmalen eine Reihenfolge haben, können wir Häufigkeiten auch der Reihe nach kumulieren:

- Die **absolute Summenhäufigkeit** $N(x)$ ist die Anzahl, wie oft Werte kleiner oder gleich $x$ vorkommen.
- Die **relative Summenhäufigkeit** $H(x)=\displaystyle\frac{N(x)}{n}$ ist der Anteil, mit dem Werte kleiner oder gleich $x$ vorkommen.

Die Auflistung aller Werte $x_1, x_2, \ldots, x_m$ eines Merkmals zusammen mit ihren Häufigkeiten nennen wir eine **empirische Häufigkeitsverteilung**.

*Merke:* Aus der empirischen Häufigkeitsverteilung können wir nicht mehr herauslesen, was für einen Wert eine statistische Einheit bei einem Merkmal hat. Wir sehen nur noch, wie oft oder wie häufig die Werte eines Merkmals vorkommen. **Es geht Information verloren!** 

***

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Betrachten wir 10 ehemalige Studierende mit den Merkmalen **Geschlecht**, **Gesamtprädikat** und **Alter**:

$$\begin{bmatrix}
\text{Anna}&w&\text{ausgezeichnet}&27\\
\text{Beat}&m&\text{gut}&34\\
\text{Cary}&m&\text{sehr gut}&29\\
\text{Dana}&w&\text{sehr gut}&24\\
\text{Elif}&w&\text{gut}&25\\
\text{Faro}&m&\text{ausgezeichnet}&27\\
\text{Gabi}&w&\text{sehr gut}&27\\
\text{Hans}&m&\text{genügend}&69\\
\text{Ivea}&w&\text{sehr gut}&26\\
\text{Jose}&w&\text{gut}&31
\end{bmatrix}$$ 

In [2]:
namen = ["Anna", "Beat", "Cary", "Dana", "Elif", "Faro", "Gabi", "Hans", "Ivea", "Jose"]
geschlecht = ["w", "m", "m", "w", "w", "m", "w", "m", "w", "w"]
prädikat = ["ausgezeichnet", "gut", "sehr gut", "sehr gut", "gut", "ausgezeichnet", "sehr gut", "genügend", "sehr gut",
            "gut"]
alter = [27, 34, 29, 24, 25, 27, 27, 69, 26, 31]

import pandas as pd

df = pd.DataFrame({"Name": namen, "Geschlecht": geschlecht, "Prädikat": prädikat, "Alter": alter})
df

Unnamed: 0,Name,Geschlecht,Prädikat,Alter
0,Anna,w,ausgezeichnet,27
1,Beat,m,gut,34
2,Cary,m,sehr gut,29
3,Dana,w,sehr gut,24
4,Elif,w,gut,25
5,Faro,m,ausgezeichnet,27
6,Gabi,w,sehr gut,27
7,Hans,m,genügend,69
8,Ivea,w,sehr gut,26
9,Jose,w,gut,31


Das Geschlecht ist ein nominales Merkmal. Seine empirische Verteilung ist:

In [3]:
import numpy as np

dim = df.shape
(werte, absH) = np.unique(df["Geschlecht"], return_counts=True)  # werte = "m","w" & absH absolute Anzahl 
for i in range(len(werte)):
    print("n(" + werte[i] + ") =", absH[i])
for i in range(len(werte)):
    print("h(" + werte[i] + ") =", absH[i] / dim[0])

n(m) = 4
n(w) = 6
h(m) = 0.4
h(w) = 0.6


Das Prädikat ist ein ordinales Merkmal. Seine empirische Verteilung ist:

In [5]:
werte, absH = np.unique(df["Prädikat"], return_counts=True)
werte

array(['ausgezeichnet', 'genügend', 'gut', 'sehr gut'], dtype=object)

In [8]:
for i in [1, 2, 3, 0]:
    print("n(" + werte[i] + ") =", absH[i])
for i in [1, 2, 3, 0]:
    print("h(" + werte[i] + ") =", absH[i] / dim[0])
#wie viele sind genügend oder kleiner
#wie viele sind gut oder kleiner etc.
#ausgezeichnet is also = alle Elemente

n(genügend) = 1
n(gut) = 3
n(sehr gut) = 4
n(ausgezeichnet) = 2
h(genügend) = 0.1
h(gut) = 0.3
h(sehr gut) = 0.4
h(ausgezeichnet) = 0.2


In [7]:
absSH = 0
for i in [1, 2, 3, 0]:
    absSH += absH[i]
    print("N(" + werte[i] + ") =", absSH)
absSH = 0
for i in [1, 2, 3, 0]:
    absSH += absH[i]
    print("H(" + werte[i] + ") =", absSH / dim[0])

N(genügend) = 1
N(gut) = 4
N(sehr gut) = 8
N(ausgezeichnet) = 10
H(genügend) = 0.1
H(gut) = 0.4
H(sehr gut) = 0.8
H(ausgezeichnet) = 1.0


Das Alter ist ein metrisches Merkmal. Seine empirische Verteilung ist:

In [12]:
werte, absH = np.unique(df["Alter"], return_counts=True)
for i in range(len(werte)):
    print("n(" + str(werte[i]) + ") =", absH[i])
for i in range(len(werte)):
    print("h(" + str(werte[i]) + ") =", absH[i] / dim[0])

n(24) = 1
n(25) = 1
n(26) = 1
n(27) = 3
n(29) = 1
n(31) = 1
n(34) = 1
n(69) = 1
h(24) = 0.1
h(25) = 0.1
h(26) = 0.1
h(27) = 0.3
h(29) = 0.1
h(31) = 0.1
h(34) = 0.1
h(69) = 0.1


In [17]:
def summenhaeufigkeit(w, h, x):
    N = 0
    i = 0
    while i < len(w) and w[i] <= x:
        N += h[i]
        i += 1
    return N, (N / sum(h))


summenhaeufigkeit(werte, absH, 30)  #wie viele sind jünger als x

(np.int64(7), np.float64(0.7))

### <span style="color:rgb(160,0,86)">Was sind Lagemasse und Streumasse?</span>

Die empirische Häufigkeitsverteilung beantwortet die Frage: Wie oft kommen die Werte eines Merkmals vor? Mit **statistischen Masszahlen** sollen nun spezifische Informationen aus den Daten herausgefiltert werden.      

- Ein **Lagemass** beschreibt mit einem typischen Wert, *wo* die Ausprägungen eines Merkmals liegen.
- Ein **Streumass** beschreibt mit einem typischen Wert, *wie* unterschiedlich die Ausprägungen eines Merkmals sind.

#### <span style="color:rgb(160,0,86)">Für nominale Merkmale:</span>
- *Lagemass:* Weil die Werte keine natürliche Reihenfolge haben, können wir keine *Mitte* festlegen. Als repräsentativer Wert für die Lage der Werte wird oft der häufigste Wert, der sogenannte **Modus** $\bar{x}_{D}$ angegeben.
- *Streumass:* Wir wollen angeben, wie gleichmässig sich die ungeordneten Werte verteilen. Wenn bei einem Merkmal nur ein Wert vorkommt, gibt es keine Streuung. Wenn hingegen alle Werte eines Merkmals gleich häufig auftreten, gibt es maximale Unterschiedlichkeit. Als Mass für diese Charakteristik wird häufig der **Dispersionsindex** $$P = \displaystyle\frac{m}{m-1}\big(h(x_1)\cdot(1-h(x_1))+h(x_2)\cdot(1-h(x_2))+\ldots+h(x_m)\cdot(1-h(x_m)\big)$$ gebraucht. Wenn $P>0.9$ ist, haben wir starke Dispersion und wenn $P<0.8$ ist, haben wir geringe Dispersion. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $P=1$ und wenn alle Werte die gleiche relative Häufigkeit haben, dann ist $P=0$. 

In [20]:
werte, absH = np.unique(df["Geschlecht"], return_counts=True)
m = len(werte)
relH = absH / dim[0]
modus = df["Geschlecht"].mode()[0]
P = m / (m - 1) * sum(relH * (1 - relH))
print("x_D =", modus, ", P =", P)

x_D = w , P = 0.96


$P = \displaystyle\frac{2}{2-1}\big(0.4\cdot(1-0.4)+0.6\cdot(1-0.6)\big)=0.96$

#### <span style="color:rgb(160,0,86)">Für ordinale Merkmale:</span>
- *Lagemass:* Die Werte haben eine natürliche Reihenfolge Wir können aber mit diesen Werten im allgemeinen nicht rechnen. Wenn wir die Daten aufsteigend der Reihe nach sortieren, können wir das sogenannte $p$ **-Quantil** bestimmen. Das ist ein Wert $x_p$, der die Daten in einen unteren Teil und in einen oberen Teil unterteil: $p\%$ der Daten sind kleiner oder gleich als $x_p$ und $(1-p)\%$ der Daten sind grösser. Mit $p=50\%$ sind in beiden Teilen ungefähr gleich viele Daten, daher heisst $x_{50\%}$ der **Median**. Der Wert $x_{25\%}$ heisst **unteres Quartil**, weil ungefähr ein viertel der Daten kleiner als $x_{25\%}$ sind und der Wert $x_{75\%}$ heisst **oberes Quartil**, weil ungefähr drei viertel der Daten kleiner als $x_{75\%}$ sind.      
- *Streumass:* Wegen der natürlichen Reihenfolge können wir die Streuung differnzierter beschreiben. Streuung ist gross, wenn die Werte gleichmässig beim *kleinsten* und beim *grössten* Wert des Merkmals liegen. Als Mass für diese Charakteristik wird häufig die **Diversität** $$D = \displaystyle\frac{4}{m-1}\big(H(x_1)\cdot(1-H(x_1))+H(x_2)\cdot(1-H(x_2))+\ldots+H(x_m)\cdot(1-H(x_m)\big)$$ gebraucht. Wenn $D>0.8$ ist, haben wir starke Diversität und wenn $D<0.6$ ist, haben wir geringe Diversität. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $D=0$ und wenn 50% der Daten beim kleinsten und 50% der Daten beim grössten Wert liegen, dann ist $D=1$.  

In [23]:
werte, absH = np.unique(df["Prädikat"], return_counts=True)
m = len(werte)
werte = np.array([werte[1], werte[2], werte[3], werte[0]])
absH = np.array([absH[1], absH[2], absH[3], absH[0]])
relH = absH / dim[0]
relSH = np.array([relH[0], sum(relH[:2]), sum(relH[:3]), sum(relH)])
modus = df["Prädikat"].mode()[0]
median = werte[0]
i = 1
while i <= m:
    if relSH[i] > 0.5:
        break
    median = werte[i]
    i += 1
D = 4 / (m - 1) * sum(relSH * (1 - relSH))
print("x_D =", modus, ", median =", median, ", D =", D)

x_D = sehr gut , median = gut , D = 0.6533333333333333


$D = \displaystyle\frac{4}{4-1}\big(0.1\cdot(1-0.1)+0.4\cdot(1-0.4)+0.8\cdot(1-0.8)+1.0\cdot(1-1.0)\big)=0.65\bar{3}$

#### <span style="color:rgb(160,0,86)">Für metrische Merkmale:</span>
- *Lagemass:* Da wir mit den Werten rechnen können, lässt sich die Summe aller Daten gleichmässig auf alle statistischen Einheiten verteilen. Dieses **arithmetische Mittel** $\bar{x}$ beschreibt, wie gross die Werte im Mittel sind. Das arithmetische Mittel wird aber von einzelnen extremen Werten stark beeinflusst. Der Median hingegen wird von extremen Werten weniger beeinflusst, weil sehr grosse oder sehr kleine Werte die Reihenfolge in der Mitte nicht verändern.
- *Streumass:* Bei metrischen Daten sind die Quartile auch Zahlen. Daher können wir den **Qartilsabstand** $Q = x_{75\%}-x_{25\%}$ vom unteren Quartil zum oberen Quartil berechnen. In diesem Bereich liegen ungefähr 50\% der mittleren Danten. Wenn also $Q$ klein ist, dann liegen die Daten eng beieinander und wenn $Q$ gross ist, dann streuen die Daten stark. Der Quartilsabstand wird durch extreme Werte auch nicht gross beeinflusst.<br>
Eine anderes Mass für die Streuung ist die **mittlere Abweichung** $MD$ der Daten vom arithmetischen Mittel $$MD=\displaystyle\frac{1}{n}\big(|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|\big)\,.$$ Weil die Absolutbeträge technische Schwierigkeiten mit sich bringen, werden häufiger die **mittlere quadratische Abweichung** $MQD$ der Daten vom arithmetischen Mittel $$MQD=\displaystyle\frac{1}{n}\big((x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2\big)$$ gebraucht. Dieser Wert hat den Nachteil, dass die Dimension nicht mehr stimmt. Die Zahl $MQD$ hat quadratische Einheiten. Wenn wir aber aus $MQD$ die Wurzel zeihen, erhalten wir die sogenannte **Standardabweichung** $$s=\sqrt{MQD}\;,$$ bei der die Dimension wieder stimmt.     

In [25]:
q50 = df["Alter"].median()
x_bar = df["Alter"].mean()
Q = df["Alter"].quantile(0.75) - df["Alter"].quantile(0.25)
s = df["Alter"].std(ddof=0)
MD = sum(np.abs(df["Alter"] - x_bar)) / len(df["Alter"])
print("Median =", q50, ", arithmetisches Mittel =", x_bar)
print("Q =", Q, ", s =", s, ", MD =", MD)

Median = 27.0 , arithmetisches Mittel = 31.9
Q = 4.25 , s = 12.676355943251199 , MD = 7.840000000000001


### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Laden Sie die Daten *2021_Personalerhebung.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. Bestimmen Sie auch für die Merkmale **Abteilung** und **Ausbildung** die relativen Häufigkeiten und relativen Summenhäufigkeiten.

In [57]:
person_data = pd.read_csv("./Daten/2021_Personalerhebung.csv", delimiter=";")
person_data.drop(person_data.columns[1], axis=1, inplace=True)
person_data

Unnamed: 0,PersNummer,Abteilung,Ausbildung,Eintrittsjahr,Bruttogehalt
0,560426,Finanzen,Abitur,2006,13200
1,590303,Vertrieb,Mittlere Reife,2008,13500
2,611117,Entwicklung,Promotion,2008,17600
3,620212,Geschaftsführung,Master,2006,18000
4,620624,Entwicklung,Master,2007,17400
5,640530,Geschaftsführung,Mittlere Reife,2009,7200
6,681212,Entwicklung,Bachelor,2009,10800
7,700525,Test/Anwendungen,Bachelor,2010,7200
8,711204,Geschaftsführung,Bachelor,2007,13600
9,730119,Finanzen,Bachelor,2009,9600


In [114]:

def calc_rel_sh(relH):
    relSH = np.empty(len(relH))
    for i in range(len(relH)):
        relSH[i] = sum(relH[range(0, i + 1)])
    return relSH


def calc_median(werte):
    i = 0
    median = werte[0]
    while i <= n:
        if relSH[i] > 0.5:
            break
        i += 1
        median = werte[i]
    return median


def calc_diversity(m, relSH):
    return round(4 / (m - 1) * sum(relSH * (1 - relSH)), 4)


def calc_dispersion(m, relH):
    return round(m / (m - 1) * sum(relH * (1 - relH)), 4)


def print_nominal(relH, modus, dispersion):
    print("relative Häufigkeiten=", relH, ", Lagemass (modus)=", modus, ", Streumass (Dispersionsindex)=", dispersion)


def print_ordial(relH, relSH, median, diversity):
    print("relative Häufigkeiten=", relH,
          ", relative Summenhäufigkeit", relSH,
          ", Lagemass (median)=", median,
          ", Streumass (Diversitätsindex)=", diversity)


def print_metric(mean, median, quartilsabstand, standard_deviation, md):
    print("Durchschnitt=", mean,
          ", Median=", median,
          ", Quartilsabstand=", quartilsabstand,
          ", Standardabweichung=", standard_deviation,
          ", Mittlere Abweichung=", md)

Abteilung:

In [103]:
dim = person_data.shape
abteilung = person_data["Abteilung"]
werte, absH = np.unique(abteilung, return_counts=True)
n = len(werte)
relH = absH / dim[0]
modus = abteilung.mode()[0]
dispersion = calc_dispersion(m, relH)

print_nominal(relH, modus, dispersion)

relative Häufigkeiten= [0.28 0.12 0.16 0.12 0.16 0.16] , Lagemass (modus)= Entwicklung , Streumass (Dispersionsindex)= 1.088


Ausbildung:

In [115]:
ausbildung = person_data["Ausbildung"]
werte, absH = np.unique(ausbildung, return_counts=True)
n = len(werte)
relH = absH / dim[0]
werte = np.array([werte[3], werte[0], werte[1], werte[2], werte[4]])
relSH = calc_rel_sh(relH)

median = calc_median(werte)
diversity = calc_diversity(n, relSH)

print_ordial(relH, relSH, median, diversity)

relative Häufigkeiten= [0.24 0.36 0.2  0.12 0.08] , relative Summenhäufigkeit [0.24 0.6  0.8  0.92 1.  ] , Lagemass (median)= Abitur , Streumass (Diversitätsindex)= 0.656


Eintrittsjahr:

In [116]:
jahr = person_data["Eintrittsjahr"]
werte, absH = np.unique(jahr, return_counts=True)
n = len(werte)
relH = absH / dim[0]
relSH = calc_rel_sh(relH)
werte.sort()

median = calc_median(werte)
diversity = calc_diversity(n, relSH)

print_ordial(relH, relSH, median, diversity)

relative Häufigkeiten= [0.08 0.08 0.12 0.2  0.52] , relative Summenhäufigkeit [0.08 0.16 0.28 0.48 1.  ] , Lagemass (median)= 2010 , Streumass (Diversitätsindex)= 0.6592


Bruttogehalt:

In [104]:
bruttogehalt = person_data["Bruttogehalt"]
mean = bruttogehalt.mean()
median = bruttogehalt.median()
quartilsabstand = bruttogehalt.quantile(0.75) - bruttogehalt.quantile(0.25)
standard_deviation = round(bruttogehalt.std(ddof=0), 4)
md = sum(abs((bruttogehalt - mean))) / len(bruttogehalt)

print_metric(mean, median, quartilsabstand, standard_deviation, md)

Durchschnitt= 8840.0 , Median= 7200.0 , Quartilsabstand= 8200.0 , Standardabweichung= 5057.3511 , Mittlere Abweichung= 4276.8


### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Laden Sie die Daten *Gesundheitskosten.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. 

In [117]:
gesundheits_data = pd.read_csv("./Daten/Gesundheitskosten.csv")
gesundheits_data

Unnamed: 0.1,Unnamed: 0,Krankenhäuser,Sozialmedizin,Arztpraxen,Zahnmedizin,Andere,Unterstützer,Detailhandel,Prävention,Staat,Versicherer,Importe
0,1995,12618.01,5626.22,5426.39,2678.79,1850.24,539.26,4291.59,523.88,873.51,1412.37,216.1
1,1996,13190.23,5983.41,5679.4,2731.91,1952.4,530.95,4459.82,543.27,864.67,1613.91,222.72
2,1997,13306.79,6218.51,5889.7,2752.02,1972.85,510.27,4646.23,554.69,810.88,1654.12,228.3
3,1998,13733.42,6517.62,6245.69,2787.4,2077.57,573.09,4777.1,598.37,815.25,1718.39,233.29
4,1999,14276.61,6635.99,6510.67,2787.08,2165.11,586.25,4933.82,622.52,861.53,1712.13,238.48
5,2000,14902.55,7041.51,6783.89,2897.78,2236.26,609.89,5094.54,647.37,885.8,1725.3,247.56
6,2001,16139.77,7546.75,7114.71,2984.3,2380.98,630.13,5329.64,679.05,921.52,1769.76,257.39
7,2002,16990.83,8067.66,7225.76,3034.52,2474.02,657.33,5420.9,685.82,1050.68,1759.7,262.0
8,2003,17727.33,8374.88,7385.51,3137.89,2514.52,663.08,5768.62,701.56,1043.76,1835.71,275.65
9,2004,18220.54,8629.93,7816.69,3236.47,2749.3,752.58,5952.56,726.04,1040.98,1950.6,284.81


### <span style="color:rgb(160,0,86)">Aufgabe 3</span>

Laden Sie die Daten *2022_Mathematik 1 WiSo Urliste*. In dieser Excel Datei sind die Mathematik Prüfungsergebnisse von Studierenden an der Fakultät Wirschaft und Sozialwissenschaften der Universität Bern gespeichert. Alle Studierende haben die gleiche Prüfung geschrieben, nur die Reihenfolge der Aufgaben war in der Version A und Version B anders (siehe Angaben in den Zellen N3 und N4). Die Punkte für die 9 Aufgaben sind abhängig von der Version A und B also in den Spalten vertauscht!  Bestimmen Sie für jede Aufgabe passende Lagemasse und Streumasse für die Punkte.  

In [None]:
# To do!

![HSLU](Bilder/LogoHSLU.png)