# <span style="color:rgb(160,0,86)">Datenbeschreibung mit Python</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie können absolute und relative Häufigkeiten und Summenhäufigkeiten berechnen und verstehen ihre Bedeutung.
- Sie kennen Lagemasse und Streumasse für nominale, ordinale und metrische Merkmale und können sie berechnen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine Häufigkeitsanalyse?</span>

Die grundlegendste Aufbereitung statistischer Daten ist die Darstellung, wie häufig die Werte $w$ eines Merkmals vorkommen. 

- Die **absolute Häufigkeit** $\;\pmb{n(w)}\;$ ist die Anzahl, wie oft ein Wert $w$ vorkommt.
- Die **relative Häufigkeit** $\;\pmb{h(w)=\displaystyle\frac{n(w)}{n}}\;$ ist der Anteil, mit dem ein Wert $w$ vorkommt. 

Weil *oridinale* und *metrische* Merkmalen eine Reihenfolge haben, können wir Häufigkeiten auch der Reihe nach kumulieren:

- Die **absolute Summenhäufigkeit** $\;\pmb{N(w)}\;$ ist die Anzahl, wie oft Werte kleiner oder gleich $w$ vorkommen.
- Die **relative Summenhäufigkeit** $\;\pmb{H(w)=\displaystyle\frac{N(w)}{n}}\;$ ist der Anteil, mit dem Werte kleiner oder gleich $w$ vorkommen.

Die Auflistung aller Werte $w_1, w_2, \ldots, w_m$ eines Merkmals zusammen mit ihren Häufigkeiten nennen wir eine **empirische Häufigkeitsverteilung**.

***Merke:*** Aus der empirischen Häufigkeitsverteilung können wir nicht mehr herauslesen, was für einen Wert eine statistische Einheit bei einem Merkmal hat. Wir sehen nur noch, wie oft oder wie häufig die Werte eines Merkmals vorkommen. **Es geht Information verloren!** 

***

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Betrachten wir 10 ehemalige Studierende mit den Merkmalen **Geschlecht**, **Gesamtprädikat** und **Alter**:

$$\begin{bmatrix}
\text{Anna}&w&\text{ausgezeichnet}&27\\
\text{Beat}&m&\text{gut}&34\\
\text{Cary}&m&\text{sehr gut}&29\\
\text{Dana}&w&\text{sehr gut}&24\\
\text{Elif}&w&\text{gut}&25\\
\text{Faro}&m&\text{ausgezeichnet}&27\\
\text{Gabi}&w&\text{sehr gut}&27\\
\text{Hans}&m&\text{genügend}&69\\
\text{Ivea}&w&\text{sehr gut}&26\\
\text{Jose}&w&\text{gut}&31
\end{bmatrix}$$ 

Diese Daten speichern wir in ein **DataFrame mit Namen df**:

In [1]:
namen = ["Anna","Beat","Cary","Dana","Elif","Faro","Gabi","Hans","Ivea","Jose"]
geschlecht = ["w","m","m","w","w","m","w","m","w","w"]
prädikat = ["ausgezeichnet","gut","sehr gut","sehr gut","gut","ausgezeichnet","sehr gut","genügend","sehr gut","gut"]
alter = [27,34,29,24,25,27,27,69,26,31]

import pandas as pd
df = pd.DataFrame({"Name":namen,
                   "Geschlecht":geschlecht,
                   "Prädikat":prädikat,
                   "Alter":alter})
df

Unnamed: 0,Name,Geschlecht,Prädikat,Alter
0,Anna,w,ausgezeichnet,27
1,Beat,m,gut,34
2,Cary,m,sehr gut,29
3,Dana,w,sehr gut,24
4,Elif,w,gut,25
5,Faro,m,ausgezeichnet,27
6,Gabi,w,sehr gut,27
7,Hans,m,genügend,69
8,Ivea,w,sehr gut,26
9,Jose,w,gut,31


Das **Geschlecht** ist ein **nominales Merkmal**. 

Die absolute empirische Verteilung finden wir mit der Funktion **np.unique**, wenn wir **return_counts=True** setzen. 

Die Funktion gibt **zwei Listen** zurück, die wir direkt in den zwei Variablen **werte**, **absH** speichern können:   

In [2]:
import numpy as np

werte, absH = np.unique(df["Geschlecht"],return_counts=True)

Nun können wir die **Werte und ihre Häufigkeiten** ausgeben:

In [3]:
print("Absolute Häufigkeiten:")
for i in range(len(werte)):
    print("  n(" + werte[i] + ") =",absH[i])
print("Relative Häufigkeiten:")
for i in range(len(werte)):
    print("  h(" + werte[i] + ") =",absH[i]/df.shape[0])

Absolute Häufigkeiten:
  n(m) = 4
  n(w) = 6
Relative Häufigkeiten:
  h(m) = 0.4
  h(w) = 0.6


Das **Prädikat** ist ein **ordinales Merkmal**. Seine empirische Verteilung finden wir analog:

In [8]:
werte, absH = np.unique(df["Prädikat"],return_counts=True)
werte

array(['ausgezeichnet', 'genügend', 'gut', 'sehr gut'], dtype=object)

In der Ausgabe der Werte stimmt die **natürliche Reihenfolge** nicht - die Werte werden alphabetisch gelistet! 

Wenn wir aber einen **for-loop über eine Liste** mit Indizes in richtiger Reihenfolge machen, erhalten wir die natürliche Anordnung: 

In [18]:
print("Absolute Häufigkeiten:")
for i in [1,2,3,0]:
    print("  n(" + werte[i] + ") =",absH[i])
print("Relative Häufigkeiten:")
for i in [1,2,3,0]:
    print("  h(" + werte[i] + ") =",absH[i]/df.shape[0])

Absolute Häufigkeiten:
  n(genügend) = 1
  n(gut) = 3
  n(sehr gut) = 4
  n(ausgezeichnet) = 2
Relative Häufigkeiten:
  h(genügend) = 0.1
  h(gut) = 0.3
  h(sehr gut) = 0.4
  h(ausgezeichnet) = 0.2


Für **ordinale Merkmale** können wir auch die **Summenhäufigkeiten** berechnen:

In [9]:
print("Absolute Summenhäufigkeiten:")
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i] # Alle die weniger oder gleich gut sind
    print("  N(" + werte[i] + ") =",absSH)
print("Relative Summenhäufigkeiten:")
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i]
    print("  H(" + werte[i] + ") =",absSH/df.shape[0])

Absolute Summenhäufigkeiten:
  N(genügend) = 1
  N(gut) = 4
  N(sehr gut) = 8
  N(ausgezeichnet) = 10
Relative Summenhäufigkeiten:
  H(genügend) = 0.1
  H(gut) = 0.4
  H(sehr gut) = 0.8
  H(ausgezeichnet) = 1.0


Das **Alter** ist ein **metrisches Merkmal**. Seine empirische Verteilung finden wir analog:

In [10]:
werte, absH = np.unique(df["Alter"],return_counts=True)

print("Absolute Häufigkeiten:")
for i in range(len(werte)):
    print("  n(" + str(werte[i]) + ") =",absH[i])
print("Relative Häufigkeiten:")
for i in range(len(werte)):
    print("  h(" + str(werte[i]) + ") =",absH[i]/df.shape[0])

Absolute Häufigkeiten:
  n(24) = 1
  n(25) = 1
  n(26) = 1
  n(27) = 3
  n(29) = 1
  n(31) = 1
  n(34) = 1
  n(69) = 1
Relative Häufigkeiten:
  h(24) = 0.1
  h(25) = 0.1
  h(26) = 0.1
  h(27) = 0.3
  h(29) = 0.1
  h(31) = 0.1
  h(34) = 0.1
  h(69) = 0.1


**Metrische Merkmale** nehmen oft *viele verschiedene Zahlenwerte* an. Daher ist es praktikabler, wenn wir eine Funktion definieren, um die **Summenhäufigkeiten**  $\;\pmb{N(w)}\;$ und $\;\pmb{H(w)}\;$ abzufragen:

In [12]:
def Summenhäufigkeit(w,h,x):
    N = 0
    i = 0
    while i < len(w) and w[i] <= x:
        N += h[i]
        i += 1
    return (N,N/sum(h))
    
Summenhäufigkeit(werte,absH,30)

(np.int64(7), np.float64(0.7))

### <span style="color:rgb(160,0,86)">Was sind Lagemasse und Streumasse?</span>

Die empirische Häufigkeitsverteilung beantwortet die Frage: Wie oft kommen die Werte eines Merkmals vor? Mit **statistischen Masszahlen** sollen nun spezifische Informationen aus den Daten herausgefiltert werden.      

- Ein **Lagemass** beschreibt mit einem typischen Wert, ***wo*** die Ausprägungen eines Merkmals liegen.
- Ein **Streumass** beschreibt mit einem typischen Wert, ***wie unterschiedlich***  die Ausprägungen eines Merkmals sind.

#### <span style="color:rgb(160,0,86)">Für nominale Merkmale:</span>
- ***Lagemass:*** Weil die Werte keine natürliche Reihenfolge haben, können wir keine *Mitte* festlegen. Als repräsentativer Wert für die Lage der Werte wird oft ***der häufigste Wert***, der sogenannte **Modus** $\;\bar{x}_{D}\;$ angegeben.
- ***Streumass:*** Wir wollen angeben, wie gleichmässig sich die ungeordneten Werte verteilen. Wenn bei einem Merkmal nur ein Wert vorkommt, gibt es keine Streuung. Wenn hingegen alle Werte eines Merkmals gleich häufig auftreten, gibt es maximale Unterschiedlichkeit. Als Mass für diese Charakteristik wird häufig der **Dispersionsindex** $$P = \displaystyle\frac{m}{m-1}\big(h(w_1)\cdot(1-h(w_1))+h(w_2)\cdot(1-h(w_2))+\ldots+h(w_m)\cdot(1-h(w_m)\big)$$ gebraucht. Wenn $\,P>0.9\,$ ist, haben wir starke Dispersion und wenn $\,P<0.8\,$ ist, haben wir geringe Dispersion. <br>
Wenn im Extremfall **ein Wert eine relative Häufigkeit von 1.0** hat, dann ist $\;\pmb{P=0}\,$:
$$P = \displaystyle\frac{m}{m-1}\big(\,\underbrace{\textcolor{red}{1}\cdot(1-\textcolor{red}{1})}_{=\,0}+\underbrace{\textcolor{red}{0}\cdot(1-\textcolor{red}{0})}_{=\,0}\;+\;\ldots\;+\;\underbrace{\textcolor{red}{0}\cdot(1-\textcolor{red}{0})}_{=\,0}\,\big)$$  Wenn **alle Werte die gleiche relative Häufigkeit** haben, dann ist $\;\pmb{P=1}\,$:
$$P = \displaystyle\frac{m}{m-1}\big(\,\underbrace{\textcolor{red}{\textstyle\frac{1}{m}}\cdot(1-\textcolor{red}{\textstyle\frac{1}{m}})}_{=\,\frac{m-1}{m^2}}+\underbrace{\textcolor{red}{\textstyle\frac{1}{m}}\cdot(1-\textcolor{red}{\textstyle\frac{1}{m}})}_{=\,\frac{m-1}{m^2}}\;+\;\ldots\;+\;\underbrace{\textcolor{red}{\textstyle\frac{1}{m}}\cdot(1-\textcolor{red}{\textstyle\frac{1}{m}})}_{=\,\frac{m-1}{m^2}}\,\big)$$ 

Die Methode **mode()** liefert den **Modus** $\;\bar{x}_{D}\;$ direkt:
- Gibt es **genau einen** Wert mit der höchsten Häufigkeit, wird dieser Wert zurückgegeben.
- Gibt es **mehrere** Werte mit gleicher Häufigkeit, werden alle diese Werte zurückgegeben.

Für das Merkmal **Geschlecht** gilt:

In [32]:
df["Geschlecht"].mode() # ein Series Objekt mit allen Werten

0    w
Name: Geschlecht, dtype: object

In [34]:
modus = df["Geschlecht"].mode()[0] # nur ein Wert ist am häufigsten
print("x_D =",modus)

x_D = w


Den **Disperesionsindex** $\;\pmb{P}\;$ können wir wieder mit der Funktion **np.unique()** berechnen. 

Für das Merkmal **Geschlecht** gilt: 

In [35]:
werte, absH = np.unique(df["Geschlecht"],return_counts=True)

m = len(werte)
relH = absH/df.shape[0]

P = m/(m-1) * sum(relH * (1-relH)) # Dispersionsindex

print("P =",P)

P = 0.96


***
Das selbe **von Hand**, ohne Python:

Aus den relativen Häufigkeiten $\;\texttt{[}
\overset{\large 0.4}{\texttt{"m"}},
\overset{\large 0.6}{\texttt{"w"}}\texttt{]}\;$ erkennen wir den **Modus** $\;\bar{x}_{D}=\texttt{"w"}\;$ und finden den **Dispersionsindex** $$P = \displaystyle\frac{2}{2-1}\big(0.4\cdot(1-0.4)+0.6\cdot(1-0.6)\big)=0.96\,.$$
***

#### <span style="color:rgb(160,0,86)">Für ordinale Merkmale:</span>
- ***Lagemass:*** Die Werte haben eine natürliche Reihenfolge, wir können aber mit diesen Werten im allgemeinen nicht rechnen. Wenn wir die Daten aufsteigend sortieren, können wir das sogenannte $p$**-Quantil** bestimmen. Das ist ein Wert $\,\pmb{x_p}\,$ des Merkmals, der die Daten in einen **unteren** und einen **oberen Teil** zerlegt:

  Im ***unteren Teil*** sind $\,p\%\,$ der Daten kleiner oder gleich als $\,\pmb{x_p}\,$


  Im ***oberen Teil*** sind $\,(1-p)\%\,$ der Daten grösser oder gleich als $\,\pmb{x_p}\,$.
  
  Wir wählen den **Werte** $\,\pmb{w}\,$ für das $p$-**Quantil** $\,\pmb{x_p}\,$ so, dass zum ersten Mal die relative Summenhäufigkeit $H(w)\geqslant p$ ist. Für alle Werte $w$ vor $x_p$ muss daher $H(w)<p$ gelten.

  Der Wert $\pmb{x_{50}}$ heisst **Median**, weil in beiden Teilen ungefähr gleich viele Daten liegen. <br>
  Der Wert $\pmb{x_{25}}$ heisst **unteres Quartil**, weil ungefähr ein viertel der Daten kleiner als $\pmb{x_{25}}$ sind. <br>
  Der Wert $\pmb{x_{75}}$ heisst **oberes Quartil**, weil ungefähr drei viertel der Daten kleiner als $\pmb{x_{75}}$ sind.
       
- ***Streumass:*** Wegen der natürlichen Reihenfolge können wir die Streuung differnzierter beschreiben. **Streuung ist gross**, wenn die Werte ***gleichmässig beim kleinsten*** und ***beim grössten*** Wert des Merkmals liegen. Als Mass für diese Charakteristik wird häufig die **Diversität** $$D = \displaystyle\frac{4}{m-1}\big(H(w_1)\cdot(1-H(w_1))+H(w_2)\cdot(1-H(w_2))+\ldots+H(w_m)\cdot(1-H(w_m)\big)$$ gebraucht. Wenn $D>0.8$ ist, haben wir starke Diversität und wenn $D<0.6$ ist, haben wir geringe Diversität.<br>
Wenn im Extremfall **ein Wert eine relative Häufigkeit von 1.0** hat, dann ist $\;\pmb{D=0}\,$: $$D = \displaystyle\frac{4}{m-1}\big(\,\underbrace{\textcolor{red}{0}\cdot(1-\textcolor{red}{0})}_{=\,0}+\underbrace{\textcolor{red}{1}\cdot(1-\textcolor{red}{1})}_{=\,0}\;+\;\ldots\;+\;\underbrace{\textcolor{red}{1}\cdot(1-\textcolor{red}{1})}_{=\,0}\,\big)$$ Wenn **50% der Daten beim kleinsten und 50% beim grössten** Wert liegen, dann ist $\;\pmb{D=1}\,$: $$D = \displaystyle\frac{4}{m-1}\big(\,\underbrace{\textcolor{red}{\textstyle\frac{1}{2}}\cdot(1-\textcolor{red}{\textstyle\frac{1}{2}})}_{=\,\frac{1}{4}}\;+\;\ldots\;+\;\underbrace{\textcolor{red}{\textstyle\frac{1}{2}}\cdot(1-\textcolor{red}{\textstyle\frac{1}{2}})}_{=\,\frac{1}{4}}+\underbrace{\textcolor{red}{1}\cdot(1-\textcolor{red}{1})}_{=\,0}\,\big)$$  

Für das ordinale Merkmal **Prädikat** können auch den **Modus** mit der Methode **mode()** bestimmen: 

In [37]:
modus = df["Prädikat"].mode()[0]
print("x_D =",modus)

x_D = sehr gut


Wegen der natürlichen Ordnung ist der **Median** $\,\pmb{x_{50}}\,$ zur Beschreibung der mittleren Lage besser geeignet. Wieder mit der Methode **unique()** finden wir:  

In [41]:
werte, absH = np.unique(df["Prädikat"],return_counts=True)
m = len(werte) # Anzahl verschiedene Werte

# Werte in die natürliche Reihenfolge umspeichern:
werte = np.array([werte[1],werte[2],werte[3],werte[0]])
relH = np.array([absH[1],absH[2],absH[3],absH[0]])/df.shape[0]

# Relative Summenhäufigkeiten bestimmen
relSH = np.array([relH[0],sum(relH[:2]),sum(relH[:3]),sum(relH)])

# Median suchen:
i = 0
while i < m:
    if relSH[i] > 0.5:
        break
    i += 1
median = werte[i]

print("Median =",median)

Median = sehr gut


Mit den relative Summenhäufigkeiten finden wir auch sofort die **Diversität** $\,\pmb{D}\,$ für das Merkmal **Prädikat**:

In [44]:
D = 4/(m-1) * sum(relSH * (1-relSH))
print("D =",D)

D = 0.6533333333333333


***
Das selbe **von Hand**, ohne Python:

Aus den relativen Summenhäufigkeiten $$\texttt{[}
\overset{\large 0.1}{\texttt{"genügend"}},
\overset{\large 0.4}{\texttt{"gut"}},
\overset{\large 0.8}{\texttt{"sehr gut"}}, 
\overset{\large 1.0}{\texttt{""ausgezeichnet"}}\texttt{]}$$ erkennen wir den **Median** $\,\pmb{x_{50} = \texttt{"sehr gut"}}\,$ und finden die **Diversität** $$D = \displaystyle\frac{4}{4-1}\big(0.1\cdot(1-0.1)+0.4\cdot(1-0.4)+0.8\cdot(1-0.8)+1.0\cdot(1-1.0)\big)=0.65\bar{3}\,.$$
***

#### <span style="color:rgb(160,0,86)">Für metrische Merkmale:</span>
- ***Lagemass:*** Da wir mit den Werten rechnen können, lässt sich die Summe aller Daten $x_1,x_2,\ldots,x_n$ **gleichmässig auf alle statistischen Einheiten verteilen**. Dieses **arithmetische Mittel** $\,\pmb{\bar{x}}\,$ beschreibt, wie gross die Werte im Mittel sind: $$\bar{x} = \frac{1}{n}(x_1+x_2+\ldots+x_n)=h(w_1)\cdot w_1+h(w_2)\cdot w_2 +\ldots + h(w_m)\cdot w_m$$ Das arithmetische Mittel wird aber von einzelnen extremen Werten stark beeinflusst. Der Median hingegen wird von extremen Werten weniger beeinflusst, weil sehr grosse oder sehr kleine Werte die Reihenfolge in der Mitte nicht verändern. Wenn ein Mass auf extreme Werte nicht oder nur moderat reagiert, heisst es **robust**. 
- ***Streumass:*** Bei metrischen Daten sind die Quartile auch Zahlen. Daher können wir den **Qartilsabstand** $\,\pmb{Q = x_{75}-x_{25}}\,$ vom unteren Quartil zum oberen Quartil berechnen. In diesem Bereich liegen ungefähr **50\% der mittleren Daten**. Wenn also $Q$ klein ist, dann liegen die Daten eng beieinander und wenn $Q$ gross ist, dann streuen die Daten stark. Der Quartilsabstand wird durch extreme Werte nicht stark beeinflusst, er ist also auch **robust**.<br>
Eine anderes Mass für die Streuung ist die **mittlere Abweichung** $\,\pmb{MD}\,$ der Daten vom arithmetischen Mittel $$\begin{align*}MD&= \displaystyle\frac{1}{n}\big(|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|\big)\\ &= h(w_1)\cdot|w_1-\bar{x}| + h(w_2)\cdot|w_2-\bar{x}| + \ldots + h(w_m)\cdot|w_m-\bar{x}|\;.\rule{0cm}{1cm}\end{align*}$$ Weil die Absolutbeträge technische Schwierigkeiten mit sich bringen, wird häufiger die **mittlere quadratische Abweichung** $\,\pmb{MQD}\,$ der Daten vom arithmetischen Mittel $\,\pmb{\bar{x}}\,$ $$\begin{align*}MQD&= \displaystyle\frac{1}{n}\big((x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2\big)\\ &= h(w_1)\cdot(w_1-\bar{x})^2+h(w_2)\cdot(w_2-\bar{x})^2+\ldots+h(w_m)\cdot(w_n-\bar{x})^2 \rule{0cm}{1cm}\end{align*}$$ gebraucht. Dieser Wert hat den Nachteil, dass die **Dimension** nicht mehr stimmt. Die Zahl $\,\pmb{MQD}\,$ **hat quadratische Einheiten**. Wenn wir aber aus $MQD$ die Wurzel zeihen, erhalten wir die sogenannte **Standardabweichung** $$s=\sqrt{MQD}\;,$$ **bei der die Dimension wieder stimmt**.     

Für **metrische Daten** stehen diese Lage- und Streumasse in Python **alle als Methoden** zur Verfügung. 

Für das metrische Merkmal **Alter** finden wir den **Median** $\,\pmb{x_{50}}\,$ mit der Methode **median()**:

In [45]:
q50 = df["Alter"].median()
print("Median =",q50) 

Median = 27.0


Das **arithmetische Mittel** $\,\pmb{\bar{x}}\,$ mit der Methode **mean()**:

In [46]:
x_bar = df["Alter"].mean()
print("arithmetisches Mittel =",x_bar) 

arithmetisches Mittel = 31.9


Mit der Methode **quantile($\,p/100\,$)** können wir beliebige $p$-**Quantile** bestimmen und damit also auch den Quartielsabstand $\,\pmb{Q}\,$:

In [47]:
Q = df["Alter"].quantile(0.75) - df["Alter"].quantile(0.25)
print("Q =",Q)

Q = 4.25


Die **mittlere Abweichung** $\,\pmb{MD}\,$ können wir mit den Methode **np.abs()** für den **Absolutbetrag** einer Zahl ausrechnen: 

In [48]:
MD = sum(np.abs(df["Alter"]-x_bar))/df.shape[0]
print("MD =",MD)

MD = 7.840000000000001


Für die **Standardabweichung** können wir die Methode **std()** brauchen. Dabei ist es wichtig, den Parameter **ddof** richtig zu setzen:
- Mit $\;\pmb{\texttt{ddof=0}}\;$ wird in der Berechung für $\,\pmb{MQD}\,$ **durch** $\,\textcolor{red}{\pmb{n}}\,$ **dividiert**
- Mit $\;\pmb{\texttt{ddof=1}}\;$ wird in der Berechung für $\,\pmb{MQD}\,$ **durch** $\,\textcolor{red}{\pmb{n-1}}\,$ **dividiert**

(Warum beide Methoden gebraucht werden, sehen wir später!) 

Für **die Standardabweichung** $\,\pmb{s}\,$ **gegebener Daten** setzen wir den Parameter immer auf $\;\textcolor{red}{\pmb{\texttt{ddof=0}}}\;$:

In [49]:
s = df["Alter"].std(ddof=0)
print("s =",s)

s = 12.676355943251199


***
Durch Einsetzen der Zahlen erhalten wir das selbe **von Hand**, ohne Python:

$\small\begin{align*}\bar{x}&= \frac{1}{10}(27+34+29+24+25+27+27+69+26+31) = 31.9\\
&= 0.1\cdot 24 + 0.1\cdot 25 + 0.1\cdot 26 + 0.3\cdot 27 + 0.1\cdot 29 + 0.1\cdot 31 + 0.1\cdot 34 + 0.1\cdot 69 = 31.9\rule{0cm}{0.7cm}     
\end{align*}$

$\small\begin{align*}MD&= \frac{1}{10}\big(|27-31.9|+|34-31.9|+|29-31.9|+|24-31.9|+|25-31.9|+|27-31.9|+|27-31.9|+|69-31.9|+|26-31.9|+|31-31.9|\big) = 7.84\\
&= 0.1\cdot|24-31.9| + 0.1\cdot|25-31.9| + 0.1\cdot|26-31.9| + 0.3\cdot |27-31.9| + 0.1\cdot |29-31.9| + 0.1\cdot|31-31.9| + 0.1\cdot |34-31.9| + 0.1\cdot|69-31.9| = 7.84\rule{0cm}{0.7cm}    
\end{align*}$

$\small\begin{align*}MQD&= \frac{1}{10}\big((27-31.9)^2+(34-31.9)^2+(29-31.9)^2+(24-31.9)^2+(25-31.9)^2+(27-31.9)^2+(27-31.9)^2+(69-31.9)^2+(26-31.9)^2+(31-31.9)^2\big) = 160.69\\
&= 0.1\cdot(24-31.9)^2 + 0.1\cdot(25-31.9)^2 + 0.1\cdot(26-31.9)^2 + 0.3\cdot (27-31.9)^2 + 0.1\cdot (29-31.9)^2 + 0.1\cdot(31-31.9)^2 + 0.1\cdot (34-31.9)^2 + 0.1\cdot(69-31.9)^2 = 160.69\rule{0cm}{0.7cm}\\
s &= \sqrt{160.69} \approx 12.676 \rule{0cm}{0.7cm}
\end{align*}$
***

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Laden Sie die Daten *2021_Personalerhebung.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. Bestimmen Sie auch für die Merkmale **Abteilung** und **Ausbildung** die relativen Häufigkeiten und relativen Summenhäufigkeiten.

In [None]:
import pandas as pd
import numpy as np

# Datei einlesen
df = pd.read_csv(
    "/Users/muellefa/repos/ASTAT/SW02/Daten/2021_Personalerhebung.csv",
    sep=";",
    engine="python"
)
df.columns = ["PersNummer","Zusatz", "Abteilung", "Ausbildung", "Eintrittsjahr", "Bruttogehalt"]
#print(personnel_db)

#Absolute / Relative Häufigkeit
werte, absH = np.unique(df["Abteilung"],return_counts=True)
print("Absolute Häufigkeiten:")
for i in range(len(werte)):
    print("  n(" + werte[i] + ") =",absH[i])
print("Relative Häufigkeiten:")
for i in range(len(werte)):
    print("  h(" + werte[i] + ") =",absH[i]/df.shape[0])
print("\n")

Absolute Häufigkeiten:
  n(Entwicklung) = 7
  n(Finanzen) = 3
  n(Geschaftsführung) = 4
  n(Schulung) = 3
  n(Test/Anwendungen) = 4
  n(Vertrieb) = 4
Relative Häufigkeiten:
  h(Entwicklung) = 0.28
  h(Finanzen) = 0.12
  h(Geschaftsführung) = 0.16
  h(Schulung) = 0.12
  h(Test/Anwendungen) = 0.16
  h(Vertrieb) = 0.16




In [34]:
import pandas as pd
import numpy as np

# Datei einlesen
df = pd.read_csv(
    "/Users/muellefa/repos/ASTAT/SW02/Daten/2021_Personalerhebung.csv",
    sep=";",
    engine="python"
)
df.columns = ["PersNummer","Zusatz", "Abteilung", "Ausbildung", "Eintrittsjahr", "Bruttogehalt"]
#print(personnel_db)

#Nominale Daten
print("Nominale Daten")

#Lagemasse
print("Lagemasse")
modus = df["Abteilung"].mode()[0] # nur ein Wert ist am häufigsten
print("x_D =",modus)
    
#Streumasse
print("Streumasse")
werte, absH = np.unique(df["Abteilung"],return_counts=True)

m = len(werte)
relH = absH/df.shape[0]

P = m/(m-1) * sum(relH * (1-relH)) # Dispersionsindex

print("P =",P)
print("\n")

Nominale Daten
Lagemasse
x_D = Entwicklung
Streumasse
P = 0.9791999999999998




In [36]:
import pandas as pd
import numpy as np

# Datei einlesen
df = pd.read_csv(
    "/Users/muellefa/repos/ASTAT/SW02/Daten/2021_Personalerhebung.csv",
    sep=";",
    engine="python"
)
df.columns = ["PersNummer","Zusatz", "Abteilung", "Ausbildung", "Eintrittsjahr", "Bruttogehalt"]
#print(personnel_db)

#Ordinale Daten
print("Ordinale Daten")

#Lagemasse
ordnung = ["Mittlere Reife", "Abitur", "Bachelor", "Master", "Promotion"]

# Häufigkeiten zählen
absH = df["Ausbildung"].value_counts()

# Absolut- und Relativhäufigkeiten in gewünschter Reihenfolge
absH_sorted = np.array([absH.get(k, 0) for k in ordnung])
relH = absH_sorted / df.shape[0]

# Kumulative relative Häufigkeiten
relSH = np.cumsum(relH)

# Median suchen
i = np.argmax(relSH > 0.5)
median = ordnung[i]

print("Median =", median)

#Streumasse
D = 4/(m-1) * sum(relSH * (1-relSH))
print("Diversität =",D)

Ordinale Daten
Median = Bachelor
Diversität = 0.5580800000000001


In [39]:
import pandas as pd
import numpy as np

# Datei einlesen
df = pd.read_csv(
    "/Users/muellefa/repos/ASTAT/SW02/Daten/2021_Personalerhebung.csv",
    sep=";",
    engine="python"
)
df.columns = ["PersNummer","Zusatz", "Abteilung", "Ausbildung", "Eintrittsjahr", "Bruttogehalt"]
#print(personnel_db)

#Metrische Daten
#Lagemasse
q50 = df["Bruttogehalt"].median()
print("Median =",q50) 
    
#Streumasse
Q = df["Bruttogehalt"].quantile(0.75) - df["Bruttogehalt"].quantile(0.25)
print("Quantil =",Q)

Median = 7200.0
Quantil = 8200.0


### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Laden Sie die Daten *Gesundheitskosten.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. 

In [2]:
import numpy as np
import pandas as pd

kosten = pd.read_csv("/Users/muellefa/repos/ASTAT/SW02/Daten/Gesundheitskosten.csv")
kosten.head()

Unnamed: 0,Krankenhäuser,Sozialmedizin,Arztpraxen,Zahnmedizin,Andere,Unterstützer,Detailhandel,Prävention,Staat,Versicherer,Importe
1995,12618.01,5626.22,5426.39,2678.79,1850.24,539.26,4291.59,523.88,873.51,1412.37,216.1
1996,13190.23,5983.41,5679.4,2731.91,1952.4,530.95,4459.82,543.27,864.67,1613.91,222.72
1997,13306.79,6218.51,5889.7,2752.02,1972.85,510.27,4646.23,554.69,810.88,1654.12,228.3
1998,13733.42,6517.62,6245.69,2787.4,2077.57,573.09,4777.1,598.37,815.25,1718.39,233.29
1999,14276.61,6635.99,6510.67,2787.08,2165.11,586.25,4933.82,622.52,861.53,1712.13,238.48


Alle Merkmale sind **metrisch**:

- die Lage der Daten können wir mit dem **Median** $\,\pmb{x_{50}}\,$ oder dem **arithmetischen Mittel** $\,\pmb{\bar{x}}\,$ beschreiben
- die Streuung der Daten können wir mit dem **Quartilsabstand** $\,\pmb{Q}\,$, der **mittleren Abweichung** $\,\pmb{MD}\,$ oder der **Standardabweichung** $\,\pmb{s}\,$ beschreiben

Wir können alle Masse in einer Tabelle **df** (ein DataFrame Objekt) zusammenstellen und mit der Funktion **np.round()** die Ergebnisse runden:

In [4]:
df = pd.DataFrame({"Median":kosten.median(),
                   "Mittelwerte":kosten.mean(),
                   "Quartilsabstand":kosten.quantile(0.75)-kosten.quantile(0.25),
                   "Mittlere Abweichung":np.abs(kosten-kosten.mean()).mean(),
                   "Standardabweichung":kosten.std(ddof=0)})
np.round(df,1)

Unnamed: 0,Median,Mittelwerte,Quartilsabstand,Mittlere Abweichung,Standardabweichung
Krankenhäuser,20042.5,21013.2,9616.2,5088.8,5807.8
Sozialmedizin,9744.1,9855.7,4575.8,2312.4,2616.1
Arztpraxen,8719.3,9031.1,3969.7,2051.9,2383.2
Zahnmedizin,3670.0,3550.5,1049.5,523.6,579.6
Andere,3179.8,3529.3,1939.5,1146.3,1355.3
Unterstützer,850.2,982.1,660.4,350.8,414.0
Detailhandel,6198.3,6087.6,1306.8,802.5,950.7
Prävention,818.0,821.0,333.4,159.5,179.5
Staat,1244.1,1187.5,334.8,227.1,324.1
Versicherer,2200.4,2156.2,690.7,366.4,411.5


### <span style="color:rgb(160,0,86)">Aufgabe 3</span>

Laden Sie die Daten *2022_Mathematik 1 WiSo Urliste*. In dieser Excel Datei sind die Mathematik Prüfungsergebnisse von Studierenden an der Fakultät Wirschaft und Sozialwissenschaften der Universität Bern gespeichert. Alle Studierende haben die gleiche Prüfung geschrieben, nur die Reihenfolge der Aufgaben war in der Version A und Version B anders (siehe Angaben in den Zellen N3 und N4). Die Punkte für die 9 Aufgaben sind abhängig von der Version A und B also in den Spalten vertauscht!  Bestimmen Sie für jede Aufgabe passende Lagemasse und Streumasse für die Punkte.  

In [7]:
# pip install xlrd
punkte = pd.read_excel("/Users/muellefa/repos/ASTAT/SW02/Daten/2022_Mathematik 1 WiSo Urliste.xls")

# wir speichern die bestehenden Namen der Spalten
colNamen = punkte.columns

# und schneiden die relevanten Spalten (axis=1) und Zeilen (axis=0) heraus
punkte.drop(list(colNamen[0:1])+list(colNamen[10:11])+list(colNamen[12:]),axis=1,inplace=True)
punkte.drop([0,1,2,3],axis=0,inplace=True)

# nun geben wir den Spalten einfache Namen
colNamenNeu = ["A1","A2","A3","A4","A5","A6","A7","A8","A9","Version"]
punkte.columns = colNamenNeu

# dann speichern wir die Studierenden mit Veresion A
VersionA = punkte[colNamenNeu][punkte["Version"]=="A"]

# bei den Studierenden mit Version B müssen wir die Reihenfolge der Aufgaben ändern
VersionB = punkte[["A2","A1","A4","A3","A6","A5","A8","A7","A9","Version"]][punkte["Version"]=="B"]
VersionB.columns = colNamenNeu

# zuletzt fügen wir die zwei DataFrame VersionA und VersionB wieder zusammen
punkteNeu = pd.concat([VersionA,VersionB])
punkteNeu

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,Version
4,3.5,4,3.5,4,4,4,4,4,4,A
6,1.5,4,3,2.5,3,4,1.5,3,2,A
7,1.5,3.5,1.5,4,3,0,1,3.5,0,A
8,3.5,3,3.5,3,3.5,2,3.5,2.5,2,A
10,4,3.5,3.5,4,3,4,3.5,3,3.5,A
...,...,...,...,...,...,...,...,...,...,...
405,1,1.5,1.5,1,2,0,0.5,1.5,0,B
406,0,1,0,0,0.5,0,0.5,0,0,B
408,3.5,3.5,4,3,2.5,4,4,4,4,B
411,2.5,3,1.5,2,3,0.5,1,1,0,B


Die Werte der 9 Aufgaben sind alle **metrisch**:

- die Lage der Daten können wir mit dem **Median** $x_{50}$ oder dem **arithmetischen Mittel** $\bar{x}$ beschreiben
- die Streuung der Daten können wir mit dem **Quartilsabstand** $Q$, der **mittleren Abweichung** $MD$ oder der **Standardabweichung** $s$ beschreiben

Die Spalte **Version** brachen wir für die Berechnungen nicht. Wir erstellen ein neues DataFrame **pkt**, das nur die Punkte zu den 9 Aufgaben enthält.

Wir stellen wieder alle Masse in einer Tabelle **df** (ein DataFrame Objekt) zusammen und runden die Werte mit der Funktion **np.round()**:

In [None]:
pkt = punkteNeu[colNamenNeu[0:9]]

df = pd.DataFrame({"Median":pkt.median(),
                   "Mittelwerte":pkt.mean(), #.mean() calculates the average
                   "Quartilsabstand":pkt.quantile(0.75)-pkt.quantile(0.25),
                   "Mittlere Abweichung":np.abs(pkt-pkt.mean()).mean(), 
                   "Standardabweichung":pkt.std(ddof=0)}) # .std() berechnet standardabweichung
np.round(df,1)

Unnamed: 0,Median,Mittelwerte,Quartilsabstand,Mittlere Abweichung,Standardabweichung
A1,2.0,2.155718,2.5,1.187366,1.282992
A2,3.0,2.868613,1.0,0.755821,0.92991
A3,2.5,2.411192,2.0,1.05203,1.242014
A4,3.0,2.604623,2.5,1.182174,1.354457
A5,3.0,2.821168,2.0,0.913279,1.154812
A6,1.0,1.504866,1.5,0.998479,1.209241
A7,2.5,2.30292,2.5,1.303959,1.416394
A8,2.5,2.164234,2.5,1.151846,1.318652
A9,0.5,1.069343,2.0,1.093754,1.251543


![HSLU](Bilder/LogoHSLU.png)