# <span style="color:rgb(160,0,86)">Datenbeschreibung mit Python</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie können absolute und relative Häufigkeiten und Summenhäufigkeiten berechnen und verstehen ihre Bedeutung.
- Sie kennen Lagemasse und Streumasse für nominale, ordinale und metrische Merkmale und können sie berechnen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine Häufigkeitsanalyse?</span>

Die grundlegendste Aufbereitung statistischer Daten ist die Darstellung, wie häufig die Werte $w$ eines Merkmals vorkommen. 

- Die **absolute Häufigkeit** $n(w)$ ist die Anzahl, wie oft ein Wert $w$ vorkommt.
- Die **relative Häufigkeit** $h(w)=\displaystyle\frac{n(w)}{n}$ ist der Anteil, mit dem ein Wert $w$ vorkommt. 

Weil *oridinale* und *metrische* Merkmalen eine Reihenfolge haben, können wir Häufigkeiten auch der Reihe nach kumulieren:

- Die **absolute Summenhäufigkeit** $N(w)$ ist die Anzahl, wie oft Werte kleiner oder gleich $w$ vorkommen.
- Die **relative Summenhäufigkeit** $H(w)=\displaystyle\frac{N(w)}{n}$ ist der Anteil, mit dem Werte kleiner oder gleich $w$ vorkommen.

Die Auflistung aller Werte $w_1, w_2, \ldots, w_m$ eines Merkmals zusammen mit ihren Häufigkeiten nennen wir eine **empirische Häufigkeitsverteilung**.

*Merke:* Aus der empirischen Häufigkeitsverteilung können wir nicht mehr herauslesen, was für einen Wert eine statistische Einheit bei einem Merkmal hat. Wir sehen nur noch, wie oft oder wie häufig die Werte eines Merkmals vorkommen. **Es geht Information verloren!** 

***

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Betrachten wir 10 ehemalige Studierende mit den Merkmalen **Geschlecht**, **Gesamtprädikat** und **Alter**:

$$\begin{bmatrix}
\text{Anna}&w&\text{ausgezeichnet}&27\\
\text{Beat}&m&\text{gut}&34\\
\text{Cary}&m&\text{sehr gut}&29\\
\text{Dana}&w&\text{sehr gut}&24\\
\text{Elif}&w&\text{gut}&25\\
\text{Faro}&m&\text{ausgezeichnet}&27\\
\text{Gabi}&w&\text{sehr gut}&27\\
\text{Hans}&m&\text{genügend}&69\\
\text{Ivea}&w&\text{sehr gut}&26\\
\text{Jose}&w&\text{gut}&31
\end{bmatrix}$$ 

In [2]:
namen = ["Anna","Beat","Cary","Dana","Elif","Faro","Gabi","Hans","Ivea","Jose"]
geschlecht = ["w","m","m","w","w","m","w","m","w","w"]
prädikat = ["ausgezeichnet","gut","sehr gut","sehr gut","gut","ausgezeichnet","sehr gut","genügend","sehr gut","gut"]
alter = [27,34,29,24,25,27,27,69,26,31]

import pandas as pd
df = pd.DataFrame({"Name":namen,"Geschlecht":geschlecht,"Prädikat":prädikat,"Alter":alter})
df

Unnamed: 0,Name,Geschlecht,Prädikat,Alter
0,Anna,w,ausgezeichnet,27
1,Beat,m,gut,34
2,Cary,m,sehr gut,29
3,Dana,w,sehr gut,24
4,Elif,w,gut,25
5,Faro,m,ausgezeichnet,27
6,Gabi,w,sehr gut,27
7,Hans,m,genügend,69
8,Ivea,w,sehr gut,26
9,Jose,w,gut,31


Das Geschlecht ist ein nominales Merkmal. Seine empirische Verteilung ist:

In [3]:
import numpy as np

dim = df.shape
werte,absH = np.unique(df["Geschlecht"],return_counts=True)
for i in range(len(werte)):
    print("n(" + werte[i] + ") =",absH[i])
for i in range(len(werte)):
    print("h(" + werte[i] + ") =",absH[i]/dim[0])

n(m) = 4
n(w) = 6
h(m) = 0.4
h(w) = 0.6


Das Prädikat ist ein ordinales Merkmal. Seine empirische Verteilung ist:

In [4]:
werte,absH = np.unique(df["Prädikat"],return_counts=True)
werte

array(['ausgezeichnet', 'genügend', 'gut', 'sehr gut'], dtype=object)

In [5]:
for i in [1,2,3,0]:
    print("n(" + werte[i] + ") =",absH[i])
for i in [1,2,3,0]:
    print("h(" + werte[i] + ") =",absH[i]/dim[0])

n(genügend) = 1
n(gut) = 3
n(sehr gut) = 4
n(ausgezeichnet) = 2
h(genügend) = 0.1
h(gut) = 0.3
h(sehr gut) = 0.4
h(ausgezeichnet) = 0.2


In [6]:
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i]
    print("N(" + werte[i] + ") =",absSH)
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i]
    print("H(" + werte[i] + ") =",absSH/dim[0])

N(genügend) = 1
N(gut) = 4
N(sehr gut) = 8
N(ausgezeichnet) = 10
H(genügend) = 0.1
H(gut) = 0.4
H(sehr gut) = 0.8
H(ausgezeichnet) = 1.0


Das Alter ist ein metrisches Merkmal. Seine empirische Verteilung ist:

In [7]:
werte,absH = np.unique(df["Alter"],return_counts=True)
for i in range(len(werte)):
    print("n(" + str(werte[i]) + ") =",absH[i])
for i in range(len(werte)):
    print("h(" + str(werte[i]) + ") =",absH[i]/dim[0])

n(24) = 1
n(25) = 1
n(26) = 1
n(27) = 3
n(29) = 1
n(31) = 1
n(34) = 1
n(69) = 1
h(24) = 0.1
h(25) = 0.1
h(26) = 0.1
h(27) = 0.3
h(29) = 0.1
h(31) = 0.1
h(34) = 0.1
h(69) = 0.1


In [8]:
def summenhäufigkeit(w,h,x):
    N = 0
    i = 0
    while i < len(w) and w[i] <= x:
        N += h[i]
        i += 1
    return (N,N/sum(h))
summenhäufigkeit(werte,absH,70)

(10, 1.0)

### <span style="color:rgb(160,0,86)">Was sind Lagemasse und Streumasse?</span>

Die empirische Häufigkeitsverteilung beantwortet die Frage: Wie oft kommen die Werte eines Merkmals vor? Mit **statistischen Masszahlen** sollen nun spezifische Informationen aus den Daten herausgefiltert werden.      

- Ein **Lagemass** beschreibt mit einem typischen Wert, *wo* die Ausprägungen eines Merkmals liegen.
- Ein **Streumass** beschreibt mit einem typischen Wert, *wie* unterschiedlich die Ausprägungen eines Merkmals sind.

#### <span style="color:rgb(160,0,86)">Für nominale Merkmale:</span>
- *Lagemass:* Weil die Werte keine natürliche Reihenfolge haben, können wir keine *Mitte* festlegen. Als repräsentativer Wert für die Lage der Werte wird oft der häufigste Wert, der sogenannte **Modus** $\bar{x}_{D}$ angegeben.
- *Streumass:* Wir wollen angeben, wie gleichmässig sich die ungeordneten Werte verteilen. Wenn bei einem Merkmal nur ein Wert vorkommt, gibt es keine Streuung. Wenn hingegen alle Werte eines Merkmals gleich häufig auftreten, gibt es maximale Unterschiedlichkeit. Als Mass für diese Charakteristik wird häufig der **Dispersionsindex** $$P = \displaystyle\frac{m}{m-1}\big(h(w_1)\cdot(1-h(w_1))+h(w_2)\cdot(1-h(w_2))+\ldots+h(w_m)\cdot(1-h(w_m)\big)$$ gebraucht. Wenn $P>0.9$ ist, haben wir starke Dispersion und wenn $P<0.8$ ist, haben wir geringe Dispersion. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $P=0$ und wenn alle Werte die gleiche relative Häufigkeit haben, dann ist $P=1$. 

In [9]:
werte,absH = np.unique(df["Geschlecht"],return_counts=True)
m = len(werte)
relH = absH/dim[0]
modus = df["Geschlecht"].mode()[0]
P = m/(m-1) * sum(relH * (1-relH))
print("x_D =",modus,", P =",P)

x_D = w , P = 0.96


***
$\texttt{[}
\overset{\large 0.4}{\texttt{"m"}},
\overset{\large 0.6}{\texttt{"w"}}\texttt{]}$

$P = \displaystyle\frac{2}{2-1}\big(0.4\cdot(1-0.4)+0.6\cdot(1-0.6)\big)=0.96$
***

#### <span style="color:rgb(160,0,86)">Für ordinale Merkmale:</span>
- *Lagemass:* Die Werte haben eine natürliche Reihenfolge Wir können aber mit diesen Werten im allgemeinen nicht rechnen. Wenn wir die Daten aufsteigend der Reihe nach sortieren, können wir das sogenannte $p$ **-Quantil** bestimmen. Das ist ein Wert $x_p$ des Merkmals, der die Daten in einen unteren Teil und in einen oberen Teil unterteil: $p\%$ der Daten sind kleiner oder gleich als $x_p$ und $(1-p)\%$ der Daten sind grösser oder gleich als $x_p$. <br> Wir wählen den Werte $w$ für das $p$-Quantil $x_p$ so, dass zum ersten Mal die relative Summenhäufigkeit $H(w)\geqslant p$ ist. Für alle Werte $w$ vor $x_p$ muss daher $H(w)<p$ gelten.<br>
Der Wert $x_{50}$ heisst **Median**, weil in beiden Teilen ungefähr gleich viele Daten liegen. <br>
Der Wert $x_{25}$ heisst **unteres Quartil**, weil ungefähr ein viertel der Daten kleiner als $x_{25}$ sind. <br>
Der Wert $x_{75}$ heisst **oberes Quartil**, weil ungefähr drei viertel der Daten kleiner als $x_{75}$ sind.      
- *Streumass:* Wegen der natürlichen Reihenfolge können wir die Streuung differnzierter beschreiben. Streuung ist gross, wenn die Werte gleichmässig beim *kleinsten* und beim *grössten* Wert des Merkmals liegen. Als Mass für diese Charakteristik wird häufig die **Diversität** $$D = \displaystyle\frac{4}{m-1}\big(H(w_1)\cdot(1-H(w_1))+H(w_2)\cdot(1-H(w_2))+\ldots+H(w_m)\cdot(1-H(w_m)\big)$$ gebraucht. Wenn $D>0.8$ ist, haben wir starke Diversität und wenn $D<0.6$ ist, haben wir geringe Diversität. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $D=0$ und wenn 50% der Daten beim kleinsten und 50% der Daten beim grössten Wert liegen, dann ist $D=1$.  

In [11]:
werte,absH = np.unique(df["Prädikat"],return_counts=True)
m = len(werte)
werte = np.array([werte[1],werte[2],werte[3],werte[0]])
absH = np.array([absH[1],absH[2],absH[3],absH[0]])
relH = absH/dim[0]
relSH = np.array([relH[0],sum(relH[:2]),sum(relH[:3]),sum(relH)])

modus = df["Prädikat"].mode()[0]

i = 0
while i < m:
    if relSH[i] > 0.5:
        break
    i += 1
median = werte[i]

D = 4/(m-1) * sum(relSH * (1-relSH))
print("x_D =",modus,", median =",median,", D =",D)

x_D = sehr gut , median = sehr gut , D = 0.6533333333333333


***
$\texttt{[}
\overset{\large 0.1}{\texttt{"genügend"}},
\overset{\large 0.4}{\texttt{"gut"}},
\overset{\large 0.8}{\texttt{"sehr gut"}}, 
\overset{\large 1.0}{\texttt{""ausgezeichnet"}}\texttt{]}$

$D = \displaystyle\frac{4}{4-1}\big(0.1\cdot(1-0.1)+0.4\cdot(1-0.4)+0.8\cdot(1-0.8)+1.0\cdot(1-1.0)\big)=0.65\bar{3}$
***

#### <span style="color:rgb(160,0,86)">Für metrische Merkmale:</span>
- *Lagemass:* Da wir mit den Werten rechnen können, lässt sich die Summe aller Daten $x_1,x_2,\ldots,x_n$ gleichmässig auf alle statistischen Einheiten verteilen. Dieses **arithmetische Mittel** $\bar{x}$ beschreibt, wie gross die Werte im Mittel sind: $$\bar{x} = \frac{1}{n}(x_1+x_2+\ldots+x_n)=h(w_1)\cdot w_1+h(w_2)\cdot w_2 +\ldots + h(w_m)\cdot w_m$$ Das arithmetische Mittel wird aber von einzelnen extremen Werten stark beeinflusst. Der Median hingegen wird von extremen Werten weniger beeinflusst, weil sehr grosse oder sehr kleine Werte die Reihenfolge in der Mitte nicht verändern. Wenn ein Mass auf extreme Werte nicht oder nur moderat reagiert, heisst es **robust**. 
- *Streumass:* Bei metrischen Daten sind die Quartile auch Zahlen. Daher können wir den **Qartilsabstand** $Q = x_{75\%}-x_{25\%}$ vom unteren Quartil zum oberen Quartil berechnen. In diesem Bereich liegen ungefähr 50\% der mittleren Daten. Wenn also $Q$ klein ist, dann liegen die Daten eng beieinander und wenn $Q$ gross ist, dann streuen die Daten stark. Der Quartilsabstand wird durch extreme Werte auch nicht gross beeinflusst.<br>
Eine anderes Mass für die Streuung ist die **mittlere Abweichung** $MD$ der Daten vom arithmetischen Mittel $$\begin{align*}MD&= \displaystyle\frac{1}{n}\big(|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|\big)\\ &= h(w_1)\cdot|w_1-\bar{x}| + h(w_2)\cdot|w_2-\bar{x}| + \ldots + h(w_m)\cdot|w_m-\bar{x}|\rule{0cm}{1cm}\end{align*}$$ Weil die Absolutbeträge technische Schwierigkeiten mit sich bringen, wird häufiger die **mittlere quadratische Abweichung** $MQD$ der Daten vom arithmetischen Mittel $$\begin{align*}MQD&= \displaystyle\frac{1}{n}\big((x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2\big)\\ &= h(w_1)\cdot(w_1-\bar{x})^2+h(w_2)\cdot(w_2-\bar{x})^2+\ldots+h(w_m)\cdot(w_n-\bar{x})^2 \rule{0cm}{1cm}\end{align*}$$ gebraucht. Dieser Wert hat den Nachteil, dass die Dimension nicht mehr stimmt. Die Zahl $MQD$ hat quadratische Einheiten. Wenn wir aber aus $MQD$ die Wurzel zeihen, erhalten wir die sogenannte **Standardabweichung** $$s=\sqrt{MQD}\;,$$ bei der die Dimension wieder stimmt.     

In [14]:
q50 = df["Alter"].median()
x_bar = df["Alter"].mean()
Q = df["Alter"].quantile(0.75) - df["Alter"].quantile(0.25)
s = df["Alter"].std(ddof=0)
MD = sum(np.abs(df["Alter"]-x_bar))/len(df["Alter"])
print("Median =",q50,", arithmetisches Mittel =",x_bar) 
print("Q =",Q,", s =",s,", MD =",MD)

Median = 27.0 , arithmetisches Mittel = 31.9
Q = 4.25 , s = 12.676355943251199 , MD = 7.840000000000001


***
$\small\begin{align*}\bar{x}&= \frac{1}{10}(27+34+29+24+25+27+27+69+26+31) = 31.9\\
&= 0.1\cdot 24 + 0.1\cdot 25 + 0.1\cdot 26 + 0.3\cdot 27 + 0.1\cdot 29 + 0.1\cdot 31 + 0.1\cdot 34 + 0.1\cdot 69 = 31.9\rule{0cm}{0.7cm}     
\end{align*}$

$\small\begin{align*}MD&= \frac{1}{10}\big(|27-31.9|+|34-31.9|+|29-31.9|+|24-31.9|+|25-31.9|+|27-31.9|+|27-31.9|+|69-31.9|+|26-31.9|+|31-31.9|\big) = 7.84\\
&= 0.1\cdot|24-31.9| + 0.1\cdot|25-31.9| + 0.1\cdot|26-31.9| + 0.3\cdot |27-31.9| + 0.1\cdot |29-31.9| + 0.1\cdot|31-31.9| + 0.1\cdot |34-31.9| + 0.1\cdot|69-31.9| = 7.84\rule{0cm}{0.7cm}    
\end{align*}$

$\small\begin{align*}MQD&= \frac{1}{10}\big((27-31.9)^2+(34-31.9)^2+(29-31.9)^2+(24-31.9)^2+(25-31.9)^2+(27-31.9)^2+(27-31.9)^2+(69-31.9)^2+(26-31.9)^2+(31-31.9)^2\big) = 160.69\\
&= 0.1\cdot(24-31.9)^2 + 0.1\cdot(25-31.9)^2 + 0.1\cdot(26-31.9)^2 + 0.3\cdot (27-31.9)^2 + 0.1\cdot (29-31.9)^2 + 0.1\cdot(31-31.9)^2 + 0.1\cdot (34-31.9)^2 + 0.1\cdot(69-31.9)^2 = 160.69\rule{0cm}{0.7cm}\\
s &= \sqrt{160.69} \approx 12.676 \rule{0cm}{0.7cm}
\end{align*}$
***

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Laden Sie die Daten *2021_Personalerhebung.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. Bestimmen Sie auch für die Merkmale **Abteilung** und **Ausbildung** die relativen Häufigkeiten und relativen Summenhäufigkeiten.

***

### <span style="color:rgb(160,0,86)">Lösungsvorschlag</span>

In [1]:
# To do!
import numpy as np
import pandas as pd

personal = pd.read_csv("Daten/2021_Personalerhebung.csv")
personal.head()

Unnamed: 0,PersNummer;;Abteilung;Ausbildung;Eintrittsjahr;Bruttogehalt
0,560426;;Finanzen;Abitur;2006;13200
1,590303;;Vertrieb;Mittlere Reife;2008;13500
2,611117;;Entwicklung;Promotion;2008;17600
3,620212;;Geschaftsführung;Master;2006;18000
4,620624;;Entwicklung;Master;2007;17400


In [2]:
# Der Seperator in der Datei 2021_Personalerhabung ist das Semikolon!
personal = pd.read_csv("Daten/2021_Personalerhebung.csv",sep=";")
personal.head()

Unnamed: 0,PersNummer,Unnamed: 1,Abteilung,Ausbildung,Eintrittsjahr,Bruttogehalt
0,560426,,Finanzen,Abitur,2006,13200
1,590303,,Vertrieb,Mittlere Reife,2008,13500
2,611117,,Entwicklung,Promotion,2008,17600
3,620212,,Geschaftsführung,Master,2006,18000
4,620624,,Entwicklung,Master,2007,17400


In [3]:
# Die Spalten PersNummer und Unnamed: 1 brauchen wir nicht
personal.drop(["PersNummer","Unnamed: 1"],axis=1,inplace=True)
personal.head()

Unnamed: 0,Abteilung,Ausbildung,Eintrittsjahr,Bruttogehalt
0,Finanzen,Abitur,2006,13200
1,Vertrieb,Mittlere Reife,2008,13500
2,Entwicklung,Promotion,2008,17600
3,Geschaftsführung,Master,2006,18000
4,Entwicklung,Master,2007,17400


In [4]:
# Die relative Häufigkeiten des Merkmals Abteilung:
dim = personal.shape
werteAbteilung, absHAbteilung = np.unique(personal["Abteilung"],return_counts=True)
for i in range(len(werteAbteilung)):
    print("h("+ werteAbteilung[i] +") =",absHAbteilung[i]/dim[0])

h(Entwicklung) = 0.28
h(Finanzen) = 0.12
h(Geschaftsführung) = 0.16
h(Schulung) = 0.12
h(Test/Anwendungen) = 0.16
h(Vertrieb) = 0.16


In [5]:
# Die relative Summenhäufigkeiten des Merkmals Ausbildung:
werteAusbildung, absHAusbildung = np.unique(personal["Ausbildung"],return_counts=True)
werteAusbildung

array(['Abitur', 'Bache lor', 'Bachelor', 'Master', 'Mittlere Reife',
       'Promotion'], dtype=object)

In [14]:
# Es gibt einen Tipfehler im Datensatz: 'Bache lor' muss korrigiert werden!
personal = personal.replace("Bache lor","Bachelor")
werteAusbildung, absHAusbildung = np.unique(personal["Ausbildung"],return_counts=True)
werteAusbildung

array(['Abitur', 'Bachelor', 'Master', 'Mittlere Reife', 'Promotion'],
      dtype=object)

In [15]:
# natürliche Reihenfolge: Mittlere Reife, Abitur, Bachelor, Master, Promotion
werteAusbildung = np.array([werteAusbildung[3],
                            werteAusbildung[0], 
                            werteAusbildung[1],
                            werteAusbildung[2],
                            werteAusbildung[4]])
absHAusbildung =  np.array([absHAusbildung[3],
                            absHAusbildung[0],
                            absHAusbildung[1],
                            absHAusbildung[2],
                            absHAusbildung[4]])
werteAusbildung

array(['Mittlere Reife', 'Abitur', 'Bachelor', 'Master', 'Promotion'],
      dtype='<U14')

In [16]:
def relSHAusbildung(w,h,idx):
    N = 0
    i = 0
    while i <= idx:
        N += h[i]
        i += 1
    return N/sum(h)        

for i in range(len(werteAusbildung)): 
    print("H("+ werteAusbildung[i] +") =",relSHAusbildung(werteAusbildung,absHAusbildung,i))

H(Mittlere Reife) = 0.12
H(Abitur) = 0.36
H(Bachelor) = 0.72
H(Master) = 0.92
H(Promotion) = 1.0


Das Merkmal **Abteilung** ist nominal:
- die Lage der Daten können wir mit dem **Modus** $\bar{x}_D$ beschreiben
- die Streuung der Daten können wir mit dem **Dispersionsindex** $P$ beschreiben

In [17]:
m = len(werteAbteilung)
relHAbteilung = absHAbteilung/dim[0]
modus = personal["Abteilung"].mode()[0]
P = m/(m-1) * sum(relHAbteilung * (1-relHAbteilung))
print("x_D =",modus,"P =",P)

x_D = Entwicklung P = 0.9791999999999998


- Der Wert *Entwicklung* ist also representativ für das Merkmal **Abteilung**.
- Das Merkmal **Abteilung** hat eine hohe Dispersion. Die Verteilung der Werte ist demnach näher bei einer Gleichverteilung als bei einer Einpunkte-Verteilung. Das Merkmal **Abteilung** weist also eine starke Unterschiedlichkeit auf.  

Das Merkmal **Ausbildung** ist ordinal:
- die mittlere Lage der Daten können wir mit dem **Median** $x_{50}$ beschreiben
- die Streuung der Daten können wir mit der **Diversität** $D$ beschreiben

In [18]:
m = len(werteAusbildung)
relSHAusb = np.array([relSHAusbildung(werteAusbildung,absHAusbildung,i) for i in range(m)])

i = 0
while i < m:
    if relSHAusb[i] > 0.5:
        break
    i += 1
median = werteAusbildung[i]

D = 4/(m-1) * sum(relSHAusb * (1-relSHAusb))
print("x_50 =",median,"D =",D)

x_50 = Bachelor D = 0.6112


- Der Wert *Bachelor* beschreibt also die Mitte des Merkmals **Ausbildung**. Ungefähr 50% haben höchstens einen Bachelor und ungefähr 50% haben mindestens einen Bachelor. 
- Das Merkmal **Ausbildung** hat eine geringe bis mittlere Diversität. Die Verteilung der Werte gleicht demnach nicht einer extremen Zweipunkte-Verteilung (gleichmässig links und rechts verteilt) und auch nicht einer Einpunkte-Verteilung.  

Die Merkmale **Eintrittsjahr** und **Bruttogehalt** sind metrisch:

- die Lage der Daten können wir mit dem **Median** $x_{50}$ oder dem **arithmetischen Mittel** $\bar{x}$ beschreiben
- die Streuung der Daten können wir mit dem **Quartilsabstand** $Q$, der **mittleren Abweichung** $MD$ oder der **Standardabweichung** $s$ beschreiben

In [112]:
medianEintritt, medianGehalt = personal[["Eintrittsjahr","Bruttogehalt"]].median()
mittelEintritt, mittelGehalt = personal[["Eintrittsjahr","Bruttogehalt"]].mean()

QEintritt, QGehalt = personal[["Eintrittsjahr","Bruttogehalt"]].quantile(0.75)-personal[["Eintrittsjahr","Bruttogehalt"]].quantile(0.25)
MDEintritt = np.abs(personal["Eintrittsjahr"]-mittelEintritt).mean()
MDGehalt = np.abs(personal["Bruttogehalt"]-mittelGehalt).mean()
sEintritt, sGehalt = personal[["Eintrittsjahr","Bruttogehalt"]].std(ddof=0)

print("Eintrittsjahr:")
print("median =",medianEintritt,"mittel =",mittelEintritt,"Q =",QEintritt,"MD =",MDEintritt,"s =",sEintritt)
print("Bruttogehalt:")
print("median =",medianGehalt,"mittel =",mittelGehalt,"Q =",QGehalt,"MD =",MDGehalt,"s =",sGehalt)

Eintrittsjahr:
median = 2010.0 mittel = 2009.0 Q = 2.0 MD = 1.04 s = 1.296148139681572
Bruttogehalt:
median = 7200.0 mittel = 8840.0 Q = 8200.0 MD = 4276.8 s = 5057.351085301474


- beim Merkmal **Eintrittsjahr** haben wir keine extremen Werte, der Median $x_{50}=2010$ und das arithmetische Mittel $\bar{x}=2009$ für die mittlere Lage unterscheiden sich kaum. Daher ist auch der Quartilsabstand $Q=2$ ungefähr doppelt so gross wie die mittlere Abweichung $MD=1.04$, die angibt, wie gross die Abweichung vom arithemtischen Mittel nach unten und nach oben mit Mittel beträgt. Die Standardabweichung $s\approx 1.30$ ist grösser als die mittlere Abweichung, weil grosse quadratische Abweichungen mehr ins Gewicht fallen. <br> Der Median sagt uns, dass ungefähr die Hälfte des Personal im Jahr $2010$ oder vorher ins Unternehmen eingetreten ist und die andere Hälfte im Jahr $2010$ oder später. Die Eintrittsjahre liegen eng beieinander. Gemäss Quartilsabstand liegen 50% der mittleren Eintrittsjahre nicht weiter als $2$ Jahre auseinander. Das zeigt auch die mittlere Abweichung vom arithmetischen Mittel, durchschnittlich ist das Eintrittjahr $2009$ mit einer mittleren Abweichung von plus oder minus $1.04$ Jahre.   
- beim Merkmal **Bruttogehalt** gibt es extreme Werte mit grossem Gehalt. Daher ist das arithmetische Mittel $\bar{x}=8840$ deutlich grösser als der Median $x_{50}=7200$ und der Quartilsabstand $8200$ ist grösser als die doppelte mittlere Abweichung $MD\approx 4276.8$. Auch hier sind die grossen Gehälter der Grund, dass die Standardabweichung $s\approx 5057.35$ grösser ist als die mittlere Abweichung.<br> Der Median sagt uns, dass ungefähr die Hälfte des Personal ein Gehalt von $7200$ oder weniger hat und die andere Hälfte ein Gehalt von $7200$ oder mehr. Die Gehälter liegen weit auseinander. Gemäss Quartilsabstand unterscheiden sich 50% der mittleren Gehälter bis zu $8200$. Das zeigt auch die mittlere Abweichung vom arithmetischen Mittel, durchschnittlich ist das Gehalt $8840$ mit einer mittleren Abweichung von plus oder minus $4276.8$.    

### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Laden Sie die Daten *Gesundheitskosten.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. 

***

### <span style="color:rgb(160,0,86)">Lösungsvorschlag</span>

In [20]:
import numpy as np
import pandas as pd

kosten = pd.read_csv("Daten/Gesundheitskosten.csv")
kosten.head()

Unnamed: 0.1,Unnamed: 0,Krankenhäuser,Sozialmedizin,Arztpraxen,Zahnmedizin,Andere,Unterstützer,Detailhandel,Prävention,Staat,Versicherer,Importe
0,1995,12618.01,5626.22,5426.39,2678.79,1850.24,539.26,4291.59,523.88,873.51,1412.37,216.1
1,1996,13190.23,5983.41,5679.4,2731.91,1952.4,530.95,4459.82,543.27,864.67,1613.91,222.72
2,1997,13306.79,6218.51,5889.7,2752.02,1972.85,510.27,4646.23,554.69,810.88,1654.12,228.3
3,1998,13733.42,6517.62,6245.69,2787.4,2077.57,573.09,4777.1,598.37,815.25,1718.39,233.29
4,1999,14276.61,6635.99,6510.67,2787.08,2165.11,586.25,4933.82,622.52,861.53,1712.13,238.48


In [21]:
# Die Spalte Unnamed: 0 brauchen wir nicht
kosten.drop(["Unnamed: 0"],axis=1,inplace=True)
kosten.head()

Unnamed: 0,Krankenhäuser,Sozialmedizin,Arztpraxen,Zahnmedizin,Andere,Unterstützer,Detailhandel,Prävention,Staat,Versicherer,Importe
0,12618.01,5626.22,5426.39,2678.79,1850.24,539.26,4291.59,523.88,873.51,1412.37,216.1
1,13190.23,5983.41,5679.4,2731.91,1952.4,530.95,4459.82,543.27,864.67,1613.91,222.72
2,13306.79,6218.51,5889.7,2752.02,1972.85,510.27,4646.23,554.69,810.88,1654.12,228.3
3,13733.42,6517.62,6245.69,2787.4,2077.57,573.09,4777.1,598.37,815.25,1718.39,233.29
4,14276.61,6635.99,6510.67,2787.08,2165.11,586.25,4933.82,622.52,861.53,1712.13,238.48


Alle Merkmale sind metrisch:

- die Lage der Daten können wir mit dem **Median** $x_{50}$ oder dem **arithmetischen Mittel** $\bar{x}$ beschreiben
- die Streuung der Daten können wir mit dem **Quartilsabstand** $Q$, der **mittleren Abweichung** $MD$ oder der **Standardabweichung** $s$ beschreiben

In [139]:
# wir können alle Masse in einer Tabelle (DataFrame) zusammenstellen
df = pd.DataFrame({"Median":kosten.median(),
                   "Mittelwerte":kosten.mean(),
                   "Quartilsabstand":kosten.quantile(0.75)-kosten.quantile(0.25),
                   "Mittlere Abweichung":np.abs(kosten-kosten.mean()).mean(),
                   "Standardabweichung":kosten.std(ddof=0)})
# mit der Methode round aus dem Modul NumPy können wir die Ergebnisse runden
np.round(df,1)

Unnamed: 0,Median,Mittelwerte,Quartilsabstand,Mittlere Abweichung,Standardabweichung
Krankenhäuser,20042.5,21013.2,9616.2,5088.8,5807.8
Sozialmedizin,9744.1,9855.7,4575.8,2312.4,2616.1
Arztpraxen,8719.3,9031.1,3969.7,2051.9,2383.2
Zahnmedizin,3670.0,3550.5,1049.5,523.6,579.6
Andere,3179.8,3529.3,1939.5,1146.3,1355.3
Unterstützer,850.2,982.1,660.4,350.8,414.0
Detailhandel,6198.3,6087.6,1306.8,802.5,950.7
Prävention,818.0,821.0,333.4,159.5,179.5
Staat,1244.1,1187.5,334.8,227.1,324.1
Versicherer,2200.4,2156.2,690.7,366.4,411.5


### <span style="color:rgb(160,0,86)">Aufgabe 3</span>

Laden Sie die Daten *2022_Mathematik 1 WiSo Urliste*. In dieser Excel Datei sind die Mathematik Prüfungsergebnisse von Studierenden an der Fakultät Wirschaft und Sozialwissenschaften der Universität Bern gespeichert. Alle Studierende haben die gleiche Prüfung geschrieben, nur die Reihenfolge der Aufgaben war in der Version A und Version B anders (siehe Angaben in den Zellen N3 und N4). Die Punkte für die 9 Aufgaben sind abhängig von der Version A und B also in den Spalten vertauscht!  Bestimmen Sie für jede Aufgabe passende Lagemasse und Streumasse für die Punkte.  

***

### <span style="color:rgb(160,0,86)">Lösungsvorschlag</span>

Zuerst laden wir die Excel-Datei und speichern die Daten im DataFrame **punkte**. Die benötigten Werte müssen wir nur aus der Excel Datei herauslesen. Wir brauchen nur die Punkte zu den 9 Aufgaben und die Angabe zur Version der Prüfung. Zur besseren Übersicht können wir auch die Spalten einfacher benennen. Dann zerlegen wir das DataFrame **punkte** in zwei Teile:
-  **VersionA** enthält alle Studierenden, bei denen die Punkte zu den Aufgaben bereits in korrekter Reihenfolge gespeichert sind
-  **VersionB** enthält alle Studierenden, bei denen wir die Aufgaben A1 und A2, A3 und A4, A5 und A6, A7 und A8 vertauschen müssen. Nach dem Vertauschen bennen wir die Spalten mit den Aufgabennummern der Version A, weil diese die gleichen Aufaben sind.

Dann fügen wir die zwei Teile **VersionA** und **VersionB** wieder zu einem DataFrame **punkteNeu** zusammen. 

In [136]:
# pip install xlrd
punkte = pd.read_excel("Daten/2022_Mathematik 1 WiSo Urliste.xls")
# wir speichern die bestehenden Namen der Spalten
colNamen = punkte.columns
# und schneiden die relevanten Spalten (axis=1) und Zeilen (axis=0) heraus
punkte.drop(list(colNamen[0:1])+list(colNamen[10:11])+list(colNamen[12:]),axis=1,inplace=True)
punkte.drop([0,1,2,3],axis=0,inplace=True)
# nun geben wir den Spalten einfache Namen
colNamenNew = ["A1","A2","A3","A4","A5","A6","A7","A8","A9","Version"]
punkte.columns = colNamenNew
# dann speichern wir die Studierenden mit Veresion A
VersionA = punkte[colNamenNew][punkte["Version"]=="A"]
# bei den Studierenden mit Version B müssen wir die Reihenfolge der Aufgaben ändern
VersionB = punkte[["A2","A1","A4","A3","A6","A5","A8","A7","A9","Version"]][punkte["Version"]=="B"]
VersionB.columns = colNamenNew
# zuletzt fügen wir die zwei DataFrame VersionA und VersionB wieder zusammen
punkteNew = pd.concat([VersionA,VersionB])
punkteNew

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,Version
4,3.5,4,3.5,4,4,4,4,4,4,A
6,1.5,4,3,2.5,3,4,1.5,3,2,A
7,1.5,3.5,1.5,4,3,0,1,3.5,0,A
8,3.5,3,3.5,3,3.5,2,3.5,2.5,2,A
10,4,3.5,3.5,4,3,4,3.5,3,3.5,A
...,...,...,...,...,...,...,...,...,...,...
405,1,1.5,1.5,1,2,0,0.5,1.5,0,B
406,0,1,0,0,0.5,0,0.5,0,0,B
408,3.5,3.5,4,3,2.5,4,4,4,4,B
411,2.5,3,1.5,2,3,0.5,1,1,0,B


Die Werte der 9 Aufgaben sind alle metrisch:

- die Lage der Daten können wir mit dem **Median** $x_{50}$ oder dem **arithmetischen Mittel** $\bar{x}$ beschreiben
- die Streuung der Daten können wir mit dem **Quartilsabstand** $Q$, der **mittleren Abweichung** $MD$ oder der **Standardabweichung** $s$ beschreiben

In [140]:
# die Spalte Version brachen wir nicht mehr
pkt = punkteNew[colNamenNew[0:9]]
# wir können alle Masse in einer Tabelle (DataFrame) zusammenstellen
df = pd.DataFrame({"Median":pkt.median(),
                   "Mittelwerte":pkt.mean(),
                   "Quartilsabstand":pkt.quantile(0.75)-pkt.quantile(0.25),
                   "Mittlere Abweichung":np.abs(pkt-pkt.mean()).mean(),
                   "Standardabweichung":pkt.std(ddof=0)})
# mit der Methode round aus dem Modul NumPy können wir die Ergebnisse runden
np.round(df,1)

Unnamed: 0,Median,Mittelwerte,Quartilsabstand,Mittlere Abweichung,Standardabweichung
A1,2.0,2.155718,2.5,1.187366,1.282992
A2,3.0,2.868613,1.0,0.755821,0.92991
A3,2.5,2.411192,2.0,1.05203,1.242014
A4,3.0,2.604623,2.5,1.182174,1.354457
A5,3.0,2.821168,2.0,0.913279,1.154812
A6,1.0,1.504866,1.5,0.998479,1.209241
A7,2.5,2.30292,2.5,1.303959,1.416394
A8,2.5,2.164234,2.5,1.151846,1.318652
A9,0.5,1.069343,2.0,1.093754,1.251543


![HSLU](Bilder/LogoHSLU.png)