# <span style="color:rgb(160,0,86)">Datenbeschreibung</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie können absolute und relative Häufigkeiten und Summenhäufigkeiten berechnen und verstehen ihre Bedeutung.
- Sie kennen Lagemasse und Streumasse für nominale, ordinale und metrische Merkmale und können sie berechnen.  

***

### <span style="color:rgb(160,0,86)">Was ist eine Häufigkeitsanalyse?</span>

Die grundlegendste Aufbereitung statistischer Daten ist die Darstellung, wie häufig die Ausprägungen eines Merkmals vorkommen. 

- Die **absolute Häufigkeit** $n(x)$ ist die Anzahl, wie oft ein Wert $x$ vorkommt.
- Die **relative Häufigkeit** $h(x)=\displaystyle\frac{n(x)}{n}$ ist der Anteil, mit dem ein Wert $x$ vorkommt. 

Weil *oridinale* und *metrische* Merkmalen eine Reihenfolge haben, können wir Häufigkeiten auch der Reihe nach kumulieren:

- Die **absolute Summenhäufigkeit** $N(x)$ ist die Anzahl, wie oft Werte kleiner oder gleich $x$ vorkommen.
- Die **relative Summenhäufigkeit** $H(x)=\displaystyle\frac{N(x)}{n}$ ist der Anteil, mit dem Werte kleiner oder gleich $x$ vorkommen.

Die Auflistung aller Werte $x_1, x_2, \ldots, x_m$ eines Merkmals zusammen mit ihren Häufigkeiten nennen wir eine **empirische Häufigkeitsverteilung**.

*Merke:* Aus der empirischen Häufigkeitsverteilung können wir nicht mehr herauslesen, was für einen Wert eine statistische Einheit bei einem Merkmal hat. Wir sehen nur noch, wie oft oder wie häufig die Werte eines Merkmals vorkommen. **Es geht Information verloren!** 

***

#### <span style="color:rgb(160,0,86)">Beispiel:</span>

Betrachten wir 10 ehemalige Studierende mit den Merkmalen **Geschlecht**, **Gesamtprädikat** und **Alter**:

$$\begin{bmatrix}
\text{Anna}&w&\text{ausgezeichnet}&27\\
\text{Beat}&m&\text{gut}&34\\
\text{Cary}&m&\text{sehr gut}&29\\
\text{Dana}&w&\text{sehr gut}&24\\
\text{Elif}&w&\text{gut}&25\\
\text{Faro}&m&\text{ausgezeichnet}&27\\
\text{Gabi}&w&\text{sehr gut}&27\\
\text{Hans}&m&\text{genügend}&69\\
\text{Ivea}&w&\text{sehr gut}&26\\
\text{Jose}&w&\text{gut}&31
\end{bmatrix}$$ 

In [1]:
namen = ["Anna","Beat","Cary","Dana","Elif","Faro","Gabi","Hans","Ivea","Jose"]
geschlecht = ["w","m","m","w","w","m","w","m","w","w"]
prädikat = ["ausgezeichnet","gut","sehr gut","sehr gut","gut","ausgezeichnet","sehr gut","genügend","sehr gut","gut"]
alter = [27,34,29,24,25,27,27,69,26,31]

import pandas as pd
df = pd.DataFrame({"Name":namen,"Geschlecht":geschlecht,"Prädikat":prädikat,"Alter":alter})
df

Unnamed: 0,Name,Geschlecht,Prädikat,Alter
0,Anna,w,ausgezeichnet,27
1,Beat,m,gut,34
2,Cary,m,sehr gut,29
3,Dana,w,sehr gut,24
4,Elif,w,gut,25
5,Faro,m,ausgezeichnet,27
6,Gabi,w,sehr gut,27
7,Hans,m,genügend,69
8,Ivea,w,sehr gut,26
9,Jose,w,gut,31


Das Geschlecht ist ein nominales Merkmal. Seine empirische Verteilung ist:

In [2]:
import numpy as np

dim = df.shape
(werte,absH) = np.unique(df["Geschlecht"],return_counts=True)
for i in range(len(werte)):
    print(f"n({werte[i]})={absH[i]}")
for i in range(len(werte)):
    print(f"h({werte[i]})={absH[i]/dim[0]}")

n(m)=4
n(w)=6
h(m)=0.4
h(w)=0.6


Das Prädikat ist ein ordinales Merkmal. Seine empirische Verteilung ist:

In [3]:
werte,absH = np.unique(df["Prädikat"],return_counts=True)
werte

array(['ausgezeichnet', 'genügend', 'gut', 'sehr gut'], dtype=object)

In [4]:
for i in [1,2,3,0]:
    print(f"n({werte[i]}) = {absH[i]}")
for i in [1,2,3,0]:
    print(f"h({werte[i]}) = {absH[i]/dim[0]}")

n(genügend) = 1
n(gut) = 3
n(sehr gut) = 4
n(ausgezeichnet) = 2
h(genügend) = 0.1
h(gut) = 0.3
h(sehr gut) = 0.4
h(ausgezeichnet) = 0.2


In [5]:
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i]
    print("N(" + werte[i] + ") =",absSH)
absSH = 0
for i in [1,2,3,0]:
    absSH += absH[i]
    print("H(" + werte[i] + ") =",absSH/dim[0])

N(genügend) = 1
N(gut) = 4
N(sehr gut) = 8
N(ausgezeichnet) = 10
H(genügend) = 0.1
H(gut) = 0.4
H(sehr gut) = 0.8
H(ausgezeichnet) = 1.0


Das Alter ist ein metrisches Merkmal. Seine empirische Verteilung ist:

In [6]:
werte,absH = np.unique(df["Alter"],return_counts=True)
for i in range(len(werte)):
    print("n(" + str(werte[i]) + ") =",absH[i])
for i in range(len(werte)):
    print("h(" + str(werte[i]) + ") =",absH[i]/dim[0])

n(24) = 1
n(25) = 1
n(26) = 1
n(27) = 3
n(29) = 1
n(31) = 1
n(34) = 1
n(69) = 1
h(24) = 0.1
h(25) = 0.1
h(26) = 0.1
h(27) = 0.3
h(29) = 0.1
h(31) = 0.1
h(34) = 0.1
h(69) = 0.1


In [7]:
def summenhäufigkeit(w,h,x):
    N = 0
    i = 0
    while i < len(w) and w[i] <= x:
        N += h[i]
        i += 1
    return (N,N/sum(h))
summenhäufigkeit(werte,absH,70)

(np.int64(10), np.float64(1.0))

### <span style="color:rgb(160,0,86)">Was sind Lagemasse und Streumasse?</span>

Die empirische Häufigkeitsverteilung beantwortet die Frage: Wie oft kommen die Werte eines Merkmals vor? Mit **statistischen Masszahlen** sollen nun spezifische Informationen aus den Daten herausgefiltert werden.      

- Ein **Lagemass** beschreibt mit einem typischen Wert, *wo* die Ausprägungen eines Merkmals liegen.
- Ein **Streumass** beschreibt mit einem typischen Wert, *wie* unterschiedlich die Ausprägungen eines Merkmals sind.

#### <span style="color:rgb(160,0,86)">Für nominale Merkmale:</span>
- *Lagemass:* Weil die Werte keine natürliche Reihenfolge haben, können wir keine *Mitte* festlegen. Als repräsentativer Wert für die Lage der Werte wird oft der häufigste Wert, der sogenannte **Modus** $\bar{x}_{D}$ angegeben.
- *Streumass:* Wir wollen angeben, wie gleichmässig sich die ungeordneten Werte verteilen. Wenn bei einem Merkmal nur ein Wert vorkommt, gibt es keine Streuung. Wenn hingegen alle Werte eines Merkmals gleich häufig auftreten, gibt es maximale Unterschiedlichkeit. Als Mass für diese Charakteristik wird häufig der **Dispersionsindex** $$P = \displaystyle\frac{m}{m-1}\big(h(x_1)\cdot(1-h(x_1))+h(x_2)\cdot(1-h(x_2))+\ldots+h(x_m)\cdot(1-h(x_m)\big)$$ gebraucht. Wenn $P>0.9$ ist, haben wir starke Dispersion und wenn $P<0.8$ ist, haben wir geringe Dispersion. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $P=0$ und wenn alle Werte die gleiche relative Häufigkeit haben, dann ist $P=1$. 

In [8]:
werte,absH = np.unique(df["Geschlecht"],return_counts=True)
# m = Anzahl verschiedene Werte
m = len(werte)
relH = absH/dim[0]
# Modus für Lagemass berechnen, [0] ist modus, [1] Ist datentyp
modus = df["Geschlecht"].mode()[0]
# Dispersionsindex: sum(relH * (1-relH)) => (h(x1)*(1-h(x1) + h(x2)*(1-h(x2) .... )
P = m/(m-1) * sum(relH * (1-relH))
print("x_D =",modus,", P =",P)

x_D = w , P = 0.96


$P = \displaystyle\frac{2}{2-1}\big(0.4\cdot(1-0.4)+0.6\cdot(1-0.6)\big)=0.96$

#### <span style="color:rgb(160,0,86)">Für ordinale Merkmale:</span>
- *Lagemass:* Die Werte haben eine natürliche Reihenfolge Wir können aber mit diesen Werten im allgemeinen nicht rechnen. Wenn wir die Daten aufsteigend der Reihe nach sortieren, können wir das sogenannte $p$ **-Quantil** bestimmen. Das ist ein Wert $x_p$, der die Daten in einen unteren Teil und in einen oberen Teil unterteil: $p\%$ der Daten sind kleiner oder gleich als $x_p$ und $(1-p)\%$ der Daten sind grösser. Mit $p=50\%$ sind in beiden Teilen ungefähr gleich viele Daten, daher heisst $x_{50\%}$ der **Median**. Der Wert $x_{25\%}$ heisst **unteres Quartil**, weil ungefähr ein viertel der Daten kleiner als $x_{25\%}$ sind und der Wert $x_{75\%}$ heisst **oberes Quartil**, weil ungefähr drei viertel der Daten kleiner als $x_{75\%}$ sind.      
- *Streumass:* Wegen der natürlichen Reihenfolge können wir die Streuung differnzierter beschreiben. Streuung ist gross, wenn die Werte gleichmässig beim *kleinsten* und beim *grössten* Wert des Merkmals liegen. Als Mass für diese Charakteristik wird häufig die **Diversität** $$D = \displaystyle\frac{4}{m-1}\big(H(x_1)\cdot(1-H(x_1))+H(x_2)\cdot(1-H(x_2))+\ldots+H(x_m)\cdot(1-H(x_m)\big)$$ gebraucht. Wenn $D>0.8$ ist, haben wir starke Diversität und wenn $D<0.6$ ist, haben wir geringe Diversität. Wenn im Extremfall ein Wert eine relative Häufigkeit von 1.0 hat, dann ist $D=0$ und wenn 50% der Daten beim kleinsten und 50% der Daten beim grössten Wert liegen, dann ist $D=1$.  

In [9]:
werte,absH = np.unique(df["Prädikat"],return_counts=True)
m = len(werte)

# werte umsortieren nach natürlicher Ordnung
werte = np.array([werte[1],werte[2],werte[3],werte[0]])
absH = np.array([absH[1],absH[2],absH[3],absH[0]])

relH = absH/dim[0]
relSH = np.array([relH[0],sum(relH[:2]),sum(relH[:3]),sum(relH)]) # relative Summenhäuffigkeit berechnen aus relativer Häuffigkeit

modus = df["Prädikat"].mode()[0] ## Modus = häuffigstes Prädikat

median = werte[0]
i = 1
while i <= m:
    if relSH[i] > 0.5:
        break
    median = werte[i]
    i += 1

D = 4/(m-1) * sum(relSH * (1-relSH))

print("x_D =",modus,", median =",median,", D =",D)

x_D = sehr gut , median = gut , D = 0.6533333333333333


$D = \displaystyle\frac{4}{4-1}\big(0.1\cdot(1-0.1)+0.4\cdot(1-0.4)+0.8\cdot(1-0.8)+1.0\cdot(1-1.0)\big)=0.65\bar{3}$

#### <span style="color:rgb(160,0,86)">Für metrische Merkmale:</span>
- *Lagemass:* Da wir mit den Werten rechnen können, lässt sich die Summe aller Daten gleichmässig auf alle statistischen Einheiten verteilen. Dieses **arithmetische Mittel** $\bar{x}$ beschreibt, wie gross die Werte im Mittel sind. Das arithmetische Mittel wird aber von einzelnen extremen Werten stark beeinflusst. Der Median hingegen wird von extremen Werten weniger beeinflusst, weil sehr grosse oder sehr kleine Werte die Reihenfolge in der Mitte nicht verändern.
- *Streumass:* Bei metrischen Daten sind die Quartile auch Zahlen. Daher können wir den **Qartilsabstand** $Q = x_{75\%}-x_{25\%}$ vom unteren Quartil zum oberen Quartil berechnen. In diesem Bereich liegen ungefähr 50\% der mittleren Danten. Wenn also $Q$ klein ist, dann liegen die Daten eng beieinander und wenn $Q$ gross ist, dann streuen die Daten stark. Der Quartilsabstand wird durch extreme Werte auch nicht gross beeinflusst.<br>
Eine anderes Mass für die Streuung ist die **mittlere Abweichung** $MD$ der Daten vom arithmetischen Mittel $$MD=\displaystyle\frac{1}{n}\big(|x_1-\bar{x}|+|x_2-\bar{x}|+\ldots+|x_n-\bar{x}|\big)\,.$$ Weil die Absolutbeträge technische Schwierigkeiten mit sich bringen, werden häufiger die **mittlere quadratische Abweichung** $MQD$ der Daten vom arithmetischen Mittel $$MQD=\displaystyle\frac{1}{n}\big((x_1-\bar{x})^2+(x_2-\bar{x})^2+\ldots+(x_n-\bar{x})^2\big)$$ gebraucht. Dieser Wert hat den Nachteil, dass die Dimension nicht mehr stimmt. Die Zahl $MQD$ hat quadratische Einheiten. Wenn wir aber aus $MQD$ die Wurzel zeihen, erhalten wir die sogenannte **Standardabweichung** $$s=\sqrt{MQD}\;,$$ bei der die Dimension wieder stimmt.     

In [10]:
q50 = df["Alter"].median()
x_bar = df["Alter"].mean()

Q = df["Alter"].quantile(0.75) - df["Alter"].quantile(0.25)
s = df["Alter"].std(ddof=0) # MQD -> Standardabweichung , (ddof -> wird gesetzt, dass 1/n dividert wird und nicht 1/(n-1) (Schätzwert)
MD = sum(np.abs(df["Alter"]-x_bar))/len(df["Alter"]) #MD

print("Median =",q50,", arithmetisches Mittel =",x_bar) 
print("Q =",Q,", s =",s,", MD =",MD)

Median = 27.0 , arithmetisches Mittel = 31.9
Q = 4.25 , s = 12.676355943251199 , MD = 7.839999999999999


### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Laden Sie die Daten *2021_Personalerhebung.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. Bestimmen Sie auch für die Merkmale **Abteilung** und **Ausbildung** die relativen Häufigkeiten und relativen Summenhäufigkeiten.

In [11]:
import pandas as pd
import numpy as np

df = pd.read_csv("./Daten/2021_Personalerhebung.csv", sep=";")
df.drop("Unnamed: 1", axis=1, inplace=True)
df.head(5)

Unnamed: 0,PersNummer,Abteilung,Ausbildung,Eintrittsjahr,Bruttogehalt
0,560426,Finanzen,Abitur,2006,13200
1,590303,Vertrieb,Mittlere Reife,2008,13500
2,611117,Entwicklung,Promotion,2008,17600
3,620212,Geschaftsführung,Master,2006,18000
4,620624,Entwicklung,Master,2007,17400


### Persnummer

In [12]:
q50 = df["PersNummer"].median()
Q = df["PersNummer"].quantile(0.75) - df["PersNummer"].quantile(0.25)

print("Persnummer")
print(f"Lagemass: Median -> {q50}")
print(f"Streumass: Quartilsabstand -> {Q}")

Persnummer
Lagemass: Median -> 741222.0
Streumass: Quartilsabstand -> 99708.0


### Abteilung

In [13]:
modus = df["Abteilung"].mode()[0]

values, absFreq = np.unique(df["Abteilung"], return_counts=True)
m = len(values)
relFreq = absFreq/df.shape[0]
relFeqInv = 1 - relFreq
P = m/(m-1) * sum(relFreq * relFeqInv)

print(f"Modus = {modus}")
print(f"Disperionsindex = {P}")

Modus = Entwicklung
Disperionsindex = 0.9791999999999998


### Ausbildung

In [14]:
modus = df["Ausbildung"].mode()[0]
values, absFreq = np.unique(df["Ausbildung"], return_counts=True)
values = np.array([values[3],values[0],values[1],values[2],values[4]])
absFreq = np.array([absFreq[3],absFreq[0],absFreq[1],absFreq[2],absFreq[4]])

relFreq = absFreq/df["Ausbildung"].shape[0]
relSumFreq = np.array([relFreq[0],sum(relFreq[:2]),sum(relFreq[:3]),sum(relFreq)])
relSumFreqInv = 1 - relSumFreq

m = len(values)
D = 4/(m-1) * sum(relSumFreq * relSumFreqInv)

median = values[0]
i = 1
while i < len(values):
    if relSumFreq[i] > 0.5:
        break
    median = values[i];
    i += 1

print(f"Diversität = {D}")
print(f"Median = {median}")

Diversität = 0.5376000000000001
Median = Abitur


### Eintrittsjahr

In [15]:
values, absFreq = np.unique(df["Eintrittsjahr"], return_counts=True)
mean = values.mean()

s = values.std(ddof=0)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 2008.0
Standardabweichung = 1.4142135623730951


### Bruttogehalt

In [16]:
values, absFreq = np.unique(df["Bruttogehalt"], return_counts=True)

median = df["Bruttogehalt"].quantile(0.5)

Q = df["Bruttogehalt"].quantile(0.75) - df["Bruttogehalt"].quantile(0.25)

print(f"Median = {median}")
print(f"Quartilsabstand = {Q}")

Median = 7200.0
Quartilsabstand = 8200.0


### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Laden Sie die Daten *Gesundheitskosten.csv* und bestimmen Sie für alle Merkmale passende Lagemasse und Streumasse. 

In [17]:
import pandas as pd
import numpy as np

df = pd.read_csv("./Daten/Gesundheitskosten.csv")
df.head(3)

Unnamed: 0,Jahr,Krankenhäuser,Sozialmedizin,Arztpraxen,Zahnmedizin,Andere,Unterstützer,Detailhandel,Prävention,Staat,Versicherer,Importe
0,1995,12618.01,5626.22,5426.39,2678.79,1850.24,539.26,4291.59,523.88,873.51,1412.37,216.1
1,1996,13190.23,5983.41,5679.4,2731.91,1952.4,530.95,4459.82,543.27,864.67,1613.91,222.72
2,1997,13306.79,6218.51,5889.7,2752.02,1972.85,510.27,4646.23,554.69,810.88,1654.12,228.3


### Krankenhäuser

In [18]:
values, absFreq = np.unique(df["Krankenhäuser"], return_counts=True)

s = df["Krankenhäuser"].std(ddof=0)
median = df["Krankenhäuser"].quantile(0.5)
Q = df["Krankenhäuser"].quantile(0.75) - df["Krankenhäuser"].quantile(0.25)

print(f"Median = {median}")
print(f"Quantilenabstand = {Q}")
print(f"Standardabweichung = {s}")

Median = 20042.504999999997
Quantilenabstand = 9616.2275
Standardabweichung = 5807.75768741274


### Sozialmedizin

In [19]:
values, absFreq = np.unique(df["Sozialmedizin"], return_counts=True)

s = df["Sozialmedizin"].std(ddof=0)
mean = df["Sozialmedizin"].mean()
Q = df["Sozialmedizin"].quantile(0.75) - df["Sozialmedizin"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Quantilenabstand = {Q}")
print(f"Standardabweichung = {s}")

Durchschnitt = 9855.739230769232
Quantilenabstand = 4575.750000000001
Standardabweichung = 2616.080220201624


### Arztpraxen

In [20]:
values, absFreq = np.unique(df["Arztpraxen"], return_counts=True)

s = df["Arztpraxen"].std(ddof=0)
mean = df["Arztpraxen"].mean()
Q = df["Arztpraxen"].quantile(0.75) - df["Arztpraxen"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 9031.076923076924
Standardabweichung = 2383.1793929454334


### Zahnmedizin

In [21]:
values, absFreq = np.unique(df["Zahnmedizin"], return_counts=True)

s = df["Zahnmedizin"].std(ddof=0)
mean = df["Zahnmedizin"].mean()
Q = df["Zahnmedizin"].quantile(0.75) - df["Zahnmedizin"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 3550.536538461539
Standardabweichung = 579.6378918105968


### Andere


In [22]:
values, absFreq = np.unique(df["Andere"], return_counts=True)

s = df["Andere"].std(ddof=0)
mean = df["Andere"].mean()
Q = df["Andere"].quantile(0.75) - df["Andere"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 3529.251153846154
Standardabweichung = 1355.2552520049978


### Unterstützer

In [23]:
values, absFreq = np.unique(df["Unterstützer"], return_counts=True)

s = df["Unterstützer"].std(ddof=0)
median = df["Unterstützer"].quantile(0.5)
Q = df["Unterstützer"].quantile(0.75) - df["Unterstützer"].quantile(0.25)

print(f"Durchschnitt = {median}")
print(f"Quantillenabstand = {Q}")

Durchschnitt = 850.22
Quantillenabstand = 660.3500000000001


### Detailhandel

In [24]:
values, absFreq = np.unique(df["Detailhandel"], return_counts=True)

s = df["Detailhandel"].std(ddof=0)
mean = df["Detailhandel"].mean()
Q = df["Detailhandel"].quantile(0.75) - df["Detailhandel"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 6087.564230769231
Standardabweichung = 950.7116368771549


### Prävention

In [25]:
values, absFreq = np.unique(df["Prävention"], return_counts=True)

s = df["Prävention"].std(ddof=0)
mean = df["Prävention"].mean()
Q = df["Prävention"].quantile(0.75) - df["Prävention"].quantile(0.25)

print(f"Durchschnitt = {mean}")
print(f"Standardabweichung = {s}")

Durchschnitt = 820.9746153846155
Standardabweichung = 179.547647784236


### Staat

In [26]:
values, absFreq = np.unique(df["Staat"], return_counts=True)

s = df["Staat"].std(ddof=0)
median = df["Staat"].quantile(0.5)
Q = df["Staat"].quantile(0.75) - df["Staat"].quantile(0.25)

print(f"Median = {median}")
print(f"Qunatillenabstand = {Q}")

Median = 1244.0900000000001
Qunatillenabstand = 334.8275000000001


### Versicherer

In [27]:
values, absFreq = np.unique(df["Versicherer"], return_counts=True)

s = df["Versicherer"].std(ddof=0)
median = df["Versicherer"].quantile(0.5)
Q = df["Versicherer"].quantile(0.75) - df["Versicherer"].quantile(0.25)

print(f"Median = {median}")
print(f"Qunatillenabstand = {Q}")

Median = 2200.4049999999997
Qunatillenabstand = 690.6824999999999


### Importe

In [28]:
values, absFreq = np.unique(df["Importe"], return_counts=True)

s = df["Importe"].std(ddof=0)
mean = df["Importe"].mean()
Q = df["Importe"].quantile(0.75) - df["Importe"].quantile(0.25)

print(f"Median = {median}")
print(f"Standardabweichung = {s}")

Median = 2200.4049999999997
Standardabweichung = 139.00477189299534


### <span style="color:rgb(160,0,86)">Aufgabe 3</span>

Laden Sie die Daten *2022_Mathematik 1 WiSo Urliste*. In dieser Excel Datei sind die Mathematik Prüfungsergebnisse von Studierenden an der Fakultät Wirschaft und Sozialwissenschaften der Universität Bern gespeichert. Alle Studierende haben die gleiche Prüfung geschrieben, nur die Reihenfolge der Aufgaben war in der Version A und Version B anders (siehe Angaben in den Zellen N3 und N4). Die Punkte für die 9 Aufgaben sind abhängig von der Version A und B also in den Spalten vertauscht!  Bestimmen Sie für jede Aufgabe passende Lagemasse und Streumasse für die Punkte.  

In [29]:
import pandas as pd
import numpy as np

excel = pd.ExcelFile("Daten/2022_Mathematik 1 WiSo Urliste.xls")

df = excel.parse("Punkte Math 1")
df.drop(["Unnamed: 12", "Unnamed: 13", "Unnamed: 10"], axis=1, inplace=True)
df.drop([0,1,2], axis=0, inplace=True)

new_columns = df.iloc[0].tolist()
df.rename(columns=dict(zip(df.columns, new_columns)), inplace=True)
df.drop(3, axis=0, inplace=True)
df.set_index("Nr.", inplace=True)
df.reset_index(drop=True, inplace=True)

df.head(10)

Unnamed: 0,Aufgabe 1,Aufgabe 2,Aufgabe 3,Aufgabe 4,Aufgabe 5,Aufgabe 6,Aufgabe 7,Aufgabe 8,Aufgabe 9,Version 1. Teilprüfung
0,3.5,4.0,3.5,4.0,4.0,4,4.0,4.0,4.0,A
1,2.5,3.5,4.0,3.0,2.0,4,3.0,1.0,1.5,B
2,1.5,4.0,3.0,2.5,3.0,4,1.5,3.0,2.0,A
3,1.5,3.5,1.5,4.0,3.0,0,1.0,3.5,0.0,A
4,3.5,3.0,3.5,3.0,3.5,2,3.5,2.5,2.0,A
5,2.5,4.0,4.0,1.5,1.0,3,3.0,3.5,1.5,B
6,4.0,3.5,3.5,4.0,3.0,4,3.5,3.0,3.5,A
7,1.0,2.0,0.0,0.0,0.0,0,0.0,0.0,0.0,B
8,2.5,2.0,2.0,3.0,1.0,4,1.5,3.5,0.0,B
9,4.0,3.5,4.0,3.5,1.0,3,3.5,4.0,3.0,B


In [30]:
def switch_order(row):
    version_B = [2, 1, 4, 3, 6, 5, 8, 7, 9]
    new_row = row.copy()
    for i in range(len(version_B)):
        version_B_index = version_B[i] - 1
        new_row.iloc[i] = row.iloc[version_B_index]
    return new_row

df.iloc[1]["Version 1. Teilprüfung"]
df[df["Version 1. Teilprüfung"]=="B"] = df[df["Version 1. Teilprüfung"]=="B"].apply(switch_order, axis=1)    

In [31]:
df_onlyEx = df.drop(columns=["Version 1. Teilprüfung"])
for column in df_onlyEx.columns:
    df_onlyEx[column] = pd.to_numeric(df_onlyEx[column], errors='coerce')

means = df_onlyEx.mean()
std_devs = df_onlyEx.std()

print("Means:")
print(means)

print("\nStandard Deviations:")
print(std_devs)

Means:
Aufgabe 1    2.109524
Aufgabe 2    2.807143
Aufgabe 3    2.359524
Aufgabe 4    2.548810
Aufgabe 5    2.760714
Aufgabe 6    1.472619
Aufgabe 7    2.253571
Aufgabe 8    2.117857
Aufgabe 9    1.046429
dtype: float64

Standard Deviations:
Aufgabe 1    1.308556
Aufgabe 2    1.010539
Aufgabe 3    1.278808
Aufgabe 4    1.393601
Aufgabe 5    1.214669
Aufgabe 6    1.217352
Aufgabe 7    1.441993
Aufgabe 8    1.343166
Aufgabe 9    1.249195
dtype: float64


![HSLU](Bilder/LogoHSLU.png)