## Der Mittelwert
----------------------------------------

In [9]:
# Importiere pandas

import pandas as pd

# Importiere numpy

import numpy as np

# Importiere statistics

import statistics as st


### Der arithmethische Mittelwert
$$\text{Mittelwert}=\frac{\text{Summe aller Werte}}{\text{Anzahl aller Werte}}$$ <br>
Das für Stichprobendaten berechnete arithmetische Mittel wird mit $\bar{x}$ (gelesen als "x strich") bezeichnet, und das Mittel für Grundgesamtheitsdaten wird mit $\mu$ (griechischer Buchstabe mu) bezeichnet. Der Mittelwert kann also durch die folgenden Gleichungen ausgedrückt werden: <br>
$$\bar{x}=\frac{1}{n} \cdot \sum_{i=1}^n x_i$$ <br> 
oder
$$\mu=\frac{1}{N} \cdot \sum_{i=1}^N x_i$$ <br>
wobei $\sum_{i=1}^n x_i$ die Summe aller Werte $(x_1,x_2,...,x_n)$, $N$ der Umfang der Grundgesamtheit und $n$ der Stichprobenumfang ist.
Betrachten wir die Variable `height` im Datensatz `students` und berechnen wir ihr arithmetisches Mittel. Beachten Sie, dass es sich bei dem `students`datensatz um eine *Stichprobe* und **nicht** um die Grundgesamtheit aller Studenten handelt. Daher berechnen wir den $\bar{x}$, den Stichprobenmittelwert.

In [2]:

# Initialisiere Variable anzahl und height_total

anzahl = 0
height_total = 0

# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen

df = pd.read_csv('students.csv', index_col=0)

# Definiere for - schleife für Summe der Grösse und Anzahl der Studenten

for i in df.index: 
     height_total += df["height"][i]
     anzahl += 1

print('Der Mittelwert der Grösse der Studenten = ',height_total/anzahl)

Der Mittelwert der Grösse der Studenten =  171.38075009103048


Natürlich gibt es auch eine eingebaute Funktion namens `mean()` im Paket `numpy`.

In [10]:

# Initialisiere Variable anzahl und height_total

height_mean = 0.0

# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen

df = pd.read_csv('students.csv', index_col=0)

# Wende Funktion mean() auf Spalte 'height' an und speicher Ergebnis in heigh_mean

height_mean = np.mean(df['height'])
print('Mittelwert des Alters der Studenten :' , height_mean)

Mittelwert des Alters der Studenten : 171.38075009103048


### Das geometrische Mittel
Bei der Untersuchung von Phänomenen wie der Inflation oder der Bevölkerungsentwicklung, die mit periodischen Zu- oder Abnahmen einhergehen (so genannte Veränderungsraten), ist das **geometrische Mittel** besser geeignet, um die durchschnittliche Veränderung über den gesamten Untersuchungszeitraum zu ermitteln. Um das geometrische Mittel einer Folge von n Werten $x_1,x_2,\dots,x_n $ zu berechnen, werden diese miteinander multipliziert und dann die n-te Wurzel aus diesem Produkt ermittelt. <br> $$ \bar{x}_{geo}=\sqrt{x_1\cdot x_2 \cdots  x_n}$$ <br> was umgeschrieben werden kann als  <br> $$ \bar{x}_{geo}=\sqrt{x_1\cdot x_2 \cdots  x_n}= (\prod_{i=1}^n x_i)^{\frac{1}{n}}= \sqrt[n]{\prod_{i=1}^n x_i}$$ <br> Lassen Sie uns das an einem Beispiel verdeutlichen: <br> 
Wir betrachten die jährlichen Wachstumsraten eines Schwarmes von Honigbienen über einen Zeitraum von 5 Jahren. Diese Veränderungsraten sind: 14%, 26%, 16%, -38%, -6%. Außerdem wissen wir, dass sich zu Beginn des Beobachtungszeitraums 5.000 Bienen im Schwarm befunden haben. Wir suchen nach der mittleren Rate der Populationsveränderung. <br>
Zunächst schreiben wir unsere Wachstumsraten in eine Liste.

In [4]:
bees = [14, 26, 16, -38, -6]

Nun wenden wir wider besseres Wissen das arithmetische Mittel an: <br>

In [5]:
print('Die mittlere Änderungsrate der Bienenpopulation ist', np.mean(bees), 'Prozent')

Die mittlere Änderungsrate der Bienenpopulation ist 2.4 Prozent


Das arithmetische Mittel zeigt, dass der Schwarm über den Zeitraum von fünf Jahren wächst! Wir sind aber skeptisch und berechnen das jährliche Wachstum des Bienenschwarms explizit. Zunächst wandeln wir die angegebenen Prozentsätze in relative Wachstumsraten um $(bees\_growth\_rel)$, und dann berechnen wir einfach den Stand der Bienenpopulation, indem wir die Veränderungsraten nacheinander mit der Anzahl der Bienen multiplizieren, von der wir wissen, dass sie zu Beginn der Erhebung 5.000 betrug.

In [6]:

# Erzeuge Liste bees

bees = [14, 26, 16, -38, -6]

# Initialisiere leere Liste bees_growth_rel und Indexvariable i

bees_growth_rel=[]
i = 0

# Erzeuge while - Schleife die über die Länge der Liste bees iteriert

while i < len(bees):
    # Berechne die Werte in Prozent und füge sie zu bees_growth_rel hinzu
  bees_growth_rel.append(bees[i]/100+1)
  i = i + 1 
    
print(bees_growth_rel)

[1.1400000000000001, 1.26, 1.16, 0.62, 0.94]


In [7]:

# Initialisiere Variable sumsum und Indexvariable i

i = 0
sumsum=5000

# Erzeuge while - Schleife die über die Länge der Liste bees_growth_rel iteriert

while i < len(bees_growth_rel):
  sumsum =bees_growth_rel[i]*sumsum
  i = i + 1 

print(sumsum)

4855.376736


Wow, was für eine Überraschung! Offensichtlich stimmt da etwas nicht! Wir hatten erwartet, dass der Schwarm im Laufe der Zeit im Durchschnitt zunehmen würde. Wir haben jedoch einen Rückgang der absoluten Zahl der Bienen berechnet! <br> <br>
Versuchen wir es mit dem geometrischen Mittel: <br> <br> Bitte beachten Sie, dass $\sqrt[n]{x}= x^{\frac{1}{n}}$ <br> <br> Um das geometrische Mittel explizit zu berechnen, schreiben wir:

In [11]:

# Initialisiere Variable geom und Indexvariable i

i = 0
geom=1

# Erzeuge while - Schleife die über die Länge der Liste bees_growth_rel iteriert

while i < len(bees_growth_rel):
    # Berechne das geometrische Mittel
  geom =bees_growth_rel[i]*geom
  i = i + 1
    
geom = geom**(1/len(bees_growth_rel))

print(geom)

0.9941469529781076


Großartig! Das geometrische Mittel zeigt, dass die Zahl der Arten im Laufe der Zeit mit einer durchschnittlichen Rate von $0.994$ abnimmt, was $-0.006 \% $ entspricht. Wir überprüfen dies, indem wir $5.000$ Bienen (die anfängliche Anzahl der Bienen im Schwarm) mal $0.994$ für jedes Jahr nehmen; dies ergibt $4.971$ Bienen nach dem ersten Jahr, $4.942$ nach dem zweiten Jahr, $4.913$ nach dem dritten Jahr, $4.884$ nach dem vierten Jahr und $4.855$ nach dem fünften Jahr der Beobachtung. Eine perfekte Übereinstimmung! Im Gegensatz zum arithmetischen Mittel gibt das geometrische Mittel die Entwicklung im Vergleich zum Vorjahr nicht zu hoch an! <br> <br>
Zum Glück gibt es in Python vordefinierte Funktionspakete für Berechnung von Streuungsmaßen. Diese können durch `import statistics` verwendet werden. Die Funktion für das geometrische Mittel heisst `geometric_mean()`

In [12]:

print(st.geometric_mean(bees_growth_rel))

0.9941469529781076


### Der harmonische Mittelwert
Der **harmonische Mittelwert** eignet sich am besten für die Ermittlung des Durchschnitts von inversen Größen wie Geschwindigkeit (km/h) oder Bevölkerungsdichte (pop/km2). <br> <br> Betrachten Sie das folgende Beispiel: <br> <br>
Die Entfernung zwischen Ihrem Haus und dem nächsten See beträgt 40 km. Sie sind mit einer Geschwindigkeit von 20 km pro Stunde zum See gefahren und mit einer Geschwindigkeit von 80 km pro Stunde nach Hause zurückgekehrt. Wie hoch war meine Durchschnittsgeschwindigkeit während der gesamten Fahrt? <br> <br> Berechnen wir zunächst das arithmetische Mittel.

In [13]:

# Initialisiere Liste speed_arithmetic

speed_arithmetic=[20,80]

print(np.mean(speed_arithmetic))

50.0


Das arithmetische Mittel der beiden Geschwindigkeiten, mit denen Sie gefahren sind, beträgt 50 km pro Stunde. Dies ist jedoch nicht die richtige Durchschnittsgeschwindigkeit. Es lässt die Tatsache außer Acht, dass Sie mit 20 km/h viel länger gefahren sind als mit 80 km/h. Um die richtige Durchschnittsgeschwindigkeit zu ermitteln, müssen wir stattdessen das harmonische Mittel berechnen. <br> <br> Das harmonische Mittel $\bar{x}_h$für die positiven reellen Zahlen $x_1,x_2,...,x_n$ ist definiert durch <br> <br> $$\bar{x}=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+ \cdots + \frac{1}{x_n}}= \frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}, \qquad x_i \gt 0 \ , \ \forall \ \ i \ \ $$

Wir können entweder unsere eigene Funktion für das harmonische Mittel definieren :

In [14]:

# Definiere Funktion harm_mean

def harm_mean(a):
    return 1 / a

# Initialisiere Liste speed_harmonic und leere Liste ans

speed_harmonic=[20,80]
ans = []

# Erzeuge for - Schleife und wende Funktion auf Elemente von speed_harmonic an

for i in speed_harmonic:
    x = harm_mean(i)
    # Schreibe Ergebnis in ans
    ans.append(x)
    
harm_mean_sum = len(speed_harmonic)/sum(ans)

print(harm_mean_sum)


32.0


oder die vordefinierte Funktion `harmonic_mean` aus dem Packet `statistics` verwenden:

In [59]:
speed_harmonic=[20,80]
print(st.harmonic_mean(speed_harmonic))

32.0


Perfekt, beide Implementierungen liefern das gleiche Ergebnis. Aber ist dieses Ergebnis korrekt? Wir versuchen das Ergebnis nachzuvollziehen. Im obigen Beispiel beträgt die Entfernung zwischen dem See und Ihrem Haus $40$ km. Die Fahrt von A nach B mit einer Geschwindigkeit von $20$ km/h dauert also 2 Stunden. Die Fahrt von B nach A mit einer Geschwindigkeit von $80$ km/h dauert $0.5$ Stunden. Die Gesamtzeit für die Rundstrecke von $2 \times 40$ km beträgt $2.5$ Stunden. Die Durchschnittsgeschwindigkeit beträgt dann $80:2.5=32$.

### Der gewichtete Mittelwert
Es gibt Anwendungen, bei denen bestimmte Werte in einem Datensatz als wichtiger angesehen werden können als andere. Im Allgemeinen gilt für eine Folge von $n$ Datenwerten $x_1,x_2,...,x_n$ und ihren entsprechenden Gewichten $w_1,w_2,...,w_n$, ist das gewichtete (arithmetische) Mittel gegeben durch <br> <br>
$$ \bar{x}_w = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} $$ <br> <br> wobei $\sum_{i=1}^n w_i x_i$ durch Multiplikation jedes Datenwertes mit seinem Gewicht und anschließender Addition der Produkte ermittelt wird. <br> <br> Um die Noten der Studenten in einem Kurs zu ermitteln, kann ein Dozent beispielsweise der Abschlussprüfung eine dreimal so hohe Gewichtung zuweisen wie den anderen Prüfungen. Ermitteln wir den gewichteten Mittelwert für einen Studenten, der in den ersten beiden Prüfungen $45$ und $68$ Punkte und in der Abschlussprüfung $74$ Punkte erzielt hat. <br> <br> 
Zunächst berechnen wir explizit das gewichtete Mittel:

In [1]:

# Initialisiere Liste scores, weights_scores und leere Liste weighted

scores=[45,68,74]
weights_scores=[1,1,3]
weighted=[]
i=0

# Erzeuge while - Schleife und füge zeilenweise scores * weights_scores an weighted an

while i < len(scores):
    weighted.append(scores[i]*weights_scores[i])
    i=i+1
    
print(sum(weighted)/sum(weights_scores))

67.0


Nun wiederholen wir die Berechnung, indem wir die Python-Funktion `average()` anwenden:

In [23]:
np.average(scores,weights=weights_scores)

67.0

Um den Vergleich zu erleichtern, berechnen wir auch das arithmetische Mittel der Noten.

In [24]:
np.mean(scores)

62.333333333333336

Bitte beachten Sie, dass die Gewichtung der Eingabewerte ein Prinzip ist, das auch auf andere Mittelwertmaße anwendbar ist. Zum Beispiel können wir die Eingangsvariable für die Berechnung des geometrischen Mittels gewichten.

### Der gewichtete geometrische Mittelwert
<br> <br> $$\bar{x}_{geo_w}= (\prod_{i=1}^n {x_i}^{w_i})^{1/\sum_{i=1}^n w_i}$$ <br> <br> wobei $x_1,x_2,\dots x_n$ den Datenwerten und $w_1,w_2,\dots w_n$ den Gewichten entsprechen. Auf der Grundlage der obigen Gleichung ist es einfach, eine Implementierung in Python zu schreiben:

```python 
weighted_x = np.power(x_i,w_i)
for i in range(len(x)):
    product *= weighted_x

my_weighted_geometric_mean=product**(1/sum(w_i))

```

Um sicherzustellen, dass unsere Implementierung korrekt ist, berechnen wir das Beispiel des Bienenschwarms aus dem obigen Abschnitt erneut. Wir erinnern uns, dass wir im obigen Beispiel einen Bienenschwarm über 5 Jahre beobachtet und die Veränderungsraten der Bienenpopulation notiert haben. Die jährlichen Veränderungsraten waren $1.14, 1.26, 1.16, 0.62, 0.94,$ was $x_1, x_2,...x_n$ entspricht. Um das Ergebnis von oben zu reproduzieren, setzen wir alle Gewichte $w_1,w_2,\dots w_n$ auf $1$.

In [15]:

# Initialisiere Liste weights_bees, weighted_bees und Variable product

weights_bees=[1,1,1,1,1]
weighted_bees = np.power(bees_growth_rel,weights_bees)
product=1

# Erzeuge for - Schleife und multipliziere einzelne (x_i)^w_i; speichere Ergebnis in product

for i in range(len(weights_bees)):
    product *= weighted_bees[i]

# Berechne gewichtetes geometrisches Mittel

my_weighted_geometric_mean=product**(1/sum(weights_bees))
    
print(my_weighted_geometric_mean)

0.9941469529781076


Korrekt, wir erhalten das gleiche Ergebnis!

### Der gewichtete harmonische Mittelwert
Schließlich werden wir eine eigene gewichtete harmonische Mittelwertfunktion implementieren. <br> <br> Das gewichtete harmonische Mittel $\bar{x}$ für die positiven reellen Zahlen $x_1,x_2,\dots,x_n$ ist durch die folgende Gleichung definiert: <br> <br> $$ \bar{x}_{hw} = \frac{w_1+w_2 + \cdots + w_n}{\frac{w_1}{x_1}+ \frac{w_2}{x_2}+ \cdots + \frac{w_n}{x_n}} = \frac{\sum_{i=1}^n w_i}{\sum_{i=1}^n\frac{w_i}{x_i}}, \qquad x_i \gt 0 \ , \ \forall \ \ i \ \ $$

Implementieren wir die Funktion des gewichteten harmonischen Mittels in Python. Die Kodierung ist einfach, aber um die Funktionalität unserer Funktion des gewichteten harmonischen Mittels zu erweitern, fügen wir eine `if`-Anweisung ein. Diese `if`-Anweisung im Code normalisiert die Gewichte, wenn die Gewichte nicht in Proportionen angegeben sind. Wenn die `if`-Anweisung ausgeführt wird, geben wir ein Benutzer-Feedback aus, andernfalls erfolgt keine Rückmeldung.

In [76]:

# Definiere Funktion my_weighted_harmonic_mean

def my_weighted_harmonic_mean(x_i,w_i):
    sum_w_i=0
    sum_x_i=0
    w_norm=[]
    w_normalized=[]
    sum_w_i_durch_x_i=0
    sum_w_norm_durch_x_i=0
    for i in range(len(w_i)):
        sum_w_i += w_i[i]
        sum_w_i_durch_x_i += w_i[i]/(x_i[i])
    if sum_w_i != 1:
        print('Werte werden normalisiert')
        for i in range(len(w_i)):
            w_norm.append(w_i[i]/sum_w_i)
            w_normalized=sum(w_norm)
            sum_w_norm_durch_x_i += w_norm[i]/(x_i[i])
        return w_normalized/(sum_w_norm_durch_x_i)
    else:
        return sum_w_i/(sum_w_i_durch_x_i)

In [54]:
df = pd.read_csv('students.csv', index_col=0)



Lassen Sie uns unser `my_weighted_harmonic_mean` an einem recht komplexen Datensatz ausprobieren. Der Datensatz `cities` besteht aus allen Landeshauptstädten Deutschlands, ihrer Bevölkerungszahl und ihrer Fläche. Ziel ist es, die mittlere Bevölkerungsdichte für die Landeshauptstädte Deutschlands zu berechnen. Sie können die Datei `cities.csv` <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/cities.csv">hier</a> herunterladen. Die Daten werden von dieser <a href="https://www.bundeslaenderdeutschland.de/landeshauptstaedte/">Website</a> abgerufen.

Zunächst laden wir den Datensatz, geben ihm einen passenden Namen und schauen ihn uns an.

In [84]:
df = pd.read_csv('cities.csv')
print(df)

           name                         state  area_km2  pop.size
0        Berlin                   Land Berlin    891.85   3415100
1        Bremen       Freie Hansestadt Bremen    325.42    546450
2       Dresden             Freistaat Sachsen    328.31    525100
3    D�sseldorf      Land Nordrhein-Westfalen    217.41    593682
4        Erfurt           Freistaat Th�ringen    269.17    203480
5       Hamburg  Freie und Hansestadt Hamburg    755.26   1751780
6      Hannover            Land Niedersachsen    204.14    514130
7          Kiel       Land Schleswig-Holstein    118.60    239860
8     Magdeburg           Land Sachsen-Anhalt    200.97    229924
9         Mainz          Land Rheinland-Pfalz     97.76    202750
10      M�nchen              Freistaat Bayern    310.71   1388300
11      Potsdam              Land Brandenburg    187.27    159450
12  Saarbr�cken                      Saarland    167.07    176990
13     Schwerin   Land Mecklenburg-Vorpommern    130.46     91260
14    Stut

Zweitens erstellen wir eine neue Spalte und berechnen die Bevölkerungsdichte (Einwohner pro Quadratkilometer).

In [85]:
density=[]
area = df['area_km2'].tolist()
pop = df['pop.size'].tolist()
for i in range(len(pop)):
    density.append(pop[i]/area[i]) 
df['density']=density
print(df)

           name                         state  area_km2  pop.size      density
0        Berlin                   Land Berlin    891.85   3415100  3829.231373
1        Bremen       Freie Hansestadt Bremen    325.42    546450  1679.214554
2       Dresden             Freistaat Sachsen    328.31    525100  1599.403003
3    D�sseldorf      Land Nordrhein-Westfalen    217.41    593682  2730.702360
4        Erfurt           Freistaat Th�ringen    269.17    203480   755.953487
5       Hamburg  Freie und Hansestadt Hamburg    755.26   1751780  2319.439663
6      Hannover            Land Niedersachsen    204.14    514130  2518.516704
7          Kiel       Land Schleswig-Holstein    118.60    239860  2022.428331
8     Magdeburg           Land Sachsen-Anhalt    200.97    229924  1144.071254
9         Mainz          Land Rheinland-Pfalz     97.76    202750  2073.956628
10      M�nchen              Freistaat Bayern    310.71   1388300  4468.153584
11      Potsdam              Land Brandenburg    187

Drittens berechnen wir das Gewicht für jede Stadt entsprechend der Bevölkerungszahl

In [86]:
cities_pop_weight = []
pop_sum = sum(df['pop.size'])
for i in range(len(pop)):
    cities_pop_weight.append(pop[i]/pop_sum)
df['cities_pop_weight']=cities_pop_weight
print('Die Summe der Gewichte ist:', sum(cities_pop_weight))
print(df)

Die Summe der Gewichte ist: 1.0000000000000002
           name                         state  area_km2  pop.size  \
0        Berlin                   Land Berlin    891.85   3415100   
1        Bremen       Freie Hansestadt Bremen    325.42    546450   
2       Dresden             Freistaat Sachsen    328.31    525100   
3    D�sseldorf      Land Nordrhein-Westfalen    217.41    593682   
4        Erfurt           Freistaat Th�ringen    269.17    203480   
5       Hamburg  Freie und Hansestadt Hamburg    755.26   1751780   
6      Hannover            Land Niedersachsen    204.14    514130   
7          Kiel       Land Schleswig-Holstein    118.60    239860   
8     Magdeburg           Land Sachsen-Anhalt    200.97    229924   
9         Mainz          Land Rheinland-Pfalz     97.76    202750   
10      M�nchen              Freistaat Bayern    310.71   1388300   
11      Potsdam              Land Brandenburg    187.27    159450   
12  Saarbr�cken                      Saarland    167.07 

Nun wenden wir unsere Implementierung des gewichteten harmonischen Mittels `my_weighted_harmonic_mean` an und vergleichen es mit dem arithmetischen Mittel.

Wir beginnen, indem wir der Funktion die Liste `cities_pop_weight_list` als Eingabeparameter übergeben.

In [91]:
cities_pop_weight_list = df['cities_pop_weight'].tolist()
cities_pop_density_list = df['density'].tolist()

In [88]:
my_weighted_harmonic_mean(cities_pop_density_list,cities_pop_weight_list)

Werte werden normalisiert


2363.437731548685

Jetzt testen wir die Funktionalität unserer Funktion, indem wir die Liste `cities_pop_size_list` als Eingabeparameter angeben.

In [90]:
cities_pop_size_list = df['pop.size'].tolist()
my_weighted_harmonic_mean(cities_pop_density_list,cities_pop_size_list)

Werte werden normalisiert


2363.4377315486854

Wunderbar, die Funktion funktioniert wie erwartet. Die Ergebnisse sind identisch.

Wir können daraus schließen, dass die durchschnittliche Bevölkerungsdichte in den Landeshauptstädten Deutschlands etwa 2.363 Einwohner/km$^2$ beträgt.

Zum Vergleich können wir das arithmetische Mittel der Bevölkerungsdichte berechnen.

In [92]:
np.mean(cities_pop_density_list)

1998.2545454902418