## Der Mittelwert
----------------------------------------
### Der arithmethische Mittelwert
$$\text{Mittelwert}=\frac{\text{Summe aller Werte}}{\text{Anzahl aller Werte}}$$ <br>
Das für Stichprobendaten berechnete arithmetische Mittel wird mit $\bar{x}$ (gelesen als "x strich") bezeichnet, und das Mittel für Grundgesamtheitsdaten wird mit $\mu$ (griechischer Buchstabe mu) bezeichnet. Der Mittelwert kann also durch die folgenden Gleichungen ausgedrückt werden: <br>
$$\bar{x}=\frac{1}{n} \cdot \sum_{i=1}^n x_i$$ <br> 
oder
$$\mu=\frac{1}{N} \cdot \sum_{i=1}^N x_i$$ <br>
wobei $\sum_{i=1}^n x_i$ die Summe aller Werte $(x_1,x_2,...,x_n)$, $N$ der Umfang der Grundgesamtheit und $n$ der Stichprobenumfang ist.
Betrachten wir die Variable $height$ im Datensatz der $Studenten$ und berechnen wir ihr arithmetisches Mittel. Beachten Sie, dass es sich bei dem Studentendatensatz um eine *Stichprobe* und **nicht** um die Grundgesamtheit aller Studenten handelt. Daher berechnen wir den $\bar{x}$, den Stichprobenmittelwert.

In [46]:
from csv import DictReader
import numpy as np
age = []
summe_alter= 0
anzahl=0
# iterate over each line as a ordered dictionary and print only few column by column name
with open('students.csv', 'r') as read_obj:
    csv_dict_reader = DictReader(read_obj)
    for row in csv_dict_reader:
        #build list with age of each student
        age.append( float(row['age']))
        #sum up all ages
        summe_alter += ( float(row['age']))
        #count number of students
        anzahl = anzahl +1
#calculate mean with formula
mittelwert_alter = summe_alter/anzahl
print('Mittelwert des Alters der Studenten :' , mittelwert_alter)

Mittelwert des Alters der Studenten : 34.6


Natürlich gibt es auch eine eingebaute Funktion namens np.mean().

In [47]:
import numpy as np
agemean = np.mean(age)
print('Mittelwert des Alters der Studenten :' , agemean)

Mittelwert des Alters der Studenten : 34.6


### Das geometrische Mittel
Bei der Untersuchung von Phänomenen wie der Inflation oder der Bevölkerungsentwicklung, die mit periodischen Zu- oder Abnahmen einhergehen (so genannte Veränderungsraten), ist das **geometrische Mittel** besser geeignet, um die durchschnittliche Veränderung über den gesamten Untersuchungszeitraum zu ermitteln. Um das geometrische Mittel einer Folge von n Werten $x_1,x_2,\dots,x_n $ zu berechnen, werden diese miteinander multipliziert und dann die n-te Wurzel aus diesem Produkt ermittelt. <br> $$ \bar{x}_{geo}=\sqrt{x_1\cdot x_2 \cdots  x_n}$$ <br> was umgeschrieben werden kann als  <br> $$ \bar{x}_{geo}=\sqrt{x_1\cdot x_2 \cdots  x_n}= (\prod_{i=1}^n x_i)^{\frac{1}{n}}= \sqrt[n]{\prod_{i=1}^n x_i}$$ <br> Lassen Sie uns das an einem Beispiel verdeutlichen: <br> 
Wir betrachten die jährlichen Wachstumsraten eines Schwarmes von Honigbienen über einen Zeitraum von 5 Jahren. Diese Veränderungsraten sind: 14%, 26%, 16%, -38%, -6%. Außerdem wissen wir, dass sich zu Beginn des Beobachtungszeitraums 5.000 Bienen im Schwarm befunden haben. Wir suchen nach der mittleren Rate der Populationsveränderung. <br>
Zunächst schreiben wir unsere Wachstumsraten in eine Liste.

In [50]:
bees = [14, 26, 16, -38, -6]

Nun wenden wir wider besseres Wissen das arithmetische Mittel an: <br>

In [51]:
print("The mean rate of population change is: percent", np.mean(bees))

The mean rate of population change is: percent 2.4


Das arithmetische Mittel zeigt, dass der Schwarm über den Zeitraum von fünf Jahren wächst! Wir sind aber skeptisch und berechnen das jährliche Wachstum des Bienenschwarms explizit. Zunächst wandeln wir die angegebenen Prozentsätze in relative Wachstumsraten um $(bees\_growth\_rel)$, und dann berechnen wir einfach den Stand der Bienenpopulation, indem wir die Veränderungsraten nacheinander mit der Anzahl der Bienen multiplizieren, von der wir wissen, dass sie zu Beginn der Erhebung 5.000 betrug.

In [9]:
bees = [14, 26, 16, -38, -6]
bees_growth_rel=[]
i = 0
while i < len(bees):
  bees_growth_rel.append(bees[i]/100+1)
  i = i + 1 
print(bees_growth_rel)

[1.1400000000000001, 1.26, 1.16, 0.62, 0.94]


In [15]:
i = 0
sumsum=5000
while i < len(bees_growth_rel):
  sumsum =bees_growth_rel[i]*sumsum
  i = i + 1 
print(sumsum)

4855.376736


Wow, was für eine Überraschung! Offensichtlich stimmt da etwas nicht! Wir hatten erwartet, dass der Schwarm im Laufe der Zeit im Durchschnitt zunehmen würde. Wir haben jedoch einen Rückgang der absoluten Zahl der Bienen berechnet! <br> <br>
Versuchen wir es mit dem geometrischen Mittel: <br> <br> Bitte beachten Sie, dass $\sqrt[n]{x}= x^{\frac{1}{n}}$ <br> <br> Um das geometrische Mittel explizit zu berechnen, schreiben wir:

In [31]:
i = 0
geom=1
n=len(bees_growth_rel)
while i < n:
  geom =bees_growth_rel[i]*geom
  i = i + 1 
geom = geom**(1/n)
print(geom)

0.9941469529781076


Großartig! Das geometrische Mittel zeigt, dass die Zahl der Arten im Laufe der Zeit mit einer durchschnittlichen Rate von $0,994$ abnimmt, was $-0,006 \% $ entspricht. Wir überprüfen dies, indem wir $5.000$ Bienen (die anfängliche Anzahl der Bienen im Schwarm) mal $0,994$ für jedes Jahr nehmen; dies ergibt $4.971$ Bienen nach dem ersten Jahr, $4.942$ nach dem zweiten Jahr, $4.913$ nach dem dritten Jahr, $4.884$ nach dem vierten Jahr und $4.855$ nach dem fünften Jahr der Beobachtung. Eine perfekte Übereinstimmung! Im Gegensatz zum arithmetischen Mittel gibt das geometrische Mittel die Entwicklung im Vergleich zum Vorjahr nicht zu hoch an! <br> <br>
Zum Glück gibt es in Python vordefinierte Funktionspakete für Berechnung von Streuungsmaßen. Diese können durch $import \ statistics$ verwendet werden. Die Funktion für das geometrische Mittel heisst $geometric\_mean()$

In [35]:
import statistics as st
print(st.geometric_mean(bees_growth_rel))

0.9941469529781076


### Der harmonische Mittelwert
Der **harmonische Mittelwert** eignet sich am besten für die Ermittlung des Durchschnitts von inversen Größen wie Geschwindigkeit (km/h) oder Bevölkerungsdichte (pop/km2). <br> <br> Betrachten Sie das folgende Beispiel: <br> <br>
Die Entfernung zwischen Ihrem Haus und dem nächsten See beträgt 40 km. Sie sind mit einer Geschwindigkeit von 20 km pro Stunde zum See gefahren und mit einer Geschwindigkeit von 80 km pro Stunde nach Hause zurückgekehrt. Wie hoch war meine Durchschnittsgeschwindigkeit während der gesamten Fahrt? <br> <br> Berechnen wir zunächst das arithmetische Mittel.

In [41]:
import numpy as np
speed_arithmetic=[20,80]
print(np.mean(speed_arithmetic))

50.0


Das arithmetische Mittel der beiden Geschwindigkeiten, mit denen Sie gefahren sind, beträgt 50 km pro Stunde. Dies ist jedoch nicht die richtige Durchschnittsgeschwindigkeit. Es lässt die Tatsache außer Acht, dass Sie mit 20 km/h viel länger gefahren sind als mit 80 km/h. Um die richtige Durchschnittsgeschwindigkeit zu ermitteln, müssen wir stattdessen das harmonische Mittel berechnen. <br> <br> Das harmonische Mittel $\bar{x}_h$für die positiven reellen Zahlen $x_1,x_2,...,x_n$ ist definiert durch <br> <br> $$\bar{x}=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+ \cdots + \frac{1}{x_n}}= \frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}} \ , \ \forall \ \ i \ \ x_i \gt 0 $$

Wir können entweder unsere eigene Funktion für das harmonische Mittel definieren :

In [58]:
def harm_mean(a):
    return 1 / a

speed_harmonic=[20,80]
ans = []

for i in speed_harmonic:
    x = harm_mean(i)
    ans.append(x)
harm_mean_sum = len(speed_harmonic)/sum(ans)
print(harm_mean_sum)


32.0


oder die vordefinierte Funktion $harmonic\_mean$ aus dem Packet $statistics$ verwenden:

In [59]:
speed_harmonic=[20,80]
print(st.harmonic_mean(speed_harmonic))

32.0


Perfekt, beide Implementierungen liefern das gleiche Ergebnis. Aber ist dieses Ergebnis korrekt? Wir versuchen das Ergebnis nachzuvollziehen. Im obigen Beispiel beträgt die Entfernung zwischen dem See und Ihrem Haus $40$ km. Die Fahrt von A nach B mit einer Geschwindigkeit von $20$ km/h dauert also 2 Stunden. Die Fahrt von B nach A mit einer Geschwindigkeit von $80$ km/h dauert $0,5$ Stunden. Die Gesamtzeit für die Rundstrecke von $2x40$ km beträgt $2,5$ Stunden. Die Durchschnittsgeschwindigkeit beträgt dann $80:2,5=32$.

### Der gewichtete Mittelwert
Es gibt Anwendungen, bei denen bestimmte Werte in einem Datensatz als wichtiger angesehen werden können als andere. Im Allgemeinen gilt für eine Folge von $n$ Datenwerten $x_1,x_2,...,x_n$ und ihren entsprechenden Gewichten $w_1,w_2,...,w_n$, ist das gewichtete (arithmetische) Mittel gegeben durch <br> <br>
$$ \bar{x}_w = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} $$ <br> <br> wobei $\sum_{i=1}^n w_i x_i$ durch Multiplikation jedes Datenwertes mit seinem Gewicht und anschließender Addition der Produkte ermittelt wird. <br> <br> Um die Noten der Studenten in einem Kurs zu ermitteln, kann ein Dozent beispielsweise der Abschlussprüfung eine dreimal so hohe Gewichtung zuweisen wie den anderen Prüfungen. Ermitteln wir den gewichteten Mittelwert für einen Studenten, der in den ersten beiden Prüfungen $45$ und $68$ Punkte und in der Abschlussprüfung $74$ Punkte erzielt hat. <br> <br> 
Zunächst berechnen wir explizit das gewichtete Mittel:

In [82]:
scores=[45,68,74]
weights_scores=[1,1,3]
weighted=[]
i=0
while i < len(scores):
    weighted.append(scores[i]*weights_scores[i])
    i=i+1
print(sum(weighted)/sum(weights_scores))

67.0


Nun wiederholen wir die Berechnung, indem wir die Python-Funktion $average()$ anwenden:

In [85]:
np.average(scores,weights=weights_scores)

67.0

Um den Vergleich zu erleichtern, berechnen wir auch das arithmetische Mittel der Noten.

In [88]:
np.mean(scores)

62.333333333333336

Bitte beachten Sie, dass die Gewichtung der Eingabewerte ein Prinzip ist, das auch auf andere Mittelwertmaße anwendbar ist. Zum Beispiel können wir die Eingangsvariable für die Berechnung des geometrischen Mittels gewichten.

### Der gewichtete geometrische Mittelwert
<br> <br> $$\bar{x}_{geo_w}= (\prod_{i=1}^n {x_i}^{w_i})^{1/\sum_{i=1}^n w_i}$$ <br> <br> wobei $x_1,x_2,\dots x_n$ den Datenwerten und $w_1,w_2,\dots w_n$ den Gewichten entsprechen. Auf der Grundlage der obigen Gleichung ist es einfach, eine Implementierung in Python zu schreiben:

```python 
weighted_scores = np.power(scores,weights_scores)
for i in range(len(scores)):
    product.append(weighted_scores[i]*weighted_scores[i+1])

    my_weighted_geometric_mean=product**(1/sum((weights_scores)))

```

Um sicherzustellen, dass unsere Implementierung korrekt ist, berechnen wir das Beispiel des Bienenschwarms aus dem obigen Abschnitt erneut. Wir erinnern uns, dass wir im obigen Beispiel einen Bienenschwarm über 5 Jahre beobachtet und die Veränderungsraten der Bienenpopulation notiert haben. Die jährlichen Veränderungsraten waren $1,14, 1,26, 1,16, 0,62, 0,94,$ was $x_1, x_2,...x_n$ entspricht. Um das Ergebnis von oben zu reproduzieren, setzen wir alle Gewichte $w_1,w_2,\dots w_n$ auf 1.

In [136]:
print(bees_growth_rel)
weights_bees=[1,1,1,1,1]
weighted_scores = np.power(scores,weights_scores)
product=1
while i < 3:
    product=(weighted_scores[i])*product
    print(product)
    #my_weighted_geometric_mean=product**(1/sum((weights_scores)))
#print(my_weighted_geometric_mean)

[1.1400000000000001, 1.26, 1.16, 0.62, 0.94]


Korrekt, wir erhalten das gleiche Ergebnis!

### Der gewichtete harmonische Mittelwert
Schließlich werden wir eine eigene gewichtete harmonische Mittelwertfunktion implementieren. <br> <br> Das gewichtete harmonische Mittel $\bar{x}$ für die positiven reellen Zahlen $x_1,x_2,\dots,x_n$ ist durch die folgende Gleichung definiert: <br> <br> $$ \bar{x}_{hw} = \frac{w_1+w_2 + \cdots + w_n}{\frac{w_1}{x_1}+ \frac{w_2}{x_2}+ \cdots + \frac{w_n}{x_n}} = \frac{\sum_{i=1}^n w_i}{\sum_{i=1}^n\frac{w_i}{x_i}}$$

Implementieren wir die Funktion des gewichteten harmonischen Mittels in Python. Die Kodierung ist einfach, aber um die Funktionalität unserer Funktion des gewichteten harmonischen Mittels zu erweitern, fügen wir eine $if$-Anweisung ein. Diese $if$-Anweisung im Code normalisiert die Gewichte, wenn die Gewichte nicht in Proportionen angegeben sind. Wenn die $if$-Anweisung ausgeführt wird, geben wir ein Benutzer-Feedback aus, andernfalls erfolgt keine Rückmeldung.

```python
my.weighted.harmonic.mean = function(vals, weights){
  if (sum(weights) != 1){
    weights = weights/sum(weights)
    print('Weights do not sum up to 1. Weights are normalized...')
  } 
  sum(weights)/sum(weights/vals)
```

Lassen Sie uns unser $my.weighted.harmonic.mean$ an einem recht komplexen Datensatz ausprobieren. Der Datensatz $cities$ besteht aus allen Landeshauptstädten Deutschlands, ihrer Bevölkerungszahl und ihrer Fläche. Ziel ist es, die mittlere Bevölkerungsdichte für die Landeshauptstädte Deutschlands zu berechnen. Sie können die Datei $cities.csv$ <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/cities.csv">hier</a> herunterladen. Die Daten werden von dieser <a href="https://www.bundeslaenderdeutschland.de/landeshauptstaedte/">Website</a> abgerufen.

Zunächst laden wir den Datensatz, geben ihm einen passenden Namen und schauen ihn uns an.

```python
cities <- read.csv('https://userpage.fu-berlin.de/soga/200/2010_data_sets/cities.csv')
cities
```

Zweitens erstellen wir eine neue Spalte und berechnen die Bevölkerungsdichte (Einwohner pro Quadratkilometer).

```python
cities$pop.density <- cities$pop.size / cities$area_km2
cities
```

Drittens berechnen wir das Gewicht für jede Stadt entsprechend der Bevölkerungszahl

```python
cities$pop.weight <- cities$pop.size / sum(cities$pop.size)
cities
```

Nun wenden wir unsere Implementierung des gewichteten harmonischen Mittels $my.weighted.harmonic.mean)$ an und vergleichen es mit dem arithmetischen Mittel.

Wir beginnen, indem wir der Funktion den Vektor $cities\$pop.weight$ als Eingabeparameter übergeben.

```python
my.weighted.harmonic.mean(cities$pop.density, cities$pop.weight)
```

Jetzt testen wir die Funktionalität unserer Funktion, indem wir den Vektor $cities\$pop.size$ als Eingabeparameter angeben.

```python
my.weighted.harmonic.mean(cities$pop.density, cities$pop.size)
```

Wunderbar, die Funktion funktioniert wie erwartet. Die Ergebnisse sind identisch.

Wir können daraus schließen, dass die durchschnittliche Bevölkerungsdichte in den Landeshauptstädten Deutschlands etwa 2.363 Einwohner/km2 beträgt.

Zum Vergleich können wir das arithmetische Mittel der Bevölkerungsdichte berechnen.

```python
mean(cities$pop.density)
```