In [1]:
import statistics
import pandas as pd
from collections import Counter
from math import floor, ceil

### Mittelwert
#### Der Mittelwert ist die Summe der Datenreihe geteilt durch die Anzahl der Werte.
$$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

Keine Angst vor solchen Gebilden! Die Formel sagt eigentlich nur, dass genau das getan wird: Summe bilden und diese 
Summe durch n teilen.

In [2]:
data = [6, 1, 1, 5, 3, 1]

In [3]:
# Mittelwert: Summe aller Werte einer Reihe geteilt durch die Anzahl der Werte:
mean = sum(data) / len(data)
mean

2.8333333333333335

In [4]:
# Natürlich auch in Pandas am Start:
data_series = pd.Series(data, name='data')
data_series

0    6
1    1
2    1
3    5
4    3
5    1
Name: data, dtype: int64

In [5]:
# Series und Dataframe haben die mean-Methode: 
data_series.mean()

np.float64(2.8333333333333335)

In [7]:
def calculate_mean(data: list) -> float:
    return sum(data) / len(data)

In [8]:
# Bsp. 1: Unterschiedliche Datenreihen – gleicher Mittelwert:
x = [-3, -2, -1, 0, 1, 2, 3]
y = [-100, -100, 100, 100]
z = [-300, 10, 20, 30, 40, 200]

In [9]:
calculate_mean(x)

0.0

In [10]:
calculate_mean(y)

0.0

In [11]:
calculate_mean(z)

0.0

### Modus
Der Modus bezeichnet das am häufigsten vorkommende Element in einer Datenreihe

In [16]:
data = [6, 1, 1, 5, 3, 1, 5]

In [None]:
# Bonusaufgabe: Löse Nachfolgendes OHNE Counter!

In [17]:
num_counter = Counter(data)
num_counter

Counter({1: 3, 5: 2, 6: 1, 3: 1})

In [20]:
modus = num_counter.most_common()[0]
modus

(1, 3)

In [21]:
value, count = modus

In [23]:
print(f'Der Modus ist die Zahl {value} und kommt {count} Mal vor.')

Der Modus ist die Zahl 1 und kommt 3 Mal vor.


In [24]:
# Funktion, die den Modus einer Datenreihe ermittelt:
def determine_mode(data_list: list) -> tuple:
    counter = Counter(data_list)
    most_common = counter.most_common()[0]
    return most_common

In [26]:
# Test:
new_data = [1, 5, 3, 7, 4, 3, 3, 3, 3]

In [27]:
determine_mode(new_data)

(3, 5)

In [28]:
# Modus ist nicht nur bei numerischen Daten sinnvoll:
names_list = ['Anna', 'Hendrik', 'Thomas', 'Julia', 'Anna', 'Hannah', 
              'Matthias', 'Alexa', 'Anna', 'Julia']

In [29]:
determine_mode(names_list)

('Anna', 3)

In [30]:
# Oder einfach Modus aus statistics benutzen:
statistics.mode(data)

1

In [31]:
statistics.mode(new_data)

3

In [33]:
most_common_name = statistics.mode(names_list)
most_common_name

'Anna'

In [34]:
type(most_common_name)

str

In [35]:
# Auch in Pandas am Start:
data_series = pd.Series(data, name='data')
data_series

0    6
1    1
2    1
3    5
4    3
5    1
6    5
Name: data, dtype: int64

In [36]:
data_series.mode()

0    1
Name: data, dtype: int64

In [37]:
# Was passiert, wenn es ZWEI (oder mehr Werte) gibt, die am häufigsten vorkommen?
bimodal_data = [1, 2, 2, 2, 3, 4, 4, 4, 5, 6]

In [39]:
# Mathias' Lösung mit Multimode anhand von Doku:
statistics.multimode(bimodal_data)

[2, 4]

In [40]:
# Unsere Funktion ist auf diesen Fall nicht vorbereitet und müsste überarbeitet werden!
determine_mode(bimodal_data)
# Bonusaufgabe: Funktion so erweitern, dass sie mit einer beliebigen Anzahl von Modi zurechtkommt.

(2, 3)

In [41]:
# Mode gibt nur den "ersten Modus" zurück:
statistics.mode(bimodal_data)

2

In [42]:
# Auch Pandas ist intelligent genug für solche Verteilungen:
b_data_series = pd.Series(bimodal_data, name='b_data')
b_data_series

0    1
1    2
2    2
3    2
4    3
5    4
6    4
7    4
8    5
9    6
Name: b_data, dtype: int64

In [43]:
b_data_series.mode()

0    2
1    4
Name: b_data, dtype: int64

### Median
Der Median ist das Element, das eine nach Größe <b>geordnete</b> Datenreihe in 
genau zwei gleiche Teile teilt. 
Findet sich ein solches Element nicht, dann bildet man meistens den Mittelwert der zwei Elemente in der Mitte der Datenreihe. 

In [44]:
# Datenreihe mit ungerader Anzahl Elemente:
uneven = [6, 1, 1, 5, 3, 1, 2]

In [45]:
# Erstmal sortieren
sorted_uneven = sorted(uneven)
sorted_uneven

[1, 1, 1, 2, 3, 5, 6]

In [46]:
len(sorted_uneven)

7

In [49]:
middle_index = int((len(sorted_uneven) - 1) / 2)
middle_index

3

In [51]:
# Unser Median:
median_uneven = sorted_uneven[middle_index]
median_uneven

2

In [52]:
# Datenreihe mit gerader Anzahl Elemente:
even = [6, 1, 1, 5, 3, 1]

In [53]:
sorted_even = sorted(even)
sorted_even

[1, 1, 1, 3, 5, 6]

In [54]:
len(sorted_even)

6

In [55]:
middle_position = (len(sorted_even) - 1) / 2
middle_position

2.5

In [None]:
# Mit floor und ceil aus dem Modul math kann man von einem Wert aus abrunden (floor, Boden)
# oder aufrunden (ceil, Decke) und zwar unabhängig davon, ob der Wert eigentlich mathematisch 
# auf- oder abgerundet werden muss.

In [61]:
untermedian_index = floor(middle_position)
untermedian_index

2

In [62]:
obermedian_index = ceil(middle_position)
obermedian_index

3

In [66]:
median_even = (sorted_even[untermedian_index] + sorted_even[obermedian_index]) / 2
median_even

2.0

In [67]:
# "Test":
(1 + 3) / 2

2.0

In [68]:
# Wir können die Datenreihe natürlich auch dem median aus statistics übergeben:
statistics.median(even)

2.0

In [69]:
statistics.median(uneven)

2

In [72]:
# Es gibt auch Folgendes:
print('Untermedian:', statistics.median_low(even))
print('Obermedian:', statistics.median_high(even))

Untermedian: 1
Obermedian: 3


### Quantile
Quantile erweitern die Idee des Medians. Hier gibt es nicht nur einen Wert, der die <b>geordnete</b> Datenreihe in zwei Teile teilt, sondern so viele Werte, die die Daten teilen, wie das Quantil es vorgibt. Bei Quartilen z.B. werden die Daten von drei Werten in vier Teile unterteilt. Bei Dezentilen sind es 9 Werte, die die Datene in insgesamt 10 Teile teilen.

In [73]:
x

[-3, -2, -1, 0, 1, 2, 3]

In [74]:
# In zwei Teile gibt einfach den Median:
statistics.quantiles(x, n=2)

[0.0]

In [75]:
# Diese Werte teilen die Daten in vier Teile ein:
statistics.quantiles(x, n=4)

[-2.0, 0.0, 2.0]

### Standardabweichung
Stellt ein Maß dar, das beschreibt, wie stark Daten um einen Mittelwert herum streuen.

In [77]:
data1 = [49, 50, 52, 56, 43, 50]
data2 = [1, 50, 20, 80, 99, 50]

In [78]:
calculate_mean(data1)

50.0

In [79]:
calculate_mean(data2)

50.0

In [None]:
# Beide Datenreihen haben denselben Mittelwert, aber die Werte von data1 liegen
# deutlich enger um diesen Mittelwert verteilt vor. data2 dagegen ist viel verstreuter
# Das Maß der Standardabweichung gibt uns an, wie stark die Streuung von Daten ist!

In [81]:
data3 = [1, 1, 1, 99, 99, 99]
calculate_mean(data3)

50.0

In [82]:
data4 = [50, 50, 50, 50, 50, 50]
calculate_mean(data4)

50.0

In [None]:
# Je höher die Standardabweichung, desto stärker streuen die Daten.
# Eine Standardabweichung von 0 dagegen bedeutet, dass die Daten überhaupt nicht
# streuen, sondern alle auf dem Mittelwert liegen.

In [80]:
statistics.stdev(data1)  # standard deviation = Standardabweichung

4.242640687119285

In [83]:
statistics.stdev(data2)

36.33730865102698

In [84]:
statistics.stdev(data3)

53.67681063550628

In [85]:
# Hier kommt die prophezeite 0 heraus:
statistics.stdev(data4)

0.0

In [None]:
# Kleines Gedankenspiel:
# Der Mittelwert von Körpergrößen beträgt 178
# Unsere errechnete Standardabweichung beträgt 10
# In welchem Größenbereich bewegen sich 68% der Menschen?
# Zwischen 168 und 188 (Mittelwert - 1 Standardabweichung und Mittelwert + 1 Standardabweichung)

In [86]:
# Natürlich auch bei Pandas an Bord:
data3_ser = pd.Series(data3, name='data3')
data3_ser.std()

np.float64(53.67681063550628)

In [87]:
data4_ser = pd.Series(data4, name='data4')
data4_ser.std()

np.float64(0.0)

In [88]:
# Machen wir uns zum Schluss einen Dataframe:
dataframe = pd.DataFrame({'data1': data1, 'data2': data2, 'data3': data3, 'data4': data4})
dataframe

Unnamed: 0,data1,data2,data3,data4
0,49,1,1,50
1,50,50,1,50
2,52,20,1,50
3,56,80,99,50
4,43,99,99,50
5,50,50,99,50


In [89]:
# Was sagt uns dieser Output nach allem, was wir gelernt haben?
dataframe.describe()

Unnamed: 0,data1,data2,data3,data4
count,6.0,6.0,6.0,6.0
mean,50.0,50.0,50.0,50.0
std,4.242641,36.337309,53.676811,0.0
min,43.0,1.0,1.0,50.0
25%,49.25,27.5,1.0,50.0
50%,50.0,50.0,50.0,50.0
75%,51.5,72.5,99.0,50.0
max,56.0,99.0,99.0,50.0


In [93]:
# Nutzerdefinierte Einteilung möglich:
dataframe.describe(percentiles=[0.33, 0.66])

Unnamed: 0,data1,data2,data3,data4
count,6.0,6.0,6.0,6.0
mean,50.0,50.0,50.0,50.0
std,4.242641,36.337309,53.676811,0.0
min,43.0,1.0,1.0,50.0
33%,49.65,39.5,1.0,50.0
50%,50.0,50.0,50.0,50.0
66%,50.6,59.0,99.0,50.0
max,56.0,99.0,99.0,50.0


In [94]:
# Selektieren:
dataframe.describe(percentiles=[0.33, 0.66]).loc[['33%', '66%']]

Unnamed: 0,data1,data2,data3,data4
33%,49.65,39.5,1.0,50.0
66%,50.6,59.0,99.0,50.0


In [95]:
# Auslassen:
dataframe.describe(percentiles=[0.33, 0.66]).drop('50%')

Unnamed: 0,data1,data2,data3,data4
count,6.0,6.0,6.0,6.0
mean,50.0,50.0,50.0,50.0
std,4.242641,36.337309,53.676811,0.0
min,43.0,1.0,1.0,50.0
33%,49.65,39.5,1.0,50.0
66%,50.6,59.0,99.0,50.0
max,56.0,99.0,99.0,50.0
