# Berechnung der Standardabweichung einer Verteilung

Gegeben ist der Datensatz aufgenommener Messwerte $v_i (1\le i \le n)$ mit den zugehörigen Häufigkeiten $n_i (1 \le i \le n)$. Dieser wird in einem `pd.DataFrame` dargestellt. Für diesen Datensatz sollen der Mittelwert und die Standardabweichung berechnet werden.

Die Berechnung soll möglichst mit den Methoden von `pandas` durchgeführt werden.

Zunächst werden die Module `pandas` geladen und `numpy` geladen. Später wird noch das Modul `itertools` benötigt, das jetzt auch schon geladen wird.

In [1]:
import pandas as pd
import numpy as np
import itertools

Anlegen des `pd.DataFrame()`:

In [2]:
df = pd.DataFrame(
    [
        (1.0, 10),
        (1.3, 12),
        (1.5,  8),
        (1.8,  5),
        (2.1, 13)
    ],
    columns=['v','n']
)
df

Unnamed: 0,v,n
0,1.0,10
1,1.3,12
2,1.5,8
3,1.8,5
4,2.1,13


Um wieviele Beobachtungen handelt es insgesamt:

In [3]:
count = df.n.sum()
count

48

Berechnung der relativen Häufigkeiten über die absoluten Häufigkeiten:

In [4]:
df['h'] = df['n']/count
df

Unnamed: 0,v,n,h
0,1.0,10,0.208333
1,1.3,12,0.25
2,1.5,8,0.166667
3,1.8,5,0.104167
4,2.1,13,0.270833


Der Mittelwert wird als

$$
  v_\text{mean} = 
  \dfrac{\sum_i n_i\,v_i}{\sum_i n_i} = \sum_i h_i\,v_i
$$

berechnet:

In [5]:
v_mean = (df.v*df.h).sum()
v_mean

1.5395833333333333

Bei der Berechnung der Varianz wird zwischen der Varinz einer Verteilung und der Varianz einer Stichprobe untertschieden.

Die Varianz einer Verteilung und einer Stichprobe sind durch die Formeln

\begin{align*}
  V_\text{Verteilung} &= \dfrac{1}{n}\, \sum_n n_i\,(v-v_\text{mean})^2\\[2ex]
  V_\text{Stichprobe} &= \dfrac{1}{n-1}\, \sum_n n_i\,(v-v_\text{mean})^2
                       = \dfrac{n}{n-1}\, V
\end{align*}

definiert. Im allgemeinen geht man bei Messungen von der Varianz der Stichprobe aus. Die Zahl der Freiheitsgrade verringert sich dort von $n$ auf $n-1$, da bei Messwerten der Erwartungswert nicht bekannt ist und durch den Mittelwert geschätzt wird.


In [7]:
v_var = count/(count-1)*((df.v-v_mean)**2*df.h).sum()
v_var

0.17095301418439715

Die Standardabweichung ist die Quadratwurzel aus der Varianz:

In [8]:
v_std = v_var**0.5
v_std

0.4134646468374257

Diese Größen können von `pandas` direkt ermittelt werden, wenn ein Objekt mit einfachen Meßdaten vorliegt. Dann wird nicht zu jedem `v` die zugehörige Häufigkeit `n` angegeben, sondern der Wert `v` tritt in dem DataFrame `n` Mal auf.

Erzeuge ein `pd.Series`-Objekt, dass jeder einzelnen Ziehung eine Zeile zuordnet:

In [32]:
chained = pd.Series(
    itertools.chain.from_iterable(
        [(n*[v]) for n,v in zip(df.n,df.v)]
    )
)
chained.head().append(chained.tail())

0     1.0
1     1.0
2     1.0
3     1.0
4     1.0
43    2.1
44    2.1
45    2.1
46    2.1
47    2.1
dtype: float64

In [33]:
chained.describe()

count    48.000000
mean      1.539583
std       0.413465
min       1.000000
25%       1.300000
50%       1.500000
75%       2.100000
max       2.100000
dtype: float64