In [19]:
import scipy.stats as sts
import numpy as np
from collections import Counter
import pandas as pd

#### ***7.5. Числовые характеристики статистического распределения***

Пусть статистическое распределение выборки объема $n$ имеет вид:
$$
\begin{array}{|c|c|с|c|c|}
\hline x_i  & x_1 & x_2 & ... & x_k  \\
\hline n_i  & n_1 & n_2 & ... & n_k  \\
\hline
\end{array} \notag
$$
***Выборочным средним $\overline{x_B}$*** называется среднее арифметическое всех значений выборки:
$$ \notag
M\overline{x_B} = \frac{1}{n}\sum\limits_{i=1}^{k}x_i \cdot n_i \Leftrightarrow 
    \sum\limits_{i=1}^{k}x_i \cdot p^*_i
$$
Отметим, что в случае интервального статистического ряда в качестве $x_i$ берут середины его интервалов, а $n_i$ соответствующие им частоты.

***Выборочной дисперсией $D_B$*** называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней $\overline{x_в}$, т.е.
$$ \notag
D_B = \frac{1}{n}\sum\limits_{i=1}^{k}(x_i-\overline{x_в})^2 \cdot n_i \Leftrightarrow
    \frac{1}{n}\sum\limits_{i=1}^{k}x_i^2 \cdot n_i - (\overline{x_в})^2
$$

***Выборочной среднее квадратное отклонение*** выборки определяется формулой
$$ \notag
    \sigma_в = \sqrt{D_в}
$$

При решении практических задач используется и величина
$$ \notag
    S^2 = \frac{1}{n-1}\cdot \sum\limits_{i=1}^{k}(x_i-\overline{x_в})^2 \cdot n, 
$$
т.е.
$$ \notag
    S^2 = \frac{n}{n-1}D_в,
$$ 
которая называется [***исправленной выборочной дисперсией***](#bessels_correction).

Величина $$\notag S=\sqrt{S^2}$$ называется ***исправленным выборочным средним квадратическим отклонением.***

Для непрерывно распределенного признака формулы для выборочных средних будут такими же, но за значения $x_1, x_2, ..., x_k$ надо брать не концы промежутков $[x_0, x_1), [x_1, x_2), ...$,  а их середины $\frac{x_0+x_1}{2}, \frac{x_1+x_2}{2}, ...$

В качестве описательных характеристик вариационного ряда $x_{(1)}, x_{(2)},..., x_{(2)}$ (или полученного из него статистичесеского распределения выборки) используется медиана, мода, размах вариации (выборки) и т.д.

***Размах вариации*** называется число $R=x_{(n)}-x_{(1)}$, где $x_{(1)} = 
    \underset {1 \leq x_k\leq n}{min}\;x_k, \; x_{(n)}= \underset {1 \leq x_k\leq n}{max}\;x_k$.
    
***Модой $M_o^*$*** вариационного ряда назыается вариант, имеющий наибольшую частоту.

***Медианной $M_e^*$*** вариационного ряда назыается значение признака (СВ $X$), приходящееся на середину ряда.

Если $n=2k$ (т.е. ряда $x_{(1)}, x_{(2)}, ..., x_{(k)}, x_{(k+1)}, ..., x_{(2k)}$ имеет четное число членов), то $M_e^*=\frac{x_{(k)}+x_{(k+1)}}{2}$; если $n = 2k+1$, то 
    $M_e^*=x_{(k+1)}$.

Найти характеристики выборки - результаты тестирования 10 абитуриентов.

In [101]:
n = 10
np.random.seed(32)
rvs = sts.norm(3.5, 1).rvs(10).astype(int)

# строим ряд
series = {rv: n_i/n for rv, n_i in Counter(rvs).items()}
series = dict(sorted(series.items(), key = lambda x: x[0]))
df = pd.DataFrame(series, index=[r'$p*$'])
display('Вариационный ряд:', df )

# выборочное сренднее (rvs.mean())
X_mean = sum([x*p for x, p in series.items()])
print('Выборочное среднее:', round(X_mean, 4))

# выборочную дисперсию (rvs.var()), среднеквадратическое отклонение
X_var = sum([x**2*p for x, p in series.items()]) - X_mean**2
print(f'Выборочная дисперсия: {round(X_var, 4)}, среднеквадратическое отклонение {round(X_var**0.5, 4)}')

# Исправленная выборочная дисперсия (rvs.var(ddof=1)), исправленное выборочное среднее квадратическое отклонение
S = (n/(n-1))*X_var
print('Исправленная выборочная дисперсия: ', round(S, 4))
print('Исправленное выборочное среднее квадратическое отклонение', round(S**0.5, 4))

# Мода (scipy.stats.mode(rvs)[0][0])
freqs = list(series.values())
values = list(series.keys())
i = np.argmax(freqs)
print('Мода: ', values[i])

# Медиана (numpy.median)
def find_median(lst):
    n = len(lst)
    if n%2 == 0:
        k = int(n/2)-1
        return (lst[k]+lst[k+1])/2
    else:
        k = int((n-1)/2)-1
        return lst[k]
    
median = find_median(values)
print('Медиана: ', median)

'Вариационный ряд:'

Unnamed: 0,2,3,4,5
$p*$,0.1,0.3,0.5,0.1


Выборочное среднее: 3.6
Выборочная дисперсия: 0.64, среднеквадратическое отклонение 0.8
Исправленная выборочная дисперсия:  0.7111
Исправленное выборочное среднее квадратическое отклонение 0.8433
Мода:  4
Медиана:  3.5


<a name="bessels_correction">$$\boxed {MD X_в \neq DX_г} \notag$$</a>

[***Теорема***](https://studopedia.ru/11_106068_dokazatelstvo-vichislim.html) Если случайная выборка состоит из $n$ независимых наблюдений над случайной величиной $Х$ с математическим ожиданием и дисперсией, то выборочная дисперсия не является несмещённой оценкой генеральной дисперсии.

$
X \sim F(a, \sigma), \{X_i\}_{i=1}^n: \; \forall i=\overline{1, n}\; X_i \sim N(a, \sigma), 
   \; \overline{X} = \frac{1}{n}\sum\limits_{i=1}^{n}X_i \Rightarrow
$
<ul>
    <li>$MX_i=MX=a, \; DX_i=DX=\sigma^2$
    </li>
    <li>
    $M\overline X = M\bigg(\frac{1}{n}\sum\limits_{i=1}^{n}X_i\bigg)=a, \;
    D\overline X = D\bigg(\frac{1}{n}\sum\limits_{i=1}^{n}X_i\bigg)=
        \frac{\sigma_X^2}{n} \Rightarrow \sigma_{\overline X} = 
    \frac{\sigma_X}{\sqrt n}$
    </li>
    <li>
        $
\sum\limits_{i=1}^{n}(X_i - a)=\sum\limits_{i=1}^{n}X_i - n\cdot a=
   n\cdot \big(\frac{1}{n}\sum\limits_{i=1}^{n}X_i - a\big)=
   n\cdot (\overline x-a)
        $
    </li>
    <li>
        $
\frac{1}{n}\sum\limits_{i=1}^{n}(X_i - \overline X )^2=
    \frac{1}{n}\sum\limits_{i=1}^{n}((X_i - a) - (\overline X - a) )^2 = \\
    = \frac{1}{n}\sum\limits_{i=1}^{n}(X_i - a)^2 - 
        \frac{2}{n}(\overline X - a)\sum\limits_{i=1}^{n}(X_i - a) +
        \frac{1}{n}\sum\limits_{i=1}^{n}(\overline X - a)^2 = \\
     = \frac{1}{n}\sum\limits_{i=1}^{n}(X_i - a)^2 - (\overline X - a)^2
        $
    </li>
</ul>

$
M\big(\frac{1}{n}\sum\limits_{i=1}^{n}(X_i - \overline X)^2 \big) =
  M\big(\frac{1}{n}\sum\limits_{i=1}^{n}(X_i - a)^2 - (\overline X - a)^2\big) = \\
  = \frac{1}{n}\sum\limits_{i=1}^{n}M(X_i - a)^2- M(\overline X - a)^2=
  \frac{1}{n}\sum\limits_{i=1}^{n}DX-M(\overline X - a)^2= \\
  = DX- D\overline X = \sigma^2 - \frac{\sigma^2}{n}=\frac{n-1}{n}\cdot \sigma^2    
  \Rightarrow MD\overline X \neq DX
$

