In [1]:
import numpy as np
import pandas as pd
from scipy.stats import mode
from utils import *
import matplotlib.pyplot as plt

Примеры и определения взяты из книги Schaum's Outline of Theory and Problems of Statistics 3rd Edition by Murray R Spiegel, Larry J Stephens.
Ниже приведен мой не дословный, но адекватный перевод.
#### Стандартное отклонение и другие меры изменчивости

*Размах (range)* - разница между максимальным и минимальным элементом выборки.

In [2]:
M = np.array([2,3,3,5,5,5,8,10,12])
# Размах w 
w = M.max() - M.min()
w

10

*Среднее (абсолютное) отклонение (mean deviation)* выборки $x_{1},x_{2},...,x_{n}$:
<p style="text-align: center"> <b> $MD=\frac{\sum{(x-|x|)}}{n}$ </b> </p>

In [3]:
M = np.array([2,3,6,8,11])
MD = np.sum(abs(M-M.mean()))/M.size
MD

2.8

Если числа $x_{1},x_{2},...,x_{n}$ встречаются в выборке $f_{1},f_{2},...,f_{n}$ раз, то:
<p style="text-align: center"> <b> $MD=\frac{\sum{f(x-|x|)}}{n},  n=\sum_{}{f}$ </b> </p>

*Интерквантильный размах (iterquartile range)* выборки - разница между третьим и первым квартилями:
<p style="text-align: center"> <b> $Q=Q_{3}-Q_{1}$ </b> </p>
*Полу - интерквантильный размах (semi-iterquartile range)*:
<p style="text-align: center"> <b> $Q=\frac{Q_{3}-Q_{1}}{2}$ </b> </p>

*10-90 percentile range (не нашел в русскоязычной литературе такой меры, но и так понятно)*:
    <p style="text-align: center"> <b> 10-90 percentile range = $P_{90}-P_{10}$ </b> </p>

*Стандартное отклонение (standart deviation)*:
    <p style="text-align: center"> <b> $\sigma=\sqrt{\frac{\sum{(x-\overline{x})^{2}}}{n}}$ </b> </p>
Если речь идет о стандартном отклонении генеральной совокупности. Если считаем стандартное отклонение выборки из генеральной совокупности, оценку корректируют:
<p style="text-align: center"> <b> $sd=\sqrt{\frac{\sum{(x-\overline{x})^{2}}}{n-1}}$ </b> </p>

*Дисперсия (variance)* - квадрат стандартного отклонения $D=\sigma^{2}$

Нормальное распределение имеет следующие свойства:
1. 68.27% наблюдений находятся в интервале $\overline{x}\pm\sigma$
2. 94.45% наблюдений находятся в интервале $\overline{x}\pm2\sigma$
2. 99.73% наблюдений находятся в интервале $\overline{x}\pm3\sigma$

Если даны два распределения из $N_{1} и N_{2}$ наблюдений с одинаковым средним, то общая дисперсия равна:
<p style="text-align: center"> <b> $\sigma^{2}=\frac{N_{1}s^{2}_{1}+N_{2}s^{2}_{1}}{N_{1}+N_{2}}$ </b> </p>

Поправка Шеппарда (Sheppards correction) - поправка дисперсии при вычислении дисперсии группированной выборки:
<p style="text-align: center"> <b> $D_{corr}=D-\frac{c}{12}$ </b> </p>
D - дисперсия групппированной выборки, <br>
c - размер интервала (class-interval size).

*Коэффициент вариации (coefficient of variation)* - отношение стандартного отклонения к среднему (обычно выражается в процентах):
    <p style="text-align: center"> <b> $V=\frac{\sigma}{\overline{x}}$ </b> </p>

*Стандартизация или z-преобразование* - преобразование полученных данных в стандартную z-шкалу со средним равным нулю и стандартным отклонением, равным единице.
    <p style="text-align: center"> <b> $z_{i}=\frac{x_{i}-\overline{x}}{\sigma}$ </b> </p>