In [1]:
import numpy as np
import pandas as pd
from scipy.stats import mode
from utils import *
import matplotlib.pyplot as plt

Примеры и определения взяты из книги Schaum's Outline of Theory and Problems of Statistics 3rd Edition by Murray R Spiegel, Larry J Stephens.
Ниже приведен мой не дословный, но адекватный перевод.
#### Стандартное отклонение и другие меры изменчивости

*Размах (range)* - разница между максимальным и минимальным элементом выборки.

In [2]:
M = np.array([2,3,3,5,5,5,8,10,12])
# Размах w 
w = M.max() - M.min()
w

10

*Среднее (абсолютное) отклонение (mean deviation)* выборки $x_{1},x_{2},...,x_{n}$:
<p style="text-align: center"> <b> $MD=\frac{\sum{(x-|x|)}}{n}$ </b> </p>

In [3]:
M = np.array([2,3,6,8,11])
MD = np.sum(abs(M-M.mean()))/M.size
MD

2.8

Если числа $x_{1},x_{2},...,x_{n}$ встречаются в выборке $f_{1},f_{2},...,f_{n}$ раз, то:
<p style="text-align: center"> <b> $MD=\frac{\sum{f(x-|x|)}}{n},  n=\sum_{}{f}$ </b> </p>

*Интерквантильный размах (iterquartile range)* выборки - разница между третьим и первым квартилями:
<p style="text-align: center"> <b> $Q=Q_{3}-Q_{1}$ </b> </p>
*Полу - интерквантильный размах (semi-iterquartile range)*:
<p style="text-align: center"> <b> $Q=\frac{Q_{3}-Q_{1}}{2}$ </b> </p>

*10-90 percentile range (не нашел в русскоязычной литературе такой меры, но и так понятно)*:
    <p style="text-align: center"> <b> 10-90 percentile range = $P_{90}-P_{10}$ </b> </p>

*Стандартное отклонение (standart deviation)*:
    <p style="text-align: center"> <b> $\sigma=\sqrt{\frac{\sum{(x-\overline{x})^{2}}}{n}}$ </b> </p>
Если речь идет о стандартном отклонении генеральной совокупности. Если считаем стандартное отклонение выборки из генеральной совокупности, оценку корректируют:
<p style="text-align: center"> <b> $sd=\sqrt{\frac{\sum{(x-\overline{x})^{2}}}{n-1}}$ </b> </p>

*Дисперсия (variance)* - квадрат стандартного отклонения $D=\sigma^{2}$

Нормальное распределение имеет следующие свойства:
1. 68.27% наблюдений находятся в интервале $\overline{x}\pm\sigma$
2. 94.45% наблюдений находятся в интервале $\overline{x}\pm2\sigma$
2. 99.73% наблюдений находятся в интервале $\overline{x}\pm3\sigma$

Если даны два распределения из $N_{1} и N_{2}$ наблюдений с одинаковым средним, то общая дисперсия равна:
<p style="text-align: center"> <b> $\sigma^{2}=\frac{N_{1}s^{2}_{1}+N_{2}s^{2}_{1}}{N_{1}+N_{2}}$ </b> </p>

Поправка Шеппарда (Sheppards correction) - поправка дисперсии при вычислении дисперсии группированной выборки:
<p style="text-align: center"> <b> $D_{corr}=D-\frac{c}{12}$ </b> </p>
D - дисперсия групппированной выборки, <br>
c - размер интервала (class-interval size).

*Коэффициент вариации (coefficient of variation)* - отношение стандартного отклонения к среднему (обычно выражается в процентах):
    <p style="text-align: center"> <b> $V=\frac{\sigma}{\overline{x}}$ </b> </p>

*Стандартизация или z-преобразование* - преобразование полученных данных в стандартную z-шкалу со средним равным нулю и стандартным отклонением, равным единице.
    <p style="text-align: center"> <b> $z_{i}=\frac{x_{i}-\overline{x}}{\sigma}$ </b> </p>

Пример 3.1. Найти размах выборок:
<div style="text-align: right"> pr 4.1 </div>

In [4]:
M1 = np.array([12,6,7,3,15,10,18,5])
M2 = np.array([9,3,8,8,9,8,9,18])

In [5]:
w1 = M1.max()-M1.min()
w2 = M2.max()-M2.min()
print(f"Размах 1: {w1}")
print(f"Размах 2: {w2}")

Размах 1: 15
Размах 2: 15


In [6]:
# Пример чтоб показать, что размах обычно не самая хорошая мера изменчивости. В M1 изменчивость сама по себе больше,
# а M2 состоит в основном из 8 и 9, и только два выброса 3 и 18 обеспечивают такое же значение размаха в M2 как в M1.

Пример 3.2. Найти размах выборки табл 2.1:
<div style="text-align: right"> pr 4.2 </div>

In [7]:
df = table21()
df

Unnamed: 0_level_0,Frequency
Height,Unnamed: 1_level_1
"[60, 62]",5
"[63, 65]",18
"[66, 68]",42
"[69, 71]",27
"[72, 74]",8


In [8]:
# Выборка группированная и есть два пути определить размах

In [9]:
# Используя среднее значение интервала:
w = df.index[-1].mid - df.index[0].mid
w

12.0

In [10]:
# Используя верзние и нижние границы интервала
d = 0.5*(df.index[1].left - df.index[0].right)
w = (df.index[-1].right+d) - (df.index[0].left-d)
w

15.0

Пример 3.3. Найти среднее отклонение выборки примера 3.1:
<div style="text-align: right"> pr 4.3 </div>

In [11]:
M1.std()

4.873397172404482

In [12]:
def mean_deviation(arr):
    return np.sum(abs(arr-arr.mean()))/arr.size

In [13]:
md1 = mean_deviation(M1)
md2 = mean_deviation(M2)
print(f"Mean deviation 1 : {md1}")
print(f"Mean deviation 2 : {md2}")

Mean deviation 1 : 4.25
Mean deviation 2 : 2.25


Пример 3.4. Найти среднее отклонение табл. 2.1:
<div style="text-align: right"> pr 4.4 </div>

In [14]:
df

Unnamed: 0_level_0,Frequency
Height,Unnamed: 1_level_1
"[60, 62]",5
"[63, 65]",18
"[66, 68]",42
"[69, 71]",27
"[72, 74]",8


In [15]:
# Как найти среднее было разобрано в примере 2.2, но выполним еще раз
df['Class mark'] = [i.mid for i in df.index]
df['fX'] = df.Frequency * df['Class mark']
mean = df['fX'].sum()/df['Frequency'].sum()

In [16]:
mean

67.45

In [17]:
df

Unnamed: 0_level_0,Frequency,Class mark,fX
Height,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[60, 62]",5,61.0,305.0
"[63, 65]",18,64.0,1152.0
"[66, 68]",42,67.0,2814.0
"[69, 71]",27,70.0,1890.0
"[72, 74]",8,73.0,584.0


In [18]:
md = np.sum((abs(df['Class mark'] - mean))*df.Frequency) / df.Frequency.sum()
print(f"{md:.3f}")

2.265


Пример 3.5. Определить процент студентов табл. 2.1, чей рост:
1. $\overline{x}\pm MD$
2. $\overline{x}\pm2\ MD$
2. $\overline{x}\pm3 MD$
<div style="text-align: right"> pr 4.5 </div>

In [19]:
# 1
start = mean - md
stop  = mean + md

In [20]:
low, up = boundaries(df)
df['low_bnd'] = low
df['up_bnd'] = up
df

Unnamed: 0_level_0,Frequency,Class mark,fX,low_bnd,up_bnd
Height,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"[60, 62]",5,61.0,305.0,59.5,62.5
"[63, 65]",18,64.0,1152.0,62.5,65.5
"[66, 68]",42,67.0,2814.0,65.5,68.5
"[69, 71]",27,70.0,1890.0,68.5,71.5
"[72, 74]",8,73.0,584.0,71.5,74.5


In [21]:
# interval size
c = 3

In [22]:
f1 = items_in_range(df,start,stop,c,'low_bnd','up_bnd')

In [23]:
# 2
start = mean - 2*md
stop  = mean + 2*md

In [24]:
f2 = items_in_range(df,start,stop,c,'low_bnd','up_bnd')

In [25]:
# 3
start = mean - 3*md
stop  = mean + 3*md

In [26]:
f3 = items_in_range(df,start,stop,c,'low_bnd','up_bnd')

In [27]:
print(f"Percent of x+-md : {f1}%")
print(f"Percent of x+-2md : {f2}%")
print(f"Percent of x+-3md : {f3}%")

Percent of x+-md : 55.0%
Percent of x+-2md : 86.0%
Percent of x+-3md : 97.0%
