In [1]:
import numpy as np
import pandas as pd
from scipy.stats import mode
from typing import List
import matplotlib.pyplot as plt

Примеры и определения взяты из книги Schaum's Outline of Theory and Problems of Statistics 3rd Edition by Murray R Spiegel, Larry J Stephens.
Ниже приведен мой не дословный, но адекватный перевод.

#### Меры центральной тенденции

*Среднее арифметическое* (arithmetic mean) выборки $x_{1},x_{2},...,x_{n}$ определяется как:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}x_{i}$ </b> </p>

Если числа $x_{1}, x_{2}...x_{n}$ встречается $f_{1}, f_{2}...f_{n}$ раз, то среднее арифметическое равно:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}\frac{f_{i}x_{i}}{n}, n=\sum_{}{f}$ </b> </p>

*Взвешенное среднее арифметическое* (weighted arithmetic mean). Каждому значению $x_{i}$ соответствуует вес $w_{i}$, соответствующий значимости измерения.

<p style="text-align: center"> <b> $x=\frac{\sum_{}wx}{\sum_{}w}$ </b> </p>

###### Cвойства среднего арифметичкского

1. Алгебраическая сумма отклонений от среднего равна нулю

<p style="text-align: center"> <b> $\sum_{}(x-\overline{x})=0$ </b> </p>

In [2]:
M = np.random.rand(100).round(5)*10

In [3]:
M

array([0.8004, 4.3862, 2.8103, 9.6506, 0.8997, 5.8572, 1.678 , 6.8119,
       9.4071, 2.5067, 5.1771, 0.4267, 0.9318, 9.4831, 2.9196, 5.8948,
       6.4647, 2.936 , 0.3602, 0.0385, 1.915 , 0.575 , 5.7347, 1.8872,
       6.9889, 1.2086, 6.8363, 8.1754, 3.2911, 3.083 , 3.893 , 5.6327,
       1.4611, 2.637 , 5.4139, 5.0067, 1.3337, 8.6493, 0.156 , 2.4615,
       8.6056, 6.1629, 0.5022, 3.3671, 1.5797, 0.0455, 1.4922, 9.784 ,
       4.966 , 0.0152, 1.2603, 2.7154, 6.8785, 1.5821, 6.6145, 8.3004,
       6.927 , 9.8788, 1.4075, 1.0721, 5.8804, 9.1616, 1.4385, 8.5295,
       8.7565, 8.3262, 0.6946, 1.2829, 1.5638, 2.526 , 4.6003, 2.1185,
       2.2651, 2.4685, 9.1278, 0.4793, 2.104 , 8.3321, 5.1673, 3.2732,
       5.9567, 2.8431, 1.9699, 3.7087, 2.5971, 4.7667, 3.7466, 2.2673,
       1.2016, 8.7872, 9.9585, 0.5227, 1.1668, 7.5672, 8.8869, 1.9121,
       1.3511, 3.1903, 5.6409, 3.6006])

In [4]:
mean = M.mean().round(6)

In [5]:
np.sum(M-mean).round(6)

0.0

2. Сумма квадратов отклонений x от любого a минимальна тогда и только тогда, когда a=$\overline{x}$

<p style="text-align: center"> <b> $\sum_{}(x-a)^{2} = min, a=\overline{x}$ </b> </p>

In [6]:
M.round(4)
a = np.arange(min(M),max(M), 1e-4)

In [7]:
deviations = [np.square(M-a_).sum() for a_ in a]

In [8]:
mean_ = a[np.argmin(deviations)].round(3)

In [9]:
mean_ == mean.round(3)

True

3. Если среднее $f_{1}$ чисел равно $m_{1}$, среднее $f_{2}$ равно $m_{2}$, то:

<p style="text-align: center"> <b> $\overline{x}=\frac{f_{1}m_{1}+f_{2}m_{2}+...+f_{n}m_{n}}{f_{1}+f_{2}+...+f_{n}}$ </b> </p>

4. При добавление константы C ко всем числам выборки, среднее также изменится на C:

<p style="text-align: center"> <b> $\overline{x}+c=x+c$ </b> </p>

In [10]:
M+=12
mean+=12

In [11]:
M.mean().round(4) == np.round(mean,4)

True

5. При умножении выборки на C среднее также умножается на C:

<p style="text-align: center"> <b> $\overline{x}c=xc$ </b> </p>

In [12]:
M*=4.5

In [13]:
M.mean().round(3) == np.round(mean*4.5,3)

True

*Медианой* (median) выборки $x_{1},x_{2},...,x_{n}$ - середина сортированной выборки, либо среднее двух средних значений. Медиана также равна 50-му персентилю и 0.5-му квантилю.

In [14]:
def median(arr):
    if M.size%2==0:
        i = M.size//2
        return 0.5*(M[i]+M[i-1])
    else:
        return M[M.size//2]

In [15]:
M = np.array([3,4,4,5,6,8,8,8,10])

In [16]:
median(M)

6

In [17]:
np.percentile(M,50)

6.0

In [18]:
M = np.array([5,5,7,9,11,12,15,18])

In [19]:
median(M)

10.0

In [20]:
np.percentile(M,50)

10.0

Для группированной выборки медиана вычисляется следующим образом:

<p style="text-align: center"> <b> $Median=L_{1}+(\frac{0.5n-\sum{f_{1}}}{f_{median}})c$ </b> </p>

$L_{1}$ - нижняя граница класса, содержащего медиану, <br>
n - количество элементов выборки,<br>
$\sum{f_{1}}$ - сумма частот ниже медианного класса,<br>
$f_{median}$ - частота межианного класса,<br>
c - размер медианного класса.<br>
См. пример 2.3.

*Модой* (mode) выборки $x_{1},x_{2},...,x_{n}$ называется число, которое наиболее часто встречается в выборке. Мода может не существовать или быть не уникальна

In [21]:
def my_mode(arr):
    vals, freq = np.unique(arr,return_counts=True)
    if freq.sum()==freq.size:
        return None
    else:
        index = np.where(freq==freq[np.argmax(freq)])[0]
        return vals[index]

In [22]:
M = np.array([2,2,5,7,9,9,9,10,10,11,12,18])

In [23]:
mode(M)

ModeResult(mode=array([9]), count=array([3]))

In [24]:
my_mode(M)

array([9])

In [25]:
M = np.array([3,5,8,10,12,15,16])

In [26]:
# если всех значений по 1, scipy.stats.mode вернет 1-е значение
mode(M)

ModeResult(mode=array([3]), count=array([1]))

In [27]:
# но можно считать, что моды в этом случае не существует
my_mode(M)

In [28]:
M = np.array([2,3,4,4,4,5,5,7,7,7,9])

In [29]:
# также scipy.stats.mode вернет первое значение в случае, если мод несколько
mode(M)

ModeResult(mode=array([4]), count=array([3]))

In [30]:
my_mode(M)

array([4, 7])

*Среднее геометрическое* (geometric mean) положительных чисел $x_{1},x_{2},...,x_{n}$:

<p style="text-align: center"> <b> $G=\sqrt[n]{x_{1}x_{2}...x_{n}}$ </b> </p>

In [31]:
M = np.array([2,4,8])

In [32]:
G = np.power(M.prod(),1/M.size).round()

In [33]:
G

4.0

*Средним гармоническим* (harmonic mean) чисел $x_{1},x_{2},...,x_{n}$ называется число *H*:

<p style="text-align: center"> <b> $H=\frac{n}{\sum{\frac{1}{x}}}$ </b> </p>

<p style="text-align: center"> <b> $\frac{1}{H}=\frac{1}{n}\sum{\frac{1}{x}}$ </b> </p>

In [34]:
H = np.round(M.size/np.sum(1/M),2)

In [35]:
H

3.43

Для положительных чисел $x_{1},x_{2},...,x_{n}$ выполняется соотношение:

<p style="text-align: center"> <b> $H\leq G\leq\overline{X}$ </b> </p>

*Среднее квадратическое* (root mean square):

<p style="text-align: center"> <b> $RMS=\sqrt{\frac{\sum{x^{2}}}{n}}$ </b> </p>

In [36]:
M = np.array([1,3,4,5,7])

In [37]:
RMS = np.sqrt(np.square(M).sum()/M.size).round(2)

In [38]:
RMS

4.47

#### Квартили, перценетили и децили

Медиана делит числа на две одинаковые части. Развивая эту идею, можно разбить выборку на равные части $Q_{1},Q_{2}, Q_{3}$, называемые первым, вторым и третим *квартилем* соответственно. Q2 равен медиане.

Аналогично, значения, разделяющие выборку на 10 равных частей, называются *децилями* и обозначаются $D_{1},D_{2},..., D_{9}$, и, разделяющие на 100 - перцентилями $P_{1},P_{2},..., P_{99}$.

Квартили, децили, перцентили и другие величины, разбивающие выборку на равные части, называются *квантилями*.

Пример 2.1. Дано распределение частот. Найти среднее арифметическое.

In [39]:
df = pd.DataFrame({'x':[4,5,6,7],'freq':[20,40,30,10]})

In [40]:
df

Unnamed: 0,x,freq
0,4,20
1,5,40
2,6,30
3,7,10


In [41]:
df['xf'] = df.x*df.freq

In [42]:
df

Unnamed: 0,x,freq,xf
0,4,20,80
1,5,40,200
2,6,30,180
3,7,10,70


In [43]:
mean = df.xf.sum()/df.freq.sum()

In [44]:
mean

5.3

Пример 2.2. Дана таблица распределения роста мужчин (в дюймах). Найти средний рост.

<div style="text-align: right"> pr 3.22 </div>

Формула $\overline{x}=\sum_{i=1}^{n}\frac{f_{i}x_{i}}{n}$ остается справедливой, если в качестве $x_{i}$ рассматривать середину соответствующего интервала.

In [45]:
def get_intervals(start:float,end:float,b:float,step=None)->List[pd.Interval]:
    if step is None:
        step = np.around(b,1)
    return [pd.Interval(left=round(x,3), right=round(x+b,3), closed="both") for x in np.arange(start,end,step)]

In [46]:
b = 2
start = 60
end = 74
df = pd.DataFrame([5,18,42,27,8], columns=['Frequency'], index=get_intervals(start,end,b,step=3))
df.index.name = "Height"

In [47]:
df

Unnamed: 0_level_0,Frequency
Height,Unnamed: 1_level_1
"[60, 62]",5
"[63, 65]",18
"[66, 68]",42
"[69, 71]",27
"[72, 74]",8


In [48]:
df['Class mark'] = [i.mid for i in df.index]

In [49]:
df['fX'] = df.Frequency * df['Class mark']

In [50]:
df

Unnamed: 0_level_0,Frequency,Class mark,fX
Height,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[60, 62]",5,61.0,305.0
"[63, 65]",18,64.0,1152.0
"[66, 68]",42,67.0,2814.0
"[69, 71]",27,70.0,1890.0
"[72, 74]",8,73.0,584.0


In [51]:
mean = df['fX'].sum()/df['Frequency'].sum()

In [52]:
mean

67.45

Пример 2.3. Дана таблица распределения веса 40 мужчин (в фунтах). Найти медиану.

<div style="text-align: right"> pr 3.28 </div>

Для группированной выборки медиана равна:
<p style="text-align: center"> <b> $Median=L_{1}+(\frac{0.5n-\sum{f_{1}}}{f_{median}})c$ </b> </p>

In [53]:
b = 8
start = 118
end = 180
df = pd.DataFrame([3,5,9,12,5,4,2], columns=['Frequency'], index=get_intervals(start,end,b,step=9))
df.index.name = "Weight"

In [54]:
df

Unnamed: 0_level_0,Frequency
Weight,Unnamed: 1_level_1
"[118, 126]",3
"[127, 135]",5
"[136, 144]",9
"[145, 153]",12
"[154, 162]",5
"[163, 171]",4
"[172, 180]",2


In [55]:
df['Cum_freq'] = df['Frequency'].cumsum()

In [56]:
df

Unnamed: 0_level_0,Frequency,Cum_freq
Weight,Unnamed: 1_level_1,Unnamed: 2_level_1
"[118, 126]",3,3
"[127, 135]",5,8
"[136, 144]",9,17
"[145, 153]",12,29
"[154, 162]",5,34
"[163, 171]",4,38
"[172, 180]",2,40


Класс, содержащий медиану - 145-153, т.к. именно в этом интервале находится серединное значение.
Нижняя граница класса:
<p style="text-align: center"> <b> $L_{1}=\frac{1}{2}(144+145)=144.5$ </b> </p>

In [57]:
L1 = 0.5*(df.iloc[2].name.right + df.iloc[3].name.left)

In [58]:
# количество элементов в выборке
N = df.Frequency.sum()

In [59]:
# сумма частот, ниже медианного интервала
f1 = df.iloc[2].Cum_freq

In [60]:
# количество элементов в медианном интервале
f_med = df.iloc[3].Frequency

<p style="text-align: center"> <b> $c=\frac{1}{2}(153+154) - \frac{1}{2}(144+145)=9$ </b> </p>

In [61]:
# размер медианного класса (median class interval size)
c = (0.5*(df.iloc[3].name.right + df.iloc[4].name.left)) - L1

In [62]:
Median = L1+((0.5*N-f1))*c/f_med

In [63]:
Median

146.75