In [1]:
import numpy as np
import pandas as pd
from scipy.stats import mode
from utils import *
import matplotlib.pyplot as plt

Примеры и определения взяты из книги Schaum's Outline of Theory and Problems of Statistics 3rd Edition by Murray R Spiegel, Larry J Stephens.
Ниже приведен мой не дословный, но адекватный перевод.

#### Меры центральной тенденции

*Среднее арифметическое* (arithmetic mean) выборки $x_{1},x_{2},...,x_{n}$ определяется как:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}x_{i}$ </b> </p>

Если числа $x_{1}, x_{2}...x_{n}$ встречается $f_{1}, f_{2}...f_{n}$ раз, то среднее арифметическое равно:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}\frac{f_{i}x_{i}}{n}, n=\sum_{}{f}$ </b> </p>

*Взвешенное среднее арифметическое* (weighted arithmetic mean). Каждому значению $x_{i}$ соответствуует вес $w_{i}$, соответствующий значимости измерения.

<p style="text-align: center"> <b> $x=\frac{\sum_{}wx}{\sum_{}w}$ </b> </p>

###### Cвойства среднего арифметичкского

1. Алгебраическая сумма отклонений от среднего равна нулю

<p style="text-align: center"> <b> $\sum_{}(x-\overline{x})=0$ </b> </p>

In [2]:
M = np.random.rand(100).round(5)*10

In [3]:
M

array([6.9046, 9.8775, 3.7771, 3.3163, 5.9741, 9.0767, 1.4103, 9.6706,
       2.4892, 5.0712, 7.8513, 0.742 , 6.4215, 7.6501, 5.3391, 7.9786,
       3.8243, 6.0632, 9.8967, 8.6509, 4.8478, 4.8784, 5.4819, 3.8686,
       8.8453, 8.2115, 4.3912, 2.6206, 2.2079, 1.5948, 5.3999, 1.4095,
       8.2556, 8.1807, 8.5985, 6.6854, 5.8015, 9.6225, 1.254 , 5.9716,
       5.0353, 3.0266, 2.0204, 4.9967, 8.7732, 5.6758, 7.5442, 7.1469,
       1.3827, 0.6814, 1.0133, 2.9577, 2.0173, 2.3021, 3.6117, 2.6483,
       4.7196, 5.2206, 9.2217, 6.0486, 7.08  , 3.1268, 1.6988, 8.4134,
       4.6128, 5.8692, 0.8505, 1.1908, 1.3835, 8.8414, 4.598 , 6.8614,
       0.6514, 3.8425, 1.6269, 5.7366, 3.6255, 4.6226, 3.7144, 8.3833,
       8.8487, 2.3514, 5.5721, 4.3485, 9.9628, 0.1894, 6.9496, 3.3072,
       4.5135, 7.8232, 7.9343, 1.3722, 8.9429, 8.3957, 4.1293, 4.125 ,
       4.2536, 9.5751, 5.7633, 1.4589])

In [4]:
mean = M.mean().round(6)

In [5]:
np.sum(M-mean).round(6)

0.0

2. Сумма квадратов отклонений x от любого a минимальна тогда и только тогда, когда a=$\overline{x}$

<p style="text-align: center"> <b> $\sum_{}(x-a)^{2} = min, a=\overline{x}$ </b> </p>

In [6]:
M.round(4)
a = np.arange(min(M),max(M), 1e-4)

In [7]:
deviations = [np.square(M-a_).sum() for a_ in a]

In [8]:
mean_ = a[np.argmin(deviations)].round(3)

In [9]:
mean_ == mean.round(3)

True

3. Если среднее $f_{1}$ чисел равно $m_{1}$, среднее $f_{2}$ равно $m_{2}$, то:

<p style="text-align: center"> <b> $\overline{x}=\frac{f_{1}m_{1}+f_{2}m_{2}+...+f_{n}m_{n}}{f_{1}+f_{2}+...+f_{n}}$ </b> </p>

4. При добавление константы C ко всем числам выборки, среднее также изменится на C:

<p style="text-align: center"> <b> $\overline{x}+c=x+c$ </b> </p>

In [10]:
M+=12
mean+=12

In [11]:
M.mean().round(4) == np.round(mean,4)

True

5. При умножении выборки на C среднее также умножается на C:

<p style="text-align: center"> <b> $\overline{x}c=xc$ </b> </p>

In [12]:
M*=4.5

In [13]:
M.mean().round(3) == np.round(mean*4.5,3)

True

*Медианой* (median) выборки $x_{1},x_{2},...,x_{n}$ - середина сортированной выборки, либо среднее двух средних значений. Медиана также равна 50-му персентилю и 0.5-му квантилю.

In [14]:
def median(arr):
    if M.size%2==0:
        i = M.size//2
        return 0.5*(M[i]+M[i-1])
    else:
        return M[M.size//2]

In [15]:
M = np.array([3,4,4,5,6,8,8,8,10])

In [16]:
median(M)

6

In [17]:
np.percentile(M,50)

6.0

In [18]:
M = np.array([5,5,7,9,11,12,15,18])

In [19]:
median(M)

10.0

In [20]:
np.percentile(M,50)

10.0

Для группированной выборки медиана вычисляется следующим образом:

<p style="text-align: center"> <b> $Median=L_{1}+(\frac{0.5n-\sum{f_{1}}}{f_{median}})c$ </b> </p>

$L_{1}$ - нижняя граница класса, содержащего медиану, <br>
n - количество элементов выборки,<br>
$\sum{f_{1}}$ - сумма частот ниже медианного класса,<br>
$f_{median}$ - частота межианного класса,<br>
c - размер медианного класса.<br>
См. пример 2.3.

*Модой* (mode) выборки $x_{1},x_{2},...,x_{n}$ называется число, которое наиболее часто встречается в выборке. Мода может не существовать или быть не уникальна

In [21]:
def my_mode(arr):
    vals, freq = np.unique(arr,return_counts=True)
    if freq.sum()==freq.size:
        return None
    else:
        index = np.where(freq==freq[np.argmax(freq)])[0]
        return vals[index]

In [22]:
M = np.array([2,2,5,7,9,9,9,10,10,11,12,18])

In [23]:
mode(M)

ModeResult(mode=array([9]), count=array([3]))

In [24]:
my_mode(M)

array([9])

In [25]:
M = np.array([3,5,8,10,12,15,16])

In [26]:
# если всех значений по 1, scipy.stats.mode вернет 1-е значение
mode(M)

ModeResult(mode=array([3]), count=array([1]))

In [27]:
# но можно считать, что моды в этом случае не существует
my_mode(M)

In [28]:
M = np.array([2,3,4,4,4,5,5,7,7,7,9])

In [29]:
# также scipy.stats.mode вернет первое значение в случае, если мод несколько
mode(M)

ModeResult(mode=array([4]), count=array([3]))

In [30]:
my_mode(M)

array([4, 7])

Для группированной выборки мода равна:
    <p style="text-align: center"> <b> $Mode=L_{1}+(\frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}})c$ </b> </p>

$L_{1}$ - нижняя граница класса, содержащего моду, <br>
$\Delta_{1}$ - разнича частот модального класса и предыдущего,<br>
$\Delta_{2}$ - разнича частот следующего класса и модального,<br>
c - размер модального класса.<br>
См. пример 2.6.

*Среднее геометрическое* (geometric mean) положительных чисел $x_{1},x_{2},...,x_{n}$:

<p style="text-align: center"> <b> $G=\sqrt[n]{x_{1}x_{2}...x_{n}}$ </b> </p>

In [31]:
M = np.array([2,4,8])

In [32]:
G = np.power(M.prod(),1/M.size).round()

In [33]:
G

4.0

*Средним гармоническим* (harmonic mean) чисел $x_{1},x_{2},...,x_{n}$ называется число *H*:

<p style="text-align: center"> <b> $H=\frac{n}{\sum{\frac{1}{x}}}$ </b> </p>

<p style="text-align: center"> <b> $\frac{1}{H}=\frac{1}{n}\sum{\frac{1}{x}}$ </b> </p>

In [34]:
H = np.round(M.size/np.sum(1/M),2)

In [35]:
H

3.43

Для положительных чисел $x_{1},x_{2},...,x_{n}$ выполняется соотношение:

<p style="text-align: center"> <b> $H\leq G\leq\overline{X}$ </b> </p>

*Среднее квадратическое* (root mean square):

<p style="text-align: center"> <b> $RMS=\sqrt{\frac{\sum{x^{2}}}{n}}$ </b> </p>

In [36]:
M = np.array([1,3,4,5,7])

In [37]:
RMS = np.sqrt(np.square(M).sum()/M.size).round(2)

In [38]:
RMS

4.47

#### Квартили, перценетили и децили

Медиана делит числа на две одинаковые части. Развивая эту идею, можно разбить выборку на равные части $Q_{1},Q_{2}, Q_{3}$, называемые первым, вторым и третим *квартилем* соответственно. Q2 равен медиане.

Аналогично, значения, разделяющие выборку на 10 равных частей, называются *децилями* и обозначаются $D_{1},D_{2},..., D_{9}$, и, разделяющие на 100 - перцентилями $P_{1},P_{2},..., P_{99}$.

Квартили, децили, перцентили и другие величины, разбивающие выборку на равные части, называются *квантилями*.

Пример 2.1. Дано распределение частот. Найти среднее арифметическое.

In [39]:
df = pd.DataFrame({'x':[4,5,6,7],'freq':[20,40,30,10]})

In [40]:
df

Unnamed: 0,x,freq
0,4,20
1,5,40
2,6,30
3,7,10


In [41]:
df['xf'] = df.x*df.freq

In [42]:
df

Unnamed: 0,x,freq,xf
0,4,20,80
1,5,40,200
2,6,30,180
3,7,10,70


In [43]:
mean = df.xf.sum()/df.freq.sum()

In [44]:
mean

5.3

Пример 2.2. Дана таблица распределения роста мужчин (в дюймах). Найти средний рост.

<div style="text-align: right"> pr 3.22 </div>

Формула $\overline{x}=\sum_{i=1}^{n}\frac{f_{i}x_{i}}{n}$ остается справедливой, если в качестве $x_{i}$ рассматривать середину соответствующего интервала.

In [45]:
b = 2
start = 60
end = 74
df = pd.DataFrame([5,18,42,27,8], columns=['Frequency'], index=get_intervals(start,end,b,step=3))
df.index.name = "Height"

In [46]:
df

Unnamed: 0_level_0,Frequency
Height,Unnamed: 1_level_1
"[60, 62]",5
"[63, 65]",18
"[66, 68]",42
"[69, 71]",27
"[72, 74]",8


In [47]:
df['Class mark'] = [i.mid for i in df.index]

In [48]:
df['fX'] = df.Frequency * df['Class mark']

In [49]:
df

Unnamed: 0_level_0,Frequency,Class mark,fX
Height,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[60, 62]",5,61.0,305.0
"[63, 65]",18,64.0,1152.0
"[66, 68]",42,67.0,2814.0
"[69, 71]",27,70.0,1890.0
"[72, 74]",8,73.0,584.0


In [50]:
mean = df['fX'].sum()/df['Frequency'].sum()

In [51]:
mean

67.45

Пример 2.3. Дана таблица распределения веса 40 мужчин (в фунтах). Найти медиану.

<div style="text-align: right"> pr 3.28 </div>

Для группированной выборки медиана равна:
<p style="text-align: center"> <b> $Median=L_{1}+(\frac{0.5n-\sum{f_{1}}}{f_{median}})c$ </b> </p>

In [52]:
b = 8
start = 118
end = 180
df = pd.DataFrame([3,5,9,12,5,4,2], columns=['Frequency'], index=get_intervals(start,end,b,step=9))
df.index.name = "Weight"

In [53]:
df

Unnamed: 0_level_0,Frequency
Weight,Unnamed: 1_level_1
"[118, 126]",3
"[127, 135]",5
"[136, 144]",9
"[145, 153]",12
"[154, 162]",5
"[163, 171]",4
"[172, 180]",2


In [54]:
df['Cum_freq'] = df['Frequency'].cumsum()

In [55]:
df

Unnamed: 0_level_0,Frequency,Cum_freq
Weight,Unnamed: 1_level_1,Unnamed: 2_level_1
"[118, 126]",3,3
"[127, 135]",5,8
"[136, 144]",9,17
"[145, 153]",12,29
"[154, 162]",5,34
"[163, 171]",4,38
"[172, 180]",2,40


Класс, содержащий медиану - 145-153, т.к. именно в этом интервале находится серединное значение.
Нижняя граница класса:
<p style="text-align: center"> <b> $L_{1}=\frac{1}{2}(144+145)=144.5$ </b> </p>

In [56]:
L1 = 0.5*(df.iloc[2].name.right + df.iloc[3].name.left)

In [57]:
# количество элементов в выборке
N = df.Frequency.sum()

In [58]:
# сумма частот, ниже медианного интервала
f1 = df.iloc[2].Cum_freq

In [59]:
# количество элементов в медианном интервале
f_med = df.iloc[3].Frequency

<p style="text-align: center"> <b> $c=\frac{1}{2}(153+154) - \frac{1}{2}(144+145)=9$ </b> </p>

In [60]:
# размер медианного класса (median class interval size)
c = (0.5*(df.iloc[3].name.right + df.iloc[4].name.left)) - L1

In [61]:
Median = L1+((0.5*N-f1))*c/f_med

In [62]:
Median

146.75

Пример 2.4. Дано распределение зарплат. Найти медиану.
<div style="text-align: right"> pr 3.30 </div>

In [63]:
df = table23()
df

Unnamed: 0_level_0,Number of Emoyees
Wages,Unnamed: 1_level_1
"[250.0, 259.99]",8
"[260.0, 269.99]",10
"[270.0, 279.99]",16
"[280.0, 289.99]",14
"[290.0, 299.99]",10
"[300.0, 309.99]",5
"[310.0, 319.99]",2


In [64]:
df['Cum_freq'] = df['Number of Emoyees'].cumsum()

In [65]:
df

Unnamed: 0_level_0,Number of Emoyees,Cum_freq
Wages,Unnamed: 1_level_1,Unnamed: 2_level_1
"[250.0, 259.99]",8,8
"[260.0, 269.99]",10,18
"[270.0, 279.99]",16,34
"[280.0, 289.99]",14,48
"[290.0, 299.99]",10,58
"[300.0, 309.99]",5,63
"[310.0, 319.99]",2,65


In [66]:
N = 65

In [67]:
L1 = 0.5*(269.99 + 270)

In [68]:
f1 = 18

In [69]:
f_med = 16

In [70]:
c = 0.5*(279.99 + 280) - L1

In [71]:
Median = L1+((0.5*N-f1))*c/f_med
Median

279.0575

Пример 2.5. Даны выборки M1, M2. Найти: среднее, моду, медиану.
<div style="text-align: right"> pr 3.31 </div>

In [72]:
M1 = np.array([3,5,2,6,5,9,5,2,8,6])
M2 = np.array([51.6,48.7,50.3,49.5,48.9])

In [73]:
mean1, mean2 = M1.mean(), M2.mean()
median1, median2 = np.quantile(M1,0.5), np.quantile(M2,0.5)
mode1, mode2 = my_mode(M1), my_mode(M2)

In [74]:
print(f"Mean of M1: {mean1}")
print(f"Median of M1: {median1}")
print(f"Mode of M1: {mode1}")

Mean of M1: 5.1
Median of M1: 5.0
Mode of M1: [5]


In [75]:
print(f"Mean of M2: {mean2}")
print(f"Median of M2: {median2}")
print(f"Mode of M2: {mode2}")

Mean of M2: 49.800000000000004
Median of M2: 49.5
Mode of M2: None


Пример 2.6. По выборке таблицы 2.3 найти среднее, моду, проверить эмперическое соотношение:
<div style="text-align: right"> pr 3.33, 3.34 </div>
<p style="text-align: center"> <b> $Mean - mode = 3(mean - median)$ </b> </p>

In [76]:
df

Unnamed: 0_level_0,Number of Emoyees,Cum_freq
Wages,Unnamed: 1_level_1,Unnamed: 2_level_1
"[250.0, 259.99]",8,8
"[260.0, 269.99]",10,18
"[270.0, 279.99]",16,34
"[280.0, 289.99]",14,48
"[290.0, 299.99]",10,58
"[300.0, 309.99]",5,63
"[310.0, 319.99]",2,65


In [77]:
df['Class mark'] = [i.mid for i in df.index]
df['fX'] = df['Number of Emoyees'] * df['Class mark']

In [78]:
df

Unnamed: 0_level_0,Number of Emoyees,Cum_freq,Class mark,fX
Wages,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"[250.0, 259.99]",8,8,254.995,2039.96
"[260.0, 269.99]",10,18,264.995,2649.95
"[270.0, 279.99]",16,34,274.995,4399.92
"[280.0, 289.99]",14,48,284.995,3989.93
"[290.0, 299.99]",10,58,294.995,2949.95
"[300.0, 309.99]",5,63,304.995,1524.975
"[310.0, 319.99]",2,65,314.995,629.99


In [79]:
mean = df['fX'].sum()/df['Number of Emoyees'].sum()

In [80]:
mean

279.7642307692308

Для группированной выборки мода равна:
    <p style="text-align: center"> <b> $Mode=L_{1}+(\frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}})c$ </b> </p>

Модальный класс соответствует интервалу [270.0, 279.99], т.к. в этот интервал содержит самое большое значение частоты.

In [81]:
L1 = 0.5*(269.99 + 270)
L1

269.995

In [82]:
d1 = 16-10
d2 = 16-14

In [83]:
c = 0.5*(279.99 + 280) - L1
c

10.0

In [84]:
mode = L1+(d1/(d1+d2))*c

In [85]:
mode

277.495

In [86]:
e_mode = mean - 3*(mean-279.0575)

In [87]:
e_mode

277.64403846153846

In [88]:
# Эмперическое значение медианы незначительно отличается от рассчитанного

In [89]:
print(f"{abs(e_mode-mode)}")

0.1490384615384528


Пример 2.7. Найти среднее арифметическое и геометрическое выборки:
<div style="text-align: right"> pr 3.35 </div>

In [90]:
M = np.array([3,5,6,6,7,10,12])

In [91]:
G = np.power(M.prod(),1/M.size)
G

6.428300191183037

In [92]:
mean = M.mean()
mean

7.0

In [93]:
# Это показывает тот факт, что среднее геометрическое положительных чисел меньше, чем среднее арифметическое.

Пример 2.8. Число бактерий некоторой культуры увеличилось с 1000 до 3000 за 3 дня. На сколько процентов в среднем увеличивалось количество бактерий за день.
<div style="text-align: right"> pr 3.38 </div>

Обозначим процет как r. <br>
Число бактерий спустя 1 день = $1000 + 1000r = 1000(1+r)$<br>
Число бактерий спустя 2 дня = $1000(1+r) + 1000(1+r) = 1000(1+r)^{2}$ <br>
Число бактерий спустя 3 дня = $1000(1+r) + 1000(1+r) + 1000(1+r) = 1000(1+r)^{3}$ <br>
Последнее выражение должно быть равно 4000.  <br>
$1000(1+r)^{3}=4000$  <br>
$(1+r)^{3}=4$  <br>
$(1+r)=\sqrt[3]{4}$  <br>
$r=\sqrt[3]{4}-1=0.587$  <br>
$r=58,7\%$

В общем случае, если процесс начинается с квантиля P и увеличивается на постоянную величину r в единицу времени, спустя n шагов будем иметь:
    <p style="text-align: center"> <b> $A=P(1+r)^{n}$ </b> </p>
Это выражение называется формулой сложного процента (compound-interest formula).

Пример 2.9. Найти среднее квадратическое чисел.
<div style="text-align: right"> pr 3.42 </div>

In [94]:
M = np.array([3,5,6,6,7,10,12])
rms = np.sqrt(np.square(M).sum()/M.size).round(2)
rms

7.55

Пример 2.10. Найти квартили $Q_{1},Q_{2}, Q_{3} и децили D_{1},D_{2},..., D_{9}$ таблицы 2.3
<div style="text-align: right"> pr 3.44 </div>

In [95]:
# В utils реализована функция quantile_groups, которая разбивает группированную выборку на заданное количество 
# одинаковых интервалов
df = table23()
df['Cum_freq'] = df['Number of Emoyees'].cumsum()
df

Unnamed: 0_level_0,Number of Emoyees,Cum_freq
Wages,Unnamed: 1_level_1,Unnamed: 2_level_1
"[250.0, 259.99]",8,8
"[260.0, 269.99]",10,18
"[270.0, 279.99]",16,34
"[280.0, 289.99]",14,48
"[290.0, 299.99]",10,58
"[300.0, 309.99]",5,63
"[310.0, 319.99]",2,65


In [96]:
freq_col = "Number of Emoyees"
cum_freq = None

In [97]:
quantile_groups(df,4,freq_col)

[268.25, 279.06, 290.75]

In [98]:
quantile_groups(df,10,freq_col)

[258.12, 265.0, 270.93, 275.0, 279.06, 283.57, 288.21, 294.0, 301.0]

Пример 2.11. Найти 35 и 65 перцентили (того же набора данных)
<div style="text-align: right"> pr 3.45 </div>

<div style="text-align: center"> $L_{1} = \frac{35*65}{100}=22.75$ </div>
<div style="text-align: center"> $P_{35}=269.995+\frac{22.75-18}{16}10=272.96$ </div>
60-й перцентиль  равен 6 децилю.

In [99]:
# Расчитаем еще раз с помощью той же функции quantile_groups
# индексация с нуля, поэтому для 35 перцентиля возьмем 34 элемент
P = quantile_groups(df,100,freq_col)

In [100]:
P[34]

272.96

In [101]:
P[59]

283.57