In [1]:
import numpy as np
import pandas as pd
from scipy.stats import mode
import matplotlib.pyplot as plt

#### Меры центральной тенденции

*Среднее арифметическое* (arithmetic mean) выборки $x_{1},x_{2},...,x_{n}$ определяется как:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}x_{i}$ </b> </p>

Если числа $x_{1}, x_{2}...x_{n}$ встречается $f_{1}, f_{2}...f_{n}$ раз, то среднее арифметическое равно:

<p style="text-align: center"> <b> $\overline{x}=\sum_{i=1}^{n}\frac{f_{i}x_{i}}{n}, n=\sum_{}{f}$ </b> </p>

*Взвешенное среднее арифметическое* (weighted arithmetic mean). Каждому значению $x_{i}$ соответствуует вес $w_{i}$, соответствующий значимости измерения.

<p style="text-align: center"> <b> $x=\frac{\sum_{}wx}{\sum_{}w}$ </b> </p>

###### Cвойства среднего арифметичкского

1. Алгебраическая сумма отклонений от среднего равна нулю

<p style="text-align: center"> <b> $\sum_{}(x-\overline{x})=0$ </b> </p>

In [2]:
M = np.random.rand(100).round(5)*10

In [3]:
M

array([3.5221, 8.1343, 1.9955, 3.7519, 9.5412, 4.1527, 7.6896, 2.2469,
       1.0118, 2.4033, 1.4625, 0.4394, 2.3286, 8.3199, 8.1024, 9.1602,
       4.6871, 3.0189, 7.525 , 9.3984, 1.6374, 8.6628, 6.4377, 3.0531,
       4.5634, 6.116 , 6.9864, 7.4488, 9.3288, 3.0682, 6.5674, 1.0799,
       5.1088, 3.6252, 7.7505, 5.4091, 4.3847, 8.55  , 1.5734, 7.3607,
       6.0392, 4.1001, 7.9448, 8.9836, 6.464 , 0.5941, 0.195 , 6.2961,
       1.4665, 2.8933, 3.9227, 1.2768, 5.3365, 8.7524, 3.3593, 8.6297,
       7.2821, 0.6357, 7.3134, 4.6934, 6.1538, 5.0615, 0.9467, 9.8147,
       3.9888, 7.6938, 5.7831, 6.9087, 5.8641, 9.3951, 0.5858, 9.7877,
       1.015 , 6.7367, 9.334 , 3.4172, 8.0634, 4.2038, 2.7925, 3.6554,
       2.4067, 1.2605, 9.2899, 0.451 , 9.1354, 4.0508, 5.9393, 9.8219,
       7.7635, 3.7544, 6.9951, 6.6462, 0.6062, 3.3088, 5.6608, 9.0037,
       4.2272, 3.9722, 1.4303, 5.1108])

In [4]:
mean = M.mean().round(6)

In [5]:
np.sum(M-mean).round(6)

0.0

2. Сумма квадратов отклонений x от любого a минимальна тогда и только тогда, когда a=$\overline{x}$

<p style="text-align: center"> <b> $\sum_{}(x-a)^{2} = min, a=\overline{x}$ </b> </p>

In [6]:
M.round(4)
a = np.arange(min(M),max(M), 1e-4)

In [7]:
deviations = [np.square(M-a_).sum() for a_ in a]

In [8]:
mean_ = a[np.argmin(deviations)].round(3)

In [9]:
mean_ == mean.round(3)

True

3. Если среднее $f_{1}$ чисел равно $m_{1}$, среднее $f_{2}$ равно $m_{2}$, то:

<p style="text-align: center"> <b> $\overline{x}=\frac{f_{1}m_{1}+f_{2}m_{2}+...+f_{n}m_{n}}{f_{1}+f_{2}+...+f_{n}}$ </b> </p>

4. При добавление константы C ко всем числам выборки, среднее также изменится на C:

<p style="text-align: center"> <b> $\overline{x}+c=x+c$ </b> </p>

In [10]:
M+=12
mean+=12

In [11]:
M.mean().round(4) == np.round(mean,4)

True

5. При умножении выборки на C среднее также умножается на C:

<p style="text-align: center"> <b> $\overline{x}c=xc$ </b> </p>

In [12]:
M*=4.5

In [13]:
M.mean().round(3) == np.round(mean*4.5,3)

True

In [14]:
# TODO: grouped data

*Медианой* (median) выборки $x_{1},x_{2},...,x_{n}$ - середина сортированной выборки, либо среднее двух средних значений. Медиана также равна 50-му персентилю и 0.5-му квантилю.

In [15]:
def median(arr):
    if M.size%2==0:
        i = M.size//2
        return 0.5*(M[i]+M[i-1])
    else:
        return M[M.size//2]

In [16]:
M = np.array([3,4,4,5,6,8,8,8,10])

In [17]:
median(M)

6

In [18]:
np.percentile(M,50)

6.0

In [19]:
M = np.array([5,5,7,9,11,12,15,18])

In [20]:
median(M)

10.0

In [21]:
np.percentile(M,50)

10.0

In [22]:
# TODO: grouped data

*Модой* (mode) выборки $x_{1},x_{2},...,x_{n}$ называется число, которое наиболее часто встречается в выборке. Мода может не существовать или быть не уникальна

In [23]:
def my_mode(arr):
    vals, freq = np.unique(arr,return_counts=True)
    if freq.sum()==freq.size:
        return None
    else:
        index = np.where(freq==freq[np.argmax(freq)])[0]
        return vals[index]

In [24]:
M = np.array([2,2,5,7,9,9,9,10,10,11,12,18])

In [25]:
mode(M)

ModeResult(mode=array([9]), count=array([3]))

In [26]:
my_mode(M)

array([9])

In [27]:
M = np.array([3,5,8,10,12,15,16])

In [28]:
# если всех значений по 1, scipy.stats.mode вернет 1-е значение
mode(M)

ModeResult(mode=array([3]), count=array([1]))

In [29]:
# но можно считать, что моды в этом случае не существует
my_mode(M)

In [30]:
M = np.array([2,3,4,4,4,5,5,7,7,7,9])

In [31]:
# также scipy.stats.mode вернет первое значение в случае, если мод несколько
mode(M)

ModeResult(mode=array([4]), count=array([3]))

In [32]:
my_mode(M)

array([4, 7])