# Теория вероятностей и математическая статистика (семинары)
## Урок 10. Дисперсионный анализ

In [1]:
import scipy.stats as stats 
import numpy as np 

## Задача 1
Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 

Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. 

Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. 

Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

### Решение

In [2]:
fb = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hk = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
pw = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
n1 = len(fb)
n2 = len(hk)
n3 = len(pw)

Посмотрим на средние значения всех выборок

In [3]:
fb_mean = fb.mean()
hk_mean = hk.mean()
pw_mean = pw.mean()
fb_mean, hk_mean, pw_mean

(179.125, 178.66666666666666, 172.72727272727272)

Средние значения роста хоккеистов и футболистов отличаются не сильно. Проверяем статистическую значимость отличий.

In [4]:
all = np.hstack([fb, hk, pw])
all_mean = all.mean()
all_mean

176.46428571428572

Найдем значения $S_{F}^2$ и $S_{ост}^2$

In [5]:
S2_F = n1 * (fb_mean - all_mean) ** 2 + n2 * (hk_mean - all_mean) ** 2 + n3 * (pw_mean - all_mean) ** 2
S2_rem = ((fb - fb_mean) ** 2).sum() + ((hk - hk_mean) ** 2).sum() + ((pw - pw_mean) ** 2).sum()
S2_F, S2_rem

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства: $S_{общ}^2 = S_{F}^2+S_{ост}^2$

In [6]:
S2_F + S2_rem

830.964285714286

In [7]:
((all - all_mean) ** 2).sum()

830.9642857142854

Запишем оценки дисперсий:

In [8]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1
sigma2_rem = S2_rem / k2

sigma2_F, sigma2_rem

(126.9537337662339, 23.08227272727273)

Значение статистики критерия Фишера **F**:

In [10]:
F = sigma2_F / sigma2_rem
F

5.500053450812598

Зафиксируем уровень значимости α = 0.05. Для него найдём значение критерия Фишера $F_{crit}$

In [11]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

Из вычислений видно, что $F > F_{crit}$, поэтому делаем заключение, что отличие среднего роста футболистов, хокеистов и штангистов действительно является статистически значимым

### Ответ:
Отличия среднего роста среди футболистов, хоккеистов и штангистов являются статистически значимыми.

# 
## Задача 2
В одной группе из 100 больных наблюдалось улучшение у 75, а в другой из 100 больных среди 69. Оценить с помощью доверительного интервала разность долей больных, у которых наблюдались улучшения.

### Решение

Доверительный интервал вычисляется по формуле:

$\Delta  \pm Z_{\frac{α}{2}}\cdot S_\Delta $

$\Delta  = \hat{p_1} - \hat{p_2}$

$S_\Delta  = \sqrt{p_{общ} \cdot \left (  1 - p_{общ} \right ) \cdot \left ( {\frac{1}{n_1} + \frac{1}{n_2}}\right )} $

$p_{общ} = \frac{m_{1}+m_{2}}{n_{1}+n_{2}}$

In [12]:
m1 = 75
n1 = 100
m2 = 69
n2 = 100
p1 = m1/n1
p2 = m2/n2
p1, p2

(0.75, 0.69)

In [13]:
delta = p1 - p2
p_all = (m1+m2)/(n1+n2)
delta, p_all

(0.06000000000000005, 0.72)

In [14]:
S_delta = np.sqrt(p_all*(1-p_all)*(1/n1+1/n2))
S_delta

0.06349803146555018

В задаче не указано занчение α, поэтому возьмем стандартное: α = 0.05

Доверительный интервал считаем $\left ( 1 - \frac{α}{2}\right ) = 1 - \frac{0,05}{2} = 1 - 0.025 = 0.975$ 

Z − критерий для значения 0.975 равен 1.96.

Доверительный интервал:

$\Delta \pm Z_{\frac{α}{2}}\cdot S_\Delta = 0.06 \pm 1.96 \cdot 0.06 = 0.06 \pm 0.12$

In [15]:
#Левая граница интервала: 
0.06 - 0.12

-0.06

In [16]:
#Правая граница интервала:
0.06 + 0.12

0.18

Для оценки статистически значимых различий вычислим Z наблюдаемое.

$Z_{набл}=\frac{\left |\hat{p_1} - \hat{p_2}\right | - \frac{1}{2} \cdot \left ( {\frac{1}{n_1} + \frac{1}{n_2}}\right )}{\sqrt{p_{общ} \cdot \left (  1 - p_{общ} \right ) \cdot \left ( {\frac{1}{n_1} + \frac{1}{n_2}}\right )}}$

In [17]:
Z_N =  (np.abs(p1-p2)-0.5*(1/n1+1/n2)) / np.sqrt(p_all*(1-p_all)*(1/n1+1/n2))
Z_N

0.7874259854358908

Получилось, что 0,79 = $Z_{набл}$ < Z = 1,96. Отсюда можно сделать вывод, что вычисленное значение $Z_{набл}$ попадает в доверительный интервал, что позволяет нам заявить, что статистически значимых различий — нет.

### Ответ:
Доверительный интервал лежит в промежутке (−0,06; 0,18). Статистически значимых различий не обнаружено.

# 
## Задача 3
Какова вероятность, что в наудачу выбранном двузначном числе цифры одинаковые?

### Решение

Всего двузначных чисел: 100 - 10 = 90. Всего двузначных числел с одинаковыми циврами - 9 (вариант с двумя нулями - некорректен). Значит вероятность будет такой:

$ P(A)= \frac {9}{90} = \frac {1}{10} = 0.1$

### Ответ:
P(A) = 0.1