In [1]:
import numpy as np   
import pandas as pd        
from scipy import stats as sts 

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline 

from math import factorial as fact

## Больше задач на проверку гипотез

<img src="../images/eshe.png" width="250" align='center'>

### Задача №1: Игра Престолов или Дом Дракона? 

<img src="../images/dom_drakona_mem.jpeg" width="400" align='left'>

У вас есть данные о просмотре Джоном серий Игры престолов и Дома дракона за некоторый промежуток времени. Вы хотите понять, заинтересовали ли эти оба сериала Джона одинаково. Для этого проверьте гипотезу о том, что Джон в среднем в день смотрел одинаковое число серий у обоих из этих сериалов. 

In [2]:
df = pd.read_csv('../data/got_hod_series.csv')

$$
X_1, \ldots, X_n \sim Poiss(\lambda_{got})
$$


$$
Y_1, \ldots, Y_n \sim Poiss(\lambda_{hod})
$$


$$
\begin{aligned}
& H_0: \lambda_{got} = \lambda_{hod} \\ 
& H_1: \lambda_{got} \neq \lambda_{hod}
\end{aligned}
$$


$$
E(X) = \lambda \\ 
Var(X) = \lambda
$$


$$
\bar x = \hat \lambda
$$


$$
\begin{aligned}
& H_0: \lambda_{got} - \lambda_{hod} = 0\\ 
& H_1: \lambda_{got} - \lambda_{hod} \neq 0
\end{aligned}
$$


$$
\begin{aligned}
& H_0: \lambda_{diff} = 0\\ 
& H_1: \lambda_{diff} \neq 0
\end{aligned}
$$


$$
\lambda_{diff} = \hat \lambda_{diff} = \bar x - \bar y
$$

Выборки у нас независимые

$$
\frac{\hat \lambda_{diff} - 0}{\sqrt{\frac{s^2_{got}}{n} + \frac{s^2_{hod}}{m}}} = \frac{\hat \lambda_{diff} - 0}{\sqrt{\frac{\hat \lambda_{got}}{n} + \frac{\hat \lambda_{hod}}{m}}}
$$

In [7]:
X = df['got_series'].values
Y = df['hod_series'].values

n = len(X)
m = len(Y)

lambda_got = np.mean(X)
lambda_hod = np.mean(Y)

lambda_diff = lambda_got - lambda_hod

z_sample = (lambda_diff - 0) / np.sqrt(lambda_got / n + lambda_hod / m)
print(f'Выборочное z: {z_sample}')

Выборочное z: -8.859791664986949


In [13]:
alpha = 0.05


norm_gen = sts.norm(0, 1)

z_crit_left = norm_gen.ppf(alpha/2)
z_crit_right = norm_gen.ppf(1 - alpha/2)
print(f'Левое критическое z: {z_crit_left}')
print(f'Правое критическое z: {z_crit_right}')

Левое критическое z: -1.9599639845400545
Правое критическое z: 1.959963984540054


In [14]:
if z_sample > z_crit_left and z_sample < z_crit_right:
    print('Нулевая гипотеза не отвергается')
else:
    print('Нулевая гипотеза отвергается')

Нулевая гипотеза отвергается


### Задача №2: Любитель ресторанов

Ваш друг любит ужинать в ресторанах, а еще экономить деньги. Он утверждает, что можно поесть в хорошем ресторане со средним чеком 1000 рублей. Вы решили проверить эту гипотезу, поэтому сходили в топ-10 хороших ресторанов и набрали данных о средних чеках. Прав ли ваш друг?

In [63]:
sample = [
    2074.20063876, 2186.0306825 , 2069.34185185, 1819.23816378,
    1702.88575035, 2253.46583296, 2021.12789898, 2153.7653038 ,
    2115.86764342, 2026.53853657
]

__Что тут важно?__

Данных супер мало, поэтому можем проводить только t-test (и то сомнительно, но лучше ничего нет). t-test требует нормальности выборки, но кажется с деньгами это ок

In [2]:
## Ваш код

### Задача №3: Пересдача

<img src="../images/exam.jpeg" width="400" align='left'>

У вас есть данные студентов, которые написали экзамен на недостаточное число баллов, поэтому пошли на пересдачу. Данные о пересдаче у вас тоже есть, поэтому вы хотите проверить гипотезу о том, что к пересдаче студенты готовятся более тщательно, то есть пишут ее на большее число баллов. 

In [15]:
df = pd.read_csv('../data/test_data.csv')

In [19]:
df.shape

(50, 2)

__Что тут важно?__

1. Как мы видим размер выборки небольшой, поэтому z-test по-хорошему применять нельзя. Можно предположить что данные распределены нормально и применить t-test
2. Выборки зависимые, так как тест и пересдачу писали одни и те же люди. Нужно учесть это при расчете критерия. 

$$
X_1, \ldots, X_n \sim N(\mu_x, \sigma^2_x)
$$


$$
Y_1, \ldots, Y_n \sim N(\mu_y, \sigma^2_y)
$$


$$
\begin{aligned}
& H_0: \mu_y = \mu_x \\ 
& H_1: \mu_y > \mu_x
\end{aligned}
$$


$$
\begin{aligned}
& H_0: \mu_y - \mu_x = 0\\ 
& H_1: \mu_y - \mu_x > 0
\end{aligned}
$$


$$
\begin{aligned}
& H_0: d = 0\\ 
& H_1: d > 0
\end{aligned}
$$


$$
t = \frac{\bar d - 0}{\sqrt{\frac{s^2_d}{n}}} \sim t(n-1)
$$

In [25]:
X = df.test_data.values
Y = df.retest_data.values

D = Y - X

n = len(D)

d_hat = np.mean(D)
var_hat = np.var(D)

t_sample = (d_hat - 0) / np.sqrt(var_hat / n)
print(f'Выборочное t: {t_sample}')

Выборочное t: 25.88450432699744


In [26]:
alpha = 0.05

t_gen = sts.t(n-1)
t_crit = t_gen.ppf(1 - alpha)
print(f'Критическое t: {t_crit}')

Критическое t: 1.6765508919142629


In [27]:
if t_sample < t_crit:
    print('Нулевая гипотеза не отвергается')
else:
    print('Нулевая гипотеза отвергается')

Нулевая гипотеза отвергается


> Кажется, что студенты готовятся к пересдаче лучше. А может быть просто пересдача обычно проще, чем экзамен

## Что надо запомнить:

1. Понимать, какой тест применять в зависимости от предпосылок
2. Понимать, какая у вас альтернативная гипотеза и в зависимости от этого считать критические значения и делать вывод
3. Понимать, одна или две выборки у вас. И если выборки 2, то определять, зависимые они или независимые.
4. Понимать, как распределены ваши данные. И если они точно распределены по Бернулли или по Пуассону или Нормально, то уточнять ваш тест. В целом можно забить и всегда брать просто выборочную дисперсию – в целом это тоже будет верно, но не факт, что на экзамене. 