## Урок 5
### Проверка статистических гипотез. Доверительные интервалы. A/B-тестирование.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

#### Задача 1
Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.

##### Решение

Null Hypothesis ($H₀$): $a = 17$  
Alternate Hypothesis ($H₁$): $a > 17$ (using right-tail test)

In [2]:
a = 17
alpha = 0.025
n = 100
disp = 4 # variance
a_mean = 17.5

Variance is known, using the following statistics for the null hypothesis verification:
$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}},$$

In [3]:
# Calculate sigma (Standard Deviation)
sigma = np.sqrt(disp)
sigma

2.0

In [4]:
# Calculate statistics
T = (a_mean - a) / (sigma / np.sqrt(n))
T

2.5

Critical region for the right-tail test:
$$\Omega_\alpha = (t_{1 - \alpha}, \infty)$$

In [5]:
# Find quantile for the right-tail critical region
t = stats.norm.ppf(1 - alpha)
t

1.959963984540054

In [6]:
# Is the Null Hypothesis true?
T < t

False

#### Задача 2
Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `a` с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

##### Решение

In [7]:
sigma = 16
mean = 80
n = 256
p = 0.95
alpha = 1 - p

Confidence Interval (variance is known):
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [8]:
# Calculate quantile for standard distribution
# Used when variance is known
t = stats.norm.ppf(1 - alpha / 2)
t

1.959963984540054

In [9]:
# Calculate confidence interval: (ci_from, ci_to)
ci_from = mean - t * (sigma / np.sqrt(n))
ci_to = mean + t * (sigma / np.sqrt(n))

(ci_from, ci_to)

(78.04003601545995, 81.95996398454005)

#### Задача 3
Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?

##### Решение

Null Hypothesis ($H₀$): $mean = 200$  
Alternate Hypothesis ($H₁$): $mean \ne 200$

Variance is unknown, using the following statistics for the null hypothesis verification:
$$T = \dfrac{\overline{X} - a}{\sigma_X / \sqrt{n}},$$

In [10]:
cookies_selection = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
weight_mean = 200
alpha = 0.01 # significance level

In [11]:
# Find number of observations, Mean, Standard Deviation
n = cookies_selection.shape[0]
mean = cookies_selection.mean()
std = cookies_selection.std(ddof=1)

n, mean, std

(10, 198.5, 4.453463071962462)

In [12]:
# Calculate quantile for t-distribution (Student's coefficient)
# Student's coefficient is used when variance is unknown
t = stats.t.ppf(1 - alpha / 2, df = n - 1)
t

3.2498355440153697

In [13]:
# Calculate statistics
T = (mean - weight_mean) / (std / np.sqrt(n))
T

-1.0651074037450896

In [14]:
# Is the Null Hypothesis true?
T < t

True

Calculated statistics value is not in critical region, the null hypothesis is true.