## Урок 5
## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Задача 1
Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

$\sigma=16, \alpha = 0.05, \overline{X} = 80, n = 256$

Доверительный интервал = $ \overline{X} \pm K_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}$

In [28]:
x = 80
k = 1.96 # alpha / 2 = 0.025, Z criteria
sigma = 16
n = 256
min = x - k * sigma / (n**0.5)
max = x + k * sigma / (n**0.5)
min, max

(78.04, 81.96)

### Задача 2
Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
Известно, что их веса распределены нормально. 
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? 
2. Найдите P-значение для данного теста.

In [21]:
import numpy as np
from scipy import stats
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
H1 = np.mean(X)
H1

198.5

In [22]:
H0 = 200 
alpha = (1 - 0.99) / 2 # нормальное распределение
sigma = np.std(X, ddof=1)
n = len(samples)
t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)
t1, t2

(-3.6896623923042338, 3.6896623923042484)

In [26]:
def statistic(samples: np.ndarray, H0, n):   
    return (samples.mean() - H0) / samples.std(ddof=1) / n**(1/2)

In [27]:
S = statistic(samples, H0, n)
S

-0.10651074037450894

Т.к. t1 <= S <= t2, то утверждение продавца верно!

### Задача 3
Дана выборка диаметров подшипников из примера 1 с занятия 5:

samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ]

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

In [4]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134, 
           1.2088, 1.701, 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372, 
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])
var = 0.0625
alpha = 0.05

In [5]:
n = samples.shape[0]
sample_var = samples.var()

In [7]:
H = (n - 1) * sample_var / var
H

27.523852513611114

In [10]:
t1 = stats.chi2.ppf(alpha / 2, df=n-1)
t2 = stats.chi2.ppf(1 - alpha / 2, df=n-1)
t1, t2

(11.688551922452438, 38.0756272503558)

Т.к. t1 <= H <= t2 , то гипотеза верна!