<a href="https://colab.research.google.com/github/alexDx12/gb_statistics/blob/lesson_5/lesson_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Теория вероятностей и математическая статистика

## Урок 5

## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Домашнее задание

### Задача 1

__Постановка задачи__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти ширину доверительного интервала для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём выборки равен 256.

__Решение__

Импорт библиотек и скриптов:

In [None]:
import numpy as np
from scipy import stats

Среднее квадратическое отклонение (std), надёжность (p), выборочное среднее (mu_s) и объём выборки (n) исходя из постановки задачи:

In [None]:
std = 16
p = 0.95
mu_s = 80
n = 256

Уровень значимости (alpha):

In [None]:
alpha = round(1 - p, 2)
alpha

0.05

Квантили распределения (t1, t2):

In [None]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)
t1, t2

(-1.9599639845400545, 1.959963984540054)

Нижняя (down_bond) и верхняя (up_bond) доверительные границы:

In [None]:
down_bond = mu_s + t1 * std / np.sqrt(n)
up_bond = mu_s + t2 * std / np.sqrt(n)

Ширина доверительного интервала:

In [None]:
up_bond - down_bond

3.9199279690801063

Ответ: 3.919927969.

### Задача 2

__Постановка задачи__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? Найдите P-значение для данного теста и укажите его в качестве ответа.

__Решение__

Импорт библиотек и скриптов:

In [None]:
import numpy as np
from scipy import stats

Массив выборки (samples), уровень значимости (alpha) и объём выборки (n) исходя из постановки задачи:

In [None]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
alpha = 0.01
n = samples.shape[0]

Поскольку из поставновки задачи дисперсия генеральной совокупности не известна, то при решении данной задачи можно использовать t-статистику:

In [None]:
(samples.mean() - 200) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

-1.0651074037450896

Квантили распределения (t1, t2):

In [None]:
t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)
t1, t2

(-3.24983554401537, 3.2498355440153697)

Поскольку значение t-статистики не выходит за границы, которые определяют квантили распределения, то можно сделать вывод о том, что утверждение продавца не противоречит гипотезе о том, что средний вес пачки печенья составляет 200 г. 

Статистика (statistic) и P-значение (pvalue):

In [None]:
stats.ttest_1samp(samples, popmean=200)

Ttest_1sampResult(statistic=-1.0651074037450896, pvalue=0.31456660352472854)

Ответ: 0.3145666.

### Задача 3

__Постановка задачи__

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

В качестве ответа запишите 1, если нулевая гипотеза верна, и 0 иначе.

__Решение__

Импорт библиотек и скриптов:

In [None]:
import numpy as np
from scipy import stats

Массив выборки (samples), утверждаемая нулевой гипотезой дисперсия (variance), уровень значимости (alpha) и объём выборки (n) исходя из постановки задачи:

In [None]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])
variance = 0.0625
alpha = 0.05
n = samples.shape[0]

Несмещённая оценка дисперсии (sample_variance):

In [None]:
sample_variance = samples.var(ddof=1)
sample_variance

0.07804495041666669

Статистика (H):

In [None]:
H = (n - 1) * sample_variance / variance
H

28.720541753333343

Квантили распределения (t1, t2):

In [None]:
t1 = stats.chi2.ppf(alpha / 2, df=n - 1)
t2 = stats.chi2.ppf(1 - alpha / 2, df=n - 1)
t1, t2

(11.688551922452438, 38.0756272503558)

Поскольку значение статистики не выходит за границы, которые определяют квантили распределения, то можно сделать вывод о том, что нулевая гипотеза верна.

Ответ: 1.