# Author: Стурейко Игорь
## Project: Geekbrains.MatStat
## Lesson 05 - Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
## Date: 2020-07-05

In [1]:
import numpy as np
from scipy.stats import t, norm

## 1. Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

In [2]:
n = 256 # число элементов в выборке
mean = 80 # выборочное среднее
std = 16 # стандартное отклонение 
alpha = 0.05 # уровень значимости

t1 = norm.ppf(alpha / 2) # левая граница
t2 = norm.ppf(1 - alpha / 2) # правая граница

d_interval = (mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n)) # доверительный интервал
print(f'Доверительный интервал: {d_interval}')

Доверительный интервал: (78.04003601545995, 81.95996398454005)


## 2. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190

Известно, что их веса распределены нормально. 
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? 
2. Найдите P-значение для данного теста.

In [3]:
cookies = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190]) # массив значений
n = cookies.shape[0] # число элементов в выборке

mean = cookies.mean() # среднее
std = cookies.std(ddof=1) # стандартное отклонение

t_stat = (mean - 200) / (std / np.sqrt(n)) # значение Т статистики

alpha = 0.01  # уровень значимости

t1 = t.ppf(alpha / 2, n-1) # левая граница
t2 = t.ppf(1 - alpha / 2, n-1) # правая граница

d_interval = (mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))  # доверительный интервал

p_val = t.cdf(t_stat, n-1)  # р -начение
print(f'Доверительный интервал:\t{d_interval},\nр-значение:\t\t{p_val}') 

Доверительный интервал:	(193.92322840036354, 203.07677159963646),
р-значение:		0.15728330176236427


Поскольку утверждаемое среднее значение лежит внутри доверительного интервала с данным уровнем значимости - то утверждение продавца - верно.

## 3. Дана выборка диаметров подшипников из примера 1 с занятия 5:

samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ]

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

In [4]:
from scipy.stats import chi2

In [5]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134, 1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372, 0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ])

In [6]:
n = samples.shape[0] # число элементов в выборке
alpha = 0.05 # уровень значимости
variance = 0.0625 # ожидаемая дисперсия
H_stat = (n - 1) * samples.var() / variance # значение статистики
t1 = chi2.ppf(alpha/2, df=n - 1) # левая граница
t2 = chi2.ppf(1-alpha/2, df=n - 1) # правая граница
(t1, t2), H_stat

((11.688551922452438, 38.0756272503558), 27.523852513611114)

Предполагаемая дисперсия находится внутри доверительного интервала при уровне значимости 0.05