# Теория вероятностей и математическая статистика
##  Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
### Задача№1
Известно, что генеральная совокупность распределена нормально
со средним квадратическим отклонением, равным 16.
Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95,
если выборочная средняя M = 80, а объем выборки n = 256.
****
Поскольку нам известно среднее квадратическое отклонение генеральной совокупности $\sigma=16$, то для расчета $95\%$-го доверительного интервала, будем использовать $Z$-критерий. И границы доверительного интервала расчитаем по формуле: 
$$T_{1,2} = \overline{X} \pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt n}$$

$\bar X=M=80$-среднее значение выборки    
$z_{\alpha/2}$ табличное значение $Z$-критерия, и для $95\%$-го доверительного интервала $z_{\alpha/2}=1,96$  
$\sigma=16$-среднее квадратическое отклонение генеральной совокупности  
$n=256$-объем выборки  

In [35]:
import numpy as np

In [36]:
Z1 = 80 - 1.96 * 16 / 256**0.5
Z2 = 80 + 1.96 * 16 / 256**0.5
print('95%-й доверительный интервал для оценки мат. ожидания генеральной совокупности:[', Z1, ';', Z2, ']')

95%-й доверительный интервал для оценки мат. ожидания генеральной совокупности:[ 78.04 ; 81.96 ]


### Задача№2
В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью,
получены опытные данные:
6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1
Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей,
оценить истинное значение величины X при помощи доверительного интервала, покрывающего это
значение с доверительной вероятностью 0,95.
****
Решается аналогично **Задаче №1**

Для вычисления $t$-критерия воспользуемся библиотекой scipy

In [37]:
import scipy.stats as stats

arr=np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

In [38]:
def t_from_table(confidens, len_array):
    alpha=(1-confidens)
    return stats.t.ppf(1-alpha/2, len_array-1)
print(f'Табличное значение t-критерия для 95%-го доверительного интервала данной выборки: {t_from_table(0.95, len(arr)): .3f}')

Табличное значение t-критерия для 95%-го доверительного интервала данной выборки:  2.262


In [39]:
def confidens_int(arr, confidens):
    return round(np.mean(arr)-t_from_table(confidens,len(arr))*np.std(arr, ddof=1)/len(arr)**0.5,3), \
           round(np.mean(arr)+t_from_table(confidens,len(arr))*np.std(arr, ddof=1)/len(arr)**0.5,3)

print(f'95%-й доверительный интервал для истинного значения Х: {confidens_int(arr, 0.95)}.')

95%-й доверительный интервал для истинного значения Х: (6.268, 6.912).


### Задача№3
Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.
Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр
оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.
***
Поскольку нам известны и среднее и дисперсия генеральной совокупности, то для проверки гипотезы будем использовать $z$-критерий.  
$z_н=\frac{\bar X-\mu_0}{\sigma/\sqrt n}$, где  
$\bar X=\mu=17.5$ среднее по выборке,  
$\sigma=\sqrt 4=2$ среднее квадратическое отклонение генеральной совокупности,  
$n=100$ размер выборки. 

нулевая гипотеза:  
$H0: \mu=\mu_0=17$, где $\mu$ и $\mu_0$ средние выборки и генеральной совокупности и выборки, соответственно.  
Альтернативная гипотеза:  
$H1: \mu>\mu_0$  

In [40]:
z=(17.5-17)/0.2
zt=stats.norm.ppf(0.95)
print(f'Наблюдаемое значение z-критерия: {z: .4f}\nТабличное значение z-критерия: {zt: .4f} ')

if z< zt:
    print(f'Верна гипотеза H0 на уровне значимости 0.05')
else:
    print(f'Верна гипотеза H1 на уровне значимости 0.05')

Наблюдаемое значение z-критерия:  2.5000
Табличное значение z-критерия:  1.6449 
Верна гипотеза H1 на уровне значимости 0.05


### Задача№4
Продавец утверждает, что средний вес пачки печенья составляет 200 г.
Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
202, 203, 199, 197, 195, 201, 200, 204, 194, 190.
Известно, что их веса распределены нормально.
Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%?
***
Нулевая гипотеза:
$H0: \mu=\mu_0=200$, где $\mu$ и $\mu_0$   
Альтернативная гипотеза:  
$H1: \mu\neq\mu_0$  
$\alpha=1-0.99=0.01$  
Нам не известны среднее,дисперсия генеральной совокупности для проверки гипотезы использую $t$-критерий. 

In [41]:
arr=np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
tn=(np.mean(arr)-200)/(np.std(arr,ddof=1)/len(arr)**0.5)
print(f't-критерий: {tn: .4f}')

t-критерий: -1.0651


In [42]:
tt=stats.t.ppf(0.995,len(arr)-1)
print(f'Табличное значение t-критерия: {tt: .4f}')

Табличное значение t-критерия:  3.2498


In [43]:
if np.abs(tn)<tt:
    print(f'Верна гипотеза H0 на уровне значимости 0.01')
else:
    print(f'Верна гипотеза H1 на уровне значимости 0.01')

Верна гипотеза H0 на уровне значимости 0.01
