# Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

## Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16. Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256.

In [51]:
import numpy as np
from scipy import stats
from sympy import *
from math import *

$$ В~ нашей~ задаче~ нам~ извествно~ среднее~ стандартное~ отклонение,~ поэтому~ будем~ использовать~ для~ нахождения~ доверительного~ интервала~ формулу~ \bar{x} \pm Z_{a/2} * \frac{\sigma}{\sqrt{n}} $$

In [2]:
n = 256 # объем выборки
z = 1.96 # по таблице Z значений для 95%
sigma = 16 # сигма по условию
x = 80 # выборочная средняя по условию

In [3]:
print ('Доверительный интервал равен:', (x - z*sigma/np.sqrt(n), x + z*sigma/np.sqrt(n)))

Доверительный интервал равен: (78.04, 81.96)


## В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные: 6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1 Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

$$ В~ условии~ задачи~ не~ известна~ сигма~ генеральной~ совокупности,~ тогда~ используем~ формулу~ Стьюдента~ \bar{x} \pm t_{a/2} * \frac{\sigma}{\sqrt{n}} $$

In [4]:
sample = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1]) # выборка
m = sample.mean() # выборочное среднее
n = 10 # выборка
sigma = np.std(sample, ddof=1) # находим сигму
print ('𝜎 =', sigma)

𝜎 = 0.4508017549014448


Найдем t для построения 95% доверительного интервала, если люъем выборки равен 10 (a/2)

In [5]:
st = 2.262

Проверим, что коэффицент Стьюдента = 2.262, соответствует вероятности 95%

In [6]:
t = stats.t(n-1)
t.cdf(2.262)

0.9749935772487728

In [7]:
print ('Доверительный интервал равен:', (m - st*sigma/np.sqrt(n), m + st*sigma/np.sqrt(n)))

Доверительный интервал равен: (6.267538255912426, 6.912461744087575)


## Проведтите тест гипотезы. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 кв. мм.

Будем следовать этапам проверки гипотез 

1. Сформулировать основную и альтернативную гипотезы

$$ Гипотеза~ H_{0}:~ средний~ диаметр~ шарика~ для~ подшипников~ равен~ 17~ мм. $$

$$ Гипотеза~ H_{1}:~ средний~ диаметр~ шарика~ для~ подшипников~ больше~ 17~ мм. $$

2. Выбрать статистический критерий, по которому будет проводиться проверка.

По условию задачи необходимо использовать односторонний критерий при сравнении Zт и Zр

3. Задать уровень значимости  α , или вероятность, с которой будет выполняться данная гипотеза

По условию задачи уровень значимости  α = 0.05

In [24]:
alpha = 0.05

4. Определить границы области гипотезы

Область принятия гипотез — это подмножество значений критериев, при которых нулевая гипотеза не может быть отклонена

$$ Область~ принятия~ гипотез~ находится~ по~ формуле~ Z_{H} = \frac{\bar{x} - \mu}{\sigma_{H}/\sqrt{n}}  $$

Найдем сигму

In [17]:
n = 100
D = 4
sigma2 = np.sqrt(D)
sigma2

2.0

In [18]:
a = 17 # заявленное
x = 17.5 # среднее выборочное

In [20]:
Zр = (x-a)/(sigma2/np.sqrt(n)) # Z рассчетный
Zр

2.5

Далее необходимо определить в какую область принятия гипотез входит данное значение

In [21]:
Zт = 1.65 # Z табличный
Zт

1.65

Сравним табличного и наблюдаемого значения Z

Если Zр < Zт то делаем вывод что верна H0, а если Zр > Zт то принимется H1

Т.к Zр 2.5 > Zт 1.65 то нулевая гипотеза отвергается

## Проведите тест гипотезы. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? (Провести двусторонний тест.)

$$ Гипотеза~ H_{0}:~ средний~ диаметр~ шарика~ для~ подшипников~ равен~ 200~ г. $$

$$ Гипотеза~ H_{1}:~ средний~ диаметр~ шарика~ для~ подшипников~ не~ равен~ 200~ г. $$

Будем использовать критерий Стьюдента

Суть задачи найти интерва для области принятия решения для нулевой гипотезы, а все что не входит в данный интервал является альтернативной гипотезой

In [59]:
sample4 = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
a4 = 200
m4 = sample4.mean()
n4 = 10
alfa4 = 0.01
sigma4 = np.std(sample4, ddof=1)
print ('𝜎 =', sigma4)

𝜎 = 4.453463071962462


Далее найдем t-расчетный

In [60]:
t4 = (m4-a4)/(sigma4/np.sqrt(n4))
t4

-1.0651074037450896

Далее найдем критерий Стьюдента для альфа/2

In [61]:
tтаб = stats.t.ppf(1.0 - alfa4/2, n4-1)
tтаб

3.2498355440153697

Интервал стандартных отклонений в области принятия решения для нулевой гепотизы -3.25 до 3.25

Исходя из этого нулевая гипотеза остается истинной так как - 1.065 входит в интервал от -3.25 до 3.25

Проверка:

In [64]:
stats.ttest_1samp(sample4, a4)

Ttest_1sampResult(statistic=-1.0651074037450896, pvalue=0.31456660352472854)

Если pvalue > a то нулевая гипотеза верна, в нашем случае это так 0.31 > 0.005