###  Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

In [5]:
import numpy as np
from scipy import stats

### 1. Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16. Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256. 

In [6]:
std = 16 # среднее квадратическое отклонение
p = 0.95 # уровень доверия
mean = 80 # выборочное среднее
n = 256 # объём выборки

In [7]:
alpha = 1 - p # уровень значимости

# считаем z-критерии:

z1 = stats.norm.ppf(alpha / 2)
z2 = stats.norm.ppf(1 - alpha / 2)

z1, z2

(-1.959963984540054, 1.959963984540054)

In [8]:
a1 = mean + z1 * std / np.sqrt(n) # левая граница
a2 = mean + z2 * std / np.sqrt(n) # правая граница

print(f'Ответ: доверительный интервал ({a1}; {a2})')

Ответ: доверительный интервал (78.04003601545995; 81.95996398454005)


### 2. В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные: 6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1. Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95. 

In [9]:
x = np.array((6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1))
x

array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

In [10]:
mu = np.mean(x) # среднее по выборке
mu

6.590000000000001

In [11]:
std = np.std(x, ddof=1) # несмещенное стандартное отклонение
std

0.4508017549014448

In [12]:
alpha = 1 - p
p = 0.95
n = 10
# найдем критерии Стьюдента:
t1 = stats.t.ppf(alpha / 2, df = n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 1)
t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [13]:
a1 = mu + t1 * std / np.sqrt(n) # левая граница
a2 = mu + t2 * std / np.sqrt(n) # правая граница

print(f'Ответ: доверительный интервал ({a1}; {a2})')

Ответ: доверительный интервал (6.267515851415713; 6.912484148584288)


### 3. Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя односторонний критерий с α=0,05, проверить эту гипотезу, если в выборке из n=100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм. 

In [14]:
mu_0 = 17
alpha = 0.05
n = 100
mu = 17.5
var = 4
std = var ** 0.5

In [15]:
# H0: mu = mu_0 - нулевая гипотеза
# H1: mu > mu_0 - альтернативная гипотеза
# Найдем z-табличное (критическое):
z1 = stats.norm.ppf(1 - alpha)
z1

1.6448536269514722

In [16]:
# Найдем z-расчетное:
z2 = (mu - mu_0) / (std / np.sqrt(n))
z2

2.5

Вывод: так как найденное значение критерия превысило критическое значение (2,5 > 1,645) и попало в область критических значений, нулевую гипотезу отвергаем (средний размер шариков не равен 17) и принимаем альтернативную гипотезу (средний размер шариков равен 17,5) на уровне статистической значимости 5%.

### 4. Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально. Верно ли утверждение продавца, если учитывать, что доверительная вероятность равна 99%? 

In [24]:
mu_0 = 200
alpha = 0.01
n = 10
x = np.array((202, 203, 199, 197, 195, 201, 200, 204, 194, 190))
x

array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

In [25]:
mu = np.mean(x) # среднее по выборке
mu

198.5

In [26]:
std = np.std(x, ddof=1) # несмещенное стандартное отклонение
std

4.453463071962462

In [27]:
# найдем критерии Стьюдента:
t1 = stats.t.ppf(alpha / 2, df = n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 1)
t1, t2

(-3.24983554401537, 3.2498355440153697)

In [28]:
# найдем расчетное значение:
t = (mu - mu_0) / (std / np.sqrt(n))
t

-1.0651074037450896

In [29]:
# H0: mu = mu_0 - принимаем нулевую гипотезу
# H1: mu != mu_0 - принимаем альтернативную гипотезу

Вывод: так как найденное значение критерия больше t1, но меньше t2, следовательно принимаем нулевую гипотезу. Средний вес пачки печенья составляет 200 г