### Урок 5. Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование

In [1]:
import warnings
import numpy as np
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt
from IPython.display import Image

warnings.filterwarnings('ignore')

#### Задание 1
Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95 (доверительная информация), если выборочное среднее равно 80, а объём равен 256.

Решение: <br>

In [2]:
std = 16
p = 0.95
mean = 80
n = 256
alpha = 1 - p

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

print(f'Доверительный интервал:\n{(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))}')

Доверительный интервал:
(78.04003601545995, 81.95996398454005)


#### Задание 2
Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: <br>
202, 203, 199, 197, 195, 201, 200, 204, 194, 190 <br>
<br>
Известно, что их веса распределены нормально. <br>
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?
2. Найдите P-значение для данного теста.

Решение: <br>
Нулевая гипотеза (H0): средний вес пачки печенья составляет 200 г.

In [3]:
def statistic(samples, mean):
    return (samples.mean() - mean) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

mean = 200
n = 10
alpha = 0.01
X = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

print(f'Критическая область:\n{t1, t2}')

Критическая область:
(-3.24983554401537, 3.2498355440153697)


In [4]:
result = statistic(X, mean)
print(f'Наблюдаемая статистика t:\n{result}')

Наблюдаемая статистика t:
-1.0651074037450896


In [5]:
p_left = stats.t.cdf(result, df=n - 1)
p_right = 1 - stats.t.cdf(result, df=n - 1)

pvalue = 2 * min(p_left, p_right)

pvalue

0.31456660352472854

Ответ: т. к. статистика result не попала в критическую область гипотезы H0, следовательно H0 верна на уровне значимости 1%. P-значение для данного теста - это 0.31456660352472854.

#### Задание 3
Утверждается, что шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм. Используя уровень значимости 0.025 и правостороннюю критическую область, проверить данную гипотезу при условии, что в выборке из 100 шариков средний диаметр оказался равным 17.5 мм, а дисперсия известна и равна 4 мм.

Решение: <br>
Нулевая гипотеза (H0): шарики для подшипников, изготовленные автоматическим станком, имеют средний диаметр 17 мм.

In [6]:
mean = 17
alpha = 0.025
n = 100
X_mean = 17.5
D = 4
Z = (X_mean - mean) / (np.sqrt(D) / np.sqrt(n))
print(f'Наблюдаемая статистика Z:\n{Z}')

Наблюдаемая статистика Z:
2.5


In [7]:
t2 = stats.t.ppf(1 - alpha, df=n - 1)
print(f'Правосторонняя критическая область:\n{t2}')

Правосторонняя критическая область:
1.9842169515086827


Ответ: т. к. статистика Z попала в критическую область гипотезы H0, следовательно H0 не верна на уровне значимости 0.025.

#### Задание 4
Дана выборка диаметров подшипников из примера 1 с занятия 5: <br>
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ]

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05. <br>
Что для этого нужно знать: <br>
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

Решение: <br>
Нулевая гипотеза (H0): дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05.

In [8]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
                    1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
                    0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])

n = samples.shape[0]
alpha = 0.05
variance = 0.0625
sample_variance = ((samples - samples.mean())**2).sum() / (n - 1)
H = (n - 1) * sample_variance / variance
print(f'Наблюдаемая статистика H:\n{H}')

Наблюдаемая статистика H:
28.720541753333343


In [9]:
t1 = stats.chi2.ppf(alpha / 2, df=n - 1)
t2 = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

print(f'Критическая область:\n{t1, t2}')

Критическая область:
(11.688551922452438, 38.0756272503558)


Ответ: т. к. статистика H не попала в критическую область гипотезы H0, следовательно H0 верна на уровне значимости 0.005.