## Проверка статистических гипотез. P-значения. Доверительные интервалы

### Задача 1

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

In [3]:
from scipy import stats
import numpy as np

In [4]:
sigma = 16
alpha = 0.05
mean = 80
n = 256

Найдём квантили  𝑡𝛼/2  и  𝑡1−𝛼/2  стандартного нормального распределения

In [5]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.9599639845400545, 1.959963984540054)

Доверительный интервал:
$$P \left( t_{\alpha / 2} \leq \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}} \leq t_{1 - \alpha / 2} \right) = p$$
$$P \left( t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$
$$P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$

Итак, доверительный интервал:

In [7]:
(mean + t1 * sigma / np.sqrt(n), mean + t2 * sigma / np.sqrt(n))

(78.04003601545995, 81.95996398454005)

### Задача 2

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190

Известно, что их веса распределены нормально.
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?
2. Найдите P-значение для данного теста.

In [14]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
H0 = 200
alpha = 0.01

Нам не сказано какое распределение, поэтому будем считать, что в данной задаче t-распределение Стьюдента.
Найдем квантили:

In [15]:
n = samples.shape[0]

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-3.24983554401537, 3.2498355440153697)

Критическая область:
$$\Omega_\alpha = (-\infty, -3.25) \cup (3.25, \infty)$$

Проведем статистический тест, а именно:
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}}$$

In [20]:
def statistic(samples: np.ndarray, H0: int, n: int) -> float:   
    return (samples.mean() - H0) / samples.std(ddof=1) / n**(1/2)

In [21]:
S = statistic(samples, H0, n)
S

-0.10651074037450894

In [27]:
start = "\033[1m"
end = "\033[0;0m"
if t1 <= S <= t2:
    print(start + 'Утверждение продавца верно!' + end)
else:
    print(start + 'Утверждение продавца неверно!' + end)

[1mУтверждение продавца верно![0;0m


### Задача 3

Дана выборка диаметров подшипников из примера 1 с занятия 5:

samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,

1.2088, 1.701, 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,

0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02]

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

In [32]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134, 
           1.2088, 1.701, 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372, 
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])
variance = 0.0625
alpha = 0.05

Найдём число элементов в выборке и немсещённую оценку дисперсии для нашей статистики:

In [39]:
n = samples.shape[0]
sample_variance = samples.var()

Статистика для теста:

In [40]:
H = (n - 1) * sample_variance / variance
H

27.523852513611114

Проверяем нашу гипотезу:

In [41]:
t1 = stats.chi2.ppf(alpha / 2, df=n-1)
t2 = stats.chi2.ppf(1 - alpha / 2, df=n-1)
t1, t2

(11.688551922452438, 38.0756272503558)

In [42]:
if t1 <= H <= t2:
    print(start + 'Гипотеза верна!' + end)
else:
    print(start + 'Гипотеза неверна!' + end)

[1mГипотеза верна![0;0m
