In [150]:
import numpy as np
from scipy import stats

In [79]:
def Z_stat(samples: np.ndarray, mu) -> float:
    return (samples.mean() - mu) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

In [95]:
def t_stat(samples: np.ndarray, mu) -> float:
    return (samples.mean() - mu) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

In [141]:
def H_stat(samples: np.ndarray, var: float) -> float:
    return (samples.shape[0] - 1) * samples.std(ddof=1)**2 / var

1. Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

In [17]:
mean = 80
std = 16
p = 0.95
n = 256

Так как известно отклонение генеральной совокупности, тогда используем Z статистику.

In [108]:
alpha = 1 - p
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

Доверительный интервал:

In [19]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(78.04003601545995, 81.95996398454005)

2. Продавец утверждает, что средний вес пачки печенья составляет 200 г. 
Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет: 202, 203, 199, 197, 195, 201, 200, 204, 194, 190. Известно, что их веса распределены нормально.

 а) Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?
 
 б) Найдите P-значение для данного теста.

In [121]:
mu = 200
sample = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
alpha = 0.01
mean = sample.mean()
std = sample.std(ddof=1)
n = sample.shape[0]

Так как неизвестно отклонение генеральной совокупности, тогда используем t-статистику и строим доверительный интервал для мат. ожидания.

In [122]:
t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-3.24983554401537, 3.2498355440153697)

In [123]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(193.92322840036354, 203.07677159963646)

а) __Утверждение верно.__

In [124]:
S = t_stat(sample,mu)
S

-1.0651074037450896

In [125]:
p_left = stats.t.cdf(S, df=n - 1)
p_right = 1 - p_left

pvalue = 2 * min(p_left, p_right)

print(f'P-значение = {pvalue.round(4)},\nalpha < P-значения: {alpha < pvalue}')

P-значение = 0.3146,
alpha < P-значения: True


3. Дана выборка диаметров подшипников. Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05.

 - Альтернативная гипотеза двухсторонняя.
 - Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
 - Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

In [126]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
                    1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
                    0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])

In [142]:
alpha = 0.05
var = 0.0625
n = samples.shape[0]

In [146]:
S = H_stat(samples,var)
S

28.720541753333343

Критические значения в интервалах ( -$\infty$, t1 ) и ( t2, +$\infty$ ) для S при установленном уровне значимости:

In [147]:
t1 = stats.chi2.ppf(alpha / 2, df=n - 1)
t2 = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(11.688551922452438, 38.0756272503558)

Доверительный интервал для дисперсии (var):

In [149]:
(samples.shape[0] - 1) * samples.std(ddof=1)**2 / t2, (samples.shape[0] - 1) * samples.std(ddof=1)**2 / t1

(0.047143907775453915, 0.15357196267702494)

__Гипотеза верна.__