In [1]:
from scipy import stats
import numpy as np

### Задание 1

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания mu с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

Генеральная совокупность распределена нормально, среднее квадратическое отклонение известно => используем $Z$ статистику:
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}}$$

$$P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$

In [2]:
mean = 80
std = 16
p = 0.95
n = 256

In [3]:
alpha = 1 - p

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

In [4]:
print(f'Доверительный интервал: ({mean + t1 * std / np.sqrt(n):.2f}; {mean + t2 * std / np.sqrt(n):.2f})')

Доверительный интервал: (78.04; 81.96)


### Задание 2

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:

202, 203, 199, 197, 195, 201, 200, 204, 194, 190

Известно, что их веса распределены нормально.
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%?
2. Найдите P-значение для данного теста.

Генеральная совокупность распределена нормально, среднее квадратическое отклонение неизвестно => используем t-распределение Стьюдента:
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$

$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [5]:
samples = np.array([202, 203, 199, 197, 195, 201, 200, 204, 194, 190])
mu = 200
alpha = 0.01

In [6]:
mean = samples.mean()
std = samples.std(ddof=1)
n = samples.shape[0]

mean, std, n

(198.5, 4.453463071962462, 10)

In [7]:
t = (mean - mu) / (std / np.sqrt(n))
t1 = stats.t.ppf(alpha / 2, df = n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 1)

t1, t, t2

(-3.2498355440153697, -1.0651074037450896, 3.2498355440153697)

t попадает в доверительный интервал при уровне значимости 1%, следовательно, **утверждение продавца верно**

Второй вариант:

In [8]:
mean + t1 * std / np.sqrt(n), mu, mean + t2 * std / np.sqrt(n)

(193.92322840036354, 200, 203.07677159963646)

P-значение для двухсторонней области $\Omega_\alpha = \left( -\infty, t_{\alpha / 2} \right) \cup \left( t_{1 - \alpha / 2} , \infty \right)$: $P = 2 \cdot \min (P_l, P_r)$

In [9]:
p_left = stats.t.cdf(t, df = n - 1)
p_right = 1 - stats.t.cdf(t, df = n - 1)

pvalue = 2 * min(p_left, p_right)

print(f'P-значение = {pvalue * 100:.2f}%')

P-значение = 31.46%


In [10]:
alpha < pvalue

True

### Задание 3

Дана выборка диаметров подшипников из примера 1 с занятия 5:

samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02 ]

Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна 0.0625 при уровне значимости alpha = 0.05. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: H = (n - 1) * sample_variance / variance, где n - число элементов в выборке, sample_variance - несмещённая оценка дисперсии, variance - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром df = n - 1. Её квантили можно найти с помощью функции scipy.stats.chi2.ppf.

In [11]:
samples = np.array([0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134, 1.2088, 1.701 , 1.0282, 1.3579, 
                    1.0191, 1.1784, 1.1168, 1.1372, 0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02])

In [12]:
alpha = 0.05
D = 0.0625

In [13]:
mean = samples.mean()
var = samples.var(ddof=1)
n = samples.shape[0]

mean, var, n

(1.1084541666666665, 0.07804495041666669, 24)

In [14]:
H = (n - 1) * var / D
t1 = stats.chi2.ppf(alpha / 2, df = n - 1)
t2 = stats.chi2.ppf(1 - alpha / 2, df = n - 1)

t1, H, t2

(11.688551922452438, 28.720541753333343, 38.0756272503558)

$t_1 < H < t_2$, следовательно, **гипотеза $H_0$ верна**

Второй вариант:

In [15]:
(n - 1) * var / t2, D, (n - 1) * var / t1

(0.047143907775453915, 0.0625, 0.15357196267702494)