In [1]:
import numpy as np
from scipy import stats

__Задача 1__

Известно, что генеральная совокупность распределена нормально с известным средним квадратическим отклонением 16. Найти доверительный интервал для оценки математического ожидания `mu` с надёжностью 0.95, если выборочное среднее равно 80, а объём равен 256.

In [2]:
sigma = 16 
x_mean = 80
n = 256
p = 0.95

$$\overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}$$

In [3]:
alpha = 1 - p

In [4]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

In [5]:
print(f'{x_mean + t1 * sigma / np.sqrt(n)} <= mu <= {x_mean + t2 * sigma / np.sqrt(n)}')

78.04003601545995 <= mu <= 81.95996398454005


__Задача 2__

Продавец утверждает, что средний вес пачки печенья составляет 200 г. Из партии извлечена выборка из 10 пачек. Вес каждой пачки составляет:
```
202, 203, 199, 197, 195, 201, 200, 204, 194, 190
```
Известно, что их веса распределены нормально. 
1. Верно ли утверждение продавца, если учитывать, что уровень значимости равен 1%? 
2. Найдите P-значение для данного теста.



В качестве нулевой гипотезы Н0 примем, что средний вес пачки равен 200гр.
Альтернативная гипотеза Н1 - средний вес пачки НЕ равен 200 гр.
Уровень значимости alpha = 0.01.
Будем использовать t-статистику

In [6]:
cookies_boxes = [202, 203, 199, 197, 195, 201, 200, 204, 194, 190]

$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$

In [7]:
x_mean = np.mean(cookies_boxes)
sigma_x = np.std(cookies_boxes, ddof=1)
mu = 200
n = 10
print(f'x_mean = {x_mean} \nsigma_x = {sigma_x} \nmu = {mu} \nn = {n}')

x_mean = 198.5 
sigma_x = 4.453463071962462 
mu = 200 
n = 10


In [8]:
t = (x_mean - mu) / (sigma_x / np.sqrt(n))
t

-1.0651074037450896

In [9]:
p_left = stats.t.cdf(t, df=n - 1)
p_right = 1 - stats.t.cdf(t, df=n - 1)

p_left, p_right
pvalue = 2 * min(p_left, p_right)

pvalue

0.31456660352472854

Т.к. р-значение больше чем уровень значимости( 0.31  > 0.01 ), то принимаем нулевую гипотезу о том, что средний вес пачки составляет 200гр.

Можно проверить встроенным методом для t-теста

In [10]:
stats.ttest_1samp(cookies_boxes,200)

Ttest_1sampResult(statistic=-1.0651074037450896, pvalue=0.31456660352472854)

__Задача 3__

Дана выборка диаметров подшипников из примера 1 с занятия 5:
```
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]
```
Предполагая, что диаметры подшипников распределены нормально, проверьте гипотезу о том, что дисперсия случайной величины равна `0.0625` при уровне значимости `alpha = 0.05`. Что для этого нужно знать:
1. Альтернативная гипотеза двухсторонняя.
2. Статистика для теста: `H = (n - 1) * sample_variance / variance`, где `n` - число элементов в выборке, `sample_variance` - несмещённая оценка дисперсии, `variance` - утверждаемая нулевой гипотезой дисперсия.
3. Эта статистика в предположении верности нулевой гипотезы имеет распределение хи-квадрат с параметром `df = n - 1`. Её квантили можно найти с помощью функции `scipy.stats.chi2.ppf`.

In [15]:
samples = [0.6603, 0.9466, 0.5968, 1.3792, 1.5481, 0.7515, 1.0681, 1.1134,
           1.2088, 1.701 , 1.0282, 1.3579, 1.0191, 1.1784, 1.1168, 1.1372,
           0.7273, 1.3958, 0.8665, 1.5112, 1.161 , 1.0232, 1.0865, 1.02  ]

In [16]:
alpha = 0.05
n = len(samples)
variance = 0.0625

In [17]:
# Рассчитаем несмещенную дисперсию
sample_variance = np.var(samples, ddof=1)
sample_variance

0.07804495041666669

In [18]:
# Рассчитаем статистику
H = (n - 1) * sample_variance / variance
H

28.720541753333343

In [22]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://wikimedia.org/api/rest_v1/media/math/render/svg/c60e1428ee0f640314cc37ae56a321566c5216a1")

In [19]:
# Найдем квантили

t1 = stats.chi2.ppf(1-(alpha / 2), df=n - 1)
t2 = stats.chi2.ppf(alpha / 2, df=n - 1)

t1, t2


(38.0756272503558, 11.688551922452438)

In [21]:
#Доверительный интервал
(n - 1) * sample_variance / t1, (n - 1) * sample_variance / t2

(0.047143907775453915, 0.15357196267702494)