In [22]:
import math
import numpy as np
import pandas as pd
from scipy import stats as st
import matplotlib.pyplot as plt 

#### Критерии однородности

Проверка гипотез об однородности, необходима в случае, если мы хотим проверить, что 2 или более выборок принадлежат одной и той же генеральной совокупности.

На практике, когда хотим узнать, одинаково ли настроены станки, одинаково ли загрязнена река в разных местах, какой дизайн сайта даёт большую конверсию или сравнить между собой влияние двух лекарств.

#### Критерии для проверки гипотез о параметрах двух $N(a, \sigma)$ распределенных генеральных совокупностей

#### Случайные величины независимы!

##### Проверка гипотезы о равенстве дисперсии

Рассмотрим две генеральные совокупности. Будем предполагать, что **две сл. вел. независимы.**

$\eta \sim N(a_1, \sigma_1), X_{[m]}$

$\xi \sim N(a_2, \sigma_2), Y_{[n]}$

$H_0: \sigma^2_1 = \sigma^2_2$

$H^1_1: \sigma^2_1 \neq \sigma^2_2$

$H^2_1: \sigma^2_1 > \sigma^2_2$

Если мы хотим проверить гипотезу

$H^3_1: \sigma^2_1 < \sigma^2_2$

то можно просто поменять местами сл. вел., статистики критерия (числитель и знаменатель) и дальше действовать по алгоритму.



На практике данный вид гипотез возникает в случае, когда нам необходимо сравнить точность двух измерительных приборов.

Нам необходимо проверить гипотезу о равенстве дисперсий, прежде чем определится с киртерием о проверки гипотезе о равенстве мат. ож. 2-х нормально распределенных генеральных совокупностей.

$a$ неизвестно, $\sigma$ неизвестно

В качестве точечных оценок мат. ож. возьмем выборочное среднее

$\overline X, \overline Y$

В кач. точ. оц. дисперсии возьмем несмещенные оценки дисперсии

$s^2_X = \frac{1}{m - 1} \sum(x_i - \overline X)^2$

$s^2_Y = \frac{1}{n - 1} \sum(y_i - \overline Y)^2$

###### Критерий Фишера

Рассмотрим 2 статистики

Данные статистики в силу того, что исходные ген. совокупности имеют норм. закон распределения, будут иметь закон распределения хи-квадрат

$Z_1 = \frac{(m-1) s^2_X}{\sigma^2_1}  \sim \chi^2_{m-1}$

$Z_2 = \frac{(n-1) s^2_Y}{\sigma^2_2} \sim \chi^2_{n-1}$

Тогда

$\frac{ \frac{Z_1}{m-1} } { \frac{Z_1}{n-1} } \sim F (m-1, n-1)$ - распределение Фишера с $m-1$ и $n-1$ степенями свободы. Внимание!!! Важна очередность степеней, если поменять местами, квантиль будет иметь другое значение. В качестве $m$ берем из ген. сов. из числителя, $n$ из знаменателя. 

Если сократим, то

$\frac{ \frac{Z_1}{m-1} } { \frac{Z_1}{n-1} } = \frac{ \frac{\frac{(m-1) s^2_X}{\sigma^2_1}}{m-1} } { \frac{\frac{(n-1) s^2_Y}{\sigma^2_2}}{n-1} } = \frac{s^2_X}{\sigma^2_1} \cdot \frac{\sigma^2_2}{s^2_Y}$

Запишем итоговую статистику Фишера

$\frac{s^2_X}{s^2_Y}  \frac{\sigma^2_2}{\sigma^2_1} \sim F(m-1, n-1)$

В случае, когда справедлива $H_0$, то дисперсии равны, тогда $\frac{\sigma^2_2}{\sigma^2_1} = 1$

Тогда, при справедливости $H_0$, такой критерий называется критерием Фишера

$\frac{s^2_X}{s^2_Y} \sim F(m-1, n-1)$

$Z = \frac{s^2_X}{s^2_Y} \sim F(m-1, n-1)$ в случае справедливости $H_0$

###### Критическая область. p-value

$H_1: \sigma^2_1 > \sigma^2_2$

$V_k: (f_{(m-1, n-1), (1 - \alpha)}, + \infty)$

$p_{value}: 1 - F_{(m-1, n-1)}(z_в)$




$H_1: \sigma^2_1 \neq \sigma^2_2$

$V_k: (- \infty, f_{(m-1, n-1), (\frac{\alpha}{2})}) \cup (f_{(m-1, n-1), (1 - \frac{\alpha}{2})}, + \infty)$

$p_{value}: 2 \cdot min(F_{(m-1, n-1)}(z_в), 1 - F_{(m-1, n-1)}(z_в))$



$F_{(m-1, n-1)}$ - распределение Фишера

$f_{(m-1, n-1), (1 - \alpha)}$ - квантиль распределения Фишера, с $(m-1, n-1)$ степенями свободы и уровнем значимости $(1 - \alpha)$.

###### Задача №1

На двух станках А и B производят одну и ту же продукцию.

$A: n_A = 16, \overline X_A = 37.5 мм, s^2_A = 1.21мм^2$

$B: n_B = 25, \overline X_B = 36.8 мм, s^2_B = 1.44мм^2$

Используя 2-х сторонний критерий, требуется проверить гипотезу о равенстве дисперсий. Будем предпологать, что внутрений размер изделий подчиняется норм. закону распределению. Уровень значимости $\alpha = 0.05$

**Решение:**

$\alpha = 0.05$

$H_0: \sigma^2_A = \sigma^2_B$

$H_1: \sigma^2_A \neq \sigma^2_B$

В качестве статистики критерия, возьмем отношение большей оценки к меньшей оценки

$Z = \frac{s^2_B}{s^2_A} \sim F(n_B-1, n_A -1)$

$V_k: (- \infty, f_{(25-1, 16-1), (\frac{0.05}{2})}) \cup (f_{(25-1, 16-1), (1 - \frac{0.05}{2})}, + \infty)$

Найдём квантиль $f_{(25-1, 16-1), (\frac{0.05}{2})} = 0.41$

In [None]:
# степени свободы
dfn, dfd = 24, 15
alpha = 0.05
st.f.ppf(alpha/2, dfn=dfn, dfd=dfd)

0.41026834227743997

Найдём квантиль $f_{(25-1, 16-1), (1 - \frac{0.05}{2})} = 2.7$

In [None]:
# степени свободы
dfn, dfd = 24, 15
alpha = 0.05
st.f.ppf(1 - alpha/2, dfn=dfn, dfd=dfd)

2.7006396780258

$z_в = \frac{1.44}{1.21} = 1.19$

$V_k: (- \infty, 0.41) \cup (2.7, + \infty)$

$z_в \notin V_k \Rightarrow H_0$ не отвергается

**Ответ:**

$H_0$ не отвергаем. Считаем, что дисперсия двух генеральных совокупностей одинаковая.

###### Задача №2

Два токарных автомата изготавливают детали по одному чертежу. Из продукции первого станка было отобрано 9 деталей, а из продукции второго - 11 деталей. Выборочные дисперсии контролируемого  размера, определенные по этим выборкам $5.9мкм^2$ и $23.3мкм^2$. Проверьте гипотезу о равенстве дисперсий при уровне значимости 0.01, если альтернативная гипотеза утверждает, что дисперсии не равны. (предполагаем, что контролируемый размер подчиняется нормальному закону распределения).

**Решение:**

Сразу обратим внимание на то, что нам дана смещенная выборочная дисперсия, а нам нужна несмещенная! Что откорректировать данные и получить не смещенную оценку дисперсии, нам необходимо домножить смещенную дисперсию на $\frac{n}{n-1}$

$s^2 = \frac{1}{n} \sum (x_i - \overline X)^2 $ - смещенная оценка выборочной дисперсии.

$s^2_{correct} = \frac{n}{n-1} \cdot s^2 = \frac{n}{n-1} \cdot \frac{1}{n} \sum (x_i - \overline X)^2  = \frac{1}{n-1} \sum (x_i - \overline X)^2$ - несмещенная оценка выборочной дисперсии.

$n_A = 9$

$n_B = 11$

$s^2_A = 5.9$

$s^2_B = 23.3$

$H_0: \sigma^2_1 = \sigma^2_2$

$H_1: \sigma^2_1 \neq \sigma^2_2$

Возьмем статистику критерия

$Z = \frac{s^2_B}{s^2_A} \sim F(n_B-1, n_A -1)$

Тогда

$V_k: (- \infty, f_{(n_B - 1, n_A - 1), (\frac{\alpha}{2})}) \cup (f_{(n_B - 1, n_A - 1), (1 - \frac{\alpha}{2})}, + \infty)$

обратим внимание, на очередность степеней свободы квантиля $f$, вначале идёт степень свободы из числителя статистики критерия, потом из знаменателя! Это важно!

$V_k: (- \infty, f_{(10, 8), (\frac{0.01}{2})}) \cup (f_{(10, 8), (1 - \frac{0.01}{2})}, + \infty)$




Найдём квантиль $f_{(10, 8), (\frac{0.01}{2})}$

In [None]:
alpha = 0.01
nB, nA = 10, 8
st.f.ppf(alpha/2, dfn=nB, dfd=nA)

0.16350773135811494

Найдём квантиль $f_{(10, 8), (1 - \frac{0.01}{2})}$

In [None]:
st.f.ppf(1 - alpha/2, dfn=nB, dfd=nA)

7.210635915223316

$V_k: (- \infty, 0,16) \cup (7,21, + \infty)$

Найдём выборочную статистику критерия, предварительно откорректировав оценку так, чтобы получить несмещенную оценку выборочной дисперсии $z_в = \frac{ \frac{n_B}{n_B - 1} s^2_B}{ \frac{n_A}{n_A - 1} s^2_A} = 3.861 $

In [None]:
n_B = 11
n_A = 9
s_B = 23.3
s_A = 5.9
s_B_correct = n_B / (n_B - 1) * s_B
s_A_correct = n_A / (n_A - 1) * s_A

z_v = s_B_correct / s_A_correct
z_v

3.8613935969868174

$z_в \in V_k \Rightarrow H_0$ отвергается

**Ответ:**

$H_0$ отвергается. Дисперсии не равны, что означает, что длина выпускаемых изделий у двоих станков отличается друг от друга!

##### Проверка гипотезы о равенстве мат.ож.

Рассмотрим две генеральные совокупности. **Будем предполагать, что две сл. вел. независимы.**
 
$\eta \sim N(a_1, \sigma_1), X_{[m]}$

$\xi \sim N(a_2, \sigma_2), Y_{[n]}$

$H_0: a_1 = a_2$

$H^1_1: a_1 \neq a_2$

$H^2_1: a_1 > a_2$

Если мы хотим проверить гипотезу

$H^3_1: a_1 < a_2$

то можно просто поменять местами сл. вел., статистики критерия (числитель и знаменатель) и дальше действовать по алгоритму.

В качестве точечных оценок мат. ож. возьмем выборочное среднее

$\overline X, \overline Y$

В кач. точ. оц. дисперсии возьмем несмещенные оценки дисперсии

$s^2_X = \frac{1}{m - 1} \sum(x_i - \overline X)^2$

$s^2_Y = \frac{1}{n - 1} \sum(y_i - \overline Y)^2$

###### Критерий Стьюдента

В качестве статистики критерия возьмем

$Z = \frac{\overline X - \overline Y - (a_1 - 1_2)}{\sqrt{D(\overline X - \overline Y)}}$

Если предположить, что $H_0$ верна, то следовательно $a_1 = a_2$, а $a_1 - a_2 = 0$

$Z = \frac{\overline X - \overline Y}{\sqrt{D(\overline X - \overline Y)}}$

В зависимости от того, будет нам известна дисперсия или неизвестна, распределения сл. вел. $\eta$ и $\xi$, у нас статистика $Z$ будет иметь различные законы распределения!

###### $\sigma^2_1, \sigma^2_2$ известны

$D(\overline X - \overline Y) = D(\overline X) + D(\overline Y) = \frac{\sigma^2_1}{m} + \frac{\sigma^2_2}{n}$ т.к. сл. вел. $\eta$ и $\xi$ незивисимы

$Z = \frac{\overline X - \overline Y}{ \sqrt{ \frac{\sigma^2_1}{m} + \frac{\sigma^2_2}{n} } } \sim N(0, 1)$

###### дисперсии неизвестны, но $\sigma^2_1 = \sigma^2_2 = \sigma^2$, но есть основания того, что дисперсии равны между собой

Например, когда мы проверили гипотезу о равенстве дисперсий, но не смогли её отклонить!

Мы возьмем несмещенные оценки дисперсии $s^2_1$ и $s^2_2$. Посмотроим оценку для $\sigma^2$

$s^2 = \frac{s^2_1 (m-1) + s^2_2 (n-1)}{m + n - 2}$

$D(\overline X - \overline Y) \sim \frac{s^2}{m} + \frac{s^2}{n}$

$Z = \frac{\overline X - \overline Y}{ \sqrt{ \frac{m + n}{mn} } \sqrt{ \frac{s^2_X (m-1) + s^2_Y (n-1)}{m + n - 2} } }  \sim T_{m + n - 2}$ распределение Стьюдента с $m + n - 2$ степенями свободы

Можно формулу переписать в таком виде, для более простого восприятия

$Z = \frac{\overline X - \overline Y}{ \sqrt{ \frac{1}{n} + \frac{1}{m} } \cdot s}$, где

$s = \sqrt{s^2} = \sqrt{ \frac{s^2_X (m-1) + s^2_Y (n-1)}{m + n - 2} } $

$s^2 = \frac{s^2_X (m-1) + s^2_Y (n-1)}{m + n - 2}  $

###### Задача №1

На двух станках А и B производят одну и ту же продукцию.

$A: n_A = 16, \overline X_A = 37.5 мм, s^2_A = 1.21мм^2$

$B: n_B = 25, \overline X_B = 36.8 мм, s^2_B = 1.44мм^2$

Используя 2-х сторонний критерий, требуется проверить гипотезу о равенстве мат. ож. Будем предпологать, что внутрений размер изделий подчиняется норм. закону распределению. Уровень значимости $\alpha = 0.05$

**Решение:**

$H_0: a_1 = a_2$

$H_1: a_1 \neq a_2$

В качестве статистики критерия возьмем

$Z = \frac{\overline X_A - \overline X_B}{ \sqrt{ \frac{1}{n_A} + \frac{1}{n_B} } \cdot s} \sim T_{n_A + n_B - 2}$, где

$s = \sqrt{s^2} = \sqrt{ \frac{s^2_A (n_A-1) + s^2_B (n_B-1)}{n_A + n_B - 2} } $

$z_в = 1.62$

$F_{T(39)}(1.62) = 0.943$

$p_{value} = 2 \cdot (0.943, 0.057) = 0.114$

$p_{value} > \alpha \Rightarrow H_0$ не отклоняется

**Ответ:**

$H_0$ не отклоняется. Мат. ож. двух выборок одинаковые.

###### дисперсии неизвестны и неравны $\sigma^2_1 \neq \sigma^2_2$

$D(\overline X - \overline Y) \sim \frac{s^2}{m} + \frac{s^2}{n}$

$Z = \frac{\overline X - \overline Y}{ \sqrt{ \frac{s^2_X}{m} + \frac{s^2_Y}{n} } } \sim T_{k}$ с $k$ степенями свободы, которые вычисляются по формуле

$k = \frac{ ( \frac{s^2_X}{m} + \frac{s^2_Y}{n} )^2 }{ \frac{(s^2_X / m)^2}{m-1} + \frac{(s^2_Y / n)^2}{n-1}}$ берется целая часть

In [17]:
up = ( s1/n1 + s2/n2 ) ** 2
down = ((s1 / n1)**2 / (n1 - 1)) + ((s2 / n2)**2 / (n2 - 1))
k = up / down
k

53.986701079947366

In [21]:
st.t.ppf(0.9/2, df=54)

-0.1262537287685148

##### Критическая область. p-value

$H_1: a_1 > a_2$

$V_k: (t_{(1 - \alpha, k)}, +\infty)$

$p_{value}: 1 - F_{T(k)}(z_в)$

$H_1: a_1 \neq a_2$

$V_k: (- \infty, t_{\frac{\alpha}{2}, k}) \cup (t_{(1 - \frac{\alpha}{2}, k)}, +\infty)$

$p_{value}: 2 \cdot min (F_{T(k)}(z_в), 1 - F_{T(k)}(z_в))$

$t_{(\frac{\alpha}{2}, k)}$ - квантиль распределения Стьюдента.

$F_{T(k)}$ - ф-я распределения Стьюдента.

###### Задача №1

Можно ли считать, что средние двух нормально распределенных совокупностей равны, если выборочные средние и дисперсии, вычисленные по двум выборкам объема 16 и 9 равны соответственно $\overline x_1 = 12.57, D^*_1 = 0.91, \overline x_2 = 11.87, D^*_2 = 1.51 $? Известно, что дисперсии не  равны. Найдите квантиль распределения статистики критерия порядка 0.3. Найдите p-значение и примите статистическое решение. Уровень значимости  0.02

**Решение:**

$H_0: a_1 = a_2$

$H_1: a_1 \neq a_2$

Обратим внимание, что выборочная дисперсия смещенная, поэтому её нужно откорректировать умножив на дробь $\frac{n}{n-1}$, тогда получим несмещенную оценку выборочной дисперсии.

т.к. известно, что дисперсии не равны, возьмем в качестве статистики критерия

$Z = \frac{\overline X - \overline Y}{ \sqrt{ \frac{s^2_X}{m} + \frac{s^2_Y}{n} } } \sim T_{k}$ с $k$ степенями свободы, которые вычисляются по формуле

$k = \frac{ ( \frac{s^2_X}{m} + \frac{s^2_Y}{n} )^2 }{ \frac{(s^2_X / m)^2}{m-1} + \frac{(s^2_Y / n)^2}{n-1}}$ берется целая часть

Найдём кол-во степеней свободы $k$ по формуле

In [None]:
# кол-во выборки
n_1, n_2 = 16, 9
# средние значения выборок
xs_1, xs_2 = 12.57, 11.87
# оценки выборочной дисперсии
D_1, D_2 = 0.91, 1.51
# несмещенные оценки выборочной дисперсии
s1 = n_1 / (n_1 - 1) * D_1
s2 = n_2 / (n_2 - 1) * D_2

# подсчитаем к степеней свободы
numerator = (s1 / n_1 + s2 / n_2) ** 2
denominator = ((s1 / n_1)**2 / (n_1 - 1)) + ((s2 / n_2)**2 / (n_2 - 1))
k = round(numerator / denominator)
k

13

Найдём квантиль распределения статистики критерия порядка 0.3.

In [None]:
alpha = 0.3
st.t.ppf(alpha, df=k)

-0.5375040895368409

Найдите p-значение и примите статистическое решение. Уровень значимости  0.02

т.к. $H_1: a_1 \neq a_2$ у нас двухстороний критерий

$V_k: (- \infty, t_{\frac{\alpha}{2}, k}) \cup (t_{(1 - \frac{\alpha}{2}, k)}, +\infty)$

$p_{value}: 2 \cdot min (F_{T(k)}(z_в), 1 - F_{T(k)}(z_в))$

$t_{(\frac{\alpha}{2}, k)}$ - квантиль распределения Стьюдента.

$F_{T(k)}$ - ф-я распределения Стьюдента.

In [None]:
alpha = 0.02
t = st.t.ppf(alpha/2, df=k)
t

-2.6503088378527013

In [None]:
t = st.t.ppf(1 - alpha/2, df=k)
t

2.6503088378527013

$V_k: (-\infty, -2.65) \cup (2.65, +\infty)$

In [None]:
z_v = (xs_1 - xs_2) / ( np.sqrt(s1/n_1 + s2/n_2) )

In [None]:
p_value = 2 * min(st.t.cdf(z_v, df=k), st.t.sf(z_v, df=k))
p_value

0.18444537108003667

$p_{value} > \alpha \Rightarrow H_0$ не отклоняется

**Ответ:**

квантиль распределения статистики критерия порядка 0.3 примерно равен -0.53

$p_{value} > \alpha \Rightarrow H_0$ не отклоняется

#### Случайные величины зависимы!

##### Критерий Стьюдента для парных выборок

Рассмотрим случай, когда **сл. вел. $\eta$, $\xi$ зависимы**.

Например, при исследовании влияния нового препарата на температуру тела, у испытуемых измерили температуру до приёма лекарства и после, т.е. измерение исследуемой величины происводится на одних и тех же объектах.

Предположим, что из двумерной генеральной совокупности $(\eta, \xi)$ получена выборка $(X, Y)_{[n]}$.

$a_1$ - мат. ож. $\eta$

$a_2$ - мат. ож. $\xi$

$H_0: a_1 = a_2$

$H^1_1: a_1 \neq a_2$

$H^2_1: a_1 > a_2$

Введем сл. вел.

$\zeta = \eta - \xi, Q_i = x_i - y_i, i = 1, ..., n$

Обозначим

$E\zeta = a = a_1 - a_2$, тогда гипотезу $H_0: a_1 = a_2$ можно заменить на

$H'_0: a = 0$

$H'_1: a \neq 0$

$H''_2: a > 0$

В качестве точечной оценки мат. ож. $a$ сл. вел. $\zeta$ рассмотрим выборочное среднее 

$\overline Q = \frac{1}{n} \sum (x_i - y_i) = \overline X - \overline Y$

Несмещенная оценка дисперсии

$S^2_Q = \frac{1}{n - 1} \sum (x_i - y_i - \overline Q)^2$

Найдём дисперсию $\overline Q$

$D(\overline Q) = D(\overline X - \overline Y)$

т.к. у нас сл. величины зависимы, то зависимы будут и выборочные средние $\overline X, \overline Y$, поэтому

$D(\overline Q) = D(\overline X - \overline Y) = D(\overline X) + D(\overline Y) - 2 \cdot K_{\overline X, \overline Y}$, где

$K_{\overline X, \overline Y}$ - ковариация

В случае положительной ковариации, дисперсия $D(\overline Q)$ будет меньше, чем для случая, если бы сл. вел. $\eta, \xi$ были независимы.

##### Критическая область. p-value

$\zeta \sim N(a, \sigma)$

В кач-ве статистики критерия возьмем

$Z = \frac{\overline Q}{S_Q / \sqrt{n}} \sim T_{n-1}$, где

$T_{n-1}$ - распределение Стьюдента

$H_1: a_1 > a_2$

$H'_1: a_1 > 0$

$V_k: (t_{1 - \alpha, n-1}, + \infty)$

$p_{value}: 1 - F_{T(n-1)}(z_в)$, где

$t_{1 - \alpha, n-1}$ - квантиль распр. Стьюдента.

$F_{T(n-1)}(z_в)$ - ф-я распр. Стьюдента с $n-1$ степенями свободы

$H_1: a_1 \neq a_2$

$H'_1: a_1 \neq 0$

$V_k: (- \infty, t_{\frac{\alpha}{2}, n-1}) \cup (t_{1 - \frac{\alpha}{2}, n-1}, + \infty)$

$p_{value}: 2 \cdot (F_{T(n-1)}(z_в), 1 - F_{T(n-1)}(z_в))$

###### Задача №1

У 28 пациентов, имевших сердечный приступ, измерили уровень холестерина в крови через 2 и через 4 дня после сердечного приступа. Изменился ли уровень холестерина при втором измерении по сравнению с первым?

Найдите квантиль распределения статистики критерия порядка 0.9.

Найдите p-значение и примите статистическое решение при уровне значимости 0.05

In [37]:
df = pd.read_csv('cholesterol.txt', sep = '\t')
df.head(2)

Unnamed: 0,Day2,Day4
0,270,218
1,236,234


**Решение:**

В данной задаче мы имеем две сл. величины зависимые, т.к. измерение исследуемой величины происводится на одних и тех же объектах.

Из двумерной генеральной совокупности $(\eta, \xi)$ получена выборка $(X, Y)_{[n]}$.

$a_1$ - мат. ож. $\eta$

$a_2$ - мат. ож. $\xi$






Рассмотрим гипотезу

$H_0: a_1 = a_2$

$H_1: a_1 \neq a_2$

Введем сл. вел. $\zeta = \eta - \xi$

Обозначим

$E\zeta = a = a_1 - a_2$, тогда гипотезу $H_0: a_1 = a_2$ можно заменить на

$H'_0: a = 0$

$H'_1: a \neq 0$


В качестве точечной оценки мат. ож. $a$ сл. вел. $\zeta$ рассмотрим выборочное среднее 

$\overline Q = \frac{1}{n} \sum (x_i - y_i) = \overline X - \overline Y$

Несмещенная оценка дисперсии

$S^2_Q = \frac{1}{n - 1} \sum (x_i - y_i - \overline Q)^2$

$\zeta \sim N(a, \sigma)$

В кач-ве статистики критерия возьмем

$Z = \frac{\overline Q}{S_Q / \sqrt{n}} \sim T_{n-1}$, где

$T_{n-1}$ - распределение Стьюдента

Тогда 

$H_1: a_1 \neq a_2$

$H'_1: a_1 \neq 0$

$V_k: (- \infty, t_{\frac{\alpha}{2}, n-1}) \cup (t_{1 - \frac{\alpha}{2}, n-1}, + \infty)$

$p_{value}: 2 \cdot (F_{T(n-1)}(z_в), 1 - F_{T(n-1)}(z_в))$

Вычислим необходимые выборочные характеристики

In [89]:
# выборки
X, Y = df['Day2'].values, df['Day4'].values
# кол-во наблюдейни в выборке
nx, ny = df['Day2'].count(), df['Day4'].count()
# выборочные средние
x_mean, y_mean = df['Day2'].mean(), df['Day4'].mean()
# несмещенная выборочная дисперсия, по дефолту в pandas var считает несмещенную дисперсию, но укажем явно ddof=1
sx, sy = df['Day2'].var(ddof=1), df['Day4'].var(ddof=1)

print(f'nx = {nx}, ny = {ny}')
print(f'x_mean = {x_mean}, y_mean = {y_mean}')
print(f'sx = {sx}, sy = {sy}')
print('Больше:', 'sx' if sx > sy else 'sy')

nx = 28, ny = 28
x_mean = 253.92857142857142, y_mean = 230.64285714285714
sx = 2276.291005291005, sy = 2205.9417989417984
Больше: sx


Найдите квантиль распределения статистики критерия порядка 0.9.

In [82]:
st.t.ppf(0.9, df=27)

1.3137029080232316

Найдите p-значение и примите статистическое решение при уровне значимости 0.05

$\overline Q = \frac{1}{n} \sum (x_i - y_i) = \overline X - \overline Y$

In [91]:
n = nx
Q = x_mean - y_mean

$S^2_Q = \frac{1}{n - 1} \sum (x_i - y_i - \overline Q)^2$

а нам нужно $S_Q$

$S_Q = \sqrt(S^2_Q) = \sqrt( \frac{1}{n - 1} \sum (x_i - y_i - \overline Q)^2 )$

In [93]:
S = np.sqrt( sum((X - Y - Q)**2) / (n - 1) )

$Z = \frac{\overline Q}{S_Q / \sqrt{n}} \sim T_{n-1}$

In [94]:
zv = Q / S * np.sqrt(n)

$p_{value}: 2 \cdot (F_{T(n-1)}(z_в), 1 - F_{T(n-1)}(z_в))$

In [95]:
p_value = 2 * min(st.t.cdf(zv, df=n-1), st.t.sf(zv, df=n-1))
p_value

0.0033372184510327622

$p_{value} < \alpha \Rightarrow H_0$ отвергается. Мы не можем сказать, что мат. ожидания равны.

**Ответ:**

Найдите квантиль распределения статистики критерия порядка 0.9.

Распределение Стьюдента с $n-1$ степенями свободы. Квантиль = 1.31

$p_{value} = 0.003$

$H_0$ отвергается