In [43]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st
import seaborn as sns
import pandas as pd
import sklearn
import math
import os

# Проверка гипотез для двух выборок.

В данной части рассматривается проверки гипотез о виде распределения двух выборок, т.е. фактически мы можем проверить являются ли эти две выборки частями одной генеральной совокупности (это так, когда параметры распределения совпадают).


## 1. Зависимые выборки. Парные наблюдения.

**Опр** Две непрерывные случайные величины $\xi$ и $\eta$ с плотностями распределения $f_{\xi}$ и $f_{\eta}$ соответственно, называются независимыми, если выполнено:
\begin{equation*}
    f_{\xi, \eta}(x,y) = P(\xi \leq x ; \eta \leq y) = P(\xi \leq x) \cdot P (\eta \leq y) = f_{\xi}(x) \cdot f_{\eta}(y),
\end{equation*}

Рассмотрим две зависимые случайные величины $\xi$ и $\eta$ и выборки $X_{n}$ и $Y_{n}$ размера n соответствующие их реализациям.
Под "зависимыми выборками" обычно понимают ситуацию в которой рассматриваются одни и те-же объекты до и после некоторого воздействия на них.
Например, зависимой выборкой может служить уровень холестерина измеренный у группы пациентов до начала курса лечения, и спустя некоторое время после.

В этом примере врачи хотят ответить на вопрос: повлиял ли курс лечения на некоторые средние показатели для испытуемых (в данном случае, допустим, это средний уровень холестерина в организме).
В этом случае речь идет о следующих гипотезе и альтернативе:
- Гипотеза $H_{0}$: $E\xi = a = a_{0}$ говорит о том что средний уровень холестерина в крови испытуемых до курса лечения был $a_{0}$.
- Альтернатива $H_{1}$: $E\eta = a = \neq a_{0}$ говорит о том что средний уровень холестерина в крови испытуемых после курса лечения изменился. (Опять можно рассматривать три варианта: увеличился, уменьшился, изменился).

Для проверки такого рода гипотезы поступают следующим образом: вводят случайную величину $\zeta = \xi - \eta$, реализации которой имеют следующий вид: 
\begin{equation*}
    Q_{n} = \{q_{i} : q_{i} = x_{i} - y_{i}, \quad i=\overline{1,n}\},
\end{equation*}

Тогда для случайной величины $\zeta$ задача проверки гипотезы приводился в виду $H_{0}: a=0$ и альтернатива $H_{1}: a \neq 0$.
Определим статистику критерия для данной задачи. 
Для случайной величины $\zeta$ определены следующие статистики:
- Выборочное среднее $\overline{q} = \frac{1}{n}\sum_{i}^{n}(q_{i})$,
- Выборочная дисперсия $s_{q}^{2} = \frac{1}{n-1}\sum_{i}^{n}(q_{i} - \overline{q})^{2}$.

В качестве статистики критерия выберем статистику $Z(\cdot)$ имеющие распределение Стьюдента ~ $t(n-1)$:
\begin{equation*}
    Z(\cdot) = \frac{\overline{q}}{s_{q}} \cdot \sqrt{n},
\end{equation*}

Таким образом, алгоритм принятия статистического решения не отличается от описанных ранее. 
Необходимо вычислить значение статистики $z=Z(\cdot)$  проверить его принадлежность к критической области $V_{k}$ рассчитанной на основе уровня доверия $\alpha$. 
При $z \notin V_{k}$ принимаем гипотезу $H_{0}$, в противном случае принимаем альтернативу $H_{1}$.

**Стоит отметить что использование критерия для независимых выборок при их зависимости ведет к плохим результатам**.

ДОДЕЛАТЬ

In [128]:
np.random.seed(0)

dataset_size = 5000
corrs = np.array([0.0, 0.4, 0.9])
data = pd.DataFrame()
means = np.array([25.0, 27.0])
stds = np.array([8., 8.])

def generate_dependent_dataset(corr, sample_size):
    xx = np.array([-0.51, 51.2])
    yy = np.array([0.33, 51.6])
    
    covs = [[stds[0]**2          , stds[0]*stds[1]*corr], 
            [stds[0]*stds[1]*corr,           stds[1]**2]] 

    return np.random.multivariate_normal(means, covs, sample_size).T

for cur_corr in corrs:
    x, y = generate_dependent_dataset(cur_corr, dataset_size)
    print('Correlation coef {:.3f}'.format(np.corrcoef(x, y)[0][1]))
    data['x{0}'.format(cur_corr)] = x
    data['y{0}'.format(cur_corr)] = y
    
data.describe().iloc[1:4]

Correlation coef -0.006
Correlation coef 0.408
Correlation coef 0.904


Unnamed: 0,x0.0,y0.0,x0.4,y0.4,x0.9,y0.9
mean,24.813449,26.891612,24.898283,27.070311,24.993166,26.936513
std,7.93695,7.865179,8.015771,7.903354,8.086724,8.019048
min,-4.920805,-0.1384,-2.268791,0.546141,-4.70822,-4.524044


In [132]:
def error_type_one_independent(x, a0):
    n = x.shape[0]
    
    x_ = np.mean(x)
    s  = np.sqrt( np.sum( (x-x_)**2 ) / (n - 1.) )
    
    x_cr = abs(x_ - a0) / s * np.sqrt(n)
    
    return 1. - st.t.cdf(x_cr, n-1)

def error_type_one_dependent(x, y):
    n = x.shape[0]
    
    q = x - y
    q_ = np.mean(q)
    sq = np.sqrt( np.sum((q-q_)**2) / (n-1.) )

    z = q_ / sq * np.sqrt(n)
    
    return st.t.cdf(z, n-1)

    
print(error_type_one_independent(data['x0.0'].values, means[0]))
print(error_type_one_dependent(data['x0.0'].values[0:100], data['y0.0'].values[0:100]))

0.0482884278867
0.00423157066936


#### Пример задачи на критерий Стьюдента.

У 28 пациентов, имевших сердечный приступ, измерили уровень холестерина в крови через 2 и через 4 дня после сердечного приступа. Изменился ли уровень холестерина при втором измерении по сравнению с первым?
Данные (уровень холестерина приведен в условных единицах) находятся в файле.

Найдите p-значение и примите статистическое решение при уровне значимости $\alpha$=0.05.

In [133]:
file_name = os.path.join(os.getcwd(), 'data', 'cholesterol.txt')
data = pd.read_csv(file_name, delimiter = '\t')
x = data['Day2'].values
y = data['Day4'].values

n = 28.
alpha = 0.05

q = x-y
q_ = np.mean(q)
sq = np.sqrt( np.sum((q-q_)**2) / (n-1.) )

z = q_ / sq * np.sqrt(n)

p_val1 = st.t.cdf(z, n-1)
p_val2 = st.t.cdf(-z, n-1)

p_val = 2.*np.min([p_val1, p_val2])

if p_val > alpha: print('{:.3f} H0'.format(p_val))
else: print('{:.3f} H1'.format(p_val))

0.003 H1


## 2. Статистика Фишера. Проверка на равенство дисперсий.

Рассмотрим следующую постановку задачи. 
Случайная величина $\xi$ имеет распределение ~$N(a_{1}, \sigma_{1}^{2})$, и имеется выборка из этого распределения $X_{n}$ размера n.
Случайная величина $\eta$ имеет распределение ~$N(a_{2}, \sigma_{2}^{2})$, и имеется выборка из этого распределения $Y_{m}$ размера m.
Необходимо проверить гипотезу о равенстве дисперсий двух случайных величин: $\sigma_{1}^{2} = \sigma_{2}^{2}$, при соответствующих трех возможных альтернативах (дисперсии не равны, дисперсия больше или меньше предыдущей).

По данным выборкам можно определить выборочное среднее $\overline{x}$ ($\overline{y}$) и как следствие выборочную дисперсию $s_{1}^{2}$ ($s_{2}^{2}$).
На основе этих двух статистик можно составить две статистики критерия, имеющие распределения ~$\chi^{2}(n-1)$ (~$\chi^{2}(m-1)$), это статистики:

\begin{equation*}
    Z_{1}(\cdot) = \frac{(n-1)s_{1}^{2}}{\sigma_{1}^{2}} \quad ; \quad Z_{2}(\cdot) = \frac{(n-1)s_{2}^{2}}{\sigma_{2}^{2}}
\end{equation*}

Из которых составим статистику, полученную делением одной (С БОЛЬШИМ ВЫБОРОЧНЫМ СРЕДНИМ) на другую (С МЕНЬШИМ ВЫБОРОЧНЫМ СРЕДНИМ) с весам (n-1) и (m-1) соответственно и в результате получим:

\begin{equation*}
    Z(\cdot) = \frac{Z_{1}(\cdot)(m-1)}{(n-1)Z_{2}(\cdot)} = \frac{s_{1}^{2} \sigma_{2}^{2}}{s_{2}^{2} \sigma_{1}^{2}} = \frac{s_{1}^{2}}{s_{2}^{2}} \cdot \frac{\sigma_{2}^{2}}{\sigma_{1}^{2}} = [\sigma_{1}=\sigma_{2}] = \frac{s_{1}^{2}}{s_{2}^{2}},
\end{equation*}
где равенство дисперсии предполагает выполнение гипотезы $H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$. 

Данная статистика $Z(\cdot)$ имеет распределение [Фишера](https://en.wikipedia.org/wiki/F-distribution) ~$F(n-1, m-1)$, a значит можно определить соответствующие квантили, построить критическую область $V_{k}$ и принять статистическое решение.

Итак, для принятия статистического решения в задачах проверки равенства дисперсий двух выборок необходимо:
1. Составить статистику равную отношению БОЛЬШЕЙ выборочной дисперсии к МЕНЬШЕЙ выборочной дисперсии:
\begin{equation*}
    Z(\cdot) = \frac{s_{max}^{2}}{s_{min}^{2}}.
\end{equation*}
2. Определить значение статистики $z = Z(\cdot)$.
3. Определить критическую область в зависимости от соответствующей альтернативы $V_{k}$.
4. Принять статистическое решение по $z$ и $V_{k}$.

**Стоит отметить что задача оценки равенства дисперсий предшествует задаче оценки равенства математических ожиданий**.

#### Пример задачи на критерий Фишера.

Два токарных автомата изготавливают детали по одному чертежу. 
Из продукции первого станка было отобрано 9 деталей, а из продукции второго - 11 деталей. 
Выборочные дисперсии контролируемого  размера, определенные по этим выборкам 5.9мкм2 и 23.3мкм2. 
Проверьте гипотезу о равенстве дисперсий при уровне значимости 0.01, если альтернативная гипотеза утверждает, что дисперсии не равны.

Формат ответа: через запятую с пробелом
- выборочное значение статистики с точностью 3 знака после запятой.
- статистическое решение H0 или H1 (H0, если принимаете нулевую гипотезу, H1 в противном случае).

In [14]:
n = 9.; m = 11.
s1 = 5.9; s2 = 23.3
alpha = 0.01

fl = st.f.ppf(alpha/2., m-1, n-1)
fr = st.f.ppf(1.-alpha/2., m-1, n-1)

# Отношение исправленных дисперсий (s2 = Sn/(n-1))
z = ( m *s2 / (m-1.) ) / (n * s1 / (n-1.))

if z > fl and z < fr: print('{:.3f}, H0'.format(z))
else: print('{:.3f}, H1'.format(z))

3.861, H0


## 3. Гипотеза о равенстве математических ожиданий.

Рассмотрим следующую постановку задачи. 
Случайная величина $\xi$ имеет распределение ~$N(a_{1}, \sigma_{1}^{2})$, и имеется выборка из этого распределения $X_{n}$ размера n.
Случайная величина $\eta$ имеет распределение ~$N(a_{2}, \sigma_{2}^{2})$, и имеется выборка из этого распределения $Y_{m}$ размера m.
Необходимо проверить гипотезу о равенстве мат. ожиданий двух случайных величин: $a_{1} = a_{2}$, при соответствующих трех возможных альтернативах (мат. ожидания не равны, мат. ожидание больше или меньше предыдущего).

В качестве неизвестных оценок мат. ожидания выберем выборочные средние $\overline{x}$ и $\overline{y}$ соответственно и рассмотрим статистику:

\begin{equation*}
    Z(\cdot) = \frac{\overline{x} - \overline{y} - (a_{0} - a_{1})}{D(\overline{x} - \overline{y})} = [a_{0} = a_{1}] = \frac{\overline{x}-\overline{y}}{D(\overline{x}-\overline{y})},
\end{equation*}
где равенство мат. ожиданий выполняется при правдивости гипотезы $H_{0}: a_{0}=a_{1}$.

Данная статистика принимает разный вид в зависимости от знаменателя $D(\overline{x}-\overline{y})$, который находится по разному при известных и неизвестных дисперсиях выборок $x_{n}$, $Y_{m}$.

### 3.1 Гипотеза о равенстве мат. ожиданий при известных дисперсиях.

При известных дисперсиях (дисперсия разности равна сумме дисперсий) статистика критерия примет вид:

\begin{equation*}
    Z(\cdot) = \frac{\overline{x} - \overline{y}}{\sqrt{\frac{\sigma_{1}^{2}}{n} + \frac{\sigma_{2}^{2}}{m}}},
\end{equation*}
которая имеет стандартное нормальное распределение ~$N(0, 1)$. 

Данная статистика $Z(\cdot)$ имеет стандартное нормальное распределение ~$N(0,1)$, a значит можно определить соответствующие квантили, построить критическую область $V_{k}$ и принять статистическое решение.

### 3.2 Гипотеза о равенстве мат. ожиданий при неизвестных, НО равных дисперсиях.

При неизвестных, но равных дисперсиях (дисперсия разности равна сумме дисперсий) статистика критерия примет вид:

\begin{equation*}
    Z(\cdot) = \frac{\overline{x} - \overline{y}}{s\sqrt{\frac{1}{n} + \frac{1}{m}}},
\end{equation*}
где $s$ - выборочное стандартное отклонение, которое определяемое формулой:
\begin{equation*}
    s^{2} = \frac{(n-1)s_{1}^{2} + (m-1)s_{2}^{2}}{n+m-2}.
\end{equation*}

Данная статистика имеет распределение Стьюдента ~$t(n+m-2)$, a значит можно определить соответствующие квантили, построить критическую область $V_{k}$ и принять статистическое решение.

**К этой статистике можно прийти, первоначально проверив равенство дисперсий по критерию Фишера. **

### 3.3 Гипотеза о равенстве мат. ожиданий при неизвестных, НО неравных дисперсиях.

При неизвестных и неравных дисперсиях (дисперсия разности равна сумме дисперсий) статистика критерия примет вид:

\begin{equation*}
    Z(\cdot) = \frac{\overline{x} - \overline{y}}{\sqrt{\frac{s_{1}^{2}}{n} + \frac{s_{2}^{2}}{m}}},
\end{equation*}
которая имеет распределение Стьюдента ~$t(k)$, где число степеней свободы определяется целой частью выражения:

\begin{equation*}
    k = \frac{ \Big( \frac{s_{1}^{2}}{n} + \frac{s_{2}^{2}}{m} \Big)^{2} }{ \frac{s_{1}^{2}}{n^{2}(n-1)} + \frac{s_{2}^{2}}{m^{2}(m-1)} }.
\end{equation*}

Таким образом, можно определить соответствующие квантили, построить критическую область $V_{k}$ и принять статистическое решение.

#### Пример задачи на проверку равенства дисперсий.

Можно ли считать, что средние двух нормально распределенных совокупностей равны, если выборочные средние и дисперсии, вычисленные по двум выборкам объема 16 и 9 равны соответственно $\overline{x_{1}}$=12.57, $D_{1}$=0.91, $\overline{x_{2}}$=11.87, $D_{2}$=1.51? 
Известно, что дисперсии не  равны. Уровень значимости $\alpha$=0.02.

Найдите p-значение и примите статистическое решение:
- p-значение с точностью 3 знака после запятой
- статистическое решение ( H0, если нулевая гипотеза верна, H1 в противном случае)

In [33]:
n = 16.; m = 9.
x_1 = 12.57; x_2 = 11.87
D1 = 0.91; D2 = 1.51
alpha = 0.02

s1 = n*D1 / (n-1.)
s2 = m*D2 / (m-1.)

k = math.modf( (s1/n + s2/m)**2 / ( (s1 / n)**2 / (n-1) + (s2 / m)**2 / (m-1) ) )[1]
t_cr = (x_1 - x_2) / np.sqrt(s1/n + s2/m)

p_val1 = st.t.cdf(t_cr, k)
p_val2 = st.t.cdf(-t_cr, k)

p_val = 2. * np.min([p_val1, p_val2])

if p_val > alpha: print('{:.3f}, H0'.format(p_val))
else : print('{:.3f}, H1'.format(p_val))

0.184, H0
