$\newcommand{\Sum}{\sum\limits}
\newcommand{\Int}{\int\limits}
\newcommand{\Intf}{\int\limits_{-\infty}^{+\infty}}
\newcommand{\Prod}{\prod\limits}
\newcommand{\Max}{\max\limits}
\newcommand{\Min}{\min\limits}
\newcommand{\Lim}{\lim\limits}
\newcommand{\Prob}{\mathsf{P}}
\newcommand{\Var}{\mathbb{V}}
\newcommand{\Exp}{\mathbb{E}}
\newcommand{\argmax}{\arg\max}
\newcommand{\Cov}{\mathrm{Cov}}
\newcommand{\makebold}[1]{\boldsymbol{#1}}
\newcommand{\mean}[1]{\overline{#1}}
\newcommand{\avg}[1]{\left\langle #1 \right\rangle}
\newcommand{\lp}{\left}
\newcommand{\rp}{\right}
\newcommand{\eps}{\varepsilon}
\newcommand{\loss}{\mathcal{L}}
\newcommand{\Llr}{\mathcal{L}}
\newcommand{\llr}{\ell}
\newcommand{\RR}{\mathbb{R}}
\newcommand{\ZZ}{\mathbb{Z}}
\newcommand{\NN}{\mathbb{N}}
\newcommand{\boldtheta}{\boldsymbol{\theta}}
\newcommand{\boldtau}{\boldsymbol{\tau}}
\newcommand{\boldT}{\boldsymbol{T}}
\newcommand{\boldX}{\boldsymbol{X}}
\newcommand{\boldY}{\boldsymbol{Y}}
\newcommand{\boldZ}{\boldsymbol{Z}}
\newcommand{\boldtheta}{\boldsymbol{\theta}}
\newcommand{\boldtau}{\boldsymbol{\tau}}
\newcommand{\boldx}{\boldsymbol{x}}
\newcommand{\boldu}{\boldsymbol{u}}
\newcommand{\boldv}{\boldsymbol{v}}
\newcommand{\boldy}{\boldsymbol{y}}
\newcommand{\boldz}{\boldsymbol{z}}
\newcommand{\boldp}{\boldsymbol{p}}
\newcommand{\Poisson}{\mathrm{Poisson}}
\newcommand{\Uniform}{\mathrm{Uniform}}
\newcommand{\Binomial}{\mathrm{Binomial}}
\newcommand{\Bernoulli}{\mathrm{Bernoulli}}
\newcommand{\Gammap}{\mathrm{Gamma}}
\newcommand{\Normal}{\mathcal{N}}
\newcommand{\LogN}{\mathrm{LogN}}
\newcommand{\Exponential}{\mathrm{Exp}}
\newcommand{\Erlang}{\mathrm{Erlang}}
\newcommand{\Cauchy}{C}
\newcommand{\lf}{\left\{}
\newcommand{\rf}{\right\}}
\newcommand{\lp}{\left(}
\newcommand{\rp}{\right)}
\newcommand{\ls}{\left[}
\newcommand{\rs}{\right]}
\newcommand{\lv}{\left|}
\newcommand{\rv}{\right|}
\newcommand{\Ecdf}[1]{\hat{F}_n(#1)}
\newcommand{\boot}{\mathrm{boot}}
\newcommand{\bias}{\mathrm{bias}}
\newcommand{\se}{\mathrm{se}}
\newcommand{\MSE}{\mathrm{MSE}}
\newcommand{\qm}{\mathrm{qm}}
\newcommand{\as}{\mathrm{as}}
\newcommand{\trace}{\mathrm{trace}}
\newcommand{\hatp}{\hat{p}}
\newcommand{\esttheta}{\hat{\theta}}
\newcommand{\estlambda}{\hat{\lambda}}
\newcommand{\estmu}{\hat{\mu}}
\newcommand{\estsigma}{\hat{\sigma}}
\newcommand{\estalpha}{\hat{\alpha}}
\newcommand{\estbeta}{\hat{\beta}}
\newcommand{\estxi}{\hat{\xi}}
\newcommand{\esttau}{\hat{\tau}}
\newcommand{\estpsi}{\hat{\psi}}
\newcommand{\esta}{\hat{a}}
\newcommand{\estb}{\hat{b}}
\newcommand{\estc}{\hat{c}}
\newcommand{\estd}{\hat{d}}
\newcommand{\estp}{\hat{p}}
\newcommand{\estT}{\hat{T}}
\newcommand{\estR}{\hat{R}}
\newcommand{\estF}{\hat{F}}
\newcommand{\estf}{\hat{f}}
\newcommand{\estC}{\hat{C}}
\newcommand{\estS}{\hat{S}}
\newcommand{\estY}{\hat{Y}}
\newcommand{\esty}{\hat{y}}
\newcommand{\estVar}{\hat{\Var}}
\newcommand{\estExp}{\hat{\Exp}}
\newcommand{\estSe}{\hat{\se}}
\newcommand{\tiltau}{\tilde{\tau}}
\newcommand{\tiltheta}{\tilde{\theta}}
\newcommand{\tillambda}{\tilde{\lambda}}
\newcommand{\tilsigma}{\tilde{\sigma}}
\newcommand{\mlexi}{\xi_{MLE}}
\newcommand{\mletheta}{\theta_{MLE}}
\newcommand{\mlelambda}{\lambda_{MLE}}
\newcommand{\mlesigma}{\sigma_{MLE}}
\newcommand{\mmxi}{\xi_{MM}}
\newcommand{\mmtheta}{\theta_{MM}}
\newcommand{\mmlambda}{\lambda_{MM}}
\newcommand{\mmsigma}{\sigma_{MM}}
\newcommand{\mmgamma}{\gamma_{MM}}$

# Тестирование гипотез

In [None]:
import os
import sys
import numpy as np
import pandas as pd
import scipy
from scipy import stats
from itertools import product
from collections import OrderedDict
from tqdm import tqdm

import matplotlib
import matplotlib as mp
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.collections import PolyCollection
from matplotlib.colors import colorConverter
%matplotlib inline

titlesize = 24
labelsize = 22
legendsize = 22
xticksize = 18
yticksize = xticksize

matplotlib.rcParams['legend.markerscale'] = 1.5     # the relative size of legend markers vs. original
matplotlib.rcParams['legend.handletextpad'] = 0.5
matplotlib.rcParams['legend.labelspacing'] = 0.4    # the vertical space between the legend entries in fraction of fontsize
matplotlib.rcParams['legend.borderpad'] = 0.5       # border whitespace in fontsize units
matplotlib.rcParams['font.size'] = 12
matplotlib.rcParams['font.family'] = 'serif'
matplotlib.rcParams['font.serif'] = 'Times New Roman'
matplotlib.rcParams['axes.labelsize'] = labelsize
matplotlib.rcParams['axes.titlesize'] = titlesize

matplotlib.rc('xtick', labelsize=xticksize)
matplotlib.rc('ytick', labelsize=yticksize)
matplotlib.rc('legend', fontsize=legendsize)

USETEX = False
if USETEX:
    matplotlib.rc('font', **{'family':'serif'})
    matplotlib.rc('text', usetex=True)
    matplotlib.rc('text.latex', unicode=True)
    matplotlib.rc('text.latex', preamble=r'\usepackage[utf8]{inputenc}')
    matplotlib.rc('text.latex', preamble=r'\usepackage[english]{babel}')
    matplotlib.rc('text.latex', preamble=r'\usepackage{amsmath}')

SAVE_FIG = False

<a name='_toc'></a>
# Содержание
* [Теория](#theory)
* [Примеры](#examples)
    * [Одномерное нормальное распределения](#hypo_normal)
    * [Тестирование гипотезы $H_0\colon p = p_0$ для $\boldX \sim \Bernoulli(p)$](#hypo_binomial)
* [Критерий Вальда](#test_wald)
* [Критерий отношения правдоподобий](#test_llr)
* [Критерий Неймана-Пирсона](#test_np)
* [Критерий хи-квадрат](#test_chi2)
* [Критерий Колмогорова](#test_kolmogorov)
* [Критерий перестановок](#test_permutation)
* [Задачи](#tasks)
    * [Задача 1. Подбрасывание монетки](#hypo_binomial_task1)
    * [Задача 2. Сравнение алгоритмов предсказания](#comparing_prediction_algorithms)
    * [Задача 3.](#test_chi2_task1)
    * [Задача 4.](#test_chi2_task2)
    * [Задача 5.](#test_chi2_task3)
    * [Задача 6.](#test_permutation_task1)
    * [Задача 7.](#test_np_task1)
    * [Задача 8.](#test_np_task2)

<a name='theory'></a>
# Теория<sup>[toc](#_toc)</sup>

**Статистической гипотезой** (или просто гипотезой) называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Статистическая гипотеза называется **простой**, если однозначно фиксирует распределение наблюдений. Иначе это **сложная** гипотеза. Проверяемая гипотеза называется нулевой $(H_0)$. Любая гипотеза о распределении наблюдаемой случайной величины, которая может оказаться истинной, но отличается от основной гипотезы, называется **альтернативной** гипотезой. Правило, согласно которому проверяют гипотезу $H_0$ (принимают или отвергают), называется **статистическим критерием** проверки
гипотезы $H_0$. Статистическая гипотеза называется **параметрической**, если она представляет из себя предположение о том, что неизвестный параметр распределения (дисперсия, математическое ожидание и т.п.) имеет наперед заданное значение или множество значений. В процессе проверки $H_0$ можно принять правильное решение или совершить ошибку.

* Вероятностью **ошибки первого рода** называется вероятность отклонить $H_0$, когда $H_0$ верна.
* Вероятностью **ошибки второго рода** называется вероятность принять $H_0$, когда $H_0$ не верна.

Вероятность $\Prob_{H_1}(H_1)$ называется **мощностью критерия**. Понятие мощности определено только для случая простых $H_0$ и $H_1$. Существенно, что множество $\Theta_1$ состоит из единственной точки $\theta_1$.

В случае сложных гипотез $H_0$ и $H_1$ говорят о **равномерно наиболее мощном критерии (р.н.м.к.) размера $\alpha$**. Это такой статистический критерий с заданным размером (уровнем значимости) $\alpha$ для
проверки сложной гипотезы $H_0$ против сложной альтернативы $H_1$, мощность которого не меньше мощности любого другого статистического критерия, предназначенного для проверки $H_0$ против $H_1$ и имеющего тот же размер $\alpha$.
 
Критерий для проверки гипотезы $H_0$ против простой альтернативы $H_1$ называется **состоятельным**, если
$$
\Prob_{H_1}(H_1) \rightarrow 1, \text{ если } n \rightarrow \infty.
$$

Критерий размера $\alpha$, имеющий мощность не меньше $\alpha$, называется **несмещенным**.

<a name='examples'></a>
# Примеры<sup>[toc](#_toc)</sup>

<a name='hypo_normal'></a>
## Одномерное нормального распределение<sup>[toc](#_toc)</sup>
Дана выборка $\boldX \sim \Normal(\mu,\sigma^2)$. Требуется написать критерий вида $T(\boldX) > c$ для различения гипотез
$$
H_0\colon \mu < \mu_0 \text{ против } H_1\colon \mu \ge \mu_0.
$$

Возьмем в качестве статистики выборочное среднее
$$
T(\boldX) = \mean{\boldX} = \frac{1}{n}\Sum_{i = 1}^n X_i.
$$
Мощность теста равна
$$
\beta(\mu, c) = \Prob_{\mu}(T(\boldX) > c) = \Int_{c}^{+\infty} \frac{\sqrt{n}}{\sqrt{2\pi}\sigma} e^{-\frac{n(x - \mu)^2}{2\sigma^2}} dx = \int_{\frac{\sqrt{n}(c-\mu)}{\sigma}}^{+\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx = 1 - \Phi\lp\frac{\sqrt{n}(c - \mu)}{\sigma}\rp.
$$

Хотим получить критерий размера $\alpha$, т.е.
$$
\alpha = \sup_{\mu \in \Theta_0} \Prob_{\mu}(T(\boldX) > c) = 1 - \Phi\lp\frac{\sqrt{n}(c - \mu_0)}{\sigma}\rp.
$$
Пусть размер выборки фиксирован. Тогда подбираем порог $c$:
$$
c = \frac{\sigma\Phi^{-1}(1 - \alpha)}{\sqrt{n}} + \mu_0.
$$
Также можно понять, какой размер выборки необходим при фиксированных $\alpha$ и $c$.
$$
n \ge \lp\frac{\sigma\Phi^{-1}(1 - \alpha)}{c - \mu_0}\rp^2.
$$
Хотя подбор размера выборки более характерен в ситуациях, когда есть требования к мощности критерия, т.е. вероятности ошибок второго рода.

Далее будем считать, что $\mu_0 = 0$.

#### Проверим на искуственных данных, что при $c = c(\alpha)$ вероятность ошибки первого рода не превосходит $\alpha$.

In [None]:
sigma = 1
mu = 0
alpha = 0.05
n_samples = 100

gen = scipy.stats.norm(loc=mu, scale=sigma)
c_alpha = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=sigma / np.sqrt(n_samples))

statistics = []
n_runs = 40000
for n_run in range(n_runs):
    samples = gen.rvs(size=n_samples, random_state=n_run)
    statistics.append(np.mean(samples))
print('Requested test size = {}'.format(alpha))
print('Estimated test size = {}'.format(np.mean(statistics > c_alpha)))

<a name='hypo_norm1_plot_power'></a>
### Построение функции мощности<sup>[toc](#_toc)</sup>
В качестве $c$ возьмем $c(\alpha)$, т.е. строим функцию мощности $\beta(\mu,c(\alpha))$ для критерия размера $\alpha$.

In [None]:
alpha = 0.1     # Запрошенный нами размер теста
sigma = 1       # N(mu, 1)
n_samples = 10  # Размер выборки

# Формирование диапазона средних значений, участвующих в рассмотрении
mu_left = -5
mu_right = 5
n_points = 501
mu_values = np.linspace(mu_left, mu_right, n_points)

gen = scipy.stats.norm(loc=0.0, scale=sigma)  # Генератор N(0, sigma)
c_alpha = sigma * gen.ppf(1 - alpha) / np.sqrt(n_samples)
print('Critical value c(alpha) =', c_alpha)
power = 1 - gen.cdf(np.sqrt(n_samples) * (c_alpha - mu_values) / sigma)

plt.figure(figsize=(10, 8))
# Отрисовка функции мощности теста
plt.plot(mu_values, power, color='b', zorder=3)
# Отрисовка прямой y=alpha
plt.plot([mu_left, mu_right], [alpha, alpha], color='k', linestyle='--', label=r'$\alpha$', zorder=3)

plt.xlabel(r'$\mu$')
plt.ylabel(r'$\beta(\mu,c(\alpha))$')
plt.title(r'$\beta(\mu, c(\alpha))$');
plt.grid(which='both', alpha=0.5, linestyle='--');
plt.legend(fontsize=24);

if SAVE_FIG:
    plt.savefig(os.path.join(pictures_dir, 'hypo_normal_power.pdf'), format='pdf')

При каждом $\mu$ тестовая статистика $T(\boldX) = \mean{\boldX}$ обладает нормальным распределением $\Normal(\mu,\sigma^2/n)$. Отрисуем эти распределения.

In [None]:
alpha = 0.1
sigma = 1
n_samples = 20
gen = scipy.stats.norm(scale=sigma)

plt.figure(figsize=(10, 10))
# Plotting OX and OY axis
plt.plot([-0.75, 1.25], [0, 0], color='k', linewidth=2)
plt.plot([0, 0], [-1.5, 2.0], color='k', linewidth=2)

# Power function for T(X) = mean(X)
mu_values = np.linspace(-0.5, 1.25, 151)
c_alpha = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=sigma / np.sqrt(n_samples))
power_function = 1.0 - scipy.stats.norm.cdf(np.sqrt(n_samples) * (c_alpha - mu_values) / sigma)
plt.plot(mu_values, power_function, color='r', zorder=4,
         label=r'$\beta(\mu, c(\alpha))$ for $T(X) = \overline{X}$')

# Choosing mu values for which distributions of mean(X) is to be plotted
mu_values = [-0.5, -0.25, 0, 0.5, 0.75, 1.0, 1.25]
c_alpha = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=sigma / np.sqrt(n_samples))
mu_values.append(c_alpha)
plt.plot([-0.75, max(mu_values)], [c_alpha, c_alpha], color='b', zorder=2, label=r'$c(\alpha)$')
plt.plot([c_alpha, c_alpha], [-1.5, 2], color='b', zorder=2)

# Plotting PDFs for all mu's
for mu in mu_values:
    stddev = sigma / np.sqrt(n_samples)
    gen = scipy.stats.norm(loc=mu, scale=stddev)
    x = np.linspace(mu - 3 * stddev, mu + 3 * stddev, 101)
    x_upp = x[x >= c_alpha]
    x_low = x[x < c_alpha]
    if len(x_upp) > 0:
        y_upp = gen.pdf(x_upp)
        plt.fill_betweenx(y=x_upp, x1=mu - 0.1 * y_upp, x2=mu, color='r', alpha=0.3, zorder=2)
    if len(x_low) > 0:
        y_low = gen.pdf(x_low)
        plt.fill_betweenx(y=x_low, x1=mu - 0.1 * y_low, x2=mu, color='b', alpha=0.2, zorder=2)

plt.ylim([-1., 2.])
plt.plot(mu_values, mu_values, color='k', label=r'line of $\mu$ values', marker='*', linestyle='--')
plt.grid(which='both', alpha=1, linestyle=':')
plt.xlabel(r'$\mu$')
plt.ylabel(r'$\beta(\mu)$')
plt.legend();

### Построение функций мощности для различных размеров выборок<sup>[toc](#_toc)</sup>

In [None]:
sigma = 1
n_samples_values = [5, 10, 25, 50, 75, 100]
gen = scipy.stats.norm(scale=sigma)

mu_left = -0.5
mu_right = 1.5
n_points = 201
mu_values = np.linspace(mu_left, mu_right, n_points)

# Цвета различных функций мощности
cmap = plt.get_cmap('jet')
colors = np.linspace(0.1, 0.9, len(n_samples_values))

colors = list(map(cmap, colors))
plt.figure(figsize=(10, 8))
for n_plot, n_samples in enumerate(n_samples_values):
    color = colors[n_plot]
    c_alpha = sigma * gen.ppf(1 - alpha) / np.sqrt(n_samples)
    power = 1 - gen.cdf(np.sqrt(n_samples) * (c_alpha - mu_values) / sigma)
    plt.plot(mu_values, power, color=color, label=r'$n = {}$'.format(n_samples), zorder=3)

# Отрисовка осей OX, OY
plt.plot([mu_left, mu_right], [0, 0], color='k', linestyle='-', zorder=3)
plt.plot([0, 0], [0.0, 1.0], color='k', linestyle='-', zorder=3)

plt.xlabel(r'$\mu$');
plt.ylabel(r'$\beta(\mu,c(\alpha))$');
plt.grid(which='both', alpha=0.5, linestyle='--');
plt.legend(fontsize=20);
if SAVE_FIG:
    plt.savefig(os.path.join(pictures_dir, 'hypo_normal_power_n.pdf'), format='pdf')

### Power function for $T(\boldX) = \text{median}(\boldX)$<sup>[toc](#_toc)</sup>
$$
\mean{\boldX} \sim \Normal\left(\mu,\frac{\sigma^2}{n}\right), \quad \text{median}(\boldX) \sim \Normal\left(\mu, \frac{\pi}{2}\frac{\sigma^2}{n}\right). 
$$
Функция мощности для медианы в области $\mu > 0$ всюду меньше, чем функция мощности для выборочного среднего. Таким образом, тест на основе выборочного среднего мощнее теста на основе медианы.

In [None]:
sigma = 1
alpha = 0.1
n_samples = 5
mu_values = np.linspace(-2, 2, 201)

plt.figure(figsize=(10, 8))

# Power function for T(X) = mean(X)
c_alpha = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=sigma / np.sqrt(n_samples))
power_function = 1.0 - scipy.stats.norm.cdf(np.sqrt(n_samples) * (c_alpha - mu_values) / sigma)
plt.plot(mu_values, power_function, color='b', zorder=4, label=r'$\beta(\mu)$ for $T(X) = \overline{X}$')

# Power function for T(X) = median(X)
c_alpha = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=np.sqrt(np.pi/2) * sigma / np.sqrt(n_samples))
power_function = 1.0 - scipy.stats.norm.cdf(np.sqrt(n_samples) * (c_alpha - mu_values) / (np.sqrt(np.pi/2) * sigma))
plt.plot(mu_values, power_function, color='m', zorder=4, label=r'$\beta(\mu)$ for $T(X) = \text{median}{X}$')


plt.legend();
plt.grid(which='both', alpha=1, linestyle=':');

<a name='hypo_norm_mean_vs_median'></a>
## [Not ready] $T(\boldX) = \mean{\boldX}$ vs $T(\boldX) = \text{median}(\boldX)$<sup>[toc](#_toc)</sup>
Пусть $\boldX \sim F$.

Если $E[X] = \mu$, $V[X] = \sigma^2$, то
$$
\overline{\boldX} \xrightarrow[n\to\infty]{D} \Normal\left(\mu, \frac{\sigma^2}{n}\right), \qquad
\text{median}(\boldX) \xrightarrow[n\to\infty]{D} \Normal\left(\mu, \frac{\pi}{2}\frac{\sigma^2}{n}\right)
$$

$$
P_{H_0}(\overline{\boldX} > c) = \alpha \Rightarrow  c(\alpha)
$$


$$
P_{H_0}(\text{median}(\boldX) > c) = \alpha \Rightarrow c(\alpha)
$$

In [None]:
sigma = 1
n_samples = 5
alpha = 0.05
# Critical value for T(X) = median(X)
c_alpha_median = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=np.sqrt(np.pi/2) * sigma / np.sqrt(n_samples))
# Critical value for T(X) = mean(X)
c_alpha_mean  = scipy.stats.norm.ppf(1 - alpha, loc=0.0, scale=sigma / np.sqrt(n_samples))
print('c(alpha) for T=median:', c_alpha_median)
print('c(alpha) for T=mean:  ', c_alpha_mean)

In [None]:
n_runs = 100000
gen = scipy.stats.norm(loc=0, scale=sigma)
results_mean = []
results_median = []
for n_run in tqdm(range(n_runs)):
    samples = gen.rvs(size=n_samples, random_state=n_run)
    mean = np.mean(samples)
    median = np.median(samples)
    results_mean.append(int(mean > c_alpha_mean))
    results_median.append(int(median > c_alpha_median))
print('Type I error for mean:  ', np.mean(results_mean))
print('Type I error for median:', np.mean(results_median))

In [None]:
equal_ratio = np.mean(np.equal(results_mean, results_median))
print('Equal predictions rate:', equal_ratio)

In [None]:
p_mean = np.mean(results_mean)
p_mean_std = np.sqrt(p_mean * (1 - p_mean) / len(results_mean))
print('p_mean   = {}, p_mean_std   = {}'.format(p_mean, p_mean_std))

p_median = np.mean(results_median)
p_median_std = np.sqrt(p_median * (1 - p_median) / len(results_median))
print('p_median = {}, p_median_std = {}'.format(p_median, p_median_std))

W = (p_mean - p_median) / np.sqrt(p_mean_std**2 + p_median_std**2)
pvalue = 2 * (1 - scipy.stats.norm.cdf(abs(W), loc=0.0, scale=1.0))
print('W = {}, pvalue = {}'.format(W, pvalue))

<a name='hypo_binomial'></a>
## Тестирование гипотезы $H_0\colon p = p_0$ для $\boldX \sim \Bernoulli(p)$<sup>[toc](#_toc)</sup>
* [Честный подсчет функции мощности](#true_power_function)
* [Построение критерия с помощью неравенства Чебышева](#power_function_cheb_inequality)
* [Построение критерия с помощью неравенства Хёффдинга](#power_function_hoff_inequality)
* [Аппроксимация функции мощности с помощью ЦПТ](#power_function_clt_approx)
* [Различные варианты оценки функции мощности $\beta(p, c)$](#power_function_various_estimates)

Пусть дана выборка $\boldX =\{X_1,\dots,X_n\} \sim \Bernoulli(p)$. По $\boldX$ требуется построить критерий для различения гипотез
$$
H_0 \colon p = p_0 \text{ против } H_1\colon p\neq p_0.
$$
Будем строить критерий вида: **если $|\mean{\boldX} - p_0| > c$, то отклоняем $H_0$**. Т.е. в качестве тестовой статистики рассматривается $T(\boldX) = |\mean{\boldX} - p_0|$. Для построения критерия уровня значимости $\alpha$ требуется подобрать такой порог $c$, чтобы было выполнено условие:
$$
P_{p = p_0}(|\mean{\boldX} - p_0| > c) \le \alpha.
$$

<a name='true_power_function'></a>
### Честный подсчет функции мощности<sup>[toc](#_toc)</sup>
$$
P_{p}(|\mean{\boldX} - p_0| \le c) = P_{p}(n(p_0 - c) \le \Sum X_i \le n(p_0 + c)) = \Sum_{k = \max\{\lceil n(p_0-c)\rceil, 0\}}^{\min\{\lfloor n(p_0+c)\rfloor, n\}} C^k_n p^k (1 - p)^{n-k}.
$$

Поэтому для мощности критерия получаем
$$
\beta(p,c) = P_{p}(|\mean{\boldX} - p_0| > c) = 1 - P_{p}(|\mean{\boldX} - p_0| \le c) = 1 - \Sum_{k = \max\{\lceil n(p_0-c)\rceil, 0\}}^{\min\{\lfloor n(p_0+c)\rfloor, n\}} C^k_n p^k (1 - p)^{n-k}.
$$
Это "истинная" функция мощности рассматриваемого критерия. Вероятность ошибки первого рода равна
$$
P_I(c) = \beta(p_0,c) = 1 - \Sum_{k = \max\{\lceil n(p_0-c)\rceil, 0\}}^{\min\{\lfloor n(p_0+c)\rfloor, n\}} C^k_n p_0^k (1 - p_0)^{n-k}.
$$
Вероятность ошибки первого рода есть функция от порога $c$, поэтому данный порог подбирается таким образом, чтобы было выполнено условие на уровень значимости теста
$$
P_I(c) = 1 - \Sum_{k = \max\{\lceil n(p_0-c)\rceil, 0\}}^{\min\{\lfloor n(p_0+c)\rfloor, n\}} C^k_n p_0^k (1 - p_0)^{n-k} \le \alpha.
$$
Заметим, что функция $P_I(c)$ является ступенчатой. Поэтому, запрашивая критерий уровня значимости $\alpha$ мы скорее всего получим тест размера $\alpha^*$, меньшего чем $\alpha$ (размер теста меньше или равен уровню значимости). Т.е. в данном примере проявляется идейная разница между понятиями уровня значимости теста, и размера теста.

Далее мы рассмотрим способы построения критерия, опирающиеся на различные вероятностные неравенства и предельные распределения. В каждом конкретном способе при построении критерия запрошенного уровня значимости $\alpha$ находится некоторый порог $c(\alpha)$. Однако нам также интересен и размер получившегося теста $\alpha^*(c)$, который в общем случае меньше запрошенного уровня значимости $\alpha$.  Т.е. получаем следующую цепочку действий:
$$
\alpha \Rightarrow c(\alpha) \Rightarrow \alpha^*(c) = P_I(c).
$$

<a name='power_function_cheb_inequality'></a>
### Построение критерия с помощью неравенства Чебышева<sup>[toc](#_toc)</sup>

**Неравенство Чебышева:**
$$
P(|\xi - \Exp [\xi]| > \eps) \le \frac{\Var [\xi]}{\eps^2}.
$$

Применительно к рассматраиваемой ситуации
$$
\beta(p, c) = P_{p }(|\mean{\boldX} - p| > c) \le \frac{\Var_{p}[\mean{\boldX}]}{c^2} =  \frac{p(1-p)}{nc^2}.
$$
$$
P_{I}(c) = \beta(p_0, c) \le \frac{p_0(1-p_0)}{nc^2} = \alpha.
$$

<a name='power_function_hoff_inequality'></a>
### Построение критерия с помощью неравенства Хёффдинга<sup>[toc](#_toc)</sup>

**Неравенство Хёффдинга.** Пусть $X_1,\dots,X_n \sim \Bernoulli(p)$. Тогда
$$
P(|\mean{\boldX} - p| > \eps) \le 2e^{-2\eps^2n}.
$$

Применительно к рассматриваемой ситуации
$$
\beta(p,c) = P_{p}(|\mean{\boldX} - p| > c) \le 2e^{-2c^2n}.
$$
$$
P_I(c) = \beta(p_0,c) \le 2e^{-2c^2n} = \alpha.
$$

<a name='power_function_clt_approx'></a>
### Аппроксимация функции мощности с помощью ЦПТ<sup>[toc](#_toc)</sup>

\begin{gather*}
\mean{\boldX} - p = \sqrt{\frac{p(1-p)}{n}} \underbrace{\frac{\sqrt{n}(\mean{\boldX} - p)}{\sqrt{p(1 - p)}}}_{\sim \Normal(0, 1)},\\
\mean{\boldX} - p_0 = p - p_0 + \sqrt{\frac{p(1-p)}{n}} \frac{\sqrt{n}(\mean{\boldX} - p)}{\sqrt{p(1 - p)}} \xrightarrow[n\to\infty]{D} \Normal\left(p - p_0, \frac{p(1-p)}{n}\right).
\end{gather*}
Поэтому можем записать аппроксимацию для функции мощности:
\begin{gather*}
\beta(p,c) = P_{p}(|\mean{\boldX} - p_0| > c) = P_{p}(\mean{\boldX} - p_0 > c) + P_p(\mean{\boldX} - p_0 < -c) \approx \\ \approx
P_{p}\lp Z > \sqrt{\frac{n}{p(1-p)}}(c - p + p_0)\rp +
P_{p}\lp Z < \sqrt{\frac{n}{p(1-p)}}(-c - p + p_0)\rp =\\
= 1 - \Phi\lp \sqrt{\frac{n}{p(1-p)}}(c - p + p_0) \rp +
\Phi\lp \sqrt{\frac{n}{p(1-p)}}(-c - p + p_0) \rp.
\end{gather*}

Для вероятности ошибки первого рода получаем следующую аппроксимацию:
\begin{gather*}
P_I(c) = \beta(p_0,c) \approx 2 \lp 1 - \Phi\lp \sqrt{\frac{n}{p_0(1-p_0)}}c \rp \rp = \alpha.
\end{gather*}

<a name='power_function_various_estimates'></a>
### Различные варианты оценки функции мощности $\beta(p, c)$<sup>[toc](#_toc)</sup>
* Точный рассчет:
$$
\beta(p, c) = \Prob_p(|\mean{\boldX} - p| > c) =  1 - \Sum_{k = \lceil(p - c)n \rceil}^{\lfloor(p + c)n\rfloor} C^k_{n} p^k(1-p)^{n - k}.
$$
* Неравенство Чебышева:
$$
\beta(p, c) \le \frac{p(1 - p)}{nc^2}.
$$
* Неравенство Хёффдинга:
$$
\beta(p, c) \le 2\exp(-2c^2 n).
$$
* Асимптотическая оценка:
$$
\beta(p, c) \approx 1 - \Phi\lp \sqrt{\frac{n}{p(1-p)}}(c - p + p_0) \rp +
\Phi\lp \sqrt{\frac{n}{p(1-p)}}(-c - p + p_0) \rp
$$

Правая часть данных равенств/неравенств по сути можно рассматривать как уровень значимости в зависимости от порога $c$ (но не как размер теста!). Посмотрим на вид функций $\alpha_{\text{true}}(c)$, $\alpha_{\text{cheb}}(c)$, $\alpha_{\text{hoff}}(c)$, $\alpha_{\text{norm}}(c)$.

#### Построение графиков зависимостей $\alpha(c)$ для различных способов построения критерия<sup>[toc](#_toc)</sup>

TODO: Code refactoring

In [None]:
p = 0.78         # Параметры распределения
n = 50           # Размер выборки
gen = scipy.stats.binom(n=1, p=p)
X = gen.rvs(size=n, random_state=123) # Выборка из n отсчетов

In [None]:
mean_gen = scipy.stats.binom(n=n, p = p)
mean_cdf = mean_gen.cdf(np.arange(n + 1))

# Левая и правая границы при отрисовке. Не влиюят на вычисления
x_left = 0
x_right = 0.4

# Осмысленный диапазон значений для порога c
c_max = max(p, 1 - p); n_points = 1000; c_step = c_max / n_points
c_values = np.linspace(c_step, c_max, n_points)


power_function = OrderedDict()
power_function['Cheb'] = p * (1 - p) / (n * c_values ** 2)
power_function['Hoff'] = 2 * np.exp(-2 * c_values ** 2 * n)
power_function['Norm'] = 2 * (1 - scipy.stats.norm.cdf(c_values * np.sqrt(n) / np.sqrt(p * (1 - p))))

cn_low_upp_values = []
for upper_bound in range(int(np.floor(p * n)), n + 1):
    cn_value = upper_bound - p * n
    cn_low_upp_values.append((cn_value, +np.inf, upper_bound))

for lower_bound in range(0, int(np.ceil(p * n)) + 1):
    cn_value = p * n - lower_bound
    cn_low_upp_values.append((cn_value, lower_bound, -np.inf))

# Слияние границ
cn_prev = 0; cn_values = [cn_prev]
lowers = [int(np.ceil(p * n))]
uppers = [int(np.floor(p * n))]
for cn_curr, curr_lower, curr_upper in sorted(cn_low_upp_values):
    if cn_curr == cn_prev:
        # Значение cn не сместилось
        if curr_lower < lowers[-1]:
            lowers[-1] = curr_lower
        if curr_upper > uppers[-1]:
            uppers[-1] = curr_upper
    else:
        cn_values.append(cn_curr)
        cn_prev = cn_curr
        if curr_lower < lowers[-1]:
            lowers.append(curr_lower)
        else:
            lowers.append(lowers[-1])
        if curr_upper > uppers[-1]:
            uppers.append(curr_upper)
        else:
            uppers.append(uppers[-1])
lowers = np.array(lowers, dtype=np.int32)
uppers = np.array(uppers, dtype=np.int32)
cn_values = np.array(cn_values) / n
true_size = 1 - (mean_gen.cdf(uppers) - mean_gen.cdf(lowers - 1))


colors = {'Cheb': 'r', 'Hoff': 'g', 'Norm': 'b'}
plt.figure(figsize=(12, 10))
for key in power_function:
    plt.plot(c_values, power_function[key], color=colors[key], zorder=2, label=key)
plt.step(cn_values, true_size, where='post', color='m', zorder=2, label='True')

plt.ylim(0, 1)
plt.xlim([x_left, x_right])
plt.xlabel(r'critical value, $c$')
plt.ylabel(r'test level, $\alpha$')
plt.title('Test level vs critical value')
plt.legend()
plt.grid(which='both', linestyle=':');

Таким образом, в данном случае истинная зависимость $\alpha_{\text{true}}$ ступенчая, что связано с дискретностью достижимых значений размера теста: не все значения $\alpha$ из интервала (0,1) достигаются при переборе всевозможных порогов $c \ge 0$.

In [None]:
alpha = 0.34                    # Запросим тест вот такого размера
c_alpha_values = OrderedDict()  # А теперь найдем пороги, позволяющие достигнуть теста максимального размера, но не более alpha
c_alpha_values['Cheb'] = np.sqrt(p * (1 - p) / (n * alpha))
c_alpha_values['Hoff'] = np.sqrt(1 / (2 * n) * np.log(2 / alpha))
c_alpha_values['Norm'] = np.sqrt(p * (1 - p) / n) * scipy.stats.norm.ppf(1 - alpha / 2)
c_alpha_values['True'] = cn_values[np.searchsorted((true_size < alpha).astype(np.int32), alpha, side='left')]
real_test_sizes = {}

for test_type, c_alpha_value in c_alpha_values.items():
    c_value_index = np.searchsorted(cn_values, c_alpha_value, side='left')
    if (c_alpha_value < cn_values[c_value_index]) & (cn_values[c_value_index - 1] <= c_alpha_value):
        real_test_size = true_size[c_value_index - 1]
    elif (c_alpha_value < cn_values[c_value_index + 1]) & (cn_values[c_value_index] <= c_alpha_value):
        real_test_size = true_size[c_value_index]
    real_test_sizes[test_type] = real_test_size
    print('Power function type "{}": c_value = {}, requested size = {}, real size = {}.'.format(
        test_type, c_alpha_value, alpha, real_test_size))

In [None]:
colors = {'Cheb': 'r', 'Hoff': 'g', 'Norm': 'b', 'True': 'm'}
plt.figure(figsize=(12, 10))
for key in power_function:
    plt.plot(c_values, power_function[key], color=colors[key], zorder=2, label=key)
plt.step(cn_values, true_size, where='post', color='m', zorder=2, label='True')

plt.plot([0, 1], [alpha, alpha], color='k', linestyle='--', zorder=2, label='requested size')
for test_type, c_alpha_value in c_alpha_values.items():
    plt.plot([c_alpha_value, c_alpha_value], [0, 1], linestyle='--', linewidth=1.5, 
             color=colors[test_type], zorder=2)
    real_test_size = real_test_sizes[test_type]
    plt.plot([0, 1], [real_test_size, real_test_size], linestyle=':', linewidth=1.5, 
             color=colors[test_type], zorder=2)

plt.ylim(0, 1); plt.xlim([x_left, x_right])
plt.xlabel(r'$c$'); plt.ylabel(r'$\alpha$'); plt.title('Test size vs critical value')
plt.legend()
plt.grid(which='both', linestyle=':');

In [None]:
from collections import defaultdict
n_errors = defaultdict(int)
n_runs = 100000

for n_run in tqdm(range(n_runs)):
    test_statistic = abs(np.mean(gen.rvs(n, random_state=n_run)) - p)
    for test_type in c_alpha_values:
        n_errors[test_type] += int(test_statistic > c_alpha_values[test_type] + 1e-8) # Это 1e-8 важна для 
for test_type in c_alpha_values:
    print('Test type = "{}", requested size = {}, real_size = {}, experimental size = {}'.format(
    test_type, alpha, real_test_sizes[test_type], n_errors[test_type] / n_runs))

#### Критерий Вальда<sup>[toc](#_toc)</sup>
TODO

#### Критерий отношения правдоподобий<sup>[toc](#_toc)</sup>
TODO

#### Критерий хи-квадрат<sup>[toc](#_toc)</sup>
TODO

<a name='test_wald'></a>
# Критерий Вальда<sup>[toc](#_toc)</sup>

<a name='test_wald_theory'></a>
## Теория<sup>[toc](#_toc)</sup>
TODO

<a name='test_wald_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>
* [Задача 1. Подбрасывание монетки](#hypo_binomial_task1)
* [Задача 2. Сравнение двух алгоритмов предсказания](#hypo_examples_comp)
* [Задача 6](#test_permutation_task1)

<a name='test_llr'></a>
# Критерий отношения правдоподобий<sup>[toc](#_toc)</sup>

<a name='test_llr_theory'></a>
## Теория<sup>[toc](#_toc)</sup>
TODO

<a name='test_llr_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>
TODO

<a name='test_np'></a>
# Критерий Неймана-Пирсона<sup>[toc](#_toc)</sup>
Предположим, что  мы тестируем гипотезу $H_0\colon \theta = \theta_0$ против альтернативы $H_1\colon \theta = \theta_1$. Пусть
\begin{gather*}
T = \frac{L(\boldX;\theta_1)}{L(\boldX;\theta_0)} = \frac{\Prod_{i=1}^n f(X_i;\theta_1)}{\Prod_{j=1}^n f(X_j;\theta_0)}.
\end{gather*}
Предположим, что гипотеза $H_0$ отбрасывается, если $T > k$. Если выбрать такое значение $k(\alpha)$, что размер теста $\Prob_{\theta_0}(T > k) = \alpha$, тогда данный тест является наиболее мощным тестом размера $\alpha$. Т.е. среди всех тестов размера $\alpha$, данный тест обладает наибольшим значением $\beta(\theta_1)$.

<a name='test_np_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>
* [Задача 1](#test_np_task1)
* [Задача 2](#test_np_task2)

<a name='test_chi2'></a>
# Критерий хи-квадрат<sup>[toc](#_toc)</sup>

<a name='test_chi2_theory'></a>
## Теория<sup>[toc](#_toc)</sup>

<a name='test_chi2_simple'></a>
### Критерий хи-квадрат для проверки простой гипотезы $H_0$<sup>[toc](#_toc)</sup>
Критерий Пирсона предназначен для проверки мультиномиального распреления. Пусть вектор $\boldX = (X_1,\dots,X_m)$ имеет мультиномиальное распределение с параметрами $(n, \boldp)$, где $\boldp = (p_1, \dots, p_m)$, т.е.
$$
P(\boldX = (n_1,\dots,n_m)) = \frac{n!}{n_1!\dots n_m!} p_1^{n_1}\dots p_m^{n_m}.
$$
Требуется построить критерий для различения гипотез:
$$
H_0\colon \boldp = \boldp_0 \text{ против } H_1 \colon \boldp \neq \boldp_0,
$$
где $\boldp_0 = (p_{01}, \dots, p_{0m})$.

**Статистика хи-квадрта ($\chi^2$-статистика)** имеет вид
$$
T_{\chi^2}(\boldX) = \Sum_{j=1}^m\frac{(X_j - np_{0j})^2}{np_{0j}} = \Sum_{j=1}^m\frac{(X_j - E_j)^2}{E_j},
$$
где $E_j = \Exp(X_j) = np_{0j}$ &mdash; мат. ожидание значения $X_j$ при условии справедливости гипотезы $H_0$.

**Если гипотеза $H_0$ верна, то $T \xrightarrow[n\to\infty]{P} \chi^2_{m-1}$. Таким образом, $\alpha$-тест имеет вид: если $T > \chi^2_{m-1,\alpha}$, то гипотеза $H_0$ отклоняется. При этом $\text{p-value}(\boldX) = \Prob(\chi^2_{m-1} > T(\boldx))$, где $\boldx$ &mdash; конкретная реализация $\boldX$.**

<a name='test_chi2_complex'></a>
### Критерий хи-квадрат для проверки сложной гипотезы $H_0$<sup>[toc](#_toc)</sup>

Пусть дана выборка $\boldX = \{X_1,\dots,X_n\}$. Требуется проверить гипотезу о том, что выборка порождена распределением из некоторого параметрического семейства дискретных распределений $\mathcal{F} = \{F_\theta \colon \theta \subseteq \Theta\}$, где $\Theta \subseteq \RR^r$. Пусть $A = \{a_1,\dots, a_m\}$ &mdash; множество возможных значений ($m \leq \infty$). Обозначим $P(X = a_j) = p_j$.
Основная гипотеза имеет вид:
$$
H_0 \colon p_j = p_{0j}(\theta),\quad \theta \in \Theta \subseteq \RR^r, \quad r < m - 1.
$$
Гипотеза $H_0$ является сложной, так как содержит на одно распределение, а семейство распределений.

* **Статистика хи-квадрат для проверки сложной парамерической гипотезы имеет вид**
$$
T_{\chi^2}(\boldX) = \Sum_{j=1}^m \frac{(n_j - n p_{0j}(\hat{\theta}))^2}{np_{0j}(\hat{\theta})},\quad n_j = \Sum_{i=1}^n I[X_i = a_i], \quad \hat{\theta} = \argmax_{\theta \in \Theta} \Prod_{j=1}^m (p_{0j}(\theta))^{n_j}.
$$
т.е. $n_j$ &mdash; количество испытаний с исходом $a_j$, а $\hat{\theta}$ &mdash; оценка максимума правдоподобия.
* **Если гипотеза $H_0$ верна, то**
$$
T_{\chi^2}(\boldX) \xrightarrow[n\to\infty]{D} \chi^2_{m - 1 - r}.
$$
* **Критерий размера $\alpha$ имеет вид: если $T_{\chi^2}(\boldX) > \chi^2_{m - 1 - r, \alpha}$, то гипотеза $H_0$ отклоняется.**

<a name='test_chi2_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>
* [Задача 1](#test_chi2_task1)
* [Задача 2](#test_chi2_task2)
* [Задача 3](#test_chi2_task3)

<a name='test_kolmogorov'></a>
# Критерий Колмогорова<sup>[toc](#_toc)</sup>
* [Теория](#test_kolmogorov_theory)
* [Примеры](#test_kolmogorov_examples)
* [Задачи](#test_kolmogorov_tasks)

<a name='test_kolmogorov_theory'></a>
## Теория<sup>[toc](#_toc)</sup>

Дана выборка $\boldX = \{X_1,\dots,X_k\} \sim F$. Эмпирическая функция распределения имеет вид:
$$
\hat{F}_n(x) = \frac{1}{n} \Sum_{i=1}^{n} I[X_i < x].
$$
Обозначим
$$
D_n = \sup_{x} |\hat{F}_n(x) - F(x)|.
$$

Если гипотеза $H_0$ верна, то
$$
\lim_{n\to\infty} P(\sqrt{n} D_n < x) = K(x),
$$
где
$$
K(x) = \Sum_{j=-\infty}^{+\infty}(-1)^{j}e^{-2j^2x^2}I[x \ge 0].
$$
Функция $K(x)$ &mdash; функция распределения Колмогорова.

На практике для вычисления $D_n$ можно воспользоваться следующей формулой:
$$
D_n = \sqrt{n} \max\left\{\frac{k}{n} - F(X_{(k)}, F(X_{(k)}) - \frac{k - 1}{n}\right\}.
$$

**Критерий Колмогорова: если $\sqrt{n}D_n > K^{-1}(1 - \alpha)$, то гипотеза $H_0$ отклоняется.**

<a name='test_kolmogorov_examples'></a>
## Примеры<sup>[toc](#_toc)</sup>

### Пример 1
Сгенерируем выборку $\boldX \sim F = \Normal(\mu_1, \sigma_1^2)$ и проверим гипотезу $H_0\colon F = \Normal(\mu_2,\sigma_2^2)$.

In [None]:
n_samples = 10
random_state = 2
alpha = 0.05

real_gen = scipy.stats.norm(loc=0., scale=1.)
samples = real_gen.rvs(size=n_samples, random_state=random_state)
samples = np.sort(samples)

tested_gen = scipy.stats.norm(loc=0., scale=1.)
tested_cdfs = tested_gen.cdf(samples)

a = np.abs(np.arange(1, n_samples + 1, dtype=np.float64) / n_samples - tested_cdfs)
b = np.abs(np.arange(n_samples, dtype=np.float64) / n_samples - tested_cdfs)
D = np.max(np.maximum(a, b))
T = np.sqrt(n_samples) * D
c = scipy.stats.kstwobign.ppf(1 - alpha)
p_value = 1 - scipy.stats.kstwobign.cdf(T)
print(f'T = {T}')
print(f'c = {c}')
print(f'p-value = {p_value}')
if p_value > alpha:
    print('Preserving H0')
else:
    print('Rejecting H0')

### Пример 2. Importance sampling<sup>[toc](#_toc)</sup>

In [None]:
n_samples = 100
alpha = 0.05
random_state = 325
source_gen = scipy.stats.norm(loc=1., scale=2.)
target_gen = scipy.stats.norm(loc=1., scale=2.)

#### Importance sampling

In [None]:
source_samples = source_gen.rvs(size=n_samples, random_state=random_state)
log_weights = target_gen.logpdf(source_samples) - source_gen.logpdf(source_samples)
log_weights -= np.max(log_weights)
weights = np.exp(log_weights) / np.sum(np.exp(log_weights))

gen = np.random.RandomState(random_state + 1)
# Such sampling strategy is not very good in results if test's false failing when H0 is correct
# It is better to use deterministic sampling strategy
target_samples = gen.choice(source_samples, size=n_samples, p=weights)
del gen

#### Testing result

In [None]:
target_samples = np.sort(target_samples)
target_cdfs = target_gen.cdf(target_samples)
a = np.abs(np.arange(1, n_samples + 1, dtype=np.float64) / n_samples - target_cdfs)
b = np.abs(np.arange(n_samples, dtype=np.float64) / n_samples - target_cdfs)
D = np.max(np.maximum(a, b))
T = np.sqrt(n_samples) * D
c = scipy.stats.kstwobign.ppf(1 - alpha)
p_value = 1 - scipy.stats.kstwobign.cdf(T)
print(f'T = {T}')
print(f'c = {c}')
print(f'p-value = {p_value}')
if p_value > alpha:
    print('Preserving H0')
else:
    print('Rejecting H0')

<a name='test_kolmogorov_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>

<a name='test_permutation'></a>
# Критерий перестановок<sup>[toc](#_toc)</sup>
* [Теория](#test_permutation_theory)
    * [Формулировка критерия перестановок](#test_permutation_def)
    * [Пример 1. Равенство нормальных распределений](#test_permutation_examle1)
* [Задачи](#test_permutation_tasks)

<a name='test_permutation_theory'></a>
## Теория<sup>[toc](#_toc)</sup>

Пусть $\boldX =\{X_1,\dots,X_n\} \sim F_X$ и $\boldY =\{Y_1,\dots,Y_m\} \sim F_Y$. Обозначим через $\boldZ = (Z_1,\dots,Z_N)$ сконкатенированную выборку $(X_1,\dots,X_n,Y_1,\dots,Y_m)$, $N = m + n$. Требуется протестировать гипотезу $H_0 \colon F_X = F_Y = F_Z$.

Пусть $T(\boldZ) = T(\boldX,\boldY) = T(X_1,\dots,X_n,Y_1,\dots,Y_m)$ &mdash; некоторая тестовая статистика. Например, в качестве такой статистики может выступать
$$
T(\boldX,\boldY) = |\overline{\boldX} - \overline{\boldY}|.
$$

Теоретическая формулировка критериев обычна основана на том, что при справедливости гипотезы $H_0$ статистика критерия $T$ имеет некоторое заданное распределение. Правда в отличие от других критериев, когда для $T$ существует некоторое предельное распределение при увеличении размера выборки, в случае критерия перестановок стоится оценка $\hat{F}_T(t)$ истинной функции распределения $F_T(t)$ для конкретного размера выборки. Собственно, далее попытаемся получить какую-нибудь оценку функции распредления $F_T(t)$ при условии справедливости гипотезы $H_0$, т.е. когда $F_X = F_Y = F_Z$.

#### Оценка распределения $F_T(t)$<sup>[toc](#_toc)</sup>

Допустим, нам известно распределение $F_Z$, и мы можем генерировать выборки из него. При этом наша цель состоит в построении оценки для функции распределения $F_{T}(t)$. Тогда мы могли бы поступить следующим образом:
* Генерируем выборки $\boldZ_1,\dots,\boldZ_M$, где $\boldZ \sim F_Z$.
* Подсчитываем значения $T_1,\dots,T_M$ статистики $T(\boldZ)$ на этих выборках.
* Строим эмпирическую функции $\hat{F}_{T}(t)$ по выборке $\boldT = (T_1,\dots,T_{M})$:
$$
\hat{F}_T(t) = \frac{1}{M} \Sum_{i=1}^{M} I[T_i < t].
$$

Понятно, что на практике первый этап данной процедуры невозможен в силу того, что $F_Z$ неизвестна. Но мы можем построить её э.ф.р., так как нам известна выборка $\boldZ = (Z_1,\dots,Z_{N}) = (X_1,\dots,X_n,Y_1,\dots,Y_m)$:
$$
\hat{F}_Z(z) = \frac{1}{N}\Sum_{i=1}^N I[Z_i < z]
$$
Поэтому будем генерировать новые выборки $\boldZ_1,\dots,\boldZ_M$ из неё. Возможные значения новых выборок &mdash; это всевозможные перестановки известной выборки $\boldZ$, которые обозначим $\boldZ_{1}^{*},\dots,\boldZ_{N!}^{*}$ причем все эти выборки равновероятны:
$$
P(\boldZ_{i}^{*}) = \frac{1}{N!}, \quad i \in \{1,\dots, N!\}.
$$
Множество возможных значений $T(\boldZ)$ дискретно с $N!$ возможными значениями, которые обозначим $T_1^*, \dots, T_{N!}^*$. Истинная функция распределения статистики $T(\boldZ)$ имеет вид:
$$
\tilde{F}_T(t) = \frac{1}{N!} \Sum_{i=1}^{N!} I[T_i^* < t].
$$
Поэтому с ростом  с ростом числа генерируемых выборок $M$, а точнее при $M \gg N!$, э.ф.р. по значениям $T_1,\dots,T_M$ приблизится к данной функции. Но тогда и генерировать эти $M$ выборок из $\hat{F}_Z$ незачем, а достаточно сразу смотреть на предельную $\tilde{F}_T(t)$.

Далее возникает вопрос, насколько правомерна замена $F_Z$ на $\hat{F}_Z$? Тут уже есть результат, утверждающий, что 
$\hat{F}_Z$ сходится к $F_Z$ равномерно с увеличением размера выборки $N$. При этом можно показать, хотя здесь этого и не делаем, что $\hat{F}_T(t)$ будет сходиться к $F_T(t)$:
$$
\hat{F}_T(t) = \frac{1}{N!} \Sum_{i=1}^{N!} I[T_i^* < t] \rightarrow F_T(t).
$$

#### Оценка p-value<sup>[toc](#_toc)</sup>
Предположим, что $\hat{F}_T(t) \approx F_T(t)$. Тогда для конкретных реализаций выборок $\boldx$ и $\boldy$ получаем, что p-value можно оценить следующим образом:
$$
\text{p-value}(\boldx, \boldy) = P_{H_0}(T(\boldX,\boldY) > T(\boldx, \boldy)) = 1 - F_T(T(\boldx,\boldy)) \approx 1 - \hat{F}_T(T(\boldx,\boldy)).
$$

<a name='test_permutation_def'></a>
### Формулировка критерия перестановок<sup>[toc](#_toc)</sup>
* Генерируем все $N!$ перестановок выборки $\boldZ = (\boldX,\boldY)$
* Для перестановки $\boldZ_i^*$ считаем значение статистики $T_i^* = T(\boldX_i^*)$
* Вычисляем приближенное значение p-value:
$$
\text{p-value} = \frac{1}{N!} \Sum_{i=1}^{N!} I[T_i^* > T(\boldX,\boldY)].
$$


В некоторых случаях количество перестановок можно уменьшить. Например, в случае статистики
$$
T(\boldX,\boldY) = |\mean{\boldX} - \mean{\boldY}|
$$
достаточно сгенерировать $C^{n}_{n+m} = \frac{(n + m)!}{n!m!}$ разбиений элементов $(X_1,\dots,X_n,Y_1,\dots,Y_m)$ на группы размера $n$ и $m$. Каждому разбиению соответствует $n!m!$ перестановок элементов внутри групп, но каждая такая перестановка дает одно и то же значение статистики, поэтому генерировать все перестановки не нужно.

В любом случае, если требуемое количество генерируемых перестановок слишком велико, то можно воспользоваться приближенной процедурой:
* Генерируем $B$ ($B < N!$) перестановок выборки $\boldZ = (\boldX,\boldY)$
* Для перестановки $\boldZ_i^*$ считаем значение статистики $T_i^* = T(\boldX_i^*)$ 
* Вычислим приближенное значение $\text{p-value}$:
$$
\text{p-value} = \frac{1}{B} \Sum_{i=1}^B I[T_i^* > T(\boldX,\boldY)].
$$

<a name='test_permutation_examle1'></a>
### Пример 1. Равенство нормальных распределений<sup>[toc](#_toc)</sup>
Пусть $\boldX = \{X_1,\dots,X_n\} \sim \Normal(\mu_1,\sigma^2)$, $\boldY = \{Y_1,\dots,Y_m\} \sim \Normal(\mu_2,\sigma^2)$. Требуется построить критерий перестановок для проверки $H_0 \colon \mu_1 = \mu_2$.

**Решение.**
Будем рассматривать статистику 
$$
T(\boldX,\boldY) = |\overline{\boldX} - \overline{\boldY}|.
$$

Сначала решим следующую подзадачу: найдем распределение случайной величины $T(\boldX,\boldY) = |\mean{\boldX} - \mean{\boldY}|$, где $\boldX \sim \Normal(\mu_1,\sigma_1^2)$, $\boldY \sim \Normal(\mu_2,\sigma_2^2)$,
Так как распределения нормальные, то
$$
\overline{\boldX} - \overline{\boldY} \sim \Normal\left(\mu_1 - \mu_2, \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right),
$$
т.е. распределение статистики &mdash; распределение модуля нормальной случайной величины.

Рассмотрим параметры распределения модуля нормальной случайной величины. Пусть $X \sim \Normal(0, \sigma^2)$. Тогда
\begin{align*}
&p_{|X|}(x) = \frac{2}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} I[x \ge 0],\\
&F_{|X|}(x) = 2 \Phi(x),\\
&E[|X|] = \Int_{0}^{+\infty} \frac{2x}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} dx = \frac{2}{\sqrt{2\pi\sigma^2}} \Int_{0}^{+\infty} e^{-\frac{z}{\sigma^2}} dz = \sqrt{\frac{2\sigma^2}{\pi}},\\
&E[X^2] = \Int_{0}^{+\infty} \frac{2x^2}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} dx =
\Int_{-\infty}^{+\infty} \frac{x^2}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} dx = \sigma^2,\\
&\Var[|X|] = \sigma^2 \frac{\pi - 2}{\pi}.
\end{align*}

В случае справедливости гипотезы $H_0$ $\mu_1 = \mu_2 = \mu$, т.е. при $\boldX \sim \Normal(\mu,\sigma_1^2)$ и $\boldY \sim \Normal(\mu,\sigma_2^2)$ для теоретических значений параметров распределения $T(\boldX,\boldY)$ получаем:
\begin{align*}
&p_{T(\boldX,\boldY)}(x) = \frac{2}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{\sigma^2}\right),\quad \mu = 0, \quad \sigma^2 = \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}, \\
&\Exp[T(\boldX,\boldY)] = p[|\overline{\boldX} - \overline{\boldY}|] = \sqrt{\frac{2}{\pi}\left(\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right)},\\
&\Exp[T(\boldX,\boldY)^2] = \Exp[|\overline{\boldX} - \overline{\boldY}|^2] = \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m},\\
&\Var[T(\boldX,\boldY)] = \Var[|\overline{\boldX} - \overline{\boldY}|] = \left(\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right) \frac{\pi - 2}{\pi}.\\
\end{align*}

**Сгенерируем выборки $\boldX$ и $\boldY$.**

In [None]:
random_state = 4

mu1 = 5
sigma1 = 1
n_samples1 = 9

mu2 = 5
sigma2 = 1
n_samples2 = 9

gen1 = scipy.stats.norm(loc=mu1, scale=sigma1)
gen2 = scipy.stats.norm(loc=mu2, scale=sigma2)
X = gen1.rvs(size=n_samples1, random_state=random_state)
Y = gen2.rvs(size=n_samples2, random_state=random_state + 1)
Z = np.concatenate([X, Y])

**Найдем теоретические и практические оценки параметров распределения статистики $T(\boldX,\boldY)$.**
Заметим, что ниже генерируются только $\frac{(n+m)}{!n!m!}$ значений статистики $T$, а не все $(n + m)!$ возможных, так как для каждой перестановки существует $n!m!$ перестановок (включая идентичную), которые получаются перестановками внутри групп $Z_1,\dots,Z_n$ и $Z_{n+1},\dots,Z_{n + m}$, и на которых статистика $T$ имеет то же самое значение.

In [None]:
import math
from itertools import combinations

n_samples = n_samples1 + n_samples2
statistics = []
for subset in combinations(range(n_samples), n_samples1):
    S_X = np.sum(Z[np.array(subset)])
    S_Y = np.sum(Z) - S_X
    S_X /= n_samples1
    S_Y /= n_samples2
    T = np.abs(S_X - S_Y)
    statistics.append(T)
assert len(statistics) == math.factorial(n_samples) / math.factorial(n_samples1) / math.factorial(n_samples2)
print(f'Number of Ts: {len(statistics)}')

X_mean_var_estimated = np.std(X) / n_samples1  # Variance of mean(X)
Y_mean_var_estimated = np.std(Y) / n_samples2  # Variance of mean(Y)

T_mean_theoretical = np.sqrt(2 * (sigma1**2 / n_samples1 + sigma2**2 / n_samples2) / np.pi)
T_var_theoretical = (sigma1**2 / n_samples1 + sigma2**2 / n_samples2) * (np.pi - 2) / np.pi 
print('theoretical: T_mean = {:4f}, T_var = {:.4f}'.format(
    T_mean_theoretical, T_var_theoretical))

T_mean_estimated = np.mean(statistics)
T_var_estimated = np.var(statistics, ddof=0)
print('estimated: T_mean = {:4f}, T_var = {:.4f}'.format(
    T_mean_estimated, T_var_estimated))

**Построим теоретические и практические оценки распределения статитсики $T(\boldX,\boldY)$.**

In [None]:
fig, axarr = plt.subplots(1, 2, figsize=(20, 8))

# 1. Plotting CDFs
ax = axarr[0]
statistics = np.sort(statistics)
ecdf_values = np.arange(len(statistics), dtype=np.float64) / len(statistics)
ax.step(statistics, ecdf_values, where='post', color='b', label='estimated')
ax.plot(statistics, 2 * (scipy.stats.norm.cdf(
        statistics, loc=0., scale=np.sqrt(sigma1**2 / n_samples1 + sigma2**2 / n_samples2)) - 0.5),
        color='r', label='real')
ax.grid(which='both', linestyle=':', alpha=0.5);
ax.set_title('Real and estimated F_T')
ax.set_xlabel('t')
ax.set_ylabel('F_T(t)')
ax.legend();


# 2. Plotting PDFs
ax = axarr[1]

# Theoretical pdf of T(\boldX,\boldY)
xs = np.linspace(np.min(statistics), np.max(statistics), 1000)
pdfs = 2 * scipy.stats.norm.pdf(
    xs, loc=0, scale=np.sqrt(sigma1**2 / n_samples1 + sigma2**2 / n_samples2))
ax.plot(xs, pdfs, color='r')

# Estimated histogram estimated for pdf of T(\boldX, \boldY)
ax.hist(statistics, density=True, color='b', edgecolor='k', alpha=0.5);
ax.grid(which='both', linestyle=':', alpha=0.5);
ax.set_title('Real and estimated p_T')
ax.set_xlabel('t')
ax.set_ylabel('p_T(t)');

При $\mu_1 = \mu_2 = \mu$ и $\sigma_1^2 = \sigma_2^2 = \sigma^2$ (т.е. при гипотезе $H_0$) функция распределения $F_T(t)$ её эмпирическая оценка $\hat{F}_T(t)$ должны получиться довольно близкими, что демонстрирует возможность использовать $\hat{F}_{T}(t)$ для подсчета p-value:
$$
\text{p-value}(\boldx,\boldy) = P(T(\boldX,\boldY) > T(\boldx,\boldy)) = 1 - F_{T}(T(\boldx,\boldy)) \approx 1 - \hat{F}_{T}(T(\boldx,\boldy)) = \frac{1}{N!} \Sum_{i=1}^{N!} I[T_i > T_1].
$$

In [None]:
statistic = np.abs(np.mean(X) - np.mean(Y))
p_value = np.mean(np.array(statistics) > statistic)
print('p-value: {}'.format(p_value))

<a name='test_permutation_tasks'></a>
## Задачи<sup>[toc](#_toc)</sup>
* [Задача 1](#test_permutation_task1)

<a name='tasks'></a>
# Задачи<sup>[toc](#_toc)</sup>

<a name='hypo_binomial_task1'></a>
## Задача 1 (Подбрасывание монетки)<sup>[toc](#_toc)</sup>
В результате эксперимента с подбрасыванием монетки были 922 раза выпал "орел" и 997 раз выпала "решка". Протестируйте гипотезу о том, что монетка симметрична, на уровне значимости 0.05.

In [None]:
X = 922
Y = 997
p0 = 0.5
alpha = 0.05

N = X + Y

#### Тест Вальда<sup>[toc](#toc)</sup>

In [None]:
p_estimated = X / N
p_var_estimated = p_estimated * (1 - p_estimated) / N
w_statistic = abs(X / N - p0) / np.sqrt(p_var_estimated)
p_value = 2 * (1 - scipy.stats.norm.cdf(w_statistic))
print(f'estimated p: {p_estimated}')
print(f'estimated variance of p: {p_var_estimated}')
print(f'Wald statistic value: {w_statistic}')
print(f'p_value for Wald test: {p_value}')
if p_value < alpha:
    print('result: H0 rejected')
else:
    print('result: H0 preserved')

Построим доверительные интервалы для уровней $1 - \alpha$ и $1 - \text{p-value}(\boldX)$. Заметим, что по определению $\text{p-value}$ доверительный интервал уровня $1 - \text{p-value}(\boldX)$ должен "поймать" ожидаемое значение $p_0 = 0.5$.

In [None]:
beta = p_value

z_alpha = scipy.stats.norm.ppf(1 - alpha / 2)
z_beta = scipy.stats.norm.ppf(1 - beta / 2)
print(z_alpha, z_beta)

p_std = np.sqrt(p_var_estimated)
p_alpha_conf = (p_estimated - z_alpha * p_std, p_estimated + z_alpha * p_std)
p_beta_conf = (p_estimated - z_beta * p_std, p_estimated + z_beta * p_std)

print('confidence interval for alpha = {}: {}'.format(int((1 - alpha) * 100), p_alpha_conf))
print('confidence interval for beta = {}: {}'.format(int((1 - beta) * 100), p_beta_conf))

#### Критерий хи-квадрат<sup>[toc](#toc)</sup>
Статистика хи-квадрат в рассматриваемом случае имеет вид
\begin{gather*}
T_{\chi^2}(\boldX) = \frac{(X - p_0N)^2}{p_0 N} + \frac{(Y - p_1N)^2}{p_1 N} = \frac{p_1(X - p_0 N)^2 + (Y - p_1 N)^2}{N p_0 p_1} = \frac{p_1 X^2 - 2 p_0 p_1 X N + p_1 p_0^2N^2 + p_0 Y^2 - 2 p_0 p_1 Y N + p_0p_1^2 N^2}{Np_0(1-p_0)} = 
\frac{p_1 X^2 + p_0 Y^2 - 2 p_0 p_1 N^2 + p_0p_1 N^2}{N p_0(1 - p_0)} = 
\frac{p_1 X^2 + p_0 (N - X)^2 - 2 p_0 p_1 N^2 + p_0 p_1 N^2}{N p_0(1 - p_0)} =
\frac{p_1 X^2 + p_0 N^2 - 2 p_0 N X + p_0 X^2 - 2 p_0 p_1 N^2 + p_0 p_1 N^2}{N p_0(1 - p_0)} = 
\frac{X^2 - 2 p_0 NX + p_0^2N^2}{N p_0 (1 - p_0)} = \frac{(X - p_0 N)^2}{Np_0(1 - p_0)}.
\end{gather*}

In [None]:
chi2_statistic = (X - p0 * N) ** 2 / (p0 * N) + (Y - (1 - p0) * N) ** 2 / ((1 - p0) * N)
p_value = 1 - scipy.stats.chi2.cdf(x=chi2_statistic, df=1)
print('chi2 statistic value:', chi2_statistic)
print('p_value for chi2 test:', p_value)

<a name='comparing_prediction_algorithms'></a>
## Задача 2. Сравнение двух алгоритмов предсказания<sup>[toc](#_toc)</sup>

$\boldX \sim \Binomial(n_X, p_X)$, $\boldY \sim \Binomial(n_Y, p_Y)$

$$
H_0 \colon p_X = p_Y \text{ против } H_1 \colon p_X \neq p_Y.
$$

### Нагенерируем данных<sup>[toc](#_toc)</sup>

In [None]:
seed = 3543636
tests_number = 10000
samples_number = 1500
p = 0.12

gen = np.random.RandomState(seed)
X = gen.binomial(1, p, size=(tests_number, samples_number))
Y = gen.binomial(1, p, size=(tests_number, samples_number))
print(f'X.shape={X.shape}, Y.shape={Y.shape}')

### Критерий Вальда<sup>[toc](#_toc)</sup>
Предположим, что алогоритмы работали на разных исходных данных, так что выборки $\boldX$ и $\boldY$ можно считать независимыми.
$$
T(\boldX,\boldY) = |\overline{\boldX} - \overline{\boldY}|
$$

Если $\boldX = \{X_1,\dots,X_n\} \sim \Bernoulli(p)$, то для дисперсии выборочного среднего $\overline{\boldX}$ и оценки дисперсии $\overline{\boldX}$ получаем:
$$
\Var_{p}[\overline{\boldX}] = \frac{p(1-p)}{n}, \quad \hat{\Var}_{p}[\overline{\boldX}] = \frac{\hatp(1-\hatp)}{n}
$$

Поэтому для оценки дисперсии $W = \overline{\boldX} - \overline{\boldY}$ получаем:
$$
\hat{\Var}[W] = \hat{\Var}_{p_X}[\overline{\boldX}] + \hat{\Var}_{p_Y}[\overline{\boldY}] = \frac{\hatp_X(1-\hatp_X)}{n_X}+ \frac{\hatp_Y(1-\hatp_Y)}{n_Y}.
$$

$W$ &mdash; асимптотически нормальная случайная величина.

In [None]:
alpha = 0.05

p_X_estimates = np.mean(X, axis=1)
p_X_var_estimates = np.var(X, axis=1, ddof=0) / samples_number
assert p_X_estimates.shape == (tests_number,)

p_Y_estimates = np.mean(Y, axis=1)
p_Y_var_estimates = np.var(Y, axis=1, ddof=0) / samples_number
assert p_Y_estimates.shape == (tests_number,)

W_values = (p_X_estimates - p_Y_estimates) / np.sqrt(p_X_var_estimates + p_Y_var_estimates)
assert W_values.shape == p_X_estimates.shape

z_alpha = scipy.stats.norm.ppf(q=1 - alpha / 2., loc=0, scale=1.)

print('Estimated test size: {}'.format(np.mean(np.abs(W_values) > z_alpha)))

### Paired comparison [Not ready]<sup>[toc](#_toc)</sup>

Если алгоритмы работали на одинаковых исходных данных, то $\boldX$ и $\boldY$ зависимы. В таком случае хотим протестировать, что выносятся одинаковые решения.
$$
D_i = I[X_i \neq Y_i]
$$

Эквивалентность алгоритмов в данном случае следует понимать в том смысле, что они выносят одинаковые решения на одних и тех же данных.

In [None]:
deltas = np.array(results_mean) - np.array(results_median)
delta_mean = np.mean(deltas)
delta_std  = np.std(deltas)
W = delta_mean / delta_std
p_value = 2 * (1 - scipy.stats.norm.cdf(abs(W), loc=0.0, scale=1.0))
print('W = {}, p_value = {}'.format(W, p_value))

<a name='test_chi2_task1'></a>
## Задача 3<sup>[toc](#_toc)</sup>
Фирма предлагает 3 вида продукта. По данным прошлого года вероятности заказов для разных видов соответственно равны 0,1; 0, 65; 0,25. В этом году из 600 покупателей 42 приобрели продукт первого вида, 365 &mdash; второго, 193 &mdash; третьего. Можно ли считать, что предпочтения покупателей не изменились?

In [None]:
probas = np.array([0.1, 0.65, 0.25])
n_samples = 600
values = np.array([42, 365, 193])

In [None]:
print(f'estimated probas = {values / n_samples}')
chi2_statistic = np.sum((values - n_samples * probas) ** 2 / (n_samples * probas))
p_value = 1 - scipy.stats.chi2.cdf(chi2_statistic, df=len(values) - 1)
print(f'chi2 statistic value = {chi2_statistic}')
print(f'p-value = {p_value}')

<a name='test_chi2_task2'></a>
## Задача 4<sup>[toc](#_toc)</sup>
В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, полученных при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в следующей таблице:

|Семена                | Частота | Вероятность |
|---     |---  |---  |
|Круглые и желтые      | 315 | 9/16 |
|Морщинистые и желтые  | 101 | 3/16 |
|Круглые и зеленые     | 108 | 3/16 |
|Морщинистые и зеленые | 32  | 1/16 |

Проверьте гипотезу $H_0$ о согласии частот с теоретическими вероятностями (на уровне значимости $\alpha=0.1$).

In [None]:
probas = np.array([9, 3, 3, 1]) / 16.0
counts = np.array([315, 101, 108, 32])

In [None]:
n_samples = np.sum(counts)
chi2_statistic = np.sum((counts - probas * n_samples)**2 / (probas * n_samples))
p_value = 1 - scipy.stats.chi2.cdf(chi2_statistic, df=len(counts) - 1)
print(f'chi2 statistic value = {chi2_statistic}')
print(f'p-value = {p_value}')

<a name='test_chi2_task3'></a>
## Задача 5<sup>[toc](#_toc)</sup>

Проверить гипотезу $H_0 \colon \Poisson(\lambda)$, $\lambda > 0$, но точное значение $\lambda$ не дано.

| $m$    | 0   | 1   | 2   | 3  | 4   | 5 |
|---     |---  |---  |---  |--- | --- |---|
| $n_i$  |  13 | 17  | 12  | 5  | 3   | 1 |

### Решение<sup>[toc](#_toc)</sup>

Статистика хи-квадрат имеет вид
$$
T_{\chi2}(\boldX) = \Sum_{i=0}^{M} \frac{(n_i - np_{0i})^2}{np_{0i}}.
$$
Формально для распределения Пуассона $M = \infty$, поэтому пойдем другим путем. 

Рассмотрим процесс тестирования гипотезы $H_0\colon \Poisson(\lambda)$, т.е. при конкретном значении $\lambda$. Определим вектор $\boldp = (p_0, p_1, \dots, p_K)$ следующим образом
\begin{align*}
&p_0 = e^{-\lambda},\\
&p_1 = e^{-\lambda} \frac{\lambda}{1!},\\
&p_2 = e^{-\lambda} \frac{\lambda^2}{2!},\\
&\dots \\
&p_{K-1} = e^{-\lambda} \frac{\lambda^{K-1}}{(K - 1)!},\\
&p_K = e^{-\lambda} \frac{\lambda^K}{K!} + e^{-\lambda} \frac{\lambda^{K+1}}{(K + 1)!} + \dots = \Sum_{i = K}^{+\infty} e^{-\lambda}\frac{\lambda^i}{i!} = 1 - \Sum_{i=0}^{K-1} p_i.
\end{align*}
Теперь в решаемой задаче возьмем $K = 6$, и дополнительно положим, что $n_K = 0$ (вообще можно взять и $K < 6$, но тогда надо будет сгуппировать наблюдения $\ge K$ в новый класс).

#### Максимум правдоподобия<sup>[toc](#_toc)</sup>

Так как вероятность $p_K$ и выше в вычислении правдоподобия не участвуют, то результат максимум правдоподобия не меняется и вычисляется как и обычного распределения Пуассона:
$$
\hat{\lambda} = \mean{\boldX}.
$$

#### Статистика хи-квадрат<sup>[toc]</sup>
$$
T_{\chi2}(\boldX) = \Sum_{i=0}^{K - 1} \frac{(n_i - np_{0i}(\hat{\lambda}))^2}{np_{0i}(\hat{\lambda})} + n p_{0K}(\lambda) \xrightarrow[n \to \infty]{D} \chi^2_{K - 1}.
$$

In [None]:
counts = np.array([13, 17, 12, 5, 3, 1, 0]) # N_0,...,N_{K-1}, N_K = 0
assert counts[-1] == 0

values = np.arange(len(counts))
n_samples = np.sum(counts)

In [None]:
# Calling mu since scipy calls it mu
mu = np.sum(values * counts) / n_samples
probas = scipy.stats.poisson.pmf(values, mu=mu)
probas[-1] = 1 - np.sum(probas[:-1])
assert np.isclose(np.sum(probas), 1)

print('Estimated (MLE) lambda =', mu)
print('Estimated (MLE) probas =', probas)

In [None]:
chi2_statistic = np.sum((counts - probas * n_samples)**2 / (probas * n_samples))
p_value = 1 - scipy.stats.chi2.cdf(chi2_statistic, df=len(counts) - 2)
print('chi statistic =', chi2_statistic)
print('p-value =', p_value)

<a name='test_permutation_task1'></a>
## Задача 6<sup>[toc](#_toc)</sup>
Сгенерируем две выборки размера $n = 10$ каждая: $\boldX_1$ из $\Normal(\mu_1, \sigma^2)$ и $\boldX_2$ из $\Normal(\mu_2, \sigma^2)$, где $\mu_1 = 0.7$, $\mu=0.76$, $\sigma=0.05$. Требуется с помощью теста перестановок найти p-value для гипотезы о том, что $H_0 \colon \mu_1 = \mu_2$.

TODO: Rewrite code

In [None]:
random_state = 3
n_samples = 10
mu1 = 0.70
mu2 = 0.74
sigma = 0.05
X_len = Y_len = n_samples
X_samples = scipy.stats.norm.rvs(size=X_len, loc=mu1, scale=sigma, random_state=random_state)
Y_samples = scipy.stats.norm.rvs(size=Y_len, loc=mu2, scale=sigma, random_state=random_state + 1)
for i, (x, y) in enumerate(zip(X_samples, Y_samples)):
    print('i = {:<2}, x[i] = {:.3f}, y[i] = {:.3f}'.format(i, x, y))

#### Тест перестановками<sup>[toc](#toc)</sup>

In [None]:
from itertools import combinations

n_rejections = 0
indices = np.array(list(range(X_len + Y_len)))

obs_statistics = abs(np.mean(X_samples) - np.mean(Y_samples))
XY_samples = np.concatenate([X_samples, Y_samples])
XY_sum = np.sum(XY_samples)

n_permutations = 0
for X_indices in combinations(indices, X_len):
    est_X_sum = np.sum(XY_samples[np.array(X_indices)])
    mean_X_sum = est_X_sum / X_len
    
    est_Y_sum = XY_sum - est_X_sum
    mean_Y_sum = est_Y_sum / Y_len 
    
    n_rejections += int(abs(mean_X_sum - mean_Y_sum) > obs_statistics)
    n_permutations += 1

print('p_value =', n_rejections / n_permutations)

#### Тест Вальда<sup>[toc](#_toc)</sup>

In [None]:
X_mean = np.mean(X_samples); X_mean_std = np.std(X_samples) / np.sqrt(X_len)
Y_mean = np.mean(Y_samples); Y_mean_std = np.std(Y_samples) / np.sqrt(Y_len)
W = abs(X_mean - Y_mean) / np.sqrt(X_mean_std ** 2 + Y_mean_std ** 2)
pvalue = 2 * (1 - scipy.stats.norm.cdf(W))
print('p_value =', pvalue)

<a name='test_np_task1'></a>
## Задача 7<sup>[toc](#_toc)</sup>
Найдите наилучшую критическую область (НКО) для проверки гипотезы $H_0 \colon \Uniform[-a, a]$ против гипотезы $H_1 \colon \Normal(0, \sigma)$ по одному
наблюдению $(n = 1)$ при уровне значимости $\alpha = 0.1$. Найдите мощность полученного критерия.

<a name='test_np_task2'></a>
## Задача 8<sup>[toc](#toc)</sup>
Проверяются гипотезы о плотности $f$ распределения наблюдений $\boldX^n$: гипотеза $H_0\colon f = f_0$ против альтернативы $H_1\colon f = f_1$, где
\begin{gather*}
f_1(x) = 
\begin{cases}
1, &x \in [0,1],\\
0, &x \notin [0, 1],
\end{cases}
\qquad
f_2(x)=
\begin{cases}
2x, &x \in [0, 1], \\
0, &x \notin [0, 1].
\end{cases}
\end{gather*}
Построить наиболее мощный критерий размера $\alpha$ при $n = 1$ и $n = 2$.