# Лабораторная работа №2

## Задание 1
$\gamma = 0.05$.
Используя критерий $\chi^2$ проверить гипотезу о стандартном нормальном распределении.

Генерируем $\left\{ X_i \right\} \sim N \left( 0, 1 \right)$.

Выбираем $n \geq 100, 20 \leq r \leq 50$.
Области выбираем таким образом, чтобы $n \cdot p_i \geq 5$.

### Гипотеза о виде распределения. Критерий $\chi^2$ Пирсона
Критерий $\chi^2$ (Колмогорова) используется для проверки простой гипотезы.

Критерий Пирсона является универсальным критерием.

Критерий Пирсона работает для дискретных случайных величин, которые принимают конечное число значений.

Пусть есть случайная величина $X$, которая принимает значения в
$\mathbb{R} = \left( -\infty, +\infty \right) = \bigcup \limits_{i=1}^r U_i, \, U_i \cap U_j = \emptyset$.

Есть вектор наблюдений $\vec{X}$ и реализации $\vec{x}$.
По реализациям знаем количество точек $\nu_i$, которые попали в каждый промежуток,
$$\sum \limits_{i=1}^n \nu_i = n.$$

Составляем меру Пирсона
$$\Delta_n^{\left(r\right)} \left( \vec{X} \right) =
\sum \limits_{i=1}^r \frac{\left( \nu_i - n \cdot p_i \right)^2}{n \cdot p_i} =
\sum \limits_{i=1}^r \frac{\nu_i^2}{n \cdot p_i} - n,$$
где
$$p_i = \int \limits_{U_i} dF \left( u \right), \, \sum \limits_{i=1}^r p_i = 1.$$

Теорема Пирсона.
$$\lim \limits_{n\to \infty} P \left\{ \Delta_n^{\left( r \right)} \left( \vec{X} \right) < z \; \middle| \; H_0 \right\} = T_{r - 1} \left( z \right),$$
где $T_{n-1} \left( z \right)$ --- $\chi^2$-распределение с $\left( r-1 \right)$ степенью свободы.

Критерий проверки простой гипотезы:

1) задаём $\gamma$ --- оценка для погрешности первого рода;

2) решаем $T_{r-1}\left( z\right) = 1 - \gamma$.
Отсюда находим $z_{\gamma}$;

3) критическая область
$\mathbb{Z}_1 = \left\{ \vec{x}: \Delta_n^{\left(r\right)} \left( \vec{x} \right) > z_{\gamma}\right\}$.

Не определено, какое количество областей нужно выбирать и каким образом их выбирать.

Этот критерий состоятельный,
то есть с увеличением наблюдений (при $n \to \infty$) ошибка второго рода стремится к нулю.

In [40]:
from numpy.random import normal, uniform
from numpy import histogram, where, array, exp, sqrt
from scipy.stats import chi2, norm
from scipy.special import kolmogi

In [2]:
x = normal(size=1300)
r = 20
gamma = 0.05
nu = histogram(x, bins=r)[0]
U = histogram(x, bins=r)[1]
p = array([float(n) / (x.shape[0]) for n in nu])
delta = 0
for i in range(0, r):
    delta += (nu[i] - x.shape[0] * p[i]) ** 2 / (x.shape[0] * p[i])
z = chi2.ppf(gamma, r - 1)
print "delta:", delta
print "z_gamma:", z
if delta < z:
    print "x has N(0, 1) distribution"
else:
    print "x doesn't have N(0, 1) distribution"

delta: 4.86654220287e-30
z_gamma: 10.1170130639
x has N(0, 1) distribution


## Задание 2
Используя критерий пустых ящиков проверить нулевую гипотезу $H_0$ про равномерное распределение,
то есть что наблюдения $\left\{ X_i \right\}$ имеют равномерное распределение на $\left[ 0, 1 \right]$.

Пусть
$$\rho = \frac{n}{r} = 2.$$

Применяем критерий при $n = 40, r = 20$ (используем ассимптотику, то есть теорему),
$n = 400, r = 200, n = 4000, r = 2000$.

### Гипотеза о виде распределения. Критерий пустых ящиков

Проверяем простую гипотезу $H_0: \, \eta \sim F \left( \cdot \right)$.

Допустим, что функция $F \left( \cdot \right)$ имеет обратную, то есть $\exists F^{-1}\left( \cdot \right)$.

Это так, когда $\exists f \left( \cdot \right)$ --- плотность распределения,
$f \left( u \right) > 0, \, f \left( \cdot \right) $ --- абсолютно непрерывна.

Эта гипотеза эквивалентна гипотезе $H_0: \, \xi = F \left( \eta \right) $ равномерно распределена на
$\left[ 0, 1 \right] $.
Докажем это.
Рассмотрим распределение этой величины
$P \left\{ \xi = F \left( \eta \right) < u \right\} =
P \left\{ \eta \leq F^{-1} \left( u \right) \right\} =
F \left( F^{-1} \left( u \right) \right) =
u$.
Очевидно, что $\xi \in \left[ 0, 1 \right]$, то есть это равномерное распределение.
Доказательство окончено.

Если есть выборка $\vec{X} = \left( X_1, \dotsc, X_n \right)$, то проверить, что $\vec{X}$ имеет распределение $F \left( \cdot \right) $ --- это то же самое, что проверить,
что $\vec{F \left( X \right)} = \left( F \left( X_1 \right), \dotsc, F \left( X_n \right) \right) $
имеет равномерное распределение.

Разобьём промежуток $\left[ 0, 1 \right] $ на $r$ равных частей.
$H_0: \, \xi$ имеет равномерное распределение на $\left[ 0, 1 \right] $.
Обозначим $\mu_o \left( n, r \right)$ --- количество отрезков, где нет ни одного наблюдения
(количество пустых ящиков), где $n$ --- количество частиц.

Обозначим $\nu_i$ --- количество частицв промежутке $U_i$.

Тогда
$$\mu_0 \left( n, r \right) = \sum \limits_{i=1}^r \mathbb{1} \left\{ \nu_i = 0 \right\}.$$
Эти величины являются зависимыми.

Вычислим $M\mu_0 \left( n, r \right)$.
Математическое ожидание от индикатора --- это вероятность, распределение одинаковое.
Допустим, что $\xi$ имеет произвольное распределение, сосредоточенное на $\left[ 0, 1 \right]$,
Тогда $p_i = P \left( \xi \in U_i \right), \, i = \overline{1, r}$.
$$M \mu_0 \left( n, r \right) =
\sum \limits_{i=1}^r P \left( \nu_i = 0 \right) =
\sum \limits_{i=1}^r \left( 1 - p_i \right)^n.$$

Посмотрим, при каком распределении эта величина является минимальной:
$$\sum \limits_{i=1}^r \left( 1 - p_i \right)^n \Rightarrow \min \limits_{\left\{ p_i \right\}}.$$

Если распределение является равномерным, то количество пустых ящиков минимально.
Докажем это.
Покажем, что минимум математического ожидания достигается, когда все $p_i$ равны $1 / r$.
Будем помнить, что $p_1 + \dotsc + p_r = 1$.
Берём производную по $p_i, \, o = \overline{1, r - 1}: \, -n \cdot \left( 1 - p_i \right)^{n - 1} + n \cdot \left( p_1 + \dotsc + p_{r-1} \right)^{n-1} = 0, \, i = \overline{1, r-1}$.
Получается, что все $p_i = p_r, \, i = \overline{1, r}$, то есть все они одинаковы.
Получается, что
$$p_i = \frac{1}{r}, \, i = \overline{1, r}.$$
Доказательство окончено.

Если распределение равномерное, то
$$M \mu_0 \left( n, r \right) = r \cdot \left( 1 - \frac{1}{r} \right)^n.$$
Это минимальное значение математического ожидания.

Критическая область $\mathbb{Z}_1 = \left\{ k: k \geq k^* \right\}$, где $k$ ---- это количество пустых ящиков.
Если количество пустых ящиков превышает $k^*$, то гипотезу должны отбросить.

$P \left\{ \mu_0 \left( n, r \right) >= k^* \right\} \leq \gamma$.

Отсюда вычисляем
$$k^* =
arg \min\left\{ k: \, \sum \limits_{j=k}^r P \left\{ \mu_0 \left( n, r \right) = j\right\}\leq \gamma \right\}.$$

Если $k$ уменьшаем, то сумма увеличивается.

Если $k < k^*$, гипотезу принимаем.

Чтобы воспользоваться критерием, нужно найти $k^*$.
Применяя формулу включений и исключений, получаем
$$P \left\{ \mu_0 \left( n, r \right) = k\right\} =
C_r^k \sum \limits_{j=0}^{r-k} \left( -1 \right)^j \cdot C_{r-k}^j \cdot \left( 1 - \frac{k+j}{r} \right)^n.$$

**Теорема.**
Допустим, что $n, r \to \infty $ таким образом, что
$$\frac{n}{r} \to \rho > 0.$$
Тогда допустим, что начальное распределение случайной величины $\xi$ не обязательно равномерное,
но $\xi \sim f \left( u \right)$ на $\left[ 0, 1 \right]$.
Тогда
$$\frac{\mu_0 \left( n, r \right) - r \cdot m \left( f \right)}{\sqrt{r} \cdot \sigma \left( f \right)} \sim
N \left( 0, 1 \right),$$
где
$$m \left( f \right) =
\int \limits_0^1 e^{-\rho \cdot f \left( u \right)} \cdot
\left[ 1 - e^{-\rho \cdot f \left( u \right)} \right] du,$$
где $f \left( \cdot \right)$ --- плотность распределения,
$$\sigma^2 \left( f \right) =
\int \limits_0^1 e^{}-\rho \cdot f \left( u \right) \cdot \left[ 1 - e^{-\rho \cdot f \left( u \right)} \right] du
- \rho \cdot \left[ \int \limits_0^1 f \left( u \right) \cdot e^{-\rho \cdot f \left( u \right) } du\right]^2.$$

Если $f \left( u \right) \equiv u$, то есть распределение равномерное, то
$m \left( f \right) = e^{-\rho},
\sigma^2 \left( f\right) = e^{-\rho} \cdot \left[ 1 - \left( 1 + \rho \right) \cdot e^{-\rho}\right]$.

$\mathbb{Z}_1 =
\left\{ k: \, k >
r \cdot e^{-\rho} +
z_{\gamma} \cdot \sqrt{r \cdot e^{-\rho} \cdot \left[ 1 - \left( 1 + \rho \right) \cdot e^{-\rho}\right]}\right\}$,
где $z_{\gamma}$ --- решение уравнения $\Phi \left( z_{\gamma} \right) = 0.5 - \gamma$.

In [33]:
def is_uniform(n, r):
    x = uniform(size=n)
    nu = histogram(x, bins=r)[0]
    U = histogram(x, bins=r)[1]
    mu = len(where(nu == 0)[0])
    print "mu:", mu
    rho = float(n) / r
    z = norm.ppf(1 - gamma / 2.)
    k = r * exp(-rho) + z * sqrt(r * exp(-rho) * (1 - (1 + rho) * exp(-rho)))
    print "k:", k
    if mu < k:
        print "x has standart uniform distrobution"
    else:
        print "x doesn't have standart uniform distribution"

In [34]:
is_uniform(n=40, r=20)

mu: 3
k: 5.19189620006
x has standart uniform distrobution


In [35]:
is_uniform(400, 200)

mu: 27
k: 34.9259191584
x has standart uniform distrobution


In [36]:
is_uniform(4000, 2000)

mu: 274
k: 295.522471826
x has standart uniform distrobution


## Задание 3
Используя критерий Смирнова проверить гипотезу,
что выборка $\vec{X} = \left( X_1, \dotsc, X_n \right)$ и выборка $\vec{Y} = \left( Y_1, \dotsc, Y_m \right)$
имеют одно и то же распределение $F \left( \cdot \right)$ --- можно выбрать нормальное, экспоненциальное,
равномерное, ....

$n = 100, \, m = 200; \, n = 1000, \, m = 2000$

### Гипотеза однородности. Критерий Смирнова
Есть два вектора наблюдений:
$\vec{X} = \left( X_1, \dotsc, X_n \right)$ и $\vec{Y} = \left( Y_1, \dotsc, Y_m \right)$.
Первому вектору соответствует функция распределения $F_1 \left( \cdot \right)$, второму ---
$F_2 \left( \cdot \right)$.
Функций распределения мы не знаем.

$H_0: \, F_1 \left( \cdot \right) = F_2 \left( \cdot \right) = F \left( \cdot \right) $ --- гипотеза однородности.

Критерий Смирнова работает в предположении, что $F \left( \cdot \right)$ --- непрерывная функция распределения.

Обозначим $\hat{F}_n^{\left( 1 \right)} \left( u \right)$ и $\hat{F}_m^{\left( 2 \right)}\left( u\right)$ ---
эмпирические функции распределения, которые соответствуют выборке $\vec{X}$ и выборке $\vec{Y}$ соответственно.

$$D_{n, m } \left( \vec{x}, \vec{y} \right) =
\sup \limits_{-\infty < u < +\infty}
\left| \hat{F}_n^{\left(1\right)} \left( u \right) - \hat{F}_m^{\left( 2\right)} \left( u \right) \right|.$$

**Теорема Смирнова.**
Если $F \left( \cdot \right)$ --- это неизвестная, но непрерывная функция распределения, то
$$\lim \limits_{n \to \infty}
P \left\{ \sqrt{\frac{n \cdot m}{n + m}} \cdot D_{n, m} \left( \vec{X}, \vec{Y} \right) < z \; \middle| \;
H_0 \right\} =
K \left( z \right) =
\sum \limits_{k=-\infty}^{+\infty} \left( -1 \right)^k \cdot e^{-2z^2 \cdot k^2},$$
где $K \left( \cdot \right)$ --- функция Колморогова.

Гипотеза является сложной.

**Критерий Смирнова:**

1) находим $z_{\gamma}$ из уравнения $K \left( z_{\gamma} \right) = 1 - \gamma$, где $\gamma$ задаём;

2) вычисляем $D_{n, m} \left( \vec{x}, \vec{y} \right)$ и выписываем критическую область
$$\mathbb{Z}_1 = \left\{ \left( \vec{x}, \vec{y}\right): \, D_{n, m} \left( \vec{x}, \vec{y}\right) > z_{\gamma} \cdot \sqrt{\frac{1}{n} + \frac{1}{m}}\right\};$$

3) если $\left( \vec{x}, \vec{y} \right) \in \mathbb{Z}_1$, то отсюда следует,
что нужно принять альтернативную гипотезу $H_1$.
Это означает, что функция распределения отличается от $F \left( \cdot \right)$.

$D_{n, m} \left( \vec{x}, \vec{y} \right) = \max \left( D_{n, m}^+, D_{n, m}^- \right)$, где
$$D_{n, m}^+ =
\max \limits_{1 \leq k \leq m}
\left\{ \frac{k}{m} - \hat{F}_n^{\left( 1 \right) } \left( y_{\left( k \right) } \right) \right\},$$
где $y_{\left( k \right)}$ ---
значение вариационного ряда для второй выборки $\vec{Y}: \, y_{\left( 1 \right) }, \dotsc, y_{\left( m \right) }$.
$D_{n, m}^- =
\max \limits_{1 \leq k \leq m}
\left\{ \hat{F}_n^{\left( 1 \right) } \left( y_{\left( k \right) } \right) - \frac{k - 1}{m} \right\}$.

Критерий является состоятельным относительно альтернативной гипотезы $H_1$,
то есть что распределения не совпадают.
Если бы они совпадали, то $F_1^{-1} \left( F_2 \left( u \right) \right) = F$.

$H_1: \, F_1^{-1} \left( F_2 \left( u \right) \right) \neq u$ на множестве с лебеговой мерой,
которая не равна нулю (больше нуля).

In [57]:
def F_1(sample, u):
    return float(len(where(sample <= u)[0])) / len(sample)

In [62]:
def have_same_distribution(n, m):
    x = normal(size=n)
    y = normal(size=m)
    z = kolmogi(1 - gamma)
    y_variational_series = sorted(y)
    D_plus = max((float(k) / m - F_1(y, y_variational_series[k - 1])) for k in range(1, m + 1))
    D_minus = max((F_1(y, y_variational_series[k - 1]) - float(k - 1) / m) for k in range(1, m + 1))
    D = max(D_plus, D_minus)
    print "D:", D
    critical = z * sqrt(1. / n + 1. / m)
    print "Critical:", critical
    if D < critical:
        print "X and Y have the same distribution"
    else:
        print "X and Y don't have the same distribution"

In [63]:
have_same_distribution(n=100, m=200)

D: 0.005
Critical: 0.0636390147104
X and Y have the same distribution


In [64]:
have_same_distribution(n=1000, m=2000)

D: 0.0005
Critical: 0.0201244234534
X and Y have the same distribution
