# Практика 2.10. Гипотезы.
$\newcommand{\estSe}{\hat{\se}}$
$\newcommand{\ecdf}{\hat{F}}$
$\newcommand{\boldx}{\boldsymbol{x}}$
$\newcommand{\lp}{\left(}$
$\newcommand{\rp}{\right)}$
$\newcommand{\lf}{\left\{}$
$\newcommand{\rf}{\right\}}$
$\newcommand{\Normal}{\mathcal{N}}$
$\newcommand{\esttheta}{\hat{\theta}}$
$\newcommand{\angmean}[1]{\left\langle #1 \right\rangle}$
$\newcommand{\boldX}{\boldsymbol{X}}$
$\newcommand{\se}{\mathrm{se}}$
$\newcommand{\Var}{\mathbb{V}}$
$\newcommand{\Exp}{\mathbb{E}}$

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline
import scipy.stats
from statsmodels.distributions.empirical_distribution import ECDF

* Пусть есть распределение $F$ и какой-нибудь неизвестный параметр $\theta$ этого распределения. Пусть дана некоторая выборка $X_1, ..., X_n$. В общем случае гипотез может быть много, мы рассмотрим случай, когда их две.
* Процесс тестирования гипотезы выглядит так: задаётся некоторая **критическая область** $R \in R^n$. Если числа $(x_1, ..., x_n) \in R$, то гипотеза отвергается. Иначе гипотеза сохраняется.
* Область можно задать в виде $T(X_1, ..., X_n) \in R$ - статистика (функция от выборки) должна попасть в некоторую область на числовой прямой.
* (Не очень хорошо говорить "гипотеза принимается". Гипотеза может быть неверна, но у нас слишком мало данных, чтобы её отвергнуть).
* Есть 2 гипотезы: $H_0$ и $H_1$. Мы рассмотрим "несимметричные" тесты. А именно, мы практически не будем смотреть на $H_1$. Наша цель - отвергнуть $H_0$.
* **Простая гипотеза**: $\theta = \theta_0$. **Сложная**: $\theta \in \Theta$.
* **Функция мощности**: $\beta\lp \theta\rp$ - вероятность отвегрнуть гипотезу $H_0$, если значение параметра равно $\theta$.

Задача 1. Известно, что выборка $X_1, ..., X_n$ порождена случайной величиной с функцией распределения $F(x) = \lp 1 - e^{-\lp x - \theta\rp} \rp \cdot I\lp x \ge \theta \rp$. Пусть $H_0: \theta = 0$, альтернатива $H_1: \theta \ne 0$. Тест устроен так: гипотеза $H_0$ отвергается, если $X_{\lp n \rp} \le C$ для какого-либо $i$ и зафиксированной константы $C$.
* $H_i$ - простая или сложная гипотеза?
* Найдите функцию мощности данного теста.
* Постройте её график для $c = 2$.

* Ошибка $i$-го рода - результат теста, при котором $i$-я гипотеза "верна", но была отвергнута.
* **Размер теста** === **уровень значимости** $\alpha$ - максимальная вероятность ошибки первого рода.

Задача 2. 
* Найдите уровень значимости теста из задачи 1.
* Найдите такое наименьшее $n$, что уровень значимости не больше 0.05, если $c = 2$.

* Критическая область вообще говоря не монотонна по $\alpha$. Т.е. не обязательно с увеличением размера теста критическая область расширяется. Однако для простоты мы будем стараться использовать только тесты с монотонной областью.
* $p$-value - наименьшее значение размера теста, при котором основную гипотезу можно отвергнуть.
* $\alpha \ge $ $p$-value $=>$ $H_0$ отвергается.

Задача 3.
* Сгенерируйте выборку размера 100 с сидом 0 и $c$ = 3.5. Чему равно $p$-value? Можно ли отвергнуть $H_0$ при $\alpha = 0.05$?

Критерий перестановок:
* Есть 2 выборки, гипотезы: $H_0$ - выборки порождаются одним и тем же распределением, $H_1$ - выборки порождаются разными распределениями.
* Возьмём некоторую статистику T.
* Запишем все элементы: $X_1, X_2, ..., X_n, Y_1, ..., Y_m$. Запишем значение $T_{obs}(X_1, ..., X_n, Y_1, ..., Y_m)$ - наблюдаемое нами.
* Переберём все перестановки $X_1, ..., Y_m$. Для каждой перестановки снова посчитаем $T(X_1, ..., X_n, Y_1, ..., Y_m)$. Считаем, для скольких перестановок выполняется некоторое заранее выполненное условие $P(T_{obs}, T)$. $P = true$, если значение $T$ "сильно" отличается от $T_{obs}$. Что такое "сильно" - зависит от задачи. Теперь количество "успешных" перестановок можно поделить на общее их количество и получить "вероятность" того, что $T$ "сильно" отличается от $T_{obs}$. Это и будет $p$-value.
* Работает, когда данных немного (иначе долго считать).
* Можно ускорить, если какие-то перестановки дают одинаковый результат.
* Можно вместо всех перестановок взять сколько-то случайных, но тогда может пострадать точность. Чем больше размер выборки тем сильнее погрешность.

Задача 4. Сгенерируйте выборку размера 10 из экспоненциального распределения со смещением -1 и $\lambda = 1$. 
* Сгенерируйте другую выборку размера 12 из равномерного на отрезке $[-1; 1]$ распределения. Пользуясь критерием перестановок и выборочным средним, найдите $p$-value теста. Условие для теста придумайте сами.
* Сгенерируйте ещё одну выборку размера 8 таким образом: возьмите $n$ реализаций, имеющих распределение Парето с параметрами $\alpha = -1$ и $\beta = 1$ и возведите $e$ в эти степени. Что теперь можно сказать, используя критерий перестановок?

Задача 5. Рассмотрим выборку $X_1, ..., X_n$ из распределения Лапласа с математическим ожиданием $\theta$ и вторым параметром 1. Возьмём в качестве статистики выборочное среднее. 
* Используя центральную предельную теорему, постройте тест для сравнения гипотез $H_0: \theta=1$ против $H_1: \theta \ne 1$.
* Зафиксируйте некоторое $\theta$. Сгенерируйте выборку из 100 элементов 100 раз. С какой частотой отвергается $H_0$? Повторите эксперимент для $\theta \in [0; 2]$, перебирая $\theta$ с шагом 1/100. Постройте график

# Дома

Задача 6. (2 балла) Возьмём данные из прошлой домашки. Возьмите 11 самых крутых футболистов из Барселоны и столько же - из Реала (поле Overall). С помощью критерия перестановок сравните их Value :). В качестве тестовой статистики используйте медиану.

Задача 7. (2 балла) Используя центральную предельную теорему, постройте тест для проверки гипотезы $H_0: p = p_0$ vs $H_1: p \ne p_0$, где $p$ - параметр распределения Бернулли. Используя данный тест, проверьте гипотезу о том, что цифры числа $\pi$ распределены равновероятно. На каком уровне значимости эту гипотезу можно отвергнуть? 

Задача 8. (2 балла) Пусть $\boldX^n = \{X_1,\ldots,X_n\} \sim U(\theta,\theta + 1)$. Известно, что $\theta \ge 0$. Необходимо протестировать гипотезу $H_0:\theta = 0$ vs. $H_1: \theta > 0$. Будем использовать следующее правило: гипотеза $H_0$ отвергается, если $X_{(n)} \geqslant 1$ или $X_{(1)} \geqslant c$, где $c$ --- некоторая константа, $X_{(1)} = \min \{X_1,\ldots,X_n\}$, $X_{(n)} = \max \{X_1,\ldots,X_n\}$.
* a) Найдите функцию мощности для данного теста.
* b) При каком значении параметра $c$ размер теста будет равен $0.05$?
* c) Найдите такое $n \geqslant 1$, что при $\theta = 0.1$ и размере теста $0.05$ мощность критерия не меньше $0.8$.