### <span style="color:green">Task 1</span>

Для модели $N(\theta, 1)$, где $H_0: \theta = 0$ и требования зависимости статистики от выборочного среднего разумно будет воспользоваться точным $Z$-тестом. По лемме Фишера:

$$Z = \frac{\overline{X}-0}{1}\sqrt{n}= \overline{X}\sqrt{n} \sim N(0, 1)$$

Покажем его состоятельность и несмещённость:

$$\forall F \in \mathbb{F}_1:~W_n(F) = P\left(Z \in \left(-\infty; z_\frac{\alpha}{2}-\theta\sqrt{n}\right)\right) + P\left(Z \in \left(z_{1-\frac{\alpha}{2}}-\theta\sqrt{n}; +\infty\right)\right), \theta \ne 0$$
$$\alpha_I = W(F_0) = \alpha,$$

где $\alpha$ – уровень значимости, а $z_\theta$ – $\theta$-квантиль стандартного нормального распределения. Тогда:

$$\forall F \in \mathbb{F}_1~W_n(F) = \Phi_0\left(z_\frac{\alpha}{2}-\theta\sqrt{n}\right)+\Phi_0\left(z_\frac{\alpha}{2}+\theta\sqrt{n}\right)$$

Состоятельность:
$$\forall F \in \mathbb{F}_1~\lim_{n \to \infty}W_n(F) = \Phi_0\left(-\infty\right)+\Phi_0\left(+\infty\right) = 0 + 1 = 1$$

Несмещённость:

$$\forall F \in \mathbb{F}_1~W_n(F) = \Phi_0\left(z_\frac{\alpha}{2}-\theta\sqrt{n}\right)+\Phi_0\left(z_\frac{\alpha}{2}+\theta\sqrt{n}\right) > \alpha_I = \alpha = 2\Phi_0\left(z_\frac{\alpha}{2}\right)$$

Несмещённость может быть доказана по свойствам функции распределения нормального распределения.

### <span style="color:green">Task 3</span>

Модель: $Ber(\theta)$

Выборка: $\mathbb{X}, |\mathbb{X}|=n$

Уровень значимости: $\alpha = 0.05$

Гипотеза: $H_0: \theta \le 0.5$

Статистика: $T(\mathbb{X}) = \sum_{i=1}^{n}X_i \sim Bin(n, \theta)$

Критическая область для выборки: $\pmb{X}_1 = \{\mathbb{X}| T(\mathbb{X}) \ge t(\alpha)\}$,

где $t(\alpha)$ – решение уравнения $\sum_{k=t}^n P(X=k|H_0) = \sum_{k=t}^n \binom n k 0.5^k 0.5^{n-k} = \alpha$, то есть $(1-\alpha)$-квантиль биномиального распределения с параметрами $n$ и $0.5$.

In [13]:
import pandas as pd
from scipy import stats


def test_result(test, significance_level=0.05):
    if test.pvalue <= significance_level:
        print("H0 is rejected")
    else:
        print("H0 is not rejected")
        

data = pd.read_csv('IB_statistics_data_HW1.6.txt', sep=' ')
X3 = data['Ex3']

test_result(stats.binomtest(sum(X3), len(X3), alternative='greater'))

H0 is not rejected


### <span style="color:green">Task 4</span>

Случайную величину $\tau$ можно представить в виде произведения двух независимых случайных величин: $\tau = \xi \eta$, где $\eta \sim U(0, 1)$

Тогда:

$$\mathbb{E}\tau = \mathbb{E}\xi \mathbb{E}\eta = \frac{1}{2\theta}$$
$$\mathbb{D}\tau = \mathbb{D}\xi\mathbb{E}^2\eta + \mathbb{D}\eta\mathbb{E}^2\xi + \mathbb{D}\xi\mathbb{D}\eta = \frac{5}{12\theta^2}$$

Из ЦПТ:

Гипотеза: $H_0: \theta = 1$

Статистика: $Z(\mathbb{X}) = \sqrt{n}\frac{\overline{X} - \frac{1}{2}}{\sqrt{\frac{5}{12}}} \to N(0, 1)$

Критическая область для выборки: $\pmb{X}_1 = \{\mathbb{X}| Z(\mathbb{X}) < z_\frac{\alpha}{2} \lor Z(\mathbb{X}) > z_{1-\frac{\alpha}{2}}\}$

In [23]:
from math import sqrt

X4 = data['Ex4']

n = len(X4)
M = X4.mean()

Z = sqrt(n)*(M - 0.5)/sqrt(5/12)

if Z < stats.norm.ppf(0.05/2) or Z > stats.norm.ppf(1-0.05/2):
    print("H0 is rejected")
else:
    print("H0 is not rejected")

H0 is rejected


### <span style="color:green">Task 5</span>

Сперва запишем плотность распределения случайной величины $\xi$:

$$p_\xi(x) = \begin{cases}\frac{1}{2\theta} + 1,~~x \in [0, \theta] \cap [\theta-1, \theta-0.5]\\ \frac{1}{2\theta},~~x \in [0, \theta], x \notin [\theta-1, \theta-0.5] \\ 1,~~x \notin [0, \theta], x \in [\theta-1, \theta-0.5] \\ 0,~~x \notin [0, \theta], x \notin [\theta-1, \theta-0.5] \end{cases}$$

Очевидно, что чтобы выполнялась нулевая гипотеза, отрезок $[-0.2, 0.2]$ должен полностью лежать в одной из четырёх рассматриваемых областей.

Рассмотрев три разных варианта задания $\theta$, заметим, что это происходит только в случае, когда $\theta = 0.5$. Соответственно, перепишем нулевую гипотезу в следующем виде:

$H_0: \theta = 0.5$

В таком случае надо просто проверить, что наша выборка взята из распределения $U(-0.5, 0.5)$, а для этого можно воспользоваться критерием Колмогорова-Смирнова:

In [35]:
test_result(stats.kstest(data['Ex5'], stats.uniform.cdf, args=(-0.5, 0.5)))

H0 is rejected


### <span style="color:green">Task 6</span>

Пусть $p_1(X), p_2(X)$ – соответствующие плотностям наших распределений функции правдоподобия, зависящие уже от выборок. Рассмотрим критерий следующего вида:

$$\phi(X) = \begin{cases} 1,~~p_2(X) > kp_1(X) \\ 0,~~p_2(X) < kp_1(X) \end{cases}$$

Константа $k$ при этом зависит от уровня значимости и находится из уравнения $\mathbb{E}_{F_1}\phi(X) = \alpha$.

### <span style="color:green">Task 7</span>

(b) Имеем распределение из экспоненциального семейства и гипотезу вида $H_0: \theta \le \theta_0$. Тогда:

$$\varphi(X) = \begin{cases}1,~~n\overline{X} > C \\ 0,~~n\overline{X} > C\end{cases}$$

$C$ выбираем так, что $\mathbb{E}\varphi(X) = \alpha$ при $\theta \le 7$.

$$\mathbb{E}\varphi(X) = P\left(\overline{X} > \frac{C}{n}\right), \theta \le 7$$

По свойству экспоненциального распределения:

$$\sum_{i=1}^n X_i \sim \Gamma\left(n, \frac{1}{\theta}\right)$$

Тогда искомое мат. ожидание:

$$P\left(\overline{X} > \frac{C}{n}\right) = 1 - F\left(\frac{C}{n}\right),$$

где $F(x)$ – функция распределения $\Gamma\left(n, \frac{1}{\theta}\right)$ при  $\theta \le 7$