# Математическая статистика

Пусть задана выборка из реализация одинаково распределенных случайных величин: $X_1, \ldots, X_n \sim F$.

Необходимо сделать выводы о распределении $F$.

**Статистическая модель** $\mathcal{F}$ - множество распределений.

**Параметрическая модель: **

$$
\mathcal{F} = \big\{f(x, \theta), \theta\in\Theta\subseteq\mathbb{R}^p\big\}
$$

**Непраметрическое модель** - множество $\mathcal{F}$, которое нельзя параметризовать конечным числом параметров.

_Примеры_:

1) $X_1, \ldots, X_n$ &mdash; i.i.d., имеющие нормальное распределение с параметрами $\mu$ и $\sigma$; необходимо оценить $P(X\gt1)$.<br>
2) $X_1, \ldots, X_n$ &mdash; i.i.d., имеющие распределение $F$; необходимо оценить $\mathbb{E}X$.<br>
3) $(X_1, Y_1), \ldots, (X_n, Y_n)$; необходимо восстановить $r(x) = \mathbb{E}(Y\big|X=x)$.<br>

**Точечная оценка** - оценка неизвестной величины (например, параметра в параметрической модели) в некотором наилучшем смысле.

$\hat{\theta}$ &mdash; оценка параметра.

$\hat{\theta}_n = g(X_1, \ldots, X_n)$

$bias(\hat{\theta}_n) = \mathbb{E}_\theta(\hat{\theta}_n)-\theta$ - смещение оценки.

**Несмещенная оценка**:
$$
\mathbb{E}_\theta\hat{\theta}_n=\theta
$$

**Состоятельная оценка**:
$$
P\Big(\big|\hat{\theta}_n-\theta\big|\gt\varepsilon\Big) \rightarrow 0, (n\rightarrow\infty)
$$

_Пример:_ 
$X_1, \ldots, X_n$ &mdash; i.i.d., имеющие нормальное распределение с параметрами $\mu$ и $\sigma$; необходимо оценить $\mu=\mathbb{E}X$.<br>

1) $\hat{\mu} = g(X_1, \ldots, X_n) = \frac{1}{n}(X_1 + \ldots + X_n)$ - несмещенная, состоятельная;<br>

2) $\hat{\mu} = g(X_1, \ldots, X_n) = \frac{1}{n+1}(X_1 + \ldots + X_n)$ - смещенная, состоятельная;<br>

3) $\hat{\mu} = g(X_1, \ldots, X_n) = X_1$ - несмещенная, несостоятельная;<br>

4) $\hat{\mu} = g(X_1, \ldots, X_n) = \frac{n+1}{n}X_1$ - смещенная, несостоятельная.

$se(\theta_n) = \sqrt{\mathbb{V}(\hat{\theta}_n)}$ &mdash; стандартное отклонение оценки.

$\hat{se}$ &mdash; оценка стандартного отклонения.

_Пример:_

Пусть $X_1, \ldots, X_n$ &mdash; i.i.d. из распределения Бернулли. Тогда 
$$
\hat{p}_n = \frac{1}{n}\sum_i X_i,
$$ 
$$
\mathbb{E}(\hat{p}_n)=\sum_i\mathbb{E}(X_i)\big/n=p,
$$
$$
\mathbb{V}(\hat{p}_n)=p(1-p)\big/n,
$$
$$
se = \sqrt{\mathbb{V}(\hat{p}_n)}=\sqrt{p(1-p)\big/n},
$$
$$
\hat{se} = \sqrt{\hat{p}(1-\hat{p})\big/n}.
$$

**Асимптотически нормальная оценка:**

$$
\sqrt{n}\frac{\hat\theta_n-\theta}{se}\rightarrow\mathcal{N}(0, 1)
$$

Доверительный интервал:
$$
(\hat\theta-z_{\alpha/2}\hat{se}, \hat\theta_n+z_{\alpha/2}\hat{se})
$$

$$
MSE = \mathbb{E}_\theta(\hat{\theta}_n-\theta)^2
$$

**bias-variance decomposition**

$$
MSE = bias^2(\hat\theta_n) + \mathbb{V}_\theta(\hat\theta_n),
$$

где $bias(\hat{\theta}_n) = \mathbb{E}_\theta(\hat{\theta}_n)-\theta$.

_Задача_

Пусть $X_1, \ldots, X_n \sim \textrm{Uniform}(0, \theta)$, $\hat{\theta}_n = \max\{X_1, \ldots, X_n\}$. Найдите значений $\textrm{bias}$, $\textrm{se}$ и $\textrm{MSE}$ этой оценки.

## Способы оценивания параметров

### Метод максимального правдоподобия

**Функция правдоподобия:**

$$
\mathcal{L}_n(\theta) = \prod_{i=1}^n f(X_i; \theta)
$$

Ищем такое значение $\hat\theta_n$, которое максимизирует $\mathcal{L}_n(\theta)$.

_Пример._

$X_1, \ldots, X_n \sim Bernoulli(p)$, тогда

$$
\mathcal{L}_n(p)=\prod_{i=1}^nf(X_i; p)=\prod_{i=1}^np^{X_i}(1-p)^{1-X_i}=p^S(1-p)^{n-S},
$$
где $S=\sum_i X_i$.

$$
\log\mathcal{L}_n(p) = l_n(p) = S\log p + (n-S)\log(1-p),
$$

откуда $\hat{p}_n=S\big/n$.

Свойства:

* состоятельность;
* не зависит от параметризации (если $\hat{\theta}_n$ - ОМП для $\theta$, то $g(\hat\theta_n)$ - ОМП для $g(\theta)$);
* асимптотически нормальна.

_Задача_

Пусть имеется выборка размера $n$. Первый классификатор дал правильный ответ на $X_1$ объектах, второй классификатор дал правильный ответ на $X_2$ объектах. Предположим, что эти величины имеют биномиальное распределение. Положим $\psi=p_1-p_2$. Найдите ОМП $\hat{\psi}$.

### Метод моментов

Пусть $\theta = (\theta_1, \ldots, \theta_k)$ &mdash; параметры. Для $1\le j\le k$ определим $j$-й момент по формуле:

$$
\alpha_j=\mathbb{E}_\theta(X^j)
$$

и $j$-й выборочный момент по формуле:

$$
\hat\alpha_j=\frac{1}{n}\sum_{i=1}^n X_i^j
$$

Пусть выполнено $\theta_i=\phi_i(\alpha_1, \ldots, \alpha_n)$. Тогда можно получить оценки параметров, как $\hat\theta_i=\phi_i(\hat\alpha_1, \ldots, \hat\alpha_n)$

_Пример._

$X_1, \ldots, X_n \sim Bernoulli(p)$, тогда

* $\alpha_1=\mathbb{E}_\theta(X)=p$,
* $\hat\alpha_1=n^{-1}\sum_{i=1}^nX_i$,
* откуда $\hat p_n=\frac{1}{n}\sum_{i=1}^nX_i$.

Свойства:

* оценка состоятельна;
* оценка асимтотически нормальна.

_Задача_. С помощью метода моментов оценить параметры равномерного распределения.

## Тестирование гипотез

* Делается предположение о процессе, генерирующем данные. Задача состоит в том, чтобы определить, содержат ли данные достаточно информации, чтобы отвергнуть это предположение.

* Если информации не достаточно, то считается, что опытные данные предположению (гипотезе) не противоречат.

$H_0$ - нулевая гипотеза, $H_1$ - альтернативная гипотеза. 

Идея:

Рассмотрим подмножество $R\subset \mathcal{X}$, где $\mathcal{X}$ - пространство объектов, и назовем его критической областью. 

* $(X_1, \ldots, X_n)\in R$, то $H_0$ отклоняется в пользу альтернативы;

* $(X_1, \ldots, X_n)\notin R$, то $H_0$ экспериментальным данным не противоречит.


$R=\big\{x: T(x)\gt c\big\}$. 

**Тест Вальда**

$H_0: \theta=\theta_0$ vs $H_1: \theta\neq\theta_0$.

Если оценка асимптотически нормальна, то
$$
W=\sqrt{n}\frac{\hat\theta_n-\theta_0}{\widehat{se}}\rightsquigarrow N(0, 1)
$$

Тест Вальда размера $\alpha$: гипотеза $H_0$ отклоняется, если $|W|\ge z_{\alpha/2}$.

![](z-alpha.png)

_Пример_.

Сравнение двух классификаторов.

Пусть $X$ - случайная величина, равная индикатору того, что первый классификатор дал правильный ответ. $Y$ - то же самое для второго.
Тогда $X\sim Bernoulli(p_1)$, $Y\sim Bernoulli(p_2)$. Пусть $D_i=X_i-Y_i$.

$\delta=\mathbb{E}D=\mathbb{E}X-\mathbb{E}Y = P(X=1) - P(Y=1)$.

$$
H_0: \delta=0\ \ vs\ \ H_1: \delta\neq0
$$

Оценка ОМП: $\hat\delta = \overline{D}$ - асимптотически нормальна.

$\widehat{se}(\hat\delta)=S\big/\sqrt{n}$, где $S^2=\frac{1}{n}\sum_{i=1}^n(D_i-\overline{D})^2$

$$
W = \sqrt{n}\frac{\hat{\delta}-0}{\widehat{se}}
$$