# Задача 1

Пусть $X_1, X_2, \ldots, X_n$ — выборка из экспоненциального распределения с параметром $\lambda$. Найти оценку максимального правдоподобия параметра $\lambda$, сравнить ее с байесовской оценкой (MAP и математическое ожидание апостреорного распределения), подобрав сопряженное распределение. Сравнить полученные байесовские оценки с оценкой MLE. Найти предсказательное распределение

## Оценка MLE

Плотность экспоненциального распределения:
$$
f(x \mid \lambda) = \begin{cases}
\lambda e^{-\lambda x}, & x \geq 0 \\
0, & x < 0
\end{cases}
$$

Функция правдоподобия выборки $\mathbf{x} = (x_1, \dots, x_n)$:
$$
L(\lambda) = \prod_{i=1}^{n} f(x_i \mid \lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i} = \lambda^n e^{-n\lambda\overline{X}},
$$
где $\overline{X} = \frac{1}{n}\sum_{i=1}^{n} x_i$ — выборочное среднее.

Логарифмическая функция правдоподобия:
$$
\ell(\lambda) = \ln L(\lambda) = n\ln\lambda - n\lambda\overline{X}
$$

Находим производную и приравниваем к нулю:
$$
\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - n\overline{X} = 0
$$

Откуда получаем оценку максимального правдоподобия:
$$
\hat{\lambda}_{\text{MLE}} = \frac{1}{\overline{X}}
$$

## Байесовская оценка

### Выбор априорного распределения

В качестве сопряженного априорного распределения для экспоненциального распределения выбираем гамма-распределение:
$$
p(\lambda) = \frac{b^a}{\Gamma(a)}\lambda^{a-1}e^{-b\lambda}, \quad \lambda > 0, \quad a > 0, \quad b > 0
$$

### Апостериорное распределение

По формуле Байеса:
$$
p(\lambda \mid D) = \frac{p(\lambda) \cdot p(D \mid \lambda)}{p(D)} = \frac{p(\lambda) \cdot L(\lambda)}{\int_0^{+\infty} p(\lambda) \cdot L(\lambda) d\lambda}
$$

Числитель:
$$
p(\lambda) \cdot L(\lambda) = \frac{b^a}{\Gamma(a)}\lambda^{a-1}e^{-b\lambda} \cdot \lambda^n e^{-n\lambda\overline{X}} = \frac{b^a}{\Gamma(a)}\lambda^{n+a-1}e^{-\lambda(b+n\overline{X})}
$$

Знаменатель (нормировочная константа):
$$
p(D) = \int_0^{+\infty} \frac{b^a}{\Gamma(a)}\lambda^{n+a-1}e^{-\lambda(b+n\overline{X})} d\lambda = \frac{b^a}{\Gamma(a)} \int_0^{+\infty} \lambda^{n+a-1}e^{-\lambda(b+n\overline{X})} d\lambda
$$

Замена переменной $t = \lambda(b+n\overline{X})$, $d\lambda = \frac{dt}{b+n\overline{X}}$:
$$
\int_0^{+\infty} \lambda^{n+a-1}e^{-\lambda(b+n\overline{X})} d\lambda = \int_0^{+\infty} \left(\frac{t}{b+n\overline{X}}\right)^{n+a-1} e^{-t} \frac{dt}{b+n\overline{X}} = \frac{1}{(b+n\overline{X})^{n+a}} \int_0^{+\infty} t^{n+a-1} e^{-t} dt = \frac{\Gamma(n+a)}{(b+n\overline{X})^{n+a}}
$$

Таким образом:
$$
p(D) = \frac{b^a}{\Gamma(a)} \cdot \frac{\Gamma(n+a)}{(b+n\overline{X})^{n+a}} = \frac{b^a \Gamma(n+a)}{\Gamma(a)(b+n\overline{X})^{n+a}}
$$

Апостериорное распределение:
$$
p(\lambda \mid D) = \frac{\frac{b^a}{\Gamma(a)}\lambda^{n+a-1}e^{-\lambda(b+n\overline{X})}}{\frac{b^a \Gamma(n+a)}{\Gamma(a)(b+n\overline{X})^{n+a}}} = \frac{(b+n\overline{X})^{n+a}}{\Gamma(n+a)}\lambda^{n+a-1}e^{-\lambda(b+n\overline{X})}
$$

Это гамма-распределение с параметрами:
- Форма: $a' = n + a$
- Масштаб: $b' = b + n\overline{X}$

То есть $\lambda \mid D \sim \text{Gamma}(n+a, b+n\overline{X})$.

### Математическое ожидание апостериорного распределения

Математическое ожидание гамма-распределения $\text{Gamma}(\alpha, \beta)$ равно $\frac{\alpha}{\beta}$.

Следовательно:
$$
\mathbb{E}[\lambda \mid D] = \frac{n+a}{b+n\overline{X}}
$$

### Оценка MAP

Мода гамма-распределения $\text{Gamma}(\alpha, \beta)$ при $\alpha > 1$ равна $\frac{\alpha - 1}{\beta}$.

Следовательно:
$$
\hat{\lambda}_{\text{MAP}} = \frac{n+a-1}{b+n\overline{X}}
$$

### Сравнение оценок

**MLE:**
$$
\hat{\lambda}_{\text{MLE}} = \frac{1}{\overline{X}}
$$

**Математическое ожидание апостериорного распределения:**
$$
\mathbb{E}[\lambda \mid D] = \frac{n+a}{b+n\overline{X}} = \frac{1}{\overline{X}} \cdot \frac{n+a}{b/\overline{X} + n}
$$

**MAP:**
$$
\hat{\lambda}_{\text{MAP}} = \frac{n+a-1}{b+n\overline{X}} = \frac{1}{\overline{X}} \cdot \frac{n+a-1}{b/\overline{X} + n}
$$

**Наблюдения:**
- При $n \to \infty$ обе байесовские оценки стремятся к MLE: $\hat{\lambda}_{\text{MLE}} = \frac{1}{\overline{X}}$
- При малых $n$ байесовские оценки учитывают априорную информацию через параметры $a$ и $b$
- Если $a = 1$ и $b \to 0$ (неинформативный априор), то $\mathbb{E}[\lambda \mid D] \approx \hat{\lambda}_{\text{MLE}}$ и $\hat{\lambda}_{\text{MAP}} \approx \hat{\lambda}_{\text{MLE}}$
- Математическое ожидание всегда больше MAP при $n+a > 1$, так как $\frac{n+a}{b+n\overline{X}} > \frac{n+a-1}{b+n\overline{X}}$

### Предсказательное распределение

Предсказательное распределение для нового наблюдения $x_{\text{new}}$:
$$
p(x_{\text{new}} \mid D) = \int_0^{+\infty} p(x_{\text{new}} \mid \lambda) \cdot p(\lambda \mid D) d\lambda
$$

Подставляем:
$$
p(x_{\text{new}} \mid D) = \int_0^{+\infty} \lambda e^{-\lambda x_{\text{new}}} \cdot \frac{(b+n\overline{X})^{n+a}}{\Gamma(n+a)}\lambda^{n+a-1}e^{-\lambda(b+n\overline{X})} d\lambda
$$

$$
= \frac{(b+n\overline{X})^{n+a}}{\Gamma(n+a)} \int_0^{+\infty} \lambda^{n+a} e^{-\lambda(x_{\text{new}} + b + n\overline{X})} d\lambda
$$

Замена переменной $t = \lambda(x_{\text{new}} + b + n\overline{X})$, $d\lambda = \frac{dt}{x_{\text{new}} + b + n\overline{X}}$:
$$
\int_0^{+\infty} \lambda^{n+a} e^{-\lambda(x_{\text{new}} + b + n\overline{X})} d\lambda = \int_0^{+\infty} \left(\frac{t}{x_{\text{new}} + b + n\overline{X}}\right)^{n+a} e^{-t} \frac{dt}{x_{\text{new}} + b + n\overline{X}} = \frac{\Gamma(n+a+1)}{(x_{\text{new}} + b + n\overline{X})^{n+a+1}}
$$

Таким образом:
$$
p(x_{\text{new}} \mid D) = \frac{(b+n\overline{X})^{n+a}}{\Gamma(n+a)} \cdot \frac{\Gamma(n+a+1)}{(x_{\text{new}} + b + n\overline{X})^{n+a+1}} = \frac{(n+a)(b+n\overline{X})^{n+a}}{(x_{\text{new}} + b + n\overline{X})^{n+a+1}}
$$

Это распределение Парето II типа (или ломакс-распределение) с параметрами:
- Масштаб: $b + n\overline{X}$
- Форма: $n + a$

$$
p(x_{\text{new}} \mid D) = \frac{(n+a)(b+n\overline{X})^{n+a}}{(x_{\text{new}} + b + n\overline{X})^{n+a+1}}, \quad x_{\text{new}} \geq 0
$$

# Задача 2

**Мультиномиальное распределение**

Пусть проводится серия из $n$ испытаний и в результате каждого испытания происходит ровно одно событие из набора $A_1, A_2, \dots, A_m$, причем вероятности этих событий равны соответственно $\mathsf{p}_1, \mathsf{p}_2, \dots, \mathsf{p}_m$, причем
$$\sum_{i=1}^{m}\mathsf{p}_i = 1.$$

Тогда совместное распределение величин $X_1, X_2, \dots, X_m$, где $X_k$ — число наступлений события $A_k$ в серии из $n$ испытаний, задается вероятностями

$$
\mathsf{P}\left(X_1 = n_1, \dots, X_m = n_m, \right) = \frac{n!}{n_1!\dots n_m!}\mathsf{p}_1^{n_1}\dots \mathsf{p}_m^{n_m},
$$

где $n_1, n_2, \dots, n_m$ — произвольный набор целых неотрицательных чисел, таких что

$$\sum_{i=1}^m n_i = n.$$

Произведите байесовский вывод для мультиномиального распределения: найдите апостериорное распределение, используя в качестве сопоряженного распределения к правдоподобию [распределение Дирихле](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%94%D0%B8%D1%80%D0%B8%D1%85%D0%BB%D0%B5), найдите предсказательное распределение. Объясните результат.

## Правдоподобие

Пусть наблюдены данные $D = (n_1, n_2, \dots, n_m)$, где $n_k$ — число наступлений события $A_k$ в $n$ испытаниях, и $\sum_{k=1}^{m} n_k = n$.

Функция правдоподобия:
$$
L(\mathbf{p} \mid D) = \frac{n!}{n_1! n_2! \dots n_m!} p_1^{n_1} p_2^{n_2} \dots p_m^{n_m} = \frac{n!}{\prod_{k=1}^{m} n_k!} \prod_{k=1}^{m} p_k^{n_k}
$$

где $\mathbf{p} = (p_1, p_2, \dots, p_m)$ — вектор вероятностей, $\sum_{k=1}^{m} p_k = 1$.

## Априорное распределение (Дирихле)

Распределение Дирихле с параметрами $\boldsymbol{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_m)$, где $\alpha_k > 0$:
$$
p(\mathbf{p} \mid \boldsymbol{\alpha}) = \frac{\Gamma(\sum_{k=1}^{m} \alpha_k)}{\prod_{k=1}^{m} \Gamma(\alpha_k)} \prod_{k=1}^{m} p_k^{\alpha_k - 1}, \quad \sum_{k=1}^{m} p_k = 1, \quad p_k \geq 0
$$

где $\alpha_0 = \sum_{k=1}^{m} \alpha_k$ — сумма параметров.

## Апостериорное распределение

По формуле Байеса:
$$
p(\mathbf{p} \mid D, \boldsymbol{\alpha}) = \frac{p(\mathbf{p} \mid \boldsymbol{\alpha}) \cdot L(\mathbf{p} \mid D)}{p(D \mid \boldsymbol{\alpha})}
$$

Числитель:
$$
p(\mathbf{p} \mid \boldsymbol{\alpha}) \cdot L(\mathbf{p} \mid D) = \frac{\Gamma(\alpha_0)}{\prod_{k=1}^{m} \Gamma(\alpha_k)} \prod_{k=1}^{m} p_k^{\alpha_k - 1} \cdot \frac{n!}{\prod_{k=1}^{m} n_k!} \prod_{k=1}^{m} p_k^{n_k}
$$

$$
= \frac{\Gamma(\alpha_0) n!}{\prod_{k=1}^{m} \Gamma(\alpha_k) \prod_{k=1}^{m} n_k!} \prod_{k=1}^{m} p_k^{\alpha_k + n_k - 1}
$$

Знаменатель (нормировочная константа):
$$
p(D \mid \boldsymbol{\alpha}) = \int_{\Delta^{m-1}} p(\mathbf{p} \mid \boldsymbol{\alpha}) \cdot L(\mathbf{p} \mid D) d\mathbf{p}
$$

где $\Delta^{m-1}$ — $(m-1)$-мерный симплекс.

Используя свойство интеграла Дирихле:
$$
\int_{\Delta^{m-1}} \prod_{k=1}^{m} p_k^{\alpha_k + n_k - 1} d\mathbf{p} = \frac{\prod_{k=1}^{m} \Gamma(\alpha_k + n_k)}{\Gamma(\sum_{k=1}^{m} (\alpha_k + n_k))} = \frac{\prod_{k=1}^{m} \Gamma(\alpha_k + n_k)}{\Gamma(\alpha_0 + n)}
$$

Таким образом:
$$
p(D \mid \boldsymbol{\alpha}) = \frac{\Gamma(\alpha_0) n!}{\prod_{k=1}^{m} \Gamma(\alpha_k) \prod_{k=1}^{m} n_k!} \cdot \frac{\prod_{k=1}^{m} \Gamma(\alpha_k + n_k)}{\Gamma(\alpha_0 + n)}
$$

Апостериорное распределение:
$$
p(\mathbf{p} \mid D, \boldsymbol{\alpha}) = \frac{\frac{\Gamma(\alpha_0) n!}{\prod_{k=1}^{m} \Gamma(\alpha_k) \prod_{k=1}^{m} n_k!} \prod_{k=1}^{m} p_k^{\alpha_k + n_k - 1}}{\frac{\Gamma(\alpha_0) n!}{\prod_{k=1}^{m} \Gamma(\alpha_k) \prod_{k=1}^{m} n_k!} \cdot \frac{\prod_{k=1}^{m} \Gamma(\alpha_k + n_k)}{\Gamma(\alpha_0 + n)}}
$$

$$
= \frac{\Gamma(\alpha_0 + n)}{\prod_{k=1}^{m} \Gamma(\alpha_k + n_k)} \prod_{k=1}^{m} p_k^{\alpha_k + n_k - 1}
$$

Это распределение Дирихле с обновленными параметрами:
$$
\mathbf{p} \mid D, \boldsymbol{\alpha} \sim \text{Dirichlet}(\alpha_1 + n_1, \alpha_2 + n_2, \dots, \alpha_m + n_m)
$$

## Предсказательное распределение

Предсказательное распределение для нового наблюдения $x_{\text{new}} \in \{1, 2, \dots, m\}$ (индекс категории):
$$
p(x_{\text{new}} = k \mid D, \boldsymbol{\alpha}) = \int_{\Delta^{m-1}} p(x_{\text{new}} = k \mid \mathbf{p}) \cdot p(\mathbf{p} \mid D, \boldsymbol{\alpha}) d\mathbf{p}
$$

$$
= \int_{\Delta^{m-1}} p_k \cdot \frac{\Gamma(\alpha_0 + n)}{\prod_{j=1}^{m} \Gamma(\alpha_j + n_j)} \prod_{j=1}^{m} p_j^{\alpha_j + n_j - 1} d\mathbf{p}
$$

$$
= \frac{\Gamma(\alpha_0 + n)}{\prod_{j=1}^{m} \Gamma(\alpha_j + n_j)} \int_{\Delta^{m-1}} p_k \prod_{j=1}^{m} p_j^{\alpha_j + n_j - 1} d\mathbf{p}
$$

$$
= \frac{\Gamma(\alpha_0 + n)}{\prod_{j=1}^{m} \Gamma(\alpha_j + n_j)} \int_{\Delta^{m-1}} p_k^{(\alpha_k + n_k + 1) - 1} \prod_{j \neq k} p_j^{\alpha_j + n_j - 1} d\mathbf{p}
$$

Используя свойство интеграла Дирихле:
$$
\int_{\Delta^{m-1}} p_k^{(\alpha_k + n_k + 1) - 1} \prod_{j \neq k} p_j^{\alpha_j + n_j - 1} d\mathbf{p} = \frac{\Gamma(\alpha_k + n_k + 1) \prod_{j \neq k} \Gamma(\alpha_j + n_j)}{\Gamma(\alpha_0 + n + 1)}
$$

$$
= \frac{(\alpha_k + n_k) \Gamma(\alpha_k + n_k) \prod_{j \neq k} \Gamma(\alpha_j + n_j)}{\Gamma(\alpha_0 + n + 1)} = \frac{(\alpha_k + n_k) \prod_{j=1}^{m} \Gamma(\alpha_j + n_j)}{\Gamma(\alpha_0 + n + 1)}
$$

Таким образом:
$$
p(x_{\text{new}} = k \mid D, \boldsymbol{\alpha}) = \frac{\Gamma(\alpha_0 + n)}{\prod_{j=1}^{m} \Gamma(\alpha_j + n_j)} \cdot \frac{(\alpha_k + n_k) \prod_{j=1}^{m} \Gamma(\alpha_j + n_j)}{\Gamma(\alpha_0 + n + 1)}
$$

$$
= \frac{\alpha_k + n_k}{\alpha_0 + n}
$$

## Объяснение результата

**Апостериорное распределение:**
- Параметры Дирихле обновляются простым сложением: $\alpha_k' = \alpha_k + n_k$
- Априорные параметры $\alpha_k$ можно интерпретировать как "псевдонаблюдения" категории $k$
- Сумма параметров обновляется: $\alpha_0' = \alpha_0 + n$

**Предсказательное распределение:**
- Вероятность наблюдения категории $k$ равна $\frac{\alpha_k + n_k}{\alpha_0 + n}$
- Это взвешенное среднее между априорной вероятностью $\frac{\alpha_k}{\alpha_0}$ и эмпирической частотой $\frac{n_k}{n}$
- При $n \to \infty$ предсказательное распределение стремится к эмпирическим частотам
- При малых $n$ большее влияние оказывает априорное распределение

**Интерпретация параметров:**
- Если все $\alpha_k = 1$ (равномерный априор), то $p(x_{\text{new}} = k \mid D) = \frac{1 + n_k}{m + n}$ — сглаженная эмпирическая частота
- Если $\alpha_k = \alpha$ для всех $k$ (симметричный априор), то априорное распределение симметрично относительно всех категорий
- Чем больше $\alpha_0 = \sum \alpha_k$, тем "сильнее" априор и тем медленнее обновление при поступлении новых данных