# Задача 1

Пусть $X_1, X_2, \ldots, X_n$ — выборка из экспоненциального распределения с параметром $\lambda$. Найти оценку максимального правдоподобия параметра $\lambda$, сравнить ее с байесовской оценкой (MAP и математическое ожидание апостреорного распределения), подобрав сопряженное распределение. Сравнить полученные байесовские оценки с оценкой MLE. Найти предсказательное распределение

### Решение


$X_1, X_2, \dots, X_n$ — выборка из экспоненциального распределения с параметром $\lambda$:

$$
f(x \mid \lambda) = \lambda e^{-\lambda x}, \quad x \ge 0
$$

Нужно:

1. Найти оценку максимального правдоподобия (MLE) для $\lambda$.
2. Найти байесовские оценки (MAP и математическое ожидание апостериорного распределения), используя сопряжённое распределение.
3. Сравнить оценки MLE и байесовские.
4. Найти предсказательное распределение для нового наблюдения.

### 1. Оценка максимального правдоподобия (MLE)

Функция правдоподобия для выборки:

$$
L(\lambda) = \prod_{i=1}^{n} f(X_i \mid \lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda X_i} = \lambda^n e^{-\lambda \sum X_i}
$$

Логарифм функции правдоподобия:

$$
\ln L(\lambda) = n \ln \lambda - \lambda \sum_{i=1}^{n} X_i
$$

Максимизация:

$$
\frac{d\ln L(\lambda)}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} X_i = 0
$$

$$
\hat{\lambda}_{MLE} = \frac{n}{\sum_{i=1}^{n} X_i} = \frac{1}{\bar{X}} 
$$
(в знаменателе $\bar{X}$)

MLE — обратное значение среднего выборки.


### 2. Байесовский подход

2.1 Сопряжённое априорное распределение

Для экспоненциального распределения сопряжённое априорное распределение — гамма:

$$
\lambda \sim \text{Gamma}(\alpha, \beta), \quad p(\lambda) \propto \lambda^{\alpha-1} e^{-\beta \lambda}
$$

2.2 Апостериорное распределение

Апостериорное распределение:

$$
p(\lambda \mid X_1, \dots, X_n) \propto L(\lambda) \cdot p(\lambda) \propto \lambda^n e^{-\lambda \sum X_i} \cdot \lambda^{\alpha-1} e^{-\beta \lambda}
$$

$$
p(\lambda \mid X) \propto \lambda^{\alpha + n - 1} e^{-(\beta + \sum X_i) \lambda}
$$

Это тоже `гамма-распределение`:

$$
\lambda \mid X \sim \text{Gamma}(\alpha+n, \beta + \sum X_i)
$$


### 3. Байесовские оценки

1. MAP (Maximum a posteriori):

$$
\lambda_{MAP} = \frac{\alpha + n - 1}{\beta + \sum X_i}, \quad (\text{если } \alpha+n>1)
$$

2. Математическое ожидание апостериорного распределения:

$$
\mathbb{E}[\lambda \mid X] = \frac{\alpha + n}{\beta + \sum X_i}
$$


### 4. Сравнение оценок

| Метод                 | Оценка $\lambda$                                               |
| --------------------- | -------------------------------------------------------------- |
| MLE                   | $\hat{\lambda}_{MLE} = \frac{1}{\bar{X}}$                      |
| MAP                   | $\lambda_{MAP} = \frac{\alpha+n-1}{\beta+\sum X_i}$            |
| Среднее апостериорное | $\mathbb{E}[\lambda \mid X] = \frac{\alpha+n}{\beta+\sum X_i}$ |

1. MLE:  
   - Не учитывает априор.  
   - Опирается только на данные.  

2. MAP:  
   - Максимум апостериора.  
   - Если априор «сильный» ($\alpha, \beta$ большие), MAP смещается в сторону априора.  
   - Если априор «слабый» ($\alpha \approx 1, \beta \approx 0$), MAP $\approx$ MLE.  

3. Апостериорное среднее:  
   - Апостериорное среднее учитывает и данные, и форму апостериора, поэтому ещё чуть больше MAP. 
   - Всегда немного больше MAP на 1 в числителе:  

$$
\mathbb{E}[\lambda \mid X] - \lambda_{MAP} = \frac{1}{\beta + \sum X_i} > 0
$$
 

### 5. Предсказательное распределение

Предсказательная плотность для нового наблюдения $X_{\text{new}}$:

$$
p(X_{\text{new}} \mid X) = \int_0^\infty f(X_{\text{new}} \mid \lambda)p(\lambda \mid X)d\lambda
$$

Подставляем экспоненциальную плотность и гамма-апостериор:

$$
f(X_{\text{new}} \mid \lambda) = \lambda e^{-\lambda X_{\text{new}}}, \quad \lambda \sim \text{Gamma}(\alpha+n, \beta+\sum X_i)
$$

$$
p(X_{\text{new}} \mid X) = \int_0^\infty \lambda e^{-\lambda X_{\text{new}}} \cdot \frac{(\beta+\sum X_i)^{\alpha+n}}{\Gamma(\alpha+n)} \lambda^{\alpha+n-1} e^{-(\beta + \sum X_i)\lambda} d\lambda
$$

$$
p(X_{\text{new}} \mid X) = \frac{(\beta + \sum X_i)^{\alpha+n}}{\Gamma(\alpha+n)} \int_0^\infty \lambda^{\alpha+n} e^{-(X_{\text{new}} + \beta + \sum X_i) \lambda} d\lambda
$$

Интеграл можно выразить через гамма-функцию

  1. Генерируем $\lambda \sim \text{Gamma}(\alpha+n, \beta+\sum X_i)$
  2. Затем $X_{\text{new}} \sim \text{Exp}(\lambda)$


# Задача 2

**Мультиномиальное распределение**

Пусть проводится серия из $n$ испытаний и в результате каждого испытания происходит ровно одно событие из набора $A_1, A_2, \dots, A_m$, причем вероятности этих событий равны соответственно $\mathsf{p}_1, \mathsf{p}_2, \dots, \mathsf{p}_m$, причем
$$\sum_{i=1}^{m}\mathsf{p}_i = 1.$$

Тогда совместное распределение величин $X_1, X_2, \dots, X_m$, где $X_k$ — число наступлений события $A_k$ в серии из $n$ испытаний, задается вероятностями

$$
\mathsf{P}\left(X_1 = n_1, \dots, X_m = n_m, \right) = \frac{n!}{n_1!\dots n_m!}\mathsf{p}_1^{n_1}\dots \mathsf{p}_m^{n_m},
$$

где $n_1, n_2, \dots, n_m$ — произвольный набор целых неотрицательных чисел, таких что

$$\sum_{i=1}^m n_i = n.$$

Произведите байесовский вывод для мультиномиального распределения: найдите апостериорное распределение, используя в качестве сопоряженного распределения к правдоподобию [распределение Дирихле](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%94%D0%B8%D1%80%D0%B8%D1%85%D0%BB%D0%B5), найдите предсказательное распределение. Объясните результат.

### Решение

### Априор: распределение Дирихле

Берём сопряжённый априор:

$$
p(\mathbf p) = \mathrm{Dir}(\mathbf p \mid \boldsymbol\alpha)
= \frac{1}{B(\boldsymbol\alpha)} \prod_{i=1}^m p_i^{\alpha_i - 1},
$$

где $\alpha_i > 0$ и

$$
B(\boldsymbol\alpha) =
\frac{\prod_{i=1}^m \Gamma(\alpha_i)}{\Gamma\left(\sum_{i=1}^m \alpha_i\right)}.
$$


### 1. Апостериорное распределение

По формуле Байеса:

$$
p(\mathbf p \mid \mathbf X=\mathbf n)
\propto
P(\mathbf X=\mathbf n \mid \mathbf p) p(\mathbf p).
$$

Подставляем:

$$
p(\mathbf p \mid \mathbf n)
\propto
\left( \prod_{i=1}^m p_i^{n_i} \right)
\left( \prod_{i=1}^m p_i^{\alpha_i-1} \right)
= \prod_{i=1}^m p_i^{\alpha_i + n_i -1}.
$$

Это снова распределение Дирихле:

$$

\mathbf p \mid \mathbf X=\mathbf n
\sim
\mathrm{Dir}(\alpha_1+n_1,\ \alpha_2+n_2,\ \dots,\ \alpha_m+n_m)
$$


### Байесовские оценки

Апостериорное среднее

$$

E[p_i \mid \mathbf X] =
\frac{\alpha_i + n_i}{\alpha_0 + n}
,
\qquad
\alpha_0 = \sum_{i=1}^m \alpha_i.
$$

MAP

Если $\alpha_i + n_i > 1$:

$$
p_i^{MAP} =
\frac{\alpha_i + n_i - 1}{\alpha_0 + n - m}

$$

MLE

$$
\hat p_i^{MLE} = \frac{n_i}{n}.
$$

### 2. Предсказательное распределение

Для одного следующего испытания

Вероятность, что следующее испытание даст событие $A_k$:

$$
P(A_k \mid \mathbf X)
= E[p_k \mid \mathbf X]
= 
\frac{\alpha_k + n_k}{\alpha_0 + n}

$$

Для $r$ будущих испытаний

Пусть в $r$ будущих испытаниях счётчики равны
$\mathbf k = (k_1,\dots,k_m)$, $\sum k_i = r$.

$$
P(\mathbf K = \mathbf k \mid \mathbf X) \propto \int \left( \prod_{i=1}^m p_i^{k_i} \right) \left( \prod_{i=1}^m p_i^{\alpha_i+n_i-1} \right) d\mathbf p
= \int \prod_{i=1}^m p_i^{\alpha_i+n_i+k_i-1} d\mathbf p
$$

нормировочный коэффициент распределения Дирихле

$$
\int_{\sum p_i=1} \prod_{i=1}^m p_i^{\beta_i-1} d\mathbf p = \frac{\prod_i \Gamma(\beta_i)}{\Gamma\left(\sum_i \beta_i\right)}
$$

Тогда предсказательное распределение:

$$

P(\mathbf K=\mathbf k \mid \mathbf X=\mathbf n)
=
\frac{r!}{k_1!\dots k_m!}
\frac{\Gamma(\alpha_0+n)}{\Gamma(\alpha_0+n+r)}
\prod_{i=1}^m
\frac{\Gamma(\alpha_i+n_i+k_i)}{\Gamma(\alpha_i+n_i)}

$$

Это `дирихле-мультиномиальное распределение`

### 3. Объяснения

* Дирихле — **сопряжённый априор** для мультиномиального распределения, поэтому апостериор снова Дирихле.
* Параметры обновляются по правилу:
  $$
  \alpha_i \to \alpha_i + n_i,
  $$
  то есть «априорные счётчики» + реальные данные.
* Предсказательное распределение — это усреднение мультиномиала по апостериору.
* Для одного испытания предсказание совпадает с апостериорным средним.
* Для нескольких испытаний появляется **дополнительная дисперсия**, и результат — дирихле-мультиномиал.

