# Задача 1

Пусть $X_1, X_2, \ldots, X_n$ — выборка из экспоненциального распределения с параметром $\lambda$. Найти оценку максимального правдоподобия параметра $\lambda$, сравнить ее с байесовской оценкой (MAP и математическое ожидание апостреорного распределения), подобрав сопряженное распределение. Сравнить полученные байесовские оценки с оценкой MLE. Найти предсказательное распределение

## Решение

Генеральная совокупность $\xi$ имеет экспоненциальное распределение $ \mathsf{Exp}_\lambda$, то

$$
f_\xi(x) = \begin{cases}
 0, & x < 0 \\
 \lambda e^{-\lambda x}, & x \geq 0
 \end{cases}.
$$

1. Оценка максимального правдоподобия параметра $\lambda$
$$L(D, \lambda) = \mathsf{P}(D|\lambda) = \prod\limits_{i=1}^{n}f(x_i|\lambda)$$

Составим функцию правдоподобия:
$$L(D, \lambda) =  \lambda^ne^{-\lambda n\overline{X}}.$$

Прологарифмируем функцию правдоподобия:

$$ℓ(D, \lambda) = lnλ^n-\lambda n\overline{X}.$$

Минимизируем отрицательное логарифмическое правдоподобие:

$$-ℓ(D, \lambda) = -lnλ^n+\lambda n\overline{X}$$

$$\left(-lnλ^n+\lambda n\overline{X}\right)_\lambda^{'}= - \frac{n}{\lambda} + n\overline{X}=0⇒\hat{\lambda}_{MLE}=\frac{1}{\overline{X}}$$


2. Байесовская оценка параметра $\lambda$

В качестве сопряженного распределения к правдоподобию используем гамма-распределение $\lambda ∼\Gamma(a,b)$ :

$$\mathsf{E}\lambda = \frac{a}{b} \quad\quad mode = \frac{a-1}{b}$$

Тогда априорная вероятность:

$$
\mathsf P(\lambda) = \frac{b^a}{\Gamma (a)}\lambda^{a-1}e^{-b\lambda}
$$

Функция правдоподобия:
$$
\mathsf P(D|\lambda) = \lambda^{n}e^{-n\lambda\overline{X}}
$$

Вычислим апестериорное распределение:

$$
\mathsf P(\lambda|D) \propto  \mathsf P(\lambda)\mathsf P(D|\lambda)\propto\lambda^{a-1}e^{-b\lambda} \cdot \lambda^{n}e^{-n\lambda\overline{X}}\propto\lambda ^{a+n-1}e^{-\lambda(b+n\overline{X})} \propto \Gamma\left(n+a, b+n\overline{X}\right)
$$

Тогда математическое ожидание апостериорного распределения и MAP оценка(мода) будут иметь вид
$$
\hat{\lambda}_b = \frac{n+a}{b+n\overline{X}}
$$
и
$$
\hat{\lambda}_{MAP} = \frac{n+a-1}{b+n\overline{X}}
$$
соответственно.

Чем больше влияние априорного знания (например, большие a, b), тем сильнее различие с MLE. При больших объемах выборки $(n → ∞)$ обе байесовские оценки стремятся к оценке MLE.

3. Предсказательное распределение
$$
\mathsf{P}(x|D) = \int\limits_\lambda P(x|\lambda)P(λ|D)d\lambda = \int\limits_0^∞ \lambda e^{-\lambda x_i}\cdot \frac{(b+n\overline{X})^{a+n}}{\Gamma(n+a)}\lambda ^{a+n-1}e^{-\lambda(b+n\overline{X})}dλ=\frac{(b+n\overline{X})^{a+n}}{\Gamma(n+a)}\int\limits_0^∞ \lambda^{a+n} e^{-\lambda(x_i+b+n\overline{X})}=$$
$$=\frac{(b+n\overline{X})^{a+n}}{\Gamma(n+a)}\cdot \frac{\Gamma(a+n+1)}{(x_i+b+n\overline{X})^{a+n+1}}=\frac{(a+n)(b+n\overline{X})^{a+n}}{(x_i+b+n\overline{X})^{a+n+1}}.
$$

# Задача 2

**Мультиномиальное распределение**

Пусть проводится серия из $n$ испытаний и в результате каждого испытания происходит ровно одно событие из набора $A_1, A_2, \dots, A_m$, причем вероятности этих событий равны соответственно $\mathsf{p}_1, \mathsf{p}_2, \dots, \mathsf{p}_m$, причем
$$\sum_{i=1}^{m}\mathsf{p}_i = 1.$$

Тогда совместное распределение величин $X_1, X_2, \dots, X_m$, где $X_k$ — число наступлений события $A_k$ в серии из $n$ испытаний, задается вероятностями

$$
\mathsf{P}\left(X_1 = n_1, \dots, X_m = n_m, \right) = \frac{n!}{n_1!\dots n_m!}\mathsf{p}_1^{n_1}\dots \mathsf{p}_m^{n_m},
$$

где $n_1, n_2, \dots, n_m$ — произвольный набор целых неотрицательных чисел, таких что

$$\sum_{i=1}^m n_i = n.$$

Произведите байесовский вывод для мультиномиального распределения: найдите апостериорное распределение, используя в качестве сопоряженного распределения к правдоподобию [распределение Дирихле](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%94%D0%B8%D1%80%D0%B8%D1%85%D0%BB%D0%B5), найдите предсказательное распределение. Объясните результат.

1. Апесториорное распределение

Составим функцию правдоподобия:
$$L(D, p_1...p_m) = \mathsf{P}(D|p_1...p_m) = \frac{n!}{n_1!...n_m!}\prod\limits_{i=1}^{m}p_i^{n_i}$$

В качестве сопрежяенного распределения к правдоподобию используем распределение Дирихле $p=(p_1...p_m)∼Dir(\alpha_1...\alpha_m)$:

$$Ep_i = \frac{\alpha_i}{\sum\limits_i^m \alpha_i}.$$

Тогда априорная вероятность
$$\mathsf{P}(p) = \frac{1}{B(\alpha)}\prod_{i=1}^{m}p_i^{\alpha_i-1}$$

Вычислим апестериорное распределение:
$$\mathsf P(p|D) \propto \mathsf P(p)\mathsf P(D|p) \propto \prod\limits_{i=1}^{m}p_i^{n_i} \prod_{i=1}^{m}p_i^{\alpha_i-1}  \propto \prod_{i=1}^{m} p_i^{n_i+a_i-1}$$
Апестериорное распределение остается распределением Дирихле с обновленными параметрами $Dir(\alpha_1+n_1, ...,\alpha_m+n_m)$.


2. Предсказательное распределение

Для одного нового испытания:
$$P(k|D) = \int\limits P(k|p)P(p|D)dp=\int\limits p_kP(p|D)dp=E[p_k|D]=\frac{a_k+n_k}{\sum\limits_{i=1}^m (a_i+n_i)}.$$

Для $n'$ новых испытаний:
$$P(n_1'...n_m'|D) = \int\limits P(n_1'...n_m'|p)P(p|D)dp=\frac{n!}{n_1!...n_m!}\cdot \frac{1}{B(n+\alpha)}\int\limits \prod\limits_{i=1}^{m}p_i^{n_i+n_i'+a_i-1}dp=\frac{n!}{n_1!...n_m!}\cdot \frac{B(n+n'+\alpha)}{B(n+\alpha)}.$$

Параметры распределения Дирихле, которое является сопряженным, можно интерпретировать как "псевдо-количество событий". Мы предполагаем, что $k-$событие встречалось $\alpha_k-1$ раз. Предсказательное распределение, учитывает как априорные знания, так и эмпирически полученные данные.