# Майнор ВШЭ 

## Прикладные задачи анализа данных 2020

## Семинар 4: Статистика 1

## План семинара
- [Часть 1. Распределение вероятностей](#Часть-1.-Распределение-вероятностей)
    - [Случайная величина](#Случайная-величина)
    - [Распределение вероятностей (Закон распределения)](#Распределение-вероятностей-(Закон-распределения))
    - [Какие бывают распределения?](#Какие-бывают-распределения?)
- [Часть 2. Оценка параметров](#Часть-2.-Оценка-параметров)
    - [Метод моментов](#Метод-моментов)
    - [Метод максимального правдоподобия](#Метод-максимального-правдоподобия)
- [Часть 3. Бутстрап](#Часть-3.-Бутстрап)
    - [Оценки дисперсии функционалов](#Оценки-дисперсии-функционалов)
    - [Доверительные интервалы на среднее](#Доверительные-интервалы-на-среднее)
- [Часть 4. Формула Байеса и MAP](#Часть-4.-Формула-Байеса-и-MAP)


In [None]:
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import norm
import seaborn as sns
import matplotlib.pyplot as plt

## Часть 1. Распределение вероятностей

In [None]:
from scipy.stats import gamma, norm, bernoulli

### Случайная величина

**Случайная величина** — переменная, значения которой представляют собой численные исходы некоторого случайного феномена или эксперимента. Другими словами, это численное выражение результата случайного события.

Примеры: 
    1. Бросок монеты
    2. Бросок игральной кости
    3. Время поездки от университета до дома 
    4. Время, потраченноё на проверку самостоятельных
    5. ...


### Распределение вероятностей (Закон распределения)

**Распределение вероятностей** — это закон, описывающий область значений случайной величины и вероятности их исхода (появления).

Способы задания:
- **Функция вероятности (probability mass function \ PMF) $p(x)$** - функция, возвращающая вероятность того, что **дискретная** случайная величина $X$ примет определённое значение.


- **Функция распределения (cumulative distribution function \ CDF) $F(x)$** - функция, возвращающая вероятность того, что случайная величина $X$ (дискретная или непрерывная) примет значение меньшее или равное $x$:
$$F(x) = Pr(X \leq x)$$


- **Плотность распеределения (вероятности) (probability density function \ PDF) $f(x)$** характеризует как бы **п л о т н о с т ь**, с которой распределяются значения **непрерывной** случайной велечины в данной точке:
$$f(x) = F'(x)$$

### Какие бывают распределения?

#### Биномиальное распределение $ X \sim B(n, p)$
$$ Pr(X = k) = {n \choose k} p^k (1 - p)^{n - k}$$ 

<img src="https://upload.wikimedia.org/wikipedia/commons/c/ca/Binomial_distribution.svg" width="600">

#### Нормальное распределение $ X \sim N(\mu, \sigma^2)$
$$f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$$

<img src="https://upload.wikimedia.org/wikipedia/commons/1/1b/Normal_distribution_pdf.png" width="500">

#### Гамма-распределение $ X \sim \Gamma(\alpha, \beta)$
$$f(x) =  \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x},$$

$k = \alpha$ - параметр формы,
$\theta = \frac{1}{\beta}$ - параметр масштаба

<img src="https://upload.wikimedia.org/wikipedia/commons/e/e6/Gamma_distribution_pdf.svg" width="600">

####  и др.

## Часть 2. Оценка параметров

### Метод моментов

**Начальным моментом порядка $k$** дискретной случайной велечины называется сумма вида:

$$\nu_k = \sum\limits_{i=1}^{n} x_i^k p_i$$

Очевидно, что **математическое ожидание** - первый начальный момент:

$$\nu_1 = \sum\limits_{i=1}^{n} x_i p_i = E[X]$$

При замене суммы на интеграл это же верно и для непрерывной случайной велечины.
Тогда можно сказать, что **начальным моментом $k$-го порядка случайной велечины $X$ называется математическое ожидание $k$-ой степени этой случайной велечины**:

$$\nu_k = E[X^k]$$


**Центральным моментом порядка $k$** случайной велечины $X$ называется величина:

$$\mu_k = E[(X - \nu_1)^k] = E[(X - EX)^k]$$

Очевидно, что **дисперсия** - второй центральный момент:

$$\mu_2 = E[(X - EX)^2] = Var(X)$$

Предположим, что исходя из некоторых соображений, мы решили, что наши данные ($X = \{ x_1, \dots, x_n \}$) подчиняются какому-то закону распредлениия $f(x)$. Функция $f(x)$, определяющая этот закон распределения, зависит от некоторых параметров $a_1, a_2, \dots$. Нам требуется подобрать эти параметры так, чтобы функция $f(x)$ наилучшим способом описывала наши данные.

В **методе моментов** эти параметры ($a_1, a_2, \dots$) выбираются таким образом, чтобы несколько важнейших числовых характеристик (моментов) теоретичекого распределения были равны соответствующим статистическим характеристикам (приравняем моменты желаемого распределения к моментам подсчитанным по данным и решим уравнения относительно данных моментов).

**Статистические моменты** определяются следующим образом:

$$\hat{\nu}_k = \frac{1}{n} \sum\limits_{i=1}^{n} x_i^k$$

$$\hat{\mu}_k = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \hat{\nu}_1)^k$$

Для выборочной дисперсии можно упростить:

$$\hat{\mu}_2 = \hat{Var(X)} =  \hat{\nu}_2 - (\hat{\nu}_1)^2$$


**Пример 1**

Рассмотрим нормальное распределение:

$$f(x | \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}$$


**Пример 2**

Давайте рассмотрим случай посложнее, с гамма-распределением. Пусть $X \sim \Gamma(\alpha, \beta)$, тогда среднее и дисперсия выражаются формулами:

$$E[X] = \frac{\alpha}{\beta}$$

$$Var(X) = \frac{\alpha}{\beta^2}$$

Применяем метод моментов:

$$\hat{\nu}_1 = \frac{\alpha}{\beta}$$

$$\hat{\mu}_2 = \hat{\nu}_2 - \hat{\nu}_1^2 = \frac{\alpha}{\beta^2}$$

Решая систему уравнений получаем:

$$\alpha = \hat{\nu}_1 \beta$$

$$\beta = \frac{\hat{\nu}_1}{\hat{\nu}_2 - \hat{\nu}_1^2}$$

In [None]:
np.random.seed(1337)

alpha = 0.23
beta = 5.35

# Генерируем 100 случайных значений из гамма-распределения
X = gamma.rvs(a=alpha, scale=1/beta,  size=100)

x_axis = np.linspace(0, 1, 100)

plt.plot(gamma.pdf(x_axis, a=alpha, scale=1/beta));

Оценим параметры гамма-распределения методом моментов:
1. Сгенерируем `num_iters` выборок из гамма-распределения размером `100`
2. Для каждой сгенерированной выборки оценим $\alpha$ и $\beta$
3. Построим гистограммы для полученных значений

In [None]:
%%time
num_iters = 100000

fitted_alphas = []
fitted_betas = []

for i in np.arange(num_iters):
    ##########################################################
    # Ваш код здесь
    X = gamma.rvs(a=alpha, scale=1/beta, size=100)
    
    nu_1 = X.mean()
    nu_2 = np.square(X).mean()
    
    fitted_betas.append(nu_1 / (nu_2 - nu_1**2)) 
    fitted_alphas.append(nu_1**2 / (nu_2 - nu_1**2))
    ##########################################################

In [None]:
plt.hist(fitted_alphas, bins=100)
alpha_q5, alhpa_q95 = np.percentile(fitted_alphas, [5, 95])
plt.axvline(x=alpha, linewidth=3, color='r',linestyle='--')
plt.axvline(x=alpha_q5, linewidth=3, color='g',linestyle='--')
plt.axvline(x=alhpa_q95, linewidth=3, color='g',linestyle='--');

In [None]:
plt.hist(fitted_betas, bins=100)
beta_q5, beta_q95 = np.percentile(fitted_betas, [5, 95])
plt.axvline(x=alpha, linewidth=3, color='r',linestyle='--')
plt.axvline(x=beta_q5, linewidth=3, color='g',linestyle='--')
plt.axvline(x=beta_q95, linewidth=3, color='g',linestyle='--');

In [None]:
print('Alpha error: ', np.mean(np.array(fitted_alphas) - alpha))
print('Beta error: ', np.mean(np.array(fitted_betas) - beta))

### Метод максимального правдоподобия

**MLE (maximum likelihood estimation)** основывается на максимизации вероятности пронаблюдать выборку - максимизации **функции правдоподобия $\mathcal{L}$**:

$$\mathcal{L} = \prod p(x_i|\theta)$$

Будем рассматривать MLE на примере задачи, приведенной выше.

Уравнение правдоподобия чаще всего записывается с использованием логарифма вероятности, так как в этом случае произведение переходит в сумму, что сильно упрощает жизнь.

$$\mathcal{\log L} = \sum\limits_i \log p(x_i|\theta)$$

  * более хорошая численная стабильность (предотвращает overflow или underflow ошибки);
  * более (относительно) точные градиенты;
  * более гладкая задача (методы оптимизации лучше работают).

Посмотрим на зависимость **log-likelihood** для задачи с гамма-распределением.

$$\mathcal{L} = \prod\limits_i \frac{\beta^\alpha}{\Gamma(\alpha)} {x_i}^{\alpha-1} e^{-\beta x_i}$$


$$\mathcal{\log L} = \sum\limits_i \left(  \alpha \log \beta - \log \Gamma(\alpha) + (\alpha - 1) \log x_i - \beta x_i \right)$$

(Обратим внимание насколько простой стала зависимость от $x_i$:)


В большинстве задач, если это не игровые примеры, найти явную форму для оценки параметров с помощью MLE очень сложно.

$$\theta^* = \arg \max \log \mathcal{L}(X, \theta)$$

Берём первую производную по каждому параметра распределения и приравниваем к нулю:

$$ \mathcal{\log L}'(X, \theta) = 0$$

Для параметра $\beta$ гамма-распределения:

$$\mathcal{\log L}'_\beta = \sum\limits_{i} \frac{\alpha}{\beta} - x_i = 0$$

$$\beta = \frac{\alpha N}{\sum\limits_i x_i}$$

Для параметра $\alpha$:

$$\mathcal{\log L}'_\alpha = \sum \log \beta + \log x_i - \psi(\alpha) = 0$$

где $\psi(\alpha) = \frac{d}{d\alpha} \log \Gamma (\alpha)$ - дигамма-функция

$$\alpha = \log \beta + \frac{1}{N} \sum \log x_i$$


Итого:

$$\alpha = \log \beta + \frac{1}{N} \sum \log x_i$$

$$\beta = \frac{\alpha N}{\sum\limits_i x_i}$$

In [None]:
x_axis = np.linspace(0, 1, 200)

plt.plot(x_axis, np.prod(gamma.pdf(X[:, np.newaxis], a=x_axis, scale=1/beta), axis=0))
plt.title('Likelihood');

In [None]:
plt.plot(x_axis, np.sum(gamma.logpdf(X[:, np.newaxis], a=x_axis, scale=1/beta), axis=0))
plt.title('Log-Likelihood');

In [None]:
alpha_est, _, beta_est = gamma.fit(X, floc=0.)
beta_est = 1 / beta_est

print('True alpha: % s \nTrue beta:  % s' % (alpha, beta))
print('Estimated alpha: % f \nEstimated beta:  % f' % (alpha_est, beta_est))

Оценим параметры распределения с помощью ММП:
1. Сгенерируем `num_iters` выборок из гамма-распределения размером `100`
2. Для каждой сгенерированной выборки оценим $\alpha$ и $\beta$ с помощью ММП
3. Построим гистограммы для полученных значений

In [None]:
%%time
num_iters = 100000

alphas = []
betas = []

fitted_alphas = []
fitted_betas = []

for i in range(num_iters):
    ##########################################################
    # Ваш код здесь
    X = gamma.rvs(scale=1 / beta, a=alpha, size=100)
    
    fit_alpha, _, fit_beta = gamma.fit(X, floc=0)
    
    fitted_betas.append(1 / fit_beta)
    fitted_alphas.append(fit_alpha)
    ##########################################################

In [None]:
plt.hist(fitted_alphas, bins=100)
alpha_q5, alhpa_q95 = np.percentile(fitted_alphas, [5, 95])
plt.axvline(x=alpha, linewidth=3, color='r',linestyle='--')
plt.axvline(x=alpha_q5, linewidth=3, color='g',linestyle='--')
plt.axvline(x=alhpa_q95, linewidth=3, color='g',linestyle='--');

In [None]:
plt.hist(fitted_betas, bins=100)
beta_q5, beta_q95 = np.percentile(fitted_betas, [5, 95])
plt.axvline(x=beta, linewidth=3, color='r',linestyle='--')
plt.axvline(x=beta_q5, linewidth=3, color='g',linestyle='--')
plt.axvline(x=beta_q95, linewidth=3, color='g',linestyle='--');

In [None]:
print('Alpha error: ', np.mean(np.array(fitted_alphas) - alpha))
print('Beta error: ', np.mean(np.array(fitted_betas) - beta))

## Часть 3. Бутстрап

![https://towardsdatascience.com/an-introduction-to-the-bootstrap-method-58bcb51b4d60](https://miro.medium.com/max/700/1*iH5w0MBdiOlxDOCX6nmqqw.png)


### Оценки дисперсии функционалов

Пусть есть выборка $X = \{x_i\}_{i=1}^{n}$, некоторый функционал $T_n(X)$ (например, среднее) и мы хотим оценить дисперсию $D_F(T_n)$. Не зная истинного распределения это можно сделать с помощью непараметрического или параметрического бутстрапа.

В непараметрическом бутстрапе оценка дисперсии делается следующим образом:

  1. Рэсемплим выборку с возвращением $B$ раз: $X_1^*, X_2^*, X_B^* \sim X$
  2. Вычисляем $T_1^*, ..., T_B^*$
  3. $$D_F(T_n) \approx v_{boot} = \frac{1}{B - 1} \sum\limits_{b=1}^B \left(T_b^* - \bar{T}^*  \right)^2$$
  

Напишем свой код для оценки дисперсии с помощью бутстрэпа:
1. Сгенерируем исходную выборку `sample` размером `N = 100` из нормального распределения с известными параметрами `mu` и `sigma`
2. По исходной выборке сгенерируем `B = 5000` бутстрапированных выборок
3. Посчитаем среднеее значение $T_b^*$ для каждой бутстрапированной выборке
4. Построим гистограмму средних
5. Оценим дисперсию $D_F(T_n)$

In [None]:
N = 100

mu = 3.4
sigma = 1.5

sample = sigma * np.random.randn(N) + mu

In [None]:
##########################################################
# Ваш код здесь
B = 5000

Xb = np.random.choice(sample, (B, N), replace=True)

T = lambda x: np.mean(x, axis=1)

plt.hist(T(Xb), bins=100);
##########################################################

In [None]:
print('Error in variance estimation:', np.std(sample) / np.sqrt(N) - np.std(T(Xb)))

### Доверительные интервалы на среднее 


В непараметрическом бутстрапе 95% доверительные интервалы считаются следующим образом:

  1. Рэсемплим выборку с возвращением B раз: $X_1^*, X_2^*, X_B^* \sim X$
  2. Вычисляем $T_1^*, ..., T_B^*$
  3. Интервал: [ Percentile($T_1^*, ..., T_B^*$, 2.5), Percentile($T_1^*, ..., T_B^*$, 97.5) ] 
  


Напишем свой код для оценки доверительного интервала среднего:

In [None]:
##########################################################
# Ваш код здесь
bootstrapp_statistics = T(Xb)

b_q5, b_q95 = np.percentile(bootstrapp_statistics, [5, 95])
##########################################################
plt.hist(bootstrapp_statistics, bins=100)
plt.axvline(x=b_q5, linewidth=3, color='g',linestyle='--')
plt.axvline(x=b_q95, linewidth=3, color='g',linestyle='--');

## Часть 4. Формула Байеса и MAP

Пусть есть два события $A$ и $B$. Тогда условная вероятность вводится следующим образом (аксиоматически):

$$p(A|B) = \frac{p(A, B)}{p(B)}$$

Формула показывает какая вероятность наступить событию $A$, если событие $B$ уже наступило. Если $p(A|B)=p(A)$, то говорят что событие $A$ не зависит от $B$. Формула Байеса легко выводится из формулы условной вероятности:

$$p(A|B) = \frac{p(A, B)}{p(B)} = \frac{p(A) p(B|A)}{p(B)}$$

Воспользуемся байесовским рассуждением. Предположим, что моменту подбросили один раз и выпал орёл. Распределение описывается распредлением Бернулли: $Pr(X = 1) = q, Pr(X = 0) = 1 - q$.

Для выборки $x_1, x_2, \dots, x_N$ правдоподобие записывается следующим образом:

$$p(X, q) = \prod q^{x_i} (1 - q)^{1-x_i}$$

$$\log p(X, q) = \sum\left[ x_i \log q + (1 - x_i) \log(1 - q) \right]$$

Тогда оценка на параметры высчитывается следующим образом:


$$\frac{\partial }{\partial q} \log p(X, q) = \frac{1}{q} \sum x_i - \frac{1}{1-q} \sum (1 - x_i) = 0$$

Получаем:

$$q = \frac{\sum x_i}{n}$$

В согласии с методом максимума правдоподобия следует, что $q=1$, т.е. следует что монетка всегда будет выпадать орлом.

Такая оценка не очень хорошо согласуется с реальностью. Однако у нас есть некоторое априорное знание. Мы точно знаем, что честная монетка выпадает орлом в 50% случаев. Можем ли мы как-то это использовать? Да, это обеспечивается введением априорного распределения.

В MLE оценка параметров выглядела так:

$$\theta = \mathrm{argmax} \log P(X | \theta) = \mathrm{argmax} \sum \log p(x_i, \theta) $$


В MAP мы говорим, что есть ещё распределение $P(\theta)$, которое появляется из некоторых наших знаний о мире. Тогда **MAP (maximum a posterior probability)** записывается следующим образом:

$$
\theta = \mathrm{argmax}  P(X | \theta) P(\theta) = \mathrm{argmax} \left( \sum  \log p(x_i, \theta) \right) P(\theta)
$$

Вернёмся к монете.

Априорное распределение моделируется бета-распределением у которого плотность вероятности выглядит так:

![betapdf](https://wikimedia.org/api/rest_v1/media/math/render/svg/125fdaa41844a8703d1a8610ac00fbf3edacc8e7)

![beta](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Beta_distribution_pdf.svg/531px-Beta_distribution_pdf.svg.png)

В таком случае:

$$p(X, q) p(q) = \prod q^{x_i} (1 - q)^{1-x_i} \frac{1}{B(\alpha, \beta)} q^{\alpha - 1} (1 - q)^{\beta - 1}$$

Лог-вероятность:

$$\log p(X, q) p(q) = (\alpha - 1) \log q + (\beta - 1) \log (1 - q) +  \sum\left[ x_i \log q + (1 - x_i) \log( - q) \right] $$

Производная:


$$\frac{\partial }{\partial q} \log p(X, q) p(q) = $$

$$ = \frac{1}{q} \sum x_i - \frac{1}{1-q} \sum (1 - x_i) + \frac{\alpha - 1}{q} - \frac{\beta - 1}{1 - q} = 0$$


Решая уравнение выше получаем:

$$\mu = \frac{\sum x_i + \alpha - 1}{n + \beta + \alpha - 2}$$


Пусть наш прайор $\alpha=\beta=2$ (см. картинку выше).

Тогда при одном броске монеты получаем следующую оценку:

$$q = \frac{1 + 2 - 1}{1 + 2 + 2 - 2} = \frac{2}{3} \approx 0.66$$