In [2]:
import numpy as np
import scipy.stats as sts
import random 
from matplotlib import pyplot as plt
%matplotlib inline

# Занятие 2

## Переход от описательной статистики к стат анализу

### Независимость событий

События А и В называются **независимыми**, если 
$$\mathbb{P}(A \cap B) = \mathbb{P}(A) \mathbb{P}(B) $$

Отсюда следует, что события независимы тогда и только тогда, когда
$$ \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(A) \mathbb{P}(B)}{\mathbb{P}(B)} = \mathbb{P}(A) $$

Система событий $A = A_1, A_2, ..., A_n$ называется **независимой попарно**, если любая пары событий из них являются независимыми.
$$\forall i, j:\ \mathbb{P}(A_i \cap A_j) = \mathbb{P}(A_i) \mathbb{P}(A_j) $$

Система событий $A = A_1, A_2, ..., A_n$ называется **независимой в совокупности**, если выбирая любое количество событий из $A$, они будут независимы.
$$\mathbb{P}(A_{i_1} \cap A_{i_2} \cap ... \cap A_{i_k}) = \mathbb{P}(A_{i_1}) \cdot \mathbb{P}(A_{i_2}) \cdot ... \cdot \mathbb{P}(A_{i_k})$$

#### Независимость в совокусти более строгое условие!

### Независимость случайных величин

Пусть $\xi = (a_1, a_2, ..., a_n)$, $\eta = (b_1, b_2, ..., b_k)$ случайные величины, принимающие следующие 
значения. Тогда $\xi$ и $\eta$ **независимые случайные величины**, если 

$$\mathbb{P}(\xi = a_k \cap \eta = b_j) = \mathbb{P}(\xi = a_k) \mathbb{P}( \eta = b_j) $$

Обозначение: $\xi \perp \!\!\! \perp \eta$

Набор случайных величин ($\xi_1, ..., \xi_n$) называется **независимыми в совокупности случайными величинами**, если для любого набора 

$$\mathbb{P}(\xi = a_k: \cap \eta = b_j) = \mathbb{P}(\xi = a_k) \mathbb{P}( \eta = b_j) $$


Cлучайные величины $\xi_1, ..., \xi_n$ называются **одинаково распределенными**, если они все принадлежат одному и тому же распределению. 

Например, все отвечают бросанию 6-гранного кубика. Если одна из них соответствует бросанию 8-гранного кубика, то они не одинаково распределенные.

Последовательность независимых одинаково распределенных случайных величин $X^n = X_1, ..., X_n$ называется **выборкой** размера $n$.

**Статистика** --- любая функция от выборки $T(X^n)$

#### Пусть $X^n$ --- выборка, тогда как оценить распределение?

Если мы знаем, что $X_1$ - дискретное распределения со значениями $(a_1, ..., a_k)$, тогда

$$\bar{p}_k = \frac{1}{n} \sum_{i=0}^n [X_i = a_k], $$
где $[ ... ]$ **индикатор события**, который равен 1, если условие верное и 0 иначе

Если мы знаем, что $X_1$ - непрерываное распределения со значениями, тогда оценим функцию распределения:

$$\bar{F_n}(x) = \frac{1}{n}  \sum_{i=0}^n [X_i \le x]$$

Функция $\bar{F_n}(x)$ называется **эмпирической функцией распределения**


### Основные статистические понятия

**Математическое ожидание** (средневзвешанное значение) --- 

$$\mathbb{E}X = \begin{cases} 
\displaystyle \sum_i a_i p_i,  \text{дискретное распределение} \\
\displaystyle \int_{-\infty}^{+\infty} x p(x), \text{непрерывное распределение}
\end{cases}$$

**Квантиль порядка $\alpha$** --- это такое число $X_\alpha$,что выполнено

$$X_\alpha :\ \mathbb{P}(X \le X_\alpha) \ge \alpha, \mathbb{P}(X \ge X_\alpha) \ge 1 - \alpha, $$

**Медиана выборки** --- квантиль порядка $1/2$

$$X_{MED} :\ \mathbb{P}(X \le X_{MED}) \ge 1/2, \mathbb{P}(X \ge X_{MED}) \ge 1/2, $$

**Мода** выборки --- наивероятнейшее значение случайной величины

$$mode X = \begin{cases} 
\displaystyle \arg \max_i p_i,  \text{дискретное распределение} \\
\displaystyle \arg \max p(x), \text{непрерывное распределение}
\end{cases}$$

**Дисперсия** распределения 

$$ \mathbb{D}X = \mathbb{E}x^2 - (\mathbb{E}x)^2$$

$\sqrt{\mathbb{D}X}$ --- **среднеквадратичное отклонение**


**Интерквартильный размах** 
$$IQR  = X_{0.75} - X_{0.25} $$

### Как посчитать статистики?

#### Матожидание

$$\bar{X} = \frac 1n \sum_i X_i - \text{выборочное среднее} $$

#### Медиана

$(X_{(1)}, X_{(2)}, ..., X_{(n)}): X_{(1)} \le X_{(2)} \le ... \le X_{(n)}$

$$m = \begin{cases}
X_{(n / 2)},\ n = 2k \\
\dfrac{X_{(n / 2)} + X_{(n / 2) + 1}}{2},\ n = 2k + 1 \\
\end{cases}$$

#### Выборочная дисперсия

$$s^2 = \frac{1}{n-1} \sum_i (X_i - \bar{X})^2 $$

### Центральная предельная теорема

Пусть $X_1, ..., X_n$ - независимые одинаково распределенные случайные величины, $S_n = \sum_i X_i$,  тогда 

$$\dfrac{S_n - \mathbb{E} S_n}{\sqrt{\mathbb{D} X_n}} \rightarrow^d \mathcal{N}(0,1)$$

В нашем случае важно, что 

$$\bar{X_n} \rightarrow^d \mathcal{N}(\mathbb{E}X_n,\frac{\mathbb{D}X_n}{n})$$