In [1]:
import numpy as np
import pandas as pd
import math

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Math Expectation (Математическое ожидание)

Отвечает на вопрос: какого значения X ожидать в среднем ($\mu$)?

![stat_math_expectation](./img/stat_math_expectation.png)

In [2]:
def math_expectation(df, x_column_name, probability_column_name):
    return (df[x_column_name] * df[probability_column_name]).sum()

### Привер

Рассмотрим пример. Ваня хочет открыть свой бизнес, но выбранная им сфера деятельности требует получения лицензии.Известно, что не всегда удается получить ее с первого раза. Допустим, нам удалось собрать информацию о том, сколько попыток понадобилось предшественникам Вани. Посмотрим на эту таблицу:

In [3]:
df = pd.DataFrame({
    'number_of_attempts': [1, 2, 3, 4, 5, 6, 7, 8],
    'probability': [0.05, 0.1, 0.3, 0.25, 0.15, 0.07, 0.05, 0.03]
})

In [4]:
math_expectation(df, 'number_of_attempts', 'probability')

3.91

# Дисперсия и стандартное отклонение
Стандартное отклонение случайной величины отвечает на вопрос: как далеко от среднего **$\mu$** в среднем попадает **X**? Помним, что стандартное отклонение обозначается буквой $\sigma$ («сигма»).

![stat_std_deviation](./img/stat_std_deviation.png)

# Дисперсия

Дисперсия — это квадрат стандартного отклонения. Обозначается в англоязычной традиции сочетанием **Var(X)** (от англ. variance).

По определению дисперсия — это математическое ожидание квадрата отклонения **X** от среднего $\mu$. Используя определение математического ожидания, можно записать дисперсию как сумму значений $x_{i}$ минус $\mu$ в квадрате, домноженную на вероятность данного значения  $x_{i}$:

![stat_dispersion](./img/stat_dispersion.png)

![stat_dispersion_example](./img/stat_dispersion_example.png)

### Пример 1

Для случайной величины X найдите дисперсию Var(X) и стандартное отклонение $\sigma$:

In [5]:
df = pd.DataFrame({
    'X': [2, 3, 4, 5],
    'probability': [0.1, 0.2, 0.6, 0.1]
})

In [6]:
# Dispersion 'mu'
mu = math_expectation(df, 'X', 'probability')
mu

3.7

In [7]:
# Standard deviation
def std(df, dispersion, x_column_name, probability_column_name):
    return math.sqrt(
        df.apply(
            lambda x: ((x[x_column_name] - dispersion)**2 * x[probability_column_name]), axis=1
        ).sum()
    )

In [8]:
std(df, mu, 'X', 'probability')

0.7810249675906654

# Свойства дисперсии

> Свойство 1. Дисперсия константы — это ноль. И правда, дисперсия — это мера изменчивости переменной. Если переменная не меняется, то и мера ее изменения будет равна нулю.
![stat_disp_const](./img/stat_disp_const.jpg)

> Свойство 2. Константу можно вынести за знак дисперсии в квадрате.
![stat_disp_const](./img/stat_disp_const2.jpg)

> Свойство 3. Дисперсия суммы (разности) случайных величин равна сумме дисперсий этих величин только если они независимы. В формуле мы видим элемент Cow, это ковариация. Если две случайные величины независимы, то дисперсия их суммы или разности — это просто сумма дисперсий этих случайных величин.
![stat_disp_const](./img/stat_disp_sum.jpg)