# Урок 4

## Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема

### Непрерывные случайные величины

Ранее мы познакомились с дискретными случайными величинами. Такие величины принимают дискретные, т.е. разделимые значения. Например, это может быть конечное или счётное множество значений.

__Непрерывные случайные величины__ принимают все значения, содержащиеся в заданном промежутке. Промежуток может быть конечным или бесконечным.

Например, рост или вес человека — непрерывные случайные величины: они могут принимать любое значение в некоторых пределах.

Закон распределения вероятностей дискретной случайной величины мы задавали как соответствие между значениями $a_i$ случайной величины и соответствующими вероятностями $P(X = a_i)$. 

Для непрерывных случайных величин аналогичный подход невозможен, поскольку вероятность $P(X = a)$ для непрерывной случайной величины $X$ равна $0$ для любого $a$. Поэтому распределение вероятностей непрерывных случайных величин характеризуют с помощью __функции распределения__:
$$F(x) = P(X < x).$$

Функция распределения показывает, какова для каждого $x$ вероятность того, что случайная величина $X$ принимает значение меньше $x$. (Для дискретных распределений эта функция ступенчатая.) 

Эта функция монотонно возрастает на отрезке, на котором определена случайная величина. Кроме того, $F(-\infty) = 0$ и $F(\infty) = 1$.

__Пример 1__

Рассмотрим опять данные по хоккеистам и построим по ним _эмпирическую_ (т.е. полученную опытным путём) функцию распределения возраста хоккеистов.

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from scipy import stats

%config InlineBackend.figure_formats = ['svg']

In [2]:
plt.style.use('seaborn-whitegrid')
plt.rcParams['figure.facecolor'] = 'white'

In [3]:
df = pd.read_csv('hockey_players.csv', encoding='cp1251')
df = df.drop_duplicates(['firstName', 'lastName', 'birthYear', 'birthMon', 'birthDay'])
df.head()

Unnamed: 0,playerID,coachID,hofID,firstName,lastName,nameNote,nameGiven,nameNick,height,weight,...,birthDay,birthCountry,birthState,birthCity,deathYear,deathMon,deathDay,deathCountry,deathState,deathCity
0,aaltoan01,,,Antti,Aalto,,Antti,,73.0,210.0,...,4.0,Finland,,Lappeenranta,,,,,,
1,abbeybr01,,,Bruce,Abbey,,Bruce,,73.0,185.0,...,18.0,Canada,ON,Toronto,,,,,,
2,abbotge01,,,George,Abbott,,George Henry,Preacher,67.0,153.0,...,3.0,Canada,ON,Synenham,,,,,,
3,abbotre01,,,Reg,Abbott,,Reginald Stewart,,71.0,164.0,...,4.0,Canada,MB,Winnipeg,,,,,,
4,abdelju01,,,Justin,Abdelkader,,,,73.0,195.0,...,25.0,USA,MI,Muskegon,,,,,,


In [4]:
def edf(samples, x: float) -> float:
    """Эмпирическая функция распределения (empirical distribution
    function).
    """
    
    return samples[samples < x].shape[0] / samples.shape[0]

С помощью `matplotlib` построим график данной функции в пределах от $10$ до $50$.

In [5]:
ox = np.linspace(10, 50, 1000)
oy = np.array([edf(df['age'], x) for x in ox])

plt.plot(ox, oy)

KeyError: 'age'

Всё же функция распределения не даёт представления о распределении, аналогичного тому, что даёт закон распределения дискретных случайных величин. Хотелось бы понять, какие значения случайной величины более «вероятно» наблюдать, чем другие. 

Для таких целей удобно использовать __функцию плотности__:
$$f(x) = F'(x)$$

Геометрический смысл функции плотности таков: вероятность того, что случайная величина $X$ будет лежать в отрезке $(a, b)$, равна площади под графиком функции плотности $f(x)$ в пределах от $a$ до $b$.

Общая площадь под графиком функции $f(x)$ равна $1$, аналогично тому, что сумма вероятностей значений дискретной случайной величины равна $1$.

Однако, стоит помнить, что _значение $f(x)$ не является вероятностью $P(X = x)$_. Оно лишь отражает _плотность_ случайной величины в окрестности точки $x$.

Плотность распределения можно визуализировать с помощью гистограммы, передав в неё значение параметра `density=True`.

__Пример 2__

Построим гистограмму значений возраста хоккеистов, чтобы примерно представить, как выглядит соответствующая функция плотности распределения.

In [None]:
plt.hist(df['age'], density=True, bins=15);

Математическое ожидание и дисперсия для непрерывной случайной величины также считаются иначе, чем для дискретной. 

Формула для математического ожидания:

$$M(X) = \displaystyle\int_{-\infty}^\infty x \cdot f(x) \: dx$$

Формула для дисперсии:

$$D(X) = \displaystyle\int_{-\infty}^\infty (x - M(X))^2 \cdot f(x) \: dx$$

### Примеры непрерывных распределений

Непрерывная случайная величина $X$ имеет __равномерное распределение__ на отрезке $[a, b]$, если её плотность внутри этого отрезка постоянна, а вне этого отрезка равна 0. Другими словами:
$$
f(x) = \begin{cases}
\dfrac{1}{b - a}, & x \in [a, b], \\
0, & x \not\in [a, b].
\end{cases}
$$

Не путать с _дискретным равномерным_ распределением.

Математическое ожидание и дисперсия равномерного распределения:
$$M(X) = \dfrac{a + b}{2}, \:\: D(X) = \dfrac{(b - a)^2}{12}.$$

__Пример 3__

Выборку из равномерного распределения можно получить с помощью функции `uniform` из модуля `numpy.random`. Построим выборку из равномерного распределения с параметрами $a = -1.5$, $b = 2.5$.

In [None]:
a = -1.5
b = 2.5

samples = np.random.uniform(a, b, size=10000)

print(samples)

Убедимся, что каждый элемент в этой выборке встречается лишь однажды:

In [None]:
len(samples) - len(set(samples))

Математическое ожидание:
$$M(X) = \dfrac{a + b}{2} = \dfrac{-1.5 + 2.5}{2} = \dfrac{1}{2}.$$

Выборочное среднее:

In [None]:
samples.mean()

Дисперсия:
$$D(X) = \dfrac{(b - a)^2}{12} = \dfrac{4^2}{12} = \dfrac{4}{3} \approx 1.333.$$

Выборочная дисперсия (несмещённая) от выборки:

In [None]:
samples.var(ddof=1)

Формула функции равномерного распределения:

$
F(x) = \begin{cases}
0, & x < a, \\
\dfrac{x - a}{b - a}, & x \in [a, b], \\
1, & x > b.
\end{cases}
$

__Пример 4__

Построим эмпирическую и теоретическую функции распределения.

In [None]:
def cdf_uniform(a: float, b: float, x: float) -> float:
    """Функция распределения (cumulative distribution function)
    для равномерного распределения.
    """
    
    if x < a:
        return 0
    if x > b:
        return 1
    else:
        return (x - a) / (b - a)

In [None]:
ox = np.linspace(-4, 4, 1000)
oy1 = np.array([edf(samples=samples, x=x) for x in ox])
oy2 = np.array([cdf_uniform(a=a, b=b, x=x) for x in ox])

plt.plot(ox, oy1, label='edf')
plt.plot(ox, oy2, linestyle='dashed', label='cdf')

plt.legend()

__Пример 5__

Построим гистограмму, чтобы визуализировать функцию плотности. Вместе с ней построим теоретическую функцию плотности.

In [None]:
def pdf_uniform(a: float, b: float, x: float) -> float:
    """Функция плотности (probability density function)
    для равномерного распределения.
    """
    
    return 1 / (b - a) if a <= x <= b else 0

In [None]:
oy = np.array([pdf_uniform(a, b, x) for x in ox])

plt.hist(samples, density=True)
plt.plot(ox, oy, linestyle='dashed')

Непрерывная случайная величина $X$ имеет __нормальное распределение__ с параметрами $a$ и $\sigma > 0$, если её плотность распределения задаётся формулой
$$f(x) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \cdot \exp \left(- \frac{(x - a)^2}{2 \sigma^2} \right)$$

Параметры $a$ и $\sigma$ задают, соответственно, математическое ожидание и среднее квадратическое отклонение случайной величины:
$$M(X) = a, \:\: D(X) = \sigma^2$$

Нормальное распределение с параметрами $a = 0$ и $\sigma = 1$ называется __стандартным нормальным распределением__.

Нормальное распределение является одним из наиболее распространённых на практике. Например, нормально распределены:
* рост, вес людей
* показатели IQ
* время прихода на работу
* скорость движения молекул в жидкостях и газах

Как правило, нормально распределёнными являются случайные величины, описывающие события, которые зависят от большого числа слабо связанных случайных факторов.

__Пример 6__

Выборку из нормального распределения можно получить с помощью функции `normal` из модуля `numpy.random`. Построим такую выборку с параметрами $a = 8$, $\sigma = 2$.

In [None]:
loc = 8
scale = 2

In [None]:
samples = np.random.normal(loc, scale, size=1000)

# print(samples)

Выборочные мат. ожидание и дисперсия:

In [None]:
samples.mean(), samples.var(ddof=1)

Функция нормального распределения:
$$F(x) = \dfrac{1}{2} \left[ 1 + \operatorname{erf} \left( \dfrac{x - a}{\sigma \sqrt{2}} \right) \right],$$
где $\operatorname{erf}$ — __функция ошибок__. 

Функция ошибок представляет собой интеграл
$$\operatorname{erf}(x) = \dfrac{2}{\pi}\displaystyle\int_0^x e^{- t^2} dt,$$
который аналитически не считается. Численная реализация этой функции доступна как функция `erf` из модуля `scipy.special`.

__Пример 7__

Эмпирическая и теоретическая функции распределения:

In [None]:
from scipy.special import erf

In [None]:
def cdf_normal(loc: float, scale: float, x: float) -> float:
    """Функция распределения для нормального распределения.
    """
    
    return (1 + erf((x - loc) / (scale * np.sqrt(2)))) / 2

In [None]:
ox = np.linspace(0, 16, 1000)
oy1 = np.array([edf(samples, x) for x in ox])
oy2 = np.array([cdf_normal(loc, scale, x) for x in ox])

plt.plot(ox, oy1, label='edf')
plt.plot(ox, oy2, label='cdf', linestyle='dashed')

plt.legend()

__Пример 8__

Гистограмма выборки и теоретическая функция плотности:

In [None]:
def pdf_normal(loc: float, scale: float, x: float) -> float:
    """Функция плотности для нормального распределения.
    """
    
    return np.exp(- ((x - loc) ** 2) / (2 * scale ** 2)) / (scale * np.sqrt(2 * np.pi))

In [None]:
oy = np.array([pdf_normal(loc, scale, x) for x in ox])

plt.hist(samples, density=True, bins=15)
plt.plot(ox, oy, linestyle='dashed')

Кстати, в модуле `scipy.stats` есть готовые функции распределения и плотности для многих известных распределений.

### `scipy.stats`

В модуле `scipy.stats` содержатся реализации основных функций для различных распределений:
* `binom` — биномиальное,
* `poisson` — Пуассоновское,
* `norm` — нормальное,
* `uniform` — непрерывное равномерное,
* `t` — распределение Стьюдента (о нём позже).

и др. 

Доступные функции:
* `pmf` — закон распределения для дискретных величин,
* `pdf` — функция плотности для непрерывных величин,
* `cdf` — функция распределения,
* `ppf` — квантильная функция (обратная к функции распределения).

и др. Например, с помощью этого модуля можно получить значения функции нормального распределения, которая не вычисляется аналитически и доступна лишь численно.

In [None]:
ox = np.linspace(0, 16, 1000)
oy = np.array([stats.norm.cdf(x, loc=8, scale=2) for x in ox])

plt.plot(ox, oy)

При многократном использовании функций одного и того же распределения удобнее сразу зафиксировать объект:

In [None]:
norm = stats.norm(loc=8, scale=2)

norm.pdf(6), norm.cdf(6), norm.ppf(0.16)

Для вычисления разброса значений нормально распределённой случайной величины можно использовать следующие правила:

* Интервал от $a - \sigma$ до $a + \sigma$ (__стандартное отклонение__) содержит около $68\%$ вероятностной массы (т.е. с вероятностью $68\%$ данная величина попадает в этот интервал).
* От $a - 2\sigma$ до $a + 2\sigma$ — около $95\%$ массы (__правило двух сигм__).
* От $a - 3\sigma$ до $a + 3\sigma$ — около $99.7\%$ массы (__правило трёх сигм__).

Посчитаем точные значения для этих интервалов. Поскольку эти правила не зависят от конкретных параметров, посчитаем интервалы для стандартного нормального распределения. (Оно используется по умолчанию в `scipy.stats.norm`.)

Стандартное отклонение:

In [None]:
stats.norm.cdf(1) - stats.norm.cdf(-1)

Правило двух сигм:

In [None]:
stats.norm.cdf(2) - stats.norm.cdf(-2)

Правило трёх сигм:

In [None]:
stats.norm.cdf(3) - stats.norm.cdf(-3)

In [None]:
loc = 800
scale = 500

stats.norm.cdf(loc + scale ** 2, loc=loc, scale=scale) - stats.norm.cdf(loc - scale ** 2, loc=loc, scale=scale)

__Пример 9__

Вернёмся к данным о хоккеистах и рассмотрим столбец с ростом. Построим его гистограмму.

In [None]:
plt.hist(df['height'], bins=20);

Мы знаем, что рост — одна из величин, которая может распределяться нормально. Восстановим по выборке значения $a$ и $\sigma$ и построим поверх гистограммы теоретическую функцию плотности соответствующего нормального распределения.

In [None]:
loc = df['height'].mean()
scale = df['height'].std(ddof=1)

loc, scale

In [None]:
ox = np.linspace(165, 205, 1000)
oy = np.array([pdf_normal(loc, scale, x) for x in ox])

plt.hist(df['height'], density=True, bins=20)
plt.plot(ox, oy, linestyle='dashed')

Проверим на этих данных правило двух сигм. В отрезке `(loc - 2 * scale, loc + 2 * scale)` должно содержаться $95\%$ значений.

In [None]:
two_sigmas_condition = (df['height'] > loc - 2 * scale) & (df['height'] < loc + 2 * scale)

df[two_sigmas_condition].shape[0] / df.shape[0]

__Другие непрерывные распределения__

* __Экспоненциальное__ (или __показательное__): время между последовательными свершениями одного и того же события. Является непрерывным аналогом геометрического распределения. Функция плотности:

$$
F(x) = \begin{cases}
1 - e^{- \lambda x}, & x \geq 0, \\
0, & x < 0.
\end{cases}
$$

In [None]:
x = np.random.normal(1, 2, size=10000)
y = np.random.normal(1, 3, size=10000)

In [None]:
plt.hist(x, bins=20);

In [None]:
plt.hist(y, bins=20);

In [None]:
plt.hist(x + y, bins=20);

### Центральная предельная теорема

Одно из практически уникальных свойств нормального распределения — __устойчивость__ — означает, что если $X$ и $Y$ — _независимые нормально распределённые_ случайные величины, то их комбинация $Z = a \cdot X + b \cdot Y$ ($a$, $b$ — числа) также имеет нормальное распределение. Более того, для распределения $Z$ верны следующие равенства. Математическое ожидание:
$$M(Z) = a \cdot M(X) + b \cdot M(Y)$$
Дисперсия:
$$D(Z) = |a| \cdot D(X) + |b| \cdot D(Y)$$

Большинство других распределений не являются устойчивыми. Например, сумма двух равномерно распределённых случайных величин не является равномерно распределённой. Вместо этого неустойчивые распределения «стремятся» к нормальному. Это хорошо иллюстрирует центральная предельная теорема.

Рассмотрим выборку из $n$ значений случайной величины $X$, имеющей произвольное распределение, и пусть $Y$ — случайная величина, равная сумме этих значений. 

__Центральная предельная теорема__ утверждает: чем больше $n$, тем _ближе_ распределение величины $Y$ к нормальному распределению с параметрами
$$a = n \cdot M(X), \:\: \sigma^2 = n \cdot D(X)$$


_Другая версия_ этой теоремы: пусть $Z$ — случайная величина, равная среднему арифметическому значений из выборки. Тогда с увеличением $n$ распределение этой величины становится всё ближе к нормальному распределению с параметрами
$$a = M(X), \:\: \sigma^2 = \dfrac{D(X)}{n}$$

Центральная предельная теорема согласуется со сделанным ранее наблюдением, что, как правило, случайные величины, описывающие события, которые зависят от большого числа слабо связанных случайных факторов, являются нормально распределёнными.

Отметим, что центральная предельная теорема работает не только для непрерывных случайных величин, но и для дискретных.

__Пример 8__

Проверим утверждение центральной предельной теоремы на равномерном распределении $X$ с параметрами $a = -1.5$,
$b = 2.5$. Для этого при различных $n$ сформируем $n$ выборок размера, например, $10^4$, а затем посчитаем от них поэлементно среднее. Таким образом, мы получим одну выборку размера $10^4$. Теорема утверждает, что чем больше $n$, тем больше эта выборка похожа на выборку из некоторого нормального распределения $Y$.

Математическое ожидание величины $X$ равно $\dfrac{a + b}{2} = \dfrac{1}{2}$. Дисперсия: 
$\dfrac{(b - a)^2}{12} = \dfrac{4^2}{12} = \dfrac{4}{3}$. Это означает, что нормальное распределение $Y$ имеет параметры $a = \dfrac{1}{2}$, $\sigma^2 = \dfrac{4}{3n}$.

In [None]:
a = -1.5
b = 2.5

m = (a + b) / 2
d = ((b - a) ** 2) / 12

n_samples = 10 ** 4

In [None]:
def get_mean_samples_uniform(n: int) -> np.ndarray:
    """Возвращает выборку из значений среднего от `n` равномерно распределённых
    случайных величин.
    """
    
    samples = np.random.uniform(a, b, size=(n, n_samples))
    
    return samples.mean(axis=0)

In [None]:
n = 500

loc = m
scale = np.sqrt(d / n)

samples = get_mean_samples_uniform(n)

ox = np.linspace(loc - 4 * scale, loc + 4 * scale, 1000)
oy = np.array([pdf_normal(loc, scale, x) for x in ox])

plt.hist(samples, density=True, bins=20)
plt.plot(ox, oy, linestyle='dashed')

__Пример 9__

Аналогично продемонстрируем центральную предельную теорему на примере дискретного распределения, а именно биномиального с параметрами $n = 30$, $p = 0.2$. Параметр $n$ обозначим переменной `n_`, чтобы не конфликтовать с переменной `n`, отвечающей за число случайных величин, от которых берётся среднее.

Математическое ожидание в данном случае равно $np = 6$, дисперсия: $np(1 - p) = 4.8$.

In [None]:
30 * 0.2 * 0.8

In [None]:
n_ = 30
p = 0.2

m = n_ * p
d = n_ * p * (1 - p)

n_samples = 10 ** 4

In [None]:
def get_mean_samples_binomial(n: int) -> np.ndarray:
    """Возвращает выборку из значений среднего от `n` биномиально распределённых
    случайных величин.
    """

    samples = np.random.binomial(n_, p, size=(n, n_samples))
    
    return samples.mean(axis=0)

In [None]:
n = 1000

loc = m
scale = np.sqrt(d / n)

samples = get_mean_samples_binomial(n)

ox = np.linspace(loc - 4 * scale, loc + 4 * scale, 1000)
oy = np.array([pdf_normal(loc, scale, x) for x in ox])

plt.hist(samples, density=True, bins=20)
plt.plot(ox, oy, linestyle='dashed')

### Упражнения

__Задача 1__

О непрерывной равномерно распределённой случайной величине `B` известно, что её дисперсия равна 0.2. Можно ли найти правую границу величины `B` и её среднее значение зная, что левая граница равна 0.5? Если да, найдите их.

__Задача 2__

Коробки с шоколадом упаковываются автоматически. Их средняя масса равна 1.06 кг. Известно, что 5% коробок имеют массу, меньшую 1 кг. Найдите: а) среднее квадратическое отклонение массы коробки, б) процент коробок, имеющих массу больше 1.1 кг.

_Подсказка_. Найдите такое значение `scale`, для которого значение `cdf(x=1, loc=1.06, scale=scale)` близко к 0.05. Точности 0.0001 будет достаточно.

__Задача 3__

Коробка содержит 30 конфет. Известно, что масса каждой конфеты распределена равномерно в промежутке от 12 до 14 граммов. Используя центральную предельную теорему, найти вероятность, что масса всей коробки будет: а) меньше 390 граммов, б) больше 395 граммов, в) от 380 до 400 граммов.

Массой самой коробки можно пренебречь.

__Задача 4__ (на подумать)

Каким образом связаны между собой понятие квантиля и правила двух и трёх сигм? 

Данное задание - на подумать, оформлять его не обязательно. Этот вопрос мы обсудим в начале следующего занятия.