## Урок 4

### Непрерывные случайные величины. 

### Функция распределения и плотность распределения вероятностей. 

### Равномерное и нормальное распределение. Центральная предельная теорема

**Непрерывная случайная величина** может принимать все возможные значения, содержащиеся на промежутке, который может быть как конечным (ограниченным), так и бесконечным.

**Функция распределения вероятностей** — это функция $F(x)$, которая для каждого значения $x$ показывает, какова вероятность того, что случайная величина меньше $x$.

**Плотность распределения вероятностей** — это функция $f(x)$, которая равна производной функции распределения вероятностей:

$$f(x) = F'(x)$$

#### Равномерное распределение

Распределение вероятностей случайной величины $X$ в зависимости от плотности:

$$f(x) = \begin{cases} 0, если \; x \le a; \\ \frac{1}{b - a}, если \; a < x \le b; \\ 0, \; если \; x > b. \end{cases}$$

Математическое ожидание $M(X)$ равномерно распределенной непрерывной случайной величины можно вычислить по формуле:

$$M(X) = \frac{a + b}{2}$$

По следующей формуле можно рассчитать дисперсию $D(X)$:


$$D(X) = \frac{(b - a)^2}{12}$$

Посмотрим на график плотности равномерного распределения:

<img src='https://ru.files.fm/thumb_show.php?i=4whssuky&view' width=500>Рис. 1 График плотности равномерного распределения</img>

График функции равномерного распределения:

<img src='https://ru.files.fm/thumb_show.php?i=fwy7dghu&view' width=500>Рис. 2 График функции равномерного распределения</img>

#### Нормальное распределение

Нормальное распределение — это распределение вероятностей непрерывной случайной величины $X$, плотность вероятности которой подчиняется формуле:

$$f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e ^ {- \frac{(x - a)^2}{2 \sigma^2}},$$

---



где $a = M(X), \; \sigma^2 = D(X).$

График плотности нормального распределения имеет колоколообразную форму:

<img src='https://ru.files.fm/thumb_show.php?i=wmq8yuhw&view' width=500> </img> Рис 3. График плотности нормального распределения

Примеры нормально распределенных величин: рост и вес людей, скорость движение молекул в газах и жидкостях, показатели IQ.

Одно из свойств нормального распределения: среднее значение, медиана и мода совпадают.

На отрезке от $-\sigma$ до $+\sigma$ расположено около 68 % наблюдений, 

от $-2\sigma$ до $+2\sigma$ — 95.4 %,

и от $-3\sigma$ до $+3\sigma$ — 99.72 %.

**Пример 1**

Расмотрим конкретный пример данных, распределенных нормально, — из статьи
<a href='https://habr.com/post/301340/'>«Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке»</a>.

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('hockey_players.csv', encoding='cp1251', parse_dates=['birth'])

Просмотрим первые строки датасета:

In [None]:
df.head()

Посмотрим количество строк, полей и информацию о полях в датасете:

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.describe()

Удалим дубликаты:

In [None]:
df = df.drop_duplicates(['name', 'birth'])

In [None]:
df.shape

Построим распределение роста среди хоккеистов:

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(df['height'], bins=20)
plt.show()

На гистограмме видим характерное — похожее на колокол — нормальное распределение, так как мы знаем, что рост — одна из величин, которые могут распределяться нормально. Посмотрим отдельно статистики распределения роста хоккеистов.

Среднее значение:

In [None]:
df['height'].mean()

Медиана:

In [None]:
df['height'].median()

Мода (специально для этого показателя предварительно округлим значения роста до целых):

In [None]:
df['height_rounded'] = df['height'].apply(round)
df['height_rounded'].head(10)

In [None]:
df['height'].mode()

Видим, что значения среднего, медианы и моды достаточно близки. При большем количестве наблюдений и хорошем приближении к нормальному распределению эти величины могли бы быть приблизительно равны.

Среднее квадратичное отклонение:

In [None]:
df['height'].std()c

Дисперсия:

In [None]:
df['height'].var()

#### Центральная предельная теорема

Центральные предельные теоремы — класс теорем в теории вероятностей. Они утверждают, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Если у нас есть несколько выборок из генеральной совокупности (то есть из совокупности всех возможных объектов исследования), то среднее по этим выборкам также будет иметь нормальное распределение.

Другими словами, среднее достаточно большого числа независимых и нормально распределенных случайных величин также является приблизительно нормально распределенным.

Если $x_1, x_2, ..., x_n$ — случайные величины с математическим ожиданием (или средним значением) $\mu$ и стандартным отклонением $\sigma$, и при этом $n$ — большое число, то $\frac{1}{n}(x_1 + x_2 + ... + x_n)$ — приближенно нормально распределенная величина с математическим ожиданием $\mu$ и стандартным отклонением, равным $\frac{\sigma}{\sqrt(n)}$.

**Пример 2**

Из имеющегося набора данных с ростом хоккеистов сформируем 300 выборок по 10 наблюдений и рассмотрим распределение средних значений:

In [None]:

np.random.seed(42)

In [None]:
samples = []

In [None]:
for i in range(300):
    sample = df.loc[:, 'height'].sample(n=10).values
    samples.append(sample)

Вычислим средние значения для каждой выборки:

In [None]:
mean_values = []

In [None]:
for sample in samples:
    mean_values.append(sample.mean())

In [None]:
len(mean_values)

In [None]:
mean_values = np.array(mean_values)

In [None]:
mean_values

In [None]:
plt.hist(mean_values, bins=10)
plt.show()

По гистограмме видно: количество наблюдений недостаточно большое, но распределение похоже на нормальное.