## Lesson 4

# Continuous random variables. 

## Distribution function and probability density function.

### Uniform and normal distribution. The central limit theorem

**A continuous random variable** can take all possible values contained within a span, which can be either finite (finite) or infinite.

**The probability distribution function** is the function $F(x)$ which, for each value of $x$, shows what the probability is that a random variable is less than $x$.

**The probability density function** is a function $f(x)$ that is equal to the derivative of the probability distribution function:

$$f(x) = F'(x)$$

#### Uniform distribution

The probability distribution of a random variable $X$ as a function of density:

$$f(x) = \begin{cases} 0, if \; x \le a; \\ \frac{1}{b - a}, if \; a < x \le b; \\ 0, \; if \; x > b. \end{cases}$$

The mathematical expectation $M(X)$ of a uniformly distributed continuous random variable can be calculated using the formula:

$$M(X) = \frac{a + b}{2}$$

The following formula can be used to calculate the variance $D(X)$:


$$D(X) = \frac{(b - a)^2}{12}$$

Let's look at a graph of the density of a uniform distribution:

<img src='https://ru.files.fm/thumb_show.php?i=4whssuky&view' width=500>Picture. 1 Graph of the density of a uniform distribution</img>

The graph of a uniform distribution function:

<img src='https://ru.files.fm/thumb_show.php?i=fwy7dghu&view' width=500>Picture. 2 Graph of a uniform distribution function</img>

#### Normal distribution

The normal distribution is the probability distribution of a continuous random variable $X$ whose probability density function follows the formula:

$$f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e ^ {- \frac{(x - a)^2}{2 \sigma^2}},$$

---



where $a = M(X), \; \sigma^2 = D(X).$

The density graph of a normal distribution is bell-shaped:

<img src='https://ru.files.fm/thumb_show.php?i=wmq8yuhw&view' width=500> </img> Picture 3. Graph of the density of a normal distribution

Examples of normally distributed variables: the height and weight of people, the speed of molecules in gases and liquids, IQ scores.

One of the properties of a normal distribution: the mean, median and mode are the same.

On the path from $-\sigma$ to $+\sigma$ can be found 68 % observations, 

from $-2\sigma$ to $+2\sigma$ — 95.4 %,

and from $-3\sigma$ to $+3\sigma$ — 99.72 %.

**Example 1**

Let's look at a specific example of normally distributed data - from the article
<a href='https://habr.com/post/301340/'>«Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке»</a>.

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('csv/hockey_players.csv', encoding='cp1251', parse_dates=['birth'])

FileNotFoundError: ignored

Let's look at the first lines of the dataset:

In [None]:
df.head()

NameError: ignored

See the number of rows, fields and field information in the dataset:

In [None]:
df.shape

NameError: ignored

In [None]:
df.columns

In [None]:
df.describe()

Remove duplicates:

In [None]:
df = df.drop_duplicates(['name', 'birth'])

In [None]:
df.shape

Let's plot the distribution of height among the hockey players:

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(df['height'], bins=20)
plt.show()

NameError: ignored

On the histogram we see a characteristic - bell-like - normal distribution, because we know that height is one of the quantities that can be distributed normally. Let's look at the statistics of the hockey players' height distributions separately.

The average value:

In [None]:
df['height'].mean()

Median:

In [None]:
df['height'].median()

Mode:

In [None]:
df['height_rounded'] = df['height'].apply(round)
df['height_rounded'].head(10)

In [None]:
df['height'].mode()

We see that the values of the mean, median and mode are quite close. With more observations and a good approximation to a normal distribution, these values could be approximately equal.

Среднее квадратичное отклонение:

In [None]:
df['height'].std()c

Дисперсия:

In [None]:
df['height'].var()

NameError: ignored

#### Центральная предельная теорема

Центральные предельные теоремы — класс теорем в теории вероятностей. Они утверждают, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Если у нас есть несколько выборок из генеральной совокупности (то есть из совокупности всех возможных объектов исследования), то среднее по этим выборкам также будет иметь нормальное распределение.

Другими словами, среднее достаточно большого числа независимых и нормально распределенных случайных величин также является приблизительно нормально распределенным.

Если $x_1, x_2, ..., x_n$ — случайные величины с математическим ожиданием (или средним значением) $\mu$ и стандартным отклонением $\sigma$, и при этом $n$ — большое число, то $\frac{1}{n}(x_1 + x_2 + ... + x_n)$ — приближенно нормально распределенная величина с математическим ожиданием $\mu$ и стандартным отклонением, равным $\frac{\sigma}{\sqrt(n)}$.

**Пример 2**

Из имеющегося набора данных с ростом хоккеистов сформируем 300 выборок по 10 наблюдений и рассмотрим распределение средних значений:

In [None]:
np.random.seed(42)

NameError: ignored

In [None]:
samples = []

In [None]:
for i in range(300):
    sample = df.loc[:, 'height'].sample(n=10).values
    samples.append(sample)

Вычислим средние значения для каждой выборки:

In [None]:
mean_values = []

In [None]:
for sample in samples:
    mean_values.append(sample.mean())

In [None]:
len(mean_values)

In [None]:
mean_values = np.array(mean_values)

In [None]:
mean_values

In [None]:
plt.hist(mean_values, bins=10)
plt.show()

По гистограмме видно: количество наблюдений недостаточно большое, но распределение похоже на нормальное.