# Занятие 3. Случайные величины. Распределение данных.

## Понятие случайной величины. 

Статистика непосредственно связана с теорией вероятностей, которая не может обойтись без случайных величин. 

Случайная величина — это функция, которая принимает различные числовые значения в зависимости от исхода случайного эксперимента или явления. Это как "коробка с числами", где каждое число может выпасть с определенной вероятностью. 

В зависимости от того, как определены вероятности "внутри" случайной величины, она может порождать различные распределения. 

Например, если случайная величина принимает любое значение на отрезке от 0 до 1 с равной вероятностью, то она будет порождать равномерное распределение. 

Если в "коробке" лежит конечный набор чисел, то случайная величина будет дискретной. Иначе она будет непрерывной. 

Статистика работает уже с результатом эксперимента. То есть с конечным набором чисел, порождённых случайной величиной. Основная задача статистики -- выяснить, какое распределение порождается этой случайной величиной. 

### Модуль scipy.stats

Для работы со случайными числами и распределениями данных используется модуль scipy.stats. Он позволяет генерировать случайные числа из различных распределений, а также выполнять различные статистические операции над данными.

In [None]:
import scipy.stats as sps
RANDOM_STATE = 42

### Равномерное распределение. 

Функция распределения: 

$$F(x) = \begin{cases} 
0, & x < a \\
\frac{x - a}{b - a}, & a \leq x < b \\
1, & x \geq b 
\end{cases}$$

Плотность распределения: 

$$
f(x) = \begin{cases} 
0, & x < a \\
\frac{1}{b - a}, & a \leq x < b \\
0, & x \geq b 
\end{cases}$$







In [None]:
import numpy as np
import matplotlib.pyplot as plt

X = np.linspace(-1, 2, 10000)

density = sps.uniform(loc=0,scale=1).pdf(X)
F = sps.uniform(0, 1).cdf(X)

plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
plt.plot(X, density)
plt.title("Плотность вероятности\nравномерного распределения")
plt.xlabel("x")
plt.ylabel("плотность")

plt.subplot(1, 2, 2)
plt.plot(X, F)
plt.title("Функция распределения\nравномерного распределения")
plt.xlabel("x")
plt.ylabel("функция распределения")

Мы можем не только получать функции распределения и плотности, но и генерировать случайные числа из распределений. Для этого используется метод rvs. 

In [None]:
samples = sps.uniform(0, 1).rvs(1000, random_state=RANDOM_STATE)

plt.hist(samples, density=True);

In [None]:
plt.figure(figsize=(10, 5))
plt.vlines(samples, 0, 1, alpha=0.4);

### Нормальное распределение. 

Функция распределения: 

$$F(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{x} e^{-\frac{(t - \mu)^2}{2\sigma^2}} dt$$

Плотность распределения: 

$$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$$


In [None]:

X = np.linspace(-4, 4, 10000)

density = sps.norm(loc=0,scale=1).pdf(X)
F = sps.norm(0, 1).cdf(X)

plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
plt.plot(X, density)
plt.title("Плотность вероятности\nнормального распределения")
plt.xlabel("x")
plt.ylabel("плотность")

plt.subplot(1, 2, 2)
plt.plot(X, F)
plt.title("Функция распределения\нормального распределения")
plt.xlabel("x")
plt.ylabel("функция распределения")

In [None]:
samples = sps.norm(0, 1).rvs(10000, random_state=RANDOM_STATE)

plt.hist(samples, density=True, bins=25);

In [None]:
samples = sps.norm(0, 1).rvs(2000, random_state=RANDOM_STATE)
plt.figure(figsize=(10, 5))
plt.vlines(samples, 0, 1, alpha=0.1);

### Экспоненциальное распределение. 

Функция распределения: 

$$F(x) = \begin{cases} 
0, & x < 0 \\
1 - e^{-\lambda x}, & x \geq 0 
\end{cases}$$

Плотность распределения: 

$$f(x) = \begin{cases} 
0, & x < 0 \\
\lambda e^{-\lambda x}, & x \geq 0 
\end{cases}$$











In [None]:

X = np.linspace(-0.5, 5, 10000)

density = sps.expon().pdf(X)
F = sps.expon().cdf(X)

plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
plt.plot(X, density)
plt.title("Плотность вероятности\nэкспоненциального распределения")
plt.xlabel("x")
plt.ylabel("плотность")

plt.subplot(1, 2, 2)
plt.plot(X, F)
plt.title("Функция распределения\nэкспоненциального распределения")
plt.xlabel("x")
plt.ylabel("функция распределения")

In [None]:
samples = sps.expon().rvs(10000, random_state=RANDOM_STATE)

plt.hist(samples, density=True, bins=25);

In [None]:
samples = sps.expon().rvs(2000, random_state=RANDOM_STATE)
plt.figure(figsize=(10, 5))
plt.vlines(samples, 0, 1, alpha=0.1);

### Нахождение параметров распределения. 

**Равномерное распределение.** 

Параметры a и b по сути являются границами отрезка, на котором лежат значения случайной величины. Поэтому оценки параметров можно найти как минимум и максимум выборки. 

In [None]:
real_a = -1
real_b = 3

min_sample_size = 3
max_sample_size = 1_000
step = 2
num_steps = (max_sample_size - min_sample_size) // step + 1


estimated_a = []
estimated_b = []

for i in range(num_steps):
    subsample = sps.uniform(real_a, real_b - real_a).rvs(min_sample_size + step * i, random_state=RANDOM_STATE + i)
    estimated_a.append(subsample.min())
    estimated_b.append(subsample.max())


plt.hlines(real_a, min_sample_size, max_sample_size + 10, label="Реальный a", color='darkviolet', linewidth=2)
plt.hlines(real_b, min_sample_size, max_sample_size + 10, label="Реальный b", color='red', linewidth=2)

plt.plot(np.arange(min_sample_size, max_sample_size + 1, step), estimated_a, label="Оценка a")
plt.plot(np.arange(min_sample_size, max_sample_size + 1, step), estimated_b, label="Оценка b")

plt.legend()
plt.show()

**Нормальное распределение.** 

Параметры распределения: $\mu$ и $\sigma^2$. 

Параметр $\mu$ характеризует центр распределения, $\sigma^2$ — разброс. 

$\mu$ можно оценить как среднее арифметическое выборки. 

$\sigma^2$ можно оценить как выборочную дисперсию. 


In [None]:
real_mu = -1
real_sigma = 7

min_sample_size = 3
max_sample_size = 1_000
step = 1
sample_sizes = np.arange(min_sample_size, max_sample_size + 1, step)

mean_mu = []
median_mu = []
estimated_sigma = []

for size in sample_sizes:
    sample = sps.norm(real_mu, real_sigma).rvs(size)
    mean_mu.append(sample.mean())
    median_mu.append(np.median(sample))
    estimated_sigma.append(sample.std())

plt.plot(sample_sizes, mean_mu, alpha=0.5)
plt.plot(sample_sizes, median_mu, alpha=0.5)
plt.plot(sample_sizes, estimated_sigma)

plt.show()

### Проверка нормальности распределения

Если мы знаем вид распределения, то у нас есть сила. Мы можем оценить параметры. После чего мы можем понять общую зависимость в данных и эффективно работать с ними. 

Наглядный способ проверить нормальность распределения — это Q-Q plot. 

Q-Q plot — это график, который сравнивает квантили эмпирического (выборочного) распределения с квантилями теоретического распределения.

Квантиль — это значение, ниже которого находится определенная доля данных.

Примеры:

* Медиана = 0.5-квантиль (50% данных ниже этого значения)
* Первый квартиль = 0.25-квантиль (25% данных ниже)
* Третий квартиль = 0.75-квантиль (75% данных ниже)









In [None]:
def plot_qq(data: np.ndarray, dist: str = "norm", 
            title: str = "Q-Q Plot", figsize: tuple = (8, 6)) -> None:
    """
    Create a Q-Q plot to check if data follows normal distribution.
    
    Args:
        data: Array of numerical data
        title: Title for the plot
        figsize: Figure size as (width, height)
    
    Returns:
        None
    """
    fig, ax = plt.subplots(figsize=figsize)
    
    # Create Q-Q plot
    sps.probplot(data, dist=dist, plot=ax, rvalue=True)
    
    # Customize the plot
    ax.set_title(title, fontsize=14, fontweight='bold')
    ax.set_xlabel("Theoretical Quantiles", fontsize=12)
    ax.set_ylabel("Sample Quantiles", fontsize=12)
    ax.grid(True, alpha=0.3)
    
    # Add reference line

    plt.tight_layout()
    plt.show()


plot_qq(sps.norm(1, 5).rvs(100) )
plot_qq(sps.uniform(0, 5).rvs(100))
plot_qq(sps.cauchy().rvs(100))

### Семинар 3

Загрузите данные `StudentsPerformance.csv`.

Возьмите данные оценок учеников по математике.

Постройте гистограмму распределения оценок. Похожа ли она на нормальное распределение?

В предположении нормальности распределения оценок, найдите параметры $\mu$ и $\sigma$.

Для проверки нормальности распределения оценок постройте Q-Q plot.

Также постройте Q-Q plot для распределения оценок по математике отдельно для мальчиков и девочек.