### РГР №2 по предмету: Математическая статистика

**Выполнил:** Владимиров Артём Сергеевич. Студент группы: R3340. Поток: Мат Стат 31.3\
**Преподаватель:** Береговенко Илья Игоревич. Ассистент, Научно-образовательный центр математики\
**Вариант выполнения:** 2.1

### Задание 1

### Выполнены предпосылки:
1. Две независимые случайные выборки: $ X_1, \dots, X_{n_X} \text{ и } Y_1, \dots, Y_{n_Y} $.
2. Дисперсии известны: $ \sigma_X^2, \sigma_Y^2 $.
3. Нормальное распределение: $ X_i \sim \mathcal{N}(\mu_X, \sigma_X^2) \text{ и } Y_j \sim \mathcal{N}(\mu_Y, \sigma_Y^2) $.

### Доверительный интервал
1. Сначала приводим разность $(\bar{X} - \bar{Y})$ к стандартному нормальному виду:
$$
Z = \frac{(\bar{X} - \bar{Y}) - (\mu_X - \mu_Y)}{\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}} \sim \mathcal{N}(0, 1).
$$

2. Для доверительного интервала уровня $1 - \alpha$ пределы вероятности задаются:
$$
P\left( -z_{\alpha/2} \leq Z \leq z_{\alpha/2} \right) = 1 - \alpha,
$$
где $z_{\alpha/2}$ — квантиль стандартного нормального распределения.

3. Раскрываем границы:
$$
-z_{\alpha/2} \cdot \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} \leq (\bar{X} - \bar{Y}) - (\mu_X - \mu_Y) \leq z_{\alpha/2} \cdot \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}.
$$

4. Перегруппировываем члены, чтобы выразить $(\mu_X - \mu_Y)$:
$$
(\bar{X} - \bar{Y}) - z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}
\leq (\mu_X - \mu_Y) \leq
(\bar{X} - \bar{Y}) + z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}.
$$

5. Итоговая формула доверительного интервала:
$$
CI_{1-\alpha} \text{ для } \mu_X - \mu_Y = \bar{X} - \bar{Y} \pm z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}},
$$

или в развернутом виде:
$$
\left( \bar{X} - \bar{Y} - z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}, \; \bar{X} - \bar{Y} + z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} \right).
$$



In [2]:
# Загрузим библиотеки
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

In [3]:
# Параметры задачи
mu1 = 2  # Среднее 1 распределения
mu2 = 1  # Среднее 2 распределения
var1 = 1  # Дисперсия 1 распределения
var2 = 0.5  # Дисперсия 2 распределения
tau = mu1 - mu2  # Разность средних
n1 = 25  # Объем выборки 1
n2 = 25  # Объем выборки 2
n1_large = 10000 # Объем выборки 1 (второй случай)
n2_large = 10000 # Объем выборки 2 (второй случай)
alpha = 0.05  # Уровень значимости

# Параметры эксперимента
num_sim = 1000  # Количество повторений
count = 0  # Счетчик для малого объема выборки
count_large = 0  # Счетчик для большого объема выборки

In [4]:
# Функция для расчета ДИ
def CI(mean1, mean2, n1, n2, var1, var2, alpha):
    # Общая дисперсия
    var = var1/n1 + var2/n2
    z_alpha = stats.norm.ppf(1 - alpha / 2)  # Квантиль нормального распределения
    # Нижняя и верхняя границы ДИ
    lower_bound = (mean1 - mean2) - z_alpha * np.sqrt(var)
    upper_bound = (mean1 - mean2) + z_alpha * np.sqrt(var)
    return lower_bound, upper_bound

In [5]:
# Установим seed для воспроизводимости
np.random.seed(10000)

# Симуляции для малого объема выборки
for i in range(num_sim):
    # Генерация случайных выборок из нормального распределения
    sample1 = np.random.normal(mu1, var1, n1)
    sample2 = np.random.normal(mu2, var2, n2)
    
    # Расчет средних
    mean1 = np.mean(sample1)
    mean2 = np.mean(sample2)
    
    # Вычисление ДИ
    lower, upper = CI(mean1, mean2, n1, n2, var1, var2, alpha)
    
    # Проверка, попадает ли истинное значение в доверительный интервал
    if lower <= tau <= upper:
        count += 1


# Симуляции для большого объема выборки
for i in range(num_sim):
    # Генерация случайных выборок  из нормального распределения
    sample1 = np.random.normal(mu1, var1, n1_large)
    sample2 = np.random.normal(mu2, var2, n2_large)
    
    # Расчет средних
    mean1 = np.mean(sample1)
    mean2 = np.mean(sample2)
    
    # Вычисление ДИ
    lower, upper = CI(mean1, mean2, n1_large, n2_large, var1, var2, alpha)
    
    # Проверка, попадает ли истинное значение в доверительный интервал
    if lower <= tau <= upper:
        count_large += 1

print(f"Для малого объема выборки (n1 = n2 = 25) число покрытий ДИ: {count}")
print(f"Для большого объема выборки (n1 = n2 = 10000) число покрытий ДИ: {count_large}")

Для малого объема выборки (n1 = n2 = 25) число покрытий ДИ: 982
Для большого объема выборки (n1 = n2 = 10000) число покрытий ДИ: 967


Число покрытий доверительного интервала снизилось, так как при малом объеме выборки стандартная ошибка  больше, что приводит к более широким интервалам. Это увеличивает вероятность, что истинное значение окажется внутри интервала. При увеличении объема выборки доверительные интервалы становятся уже за счет уменьшения стандартной ошибки. Это делает интервалы более точными. По мере увеличения объема выборки число покрытий будет всё ближе к теоретическому уровню доверия (95%)

### Задание 2

Для распределения Лапласа:

Дисперсия случайной величины:$\text{Var}(X) = 2 \cdot \text{scale}^2$

Значение плотности в точке медианы ($x = \mu$): $f_X(\mu) = \frac{1}{2 \cdot \text{scale}}$

Подставляем эти значения в общую формулу: $\text{Var}(\text{Median}) = \frac{\text{Var}(X)}{n \cdot f_X^2(\mu)}$

Раскрываем числитель и знаменатель:
$\text{Var}(\text{Median}) = \frac{2 \cdot \text{scale}^2}{n \cdot \left(\frac{1}{2 \cdot \text{scale}}\right)^2}$


Упрощаем дробь: $\text{Var}(\text{Median}) = \frac{2 \cdot \text{scale}^2}{n \cdot \frac{1}{4 \cdot \text{scale}^2}}$

$\text{Var}(\text{Median}) = \frac{2}{n \cdot \text{scale}^2}$


### Выполнены предпосылки:
1. Однопараметрическое распределение Лапласа: $ X_1, \dots, X_n $.
2. Параметр масштаба известен: $ \text{scale} $.
3. Распределение имеет следующий вид: $ X_i \sim \text{Laplace}(\mu, \text{scale}) $.

### Доверительный интервал
1. Выборочная медиана является асимптотически нормальной:
$$
\text{Median} \sim \mathcal{N}\left(\mu, \frac{2}{n \cdot \text{scale}^2}\right),
$$
где $\mu$ — истинный параметр сдвига, $n$ — объем выборки, а $\frac{2}{n \cdot \text{scale}^2}$ — дисперсия медианы.

2. Для доверительного интервала уровня $1 - \alpha$ пределы вероятности задаются:
$$
P\left( -z_{\alpha/2} \leq \frac{\text{Median} - \mu}{\sqrt{\frac{2}{n \cdot \text{scale}^2}}} \leq z_{\alpha/2} \right) = 1 - \alpha,
$$
где $z_{\alpha/2}$ — квантиль стандартного нормального распределения.

3. Раскрываем границы:
$$
-z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}} \leq \text{Median} - \mu \leq z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}}.
$$

4. Перегруппировываем члены, чтобы выразить $\mu$:
$$
\text{Median} - z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}}
\leq \mu \leq
\text{Median} + z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}}.
$$

5. Итоговая формула доверительного интервала:
$$
CI_{1-\alpha} \text{ для } \mu = \text{Median} \pm z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}},
$$

или в развернутом виде:
$$
\left( \text{Median} - z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}}, \; \text{Median} + z_{\alpha/2} \cdot \sqrt{\frac{2}{n \cdot \text{scale}^2}} \right).
$$


In [6]:
# Параметры задачи для распределения Лапласа
mu = 2  # Истинное значение параметра сдвига
scale = 1  # Единичный масштабирующий параметр
n_small = 25  # Малый объем выборки
n_large = 10000  # Большой объем выборки
alpha = 0.05  # Уровень значимости

# Параметры эксперимента
num_sim = 1000  # Количество повторений
count_small = 0  # Счетчик для малого объема выборки
count_large = 0  # Счетчик для большого объема выборки

In [7]:
def laplace_ci(sample, alpha):
    sample_median = np.median(sample)  # Выборочная медиана
    n = len(sample)
    # Асимптотическая дисперсия медианы для распределения Лапласа
    asymptotic_var = 2 / (n * scale**2)
    z_alpha = stats.norm.ppf(1 - alpha / 2)  # Квантиль нормального распределения
    # Нижняя и верхняя границы ДИ
    lower_bound = sample_median - z_alpha * np.sqrt(asymptotic_var)
    upper_bound = sample_median + z_alpha * np.sqrt(asymptotic_var)
    return lower_bound, upper_bound

In [8]:
# Установим seed для воспроизводимости
np.random.seed(10000)

# Симуляции для малого объема выборки
for i in range(num_sim):
    # Генерация случайных выборок из распределения Лапласа
    sample = np.random.laplace(loc=mu, scale=scale, size=n_small)
    
    # Вычисление ДИ
    lower, upper = laplace_ci(sample, alpha)
    
    # Проверка, попадает ли истинное значение в доверительный интервал
    if lower <= mu <= upper:
        count_small += 1

# Симуляции для большого объема выборки
for i in range(num_sim):
    # Генерация случайных выборок из распределения Лапласа
    sample = np.random.laplace(loc=mu, scale=scale, size=n_large)
    
    # Вычисление ДИ
    lower, upper = laplace_ci(sample, alpha)
    
    # Проверка, попадает ли истинное значение в доверительный интервал
    if lower <= mu <= upper:
        count_large += 1

print(f"Для малого объема выборки (n = 25) число покрытий ДИ: {count_small}")
print(f"Для большого объема выборки (n = 10000) число покрытий ДИ: {count_large}")


Для малого объема выборки (n = 25) число покрытий ДИ: 973
Для большого объема выборки (n = 10000) число покрытий ДИ: 994


С ростом n выборочная медиана всё ближе приближается к истинному значению μ. Это связано с законом больших чисел, выборочные статистики при увеличении n стремятся к своим теоретическим значениям. При малых n: интервалы широкие, но выборочная медиана менее точна, что иногда приводит к пропуску истинного значения.