## Задание 1, вариант 2
***
$\tau=\mu_1-\mu_2$; $\sigma^2_1=\sigma^2_2$ неизвестны (так как они равны, будем называть их просто $\sigma$). Найти доверителньый интервал уровня $1-\alpha$. X и Y распределены нормально с соответствующими матожиданиями и дисперсиями.
***

Мы не знаем дисперсии, поэтому посчитаем их через несмещённые выборочные. Несмещённые выборочные дисперсии ближе нашим сердцам, поэтому не совсем получилось воспользоваться подсказкой из условия задания, но в целом получится нечто очень похожее. Получим объединённую оценку дисперсии.
$$
S^2 = \frac{(n-1)S_x^2+(m-1)S_y^2}{n+m-2}
$$
Тогда $\tau = \overline X - \overline Y$ - оценка. И так как выборочные средние всегда распределены нромально, мы знаем, что 
$$
\overline X - \overline Y \sim N(\mu_1 - \mu_2; \sigma^2(\frac{1}{n}+\frac{1}{m})
$$.
Потому что $Var(\overline X - \overline Y) = Var(\overline X) - Var(\overline Y) = \sigma^2_x/n - \sigma^2_y/m = \sigma^2(\frac{1}{n}-\frac{1}{m})$ и $E(\overline X - \overline Y) = E(X_i)-E(Y_i)=\mu_1-\mu_2$

Тогда давайте рассмотрим T-статистику:
$$
T = \frac{(\overline X - \overline Y) - (\mu_1 - \mu_2)}{S\sqrt{\frac{1}{n}+\frac{1}{m}}}
$$
У T должно быть распределение Стьюдента. Давайте докажем это по определению распределения Стьюдента, чтобы убедиться в этом и заодно понять, какая степень свободы у этого распределения.

*Опр.* Распределение Стьюдента: $T(n) \sim \frac{Y_0}{\sqrt{\frac{1}{n}\sum_{i=1}^n Y_i^2}}$, где $Y_i \sim N(0, 1)$. И также заметим, что в знаменателе $\sum_{i=1}^n Y_i^2 \sim \chi^2$

Поделим числитель и знаменатель на одну и ту же величину:
$$
T = \frac{\frac{(\overline X - \overline Y) - (\mu_1 - \mu_2)}{\sigma(\sqrt{\frac{1}{n}-\frac{1}{m}})}}{\sqrt{\frac{S^2(n+m-2)}{\sigma^2(n+m-2)}}}
$$
Тогда в числителе получилась величина $\sim N(0, 1)$. А в знаменателе вспомним теорему Фишера (у S степень свободы n+m-2):
$$
\frac{(n+m-2)S^2}{\sigma^2} \sim \chi^2(n+m-2)
$$
Тогда $\sqrt{\frac{S^2(n+m-2)}{\sigma^2(n+m-2)}} \sim \sqrt{\frac{1}{n+m-2}\chi^2(n+m-2)}$

Таким образом $T \sim T(n+m-2)$

Осталось оценить доверительный интервал:

$$
P(-t_{(1-\alpha/2; n+m-2)} < T < t_{(1-\alpha/2; n+m-2)}) = 1 - \alpha
$$

$t_{1-\alpha/2}$ - соответствующий квантиль распределения Стьюдента

$$
P\big(-t_{(1-\alpha/2; n+m-2)} \cdot S\sqrt{\frac{1}{n}-\frac{1}{m}} < (\overline X - \overline Y) - \tau < t_{(1-\alpha/2; n+m-2)} \cdot S\sqrt{\frac{1}{n}-\frac{1}{m}}\big) = 1 - \alpha
$$
Тогда получаем доверителньый интервал:
$$
\boxed{[(\overline X - \overline Y) - t\cdot SE; (\overline X - \overline Y) + t\cdot SE]}
$$

Где $t = t{(1-\alpha/2; n+m-2)}$ и $SE = S\cdot \sqrt{\frac{1}{n}+\frac{1}{m}}$

***
Эксперимент

In [22]:
import numpy as np
import scipy.stats as stats

def experiment(size, n, m):
    stat = 0
    for _ in range(size):
        X = np.random.normal(loc=2, scale=1, size=n)
        Y = np.random.normal(loc=1, scale=1, size=m)
        t = stats.t.ppf(0.975, df=n+m-2)
        d = np.mean(X) - np.mean(Y)
        s = np.sqrt((X.var(ddof=1)*(n - 1) + Y.var(ddof=1) * (m - 1)) / (n + m - 2))
        se = s * np.sqrt(1 / n + 1 / m)
        left = d - t * se
        right = d + t * se
        if (left < 1 < right):
            stat += 1
    return stat / size, left, right

print("Первый эксперимент")
stat1, left1, right1 = experiment(1000, 25, 25)
print(stat1, "%")
print(f"[{left1:.4f}, {right1:.4f}]")
print("Второй эксперимент")
stat2, left2, right2 = experiment(1000, 10000, 10000)
print(stat2, "%")
print(f"[{left2:.4f}, {right2:.4f}]")

Первый эксперимент
0.945 %
[0.6807, 1.7768]
Второй эксперимент
0.95 %
[0.9624, 1.0180]


Результат остался равен примерно 95% (потому что мы искали 95%-ый доверителньый интервал), разве что из-за объёмов выборки он стал немного точнее. Зато нетрудно заметить, что сам интервал стал значительно меньше во втором варианте.