# Лабораторная работа №1

$\left\{ \omega_i \right\}$ --- равномерно распределённые на $ \left[ 0, 1 \right] $.

$N \left( 0, 1 \right) $ можно генерировать из последовательности $\left\{ \omega_i \right\} $:
$ \xi_1 = \sqrt{-2 \ln \omega_1} \cdot \sin \left( 2 \pi \cdot \omega_2 \right) ,
\xi_2 = \sqrt{-2 \ln \omega_1} \cdot \cos \left( 2 \pi \cdot \omega_2 \right) $ --- независимы.

Пусть наблюдается выборка $ \vec{X} = \left( X_1, \dotsc, X_n \right)$, где $X_i \sim N \left( 0, 1 \right) $.

Расчёты будем вести при $\gamma = 0.05$.
Это означает, что уровень доверия --- $0.95, z_{\gamma} = 1.96$ (для нормального распределения).

$n = 100, 1000, 10000, 100000$.

In [1]:
from numpy.random import normal, uniform, rand
from numpy import mean, std, log, exp, array, append, inf
from scipy.stats import norm, t, chi2
from scipy.integrate import quad
from math import sqrt
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic

In [2]:
a = 0
sigma = 1
gamma = 0.05

## Задание 1
Определить скорость сходимости.
Действительно ли она $\frac{1}{\sqrt{n}}$?
Всегда ли доверительный интервал накрывает $0$?
Строим доверительный интервал в следующих случаях:

### а)
для математического ожидания $a$, когда дисперсия известна ($=1$).

Рассмотрим случай нормально распределённой генеральной совокупности, то есть допустим,
что $ \xi \sim N \left( a, \sigma^2 \right)$.

**Лемма 1** Введём обозначения для среднего арифметического
$$\hat{a}_n = \frac{1}{n} \sum \limits_{i=1}^n X_i$$
и для выборочной дисперсии
$$\hat{\sigma}_n^2 = \frac{1}{n} \sum \limits_{i=1}^n \left( X_i - \hat{a}_n \right)^2.$$
Тогда
$$\hat{a}_n \sim N \left( a, \frac{\sigma^2}{n}\right).$$
Если случайные величины нормально распределены, то их сумма нормально распределена.

Введём
$$\hat{U}_n = \frac{\hat{\sigma}_n^2}{\sigma^2} \cdot n.$$
Эта случайная величина независима с $\hat{a}_n, \hat{U}_n \sim \chi^2$ с $n-1$ степенями свободы.

Плотность $\chi^2$ распределения с $n$ степенями свободы:
$$
t_n \left( u \right) =
\frac{1}{2^{\frac{n}{2}} \cdot \Gamma \left( \frac{n}{2}\right)} \cdot u^{\frac{n}{2} - 1} \cdot e^{-\frac{u}{2}},
u \geq 0,
\Gamma \left( \alpha \right) = \int \limits_0^{\infty } u^{\alpha - 1} \cdot e^{-u} du.
$$

Используем первый пункт леммы 1, или
$$\hat{V}_n = \frac{\hat{a}_n - a}{\sigma} \cdot \sqrt{n} \sim N \left( 0, 1 \right).$$
Это означает, что $P \left\{ \left| \hat{V}_n \right| < z\right\} = 2 \Phi \left( z \right) = 1 - \gamma,$
где
$$\Phi \left( z \right) = \frac{1}{\sqrt{2\pi}} \int \limits_0^z e^{-\frac{u^2}{2}} du, z > 0.$$
Это функция Лапласа.

Из уравнения $2\Phi \left( z \right) = 1 - \gamma$ по таблицам находим $z_{\gamma}$.
Тогда $P \left\{ \left| \hat{V}_n \right| < z_{\gamma }\right\} = 1 - \gamma$.

Решаем уравнение относительно $a$.
Получим симметрический доверительный интервал
$$\hat{a}_n - \frac{z_{\gamma} \cdot \sigma}{\sqrt{n}} <
a <
\hat{a}_n + \frac{z_{\gamma} \cdot \sigma}{\sqrt{n}}.$$

Можем не попасть в этот интервал с вероятностью $\gamma$.

Абсолютная погрешность:
$$\frac{z_{\gamma} \cdot \sigma}{\sqrt{n}}.$$

In [3]:
def mean_interval_known_sigma(n):
    X = normal(a, sigma, n)
    a_n = X.mean()
    z = norm.ppf(1 - gamma / 2.)
    left = a_n - z * sigma / sqrt(n)
    right = a_n + z * sigma / sqrt(n)
    length = right - left
    print "a_n:", a_n
    print "mean 95%% confidence interval (theory), n =", n, (left, right)
    print "mean 95%% confidence interval (python), n =", n, _zconfint_generic(a_n, sigma / sqrt(n), gamma, 'two-sided')
    print "interval length:", length
    return length

In [4]:
l1 = mean_interval_known_sigma(100)

a_n: 0.00768475116574
mean 95%% confidence interval (theory), n = 100 (-0.188311647288261, 0.20368114961974981)
mean 95%% confidence interval (python), n = 100 (-0.188311647288261, 0.20368114961974981)
interval length: 0.391992796908


In [5]:
l2 = mean_interval_known_sigma(1000)
print "length ratio:", l2 / l1
print "1 / sqrt(n2 / n1):", 1 / sqrt(10)

a_n: -0.034917812978
mean 95%% confidence interval (theory), n = 1000 (-0.096897316208423831, 0.027061690252488488)
mean 95%% confidence interval (python), n = 1000 (-0.096897316208423817, 0.027061690252488481)
interval length: 0.123959006461
length ratio: 0.316227766017
1 / sqrt(n2 / n1): 0.316227766017


In [6]:
l3 = mean_interval_known_sigma(10000)
print "length ratio:", l3 / l2
print "1 / sqrt(n3 / n2):", 1 / sqrt(10)

a_n: -0.0171234304067
mean 95%% confidence interval (theory), n = 10000 (-0.036723070252090317, 0.0024762094387107622)
mean 95%% confidence interval (python), n = 10000 (-0.036723070252090317, 0.0024762094387107622)
interval length: 0.0391992796908
length ratio: 0.316227766017
1 / sqrt(n3 / n2): 0.316227766017


In [7]:
l4 = mean_interval_known_sigma(100000)
print "length ratio:", l4 / l3
print "1 / sqrt(n4 / n3):", 1 / sqrt(10)

a_n: -0.00200096921541
mean 95%% confidence interval (theory), n = 100000 (-0.0081989195384545785, 0.0041969811076366529)
mean 95%% confidence interval (python), n = 100000 (-0.0081989195384545785, 0.0041969811076366529)
interval length: 0.0123959006461
length ratio: 0.316227766017
1 / sqrt(n4 / n3): 0.316227766017


При всех $n$ доверительный интервал накрывает $0$.
Скорость сходимости доверительного интервала к истинному значению математического ожидания $a = 0$ равна
$1 / \sqrt{n}$.
Результаты,
полученные с помощью теоретических выкладок и функции `_zconfint_generic(mean, std_mean, gamma, alternative)`
совпадают.

### б)
для математического ожидания $a$, когда дисперсия неизвестна.

**Лемма 2** Определим
\begin{equation}
\hat{V}_n = \frac{\hat{a}_n - a}{ \sigma} \cdot \sqrt{n}.
\end{equation}
Тогда
\begin{equation}
\hat{Z}_n = \sqrt{n - 1} \cdot \frac{\hat{V}_n}{\sqrt{\hat{U}_n}}
\end{equation}
имеет распределение Стьюдента с $n-1$ степенью свободы.
Плотность распределения:
\begin{equation}
S_n \left( u \right) =
\frac{\Gamma \left( \frac{n + 1}{2}\right)}{\sqrt{n \cdot \pi} \cdot \Gamma \left( \frac{n}{2}\right)} \cdot
\left( 1 + \frac{u^2}{n} \right)^{-\frac{n+1}{2}},
-\infty < u < +\infty.
\end{equation}

Используем лемму 2
\begin{equation}
\hat{Z}_n =
\sqrt{n-1} \cdot \frac{\sqrt{n} \cdot
\left( \hat{a}_n - a\right) \cdot \sigma}{\sigma \cdot \sqrt{n} \cdot \hat{\sigma}_n} =
\sqrt{n - 1} \cdot \frac{\hat{a}_n - a}{\hat{\sigma}_n}.
\end{equation}
Получается, что
\begin{equation}
P \left\{ \left| \hat{Z}_n\right| < z \right\} = 2 \int \limits_0^1 S_{n-1} \left( u \right) du = 1 - \gamma.
\end{equation}
Решаем:
\begin{equation}
\left| \hat{Z}_n\right| < z_{\gamma} \Rightarrow
\hat{a}_n - \frac{z_{\gamma} \cdot \hat{\sigma}_n}{\sqrt{n-1}} <
a <
\hat{a}_n + \frac{z_{\gamma} \cdot \hat{\sigma}_n}{\sqrt{n-1}}.
\end{equation}
Отличия:
- дисперсию $\sigma$ заменяем на оценку $\hat{\sigma}_n$;
- $\sqrt{n} \to \sqrt{n-1}$;
- $N \to S_{n-1}$, то есть $z_{\gamma}$ вычисляется по другим таблицам.

In [8]:
def mean_interval_unknown_sigma(n):
    X = normal(a, sigma, n)
    a_n = X.mean()
    sigma_n = sqrt(((X - a_n) ** 2).mean())
    z = t.ppf(1 - gamma / 2., n - 1)
    left = a_n - z * sigma_n / sqrt(n - 1)
    right = a_n + z * sigma_n / sqrt(n - 1)
    length = right - left
    print "a_n:", a_n
    print "mean 95%% confidence interval, n =", n, (left, right)
    print "interval length:", length
    return length

In [9]:
l1 = mean_interval_unknown_sigma(100)

a_n: -0.0560932599325
mean 95%% confidence interval, n = 100 (-0.24449596041851518, 0.13230944055360455)
interval length: 0.376805400972


In [10]:
l2 = mean_interval_unknown_sigma(1000)
print "length ratio:", l2 / l1
print "1 / sqrt(n2 / n1):", 1 / sqrt(10)

a_n: 0.00886906067715
mean 95%% confidence interval, n = 1000 (-0.051673897871507106, 0.069412019225816787)
interval length: 0.121085917097
length ratio: 0.321348677023
1 / sqrt(n2 / n1): 0.316227766017


In [11]:
l3 = mean_interval_unknown_sigma(10000)
print "length ratio:", l3 / l2
print "1 / sqrt(n3 / n2):", 1 / sqrt(10)

a_n: -0.00395281611868
mean 95%% confidence interval, n = 10000 (-0.02328629128537018, 0.015380659048006652)
interval length: 0.0386669503334
length ratio: 0.319334826546
1 / sqrt(n3 / n2): 0.316227766017


In [12]:
l4 = mean_interval_unknown_sigma(100000)
print "length ratio:", l4 / l3
print "1 / sqrt(n4 / n3):", 1 / sqrt(10)

a_n: 0.00566014133449
mean 95%% confidence interval, n = 100000 (-0.00053458063489109867, 0.011854863303865946)
interval length: 0.0123894439388
length ratio: 0.320414302963
1 / sqrt(n4 / n3): 0.316227766017


Скорость сходимости доверительного интервала к истинному значению математического ожидания $a = 0$ равна
$\frac{1}{\sqrt{n}}$.
Доверительный интервал всегда накрывает $0$.

### в)
для математического ожидания $a$, когда распределение не $N \left( 0, 1 \right)$, то есть мы не знаем,
что распределение нормальное.
Просто есть последовательность $\vec{X}$.

Считаем, что $M \xi = a, D \xi < \infty $.

Пользуемся центральной предельной теоремой.

Пусть несмещённая оценка дисперсии (выборочная несмещённая дисперсия)
\begin{equation}
\hat{\sigma}_n = \frac{1}{n - 1} \cdot \left( \sum \limits_{i = 1}^n X_i^2 - \frac{1}{n} \cdot \hat{a}_n^2 \right).
\end{equation}
Согласно центральной предельной теореме выходит
\begin{equation}
P \left\{ \sqrt{n} \cdot \frac{\left| \hat{a}_n - a \right|}{\sigma} < z \right\}
\overset{n \to \infty }{\to} \Phi \left( z \right) =
1 - \gamma.
\end{equation}
В этом случае будем строить ассимптотические доверительные интервалы
\begin{equation}
\hat{a}_n - \frac{z_{\gamma} \cdot \sigma}{\sqrt{n}} < a < \hat{a}_n + \frac{z_{\gamma} \cdot \sigma}{ \sqrt{n}}.
\end{equation}
Проблема в том, что $\sigma$ неизвестно.
На практике заменяют $\sigma$ на $\hat{\sigma}_n$, то есть доверительный интервал строится таким образом
\begin{equation}
\hat{a}_n - \frac{z_{\gamma} \cdot \hat{\sigma}_n}{\sqrt{n}} <
a <
\hat{a}_n + \frac{z_{\gamma} \cdot \hat{\sigma}_n}{\sqrt{n}},
\end{equation}
где $z_{\gamma}$ находится через функцию Лапласа.

In [13]:
def mean_interval_unknown_distribution(n):
    X = normal(a, sigma, n)
    a_n = X.mean()
    sigma_n = (sum(X ** 2) - mean(a_n ** 2)) / (n - 1)
    z = norm.ppf(1 - gamma)
    left = a_n - z * sigma_n / sqrt(n)
    right = a_n + z * sigma_n / sqrt(n)
    length = right - left
    print "a_n:", a_n
    print "mean 95%% confidence interval, n =", n, (left, right)
    print "interval length:", length
    return length

In [14]:
l1 = mean_interval_unknown_distribution(100)

a_n: 0.0172912234183
mean 95%% confidence interval, n = 100 (-0.21558736424901229, 0.2501698110856535)
interval length: 0.465757175335


In [15]:
l2 = mean_interval_unknown_distribution(1000)
print "length ratio:", l2 / l1
print "1 / sqrt(n2 / n1):", 1 / sqrt(10)

a_n: 0.0374831240923
mean 95%% confidence interval, n = 1000 (-0.013183284361763872, 0.088149532546289822)
interval length: 0.101332816908
length ratio: 0.217565766615
1 / sqrt(n2 / n1): 0.316227766017


In [16]:
l3 = mean_interval_unknown_distribution(10000)
print "length ratio:", l3 / l2
print "1 / sqrt(n3 / n2):", 1 / sqrt(10)

a_n: -0.00734559772542
mean 95%% confidence interval, n = 10000 (-0.023848820815587125, 0.0091576253647438644)
interval length: 0.0330064461803
length ratio: 0.325723168342
1 / sqrt(n3 / n2): 0.316227766017


In [17]:
l4 = mean_interval_unknown_distribution(100000)
print "length ratio:", l4 / l3
print "1 / sqrt(n4 / n3):", 1 / sqrt(10)

a_n: 0.00131147612893
mean 95%% confidence interval, n = 100000 (-0.0038809196193899261, 0.0065038718772489259)
interval length: 0.0103847914966
length ratio: 0.314629192125
1 / sqrt(n4 / n3): 0.316227766017


Скорость сходимости доверительного интервала к истинному значению математического ожидания $a = 0$ равна
$\frac{1}{\sqrt{n}}$.
Доверительный интервал всегда накрывает $0$.

## Задание 2
При заданных $n$ строим доверительный интервал для дисперсии $\sigma^2 = 1$ (в допущении $N \left( 0, 1 \right)$).
Действительно ли он сужается и с какой скоростью?
Действительно ли этот интервал накрывает единицу?

Используем вторую часть первой леммы.

В данном случае дисперсия принимает значения только больше нуля, $\chi^2$ распределение не симметрично.
Оно имеет вид:
![chi-squared distribution](chi-squared.jpg)
Нужно строить такой доверительный интервал,
чтобы расстояние между точками $z_{\gamma}^{\left( 1 \right)}$ и $z_{\gamma}^{\left( 2 \right)}$ было маленьким:
\begin{equation}
\int \limits_0^{z_{\gamma}^{\left( 1 \right)}} t_{n-1} \left( u \right) du = \frac{\gamma}{2}, 
\int \limits_{z_{\gamma}^{\left( 2 \right)}} t_{n - 1} \left( u \right) du = \frac{\gamma}{2}.
\end{equation}
При заданном $\gamma$ из этих уравнений находим $z_{\gamma}^{\left( 1 \right) }$ и $z_{\gamma}^{\left( 2 \right)}$.
Получается,
что $P \left\{ z_{\gamma}^{\left( 1 \right) } < \hat{U}_n < z_{\gamma}^{\left( 2 \right) } \right\} = 1 - \gamma$.

Доверительный интервал для дисперсии
\begin{equation}
\frac{\left( n - 1 \right) \cdot \hat{\sigma}_n^2}{z_{\gamma n}^{\left( 2 \right)}} <
\sigma^2 <
\frac{\left( n - 1 \right) \cdot \hat{\sigma}_n^2}{z_{\gamma n}^{\left( 2 \right) }}.
\end{equation}
Когда увеличиваем $n$, увеличивабтся $z_{\gamma n}^{\left( i \right) }$.
Сам интервал сужается.

In [18]:
def variance_interval(n):
    X = normal(a, sigma, n)
    a_n = X.mean()
    sigma_n = (sum(X ** 2) - mean(a_n ** 2)) / (n - 1)
    z1 = chi2.ppf(gamma / 2, n - 1)
    z2 = chi2.ppf(1 - gamma / 2, n - 1)
    left = (n - 1) * sigma_n / z2
    right = (n - 1) * sigma_n / z1
    length = right - left
    print "sigma_n:", sigma_n
    print "variance 95%% confidence interval, n =", n, (left, right)
    print "interval length:", length
    return length

In [19]:
l1 = variance_interval(100)

sigma_n: 0.891039945041
variance 95%% confidence interval, n = 100 (0.6868991478064187, 1.2024489597079353)
interval length: 0.515549811902


In [20]:
l2 = variance_interval(1000)
print "length ratio:", l2 / l1
print "1 / sqrt(n2 / n1):", 1 / sqrt(10)

sigma_n: 0.978816811257
variance 95%% confidence interval, n = 1000 (0.89834599182619179, 1.0706634464038731)
interval length: 0.172317454578
length ratio: 0.334240165741
1 / sqrt(n2 / n1): 0.316227766017


In [21]:
l3 = variance_interval(10000)
print "length ratio:", l3 / l2
print "1 / sqrt(n3 / n1):", 1 / sqrt(10)

sigma_n: 0.989411207207
variance 95%% confidence interval, n = 10000 (0.96254801030453163, 1.0174203093747727)
interval length: 0.0548722990702
length ratio: 0.318437265712
1 / sqrt(n3 / n1): 0.316227766017


In [22]:
l4 = variance_interval(100000)
print "length ratio:", l4 / l3
print "1 / sqrt(n4 / n3):", 1 / sqrt(10)

sigma_n: 0.999561552653
variance 95%% confidence interval, n = 100000 (0.99085766366474382, 1.0083811675783911)
interval length: 0.0175235039136
length ratio: 0.319350641591
1 / sqrt(n4 / n3): 0.316227766017


Интервал сужается к истинному значению дисперсии $\sigma^2 = 1$ со скоростью $\frac{1}{\sqrt{n}}$.
Этот интервал действительно покрывает единицу.

## Задание 3
Хотим вычислить величину
$I = P \left( \xi < \eta \right), \xi \sim F \left( u \right), \eta \sim G \left( u \right)$,
где $F \left( u \right)$ и $G \left( u \right) $ --- функции распределения.
$\xi \geq 0$ и $\eta > 0$ --- независимы.
Фиксируем $\xi$:
\begin{equation}
I = \int \limits_0^{\infty} F \left( u \right) dG \left( u \right) = MF \left( \eta \right).
\end{equation}
Фиксируем $\xi$:
\begin{equation}
I = \int \limits_0^{\infty } \left[ 1 - G \left( u \right) \right] dF \left( u \right) =
M \left[ 1 - G \left( \xi \right)\right].
\end{equation}
Если $\xi \gg \eta$ в среднем, то $\xi < \eta$ очень редко.

В первом случае дисперсия будет пропорциональна $p^2$.

Возьмём конкретные функции распределения: $F \left( u \right) = 1 - e^{- \left( \alpha \cdot u\right)^2}, u \geq 0$ --- распределение Вейбулла (Weibull), $G \left( u \right) = 1 - e^{-u^3}, u \geq 0$.

Чтобы сгенерировать $\xi$, нужно приравнять $1 - e^{-\left( \alpha \cdot u \right)^2}$ к $1 - \omega $,
чтобы найти $u$, то есть
\begin{equation}
\xi = -\frac{1}{\alpha} \cdot \left( \ln \omega \right)^{\frac{1}{2}} \sim F \left( u \right).
\end{equation}

$P \left\{ \xi < u\right\} =
P \left\{ F^{-1} \left( \omega \right) < u \right\} =
P \left\{ \omega < F \left( u \right) \right\} =
F \left( u \right),
\eta = - \left( \ln \omega \right)^{\frac{1}{3}}$.

Хотим вычислить интеграл методом Монте-Карло.
Уровень доверия возьмём $\gamma = 0.05$.

Относительную погрешность возьмём 1%, то есть $\varepsilon = 0.01$.

Для первого способа оценка интеграла
\begin{equation}
\hat{I}_n^{\left( 1 \right) } = \frac{1}{n} \sum \limits_{i=1}^n F \left( \eta_i \right),
\alpha = 0.1, 0.01, 0.001. 
\end{equation}
Вычислить $I$ точно.
Для каждого из способов найти $n$, когда относительная погрешность оценки --- 1%
\begin{equation}
n^* = \min n \geq n_0: n \geq \frac{z_{\gamma}^2 \cdot \hat{\sigma}_n^2}{\varepsilon^2 \cdot \hat{I}_n^2}.
\end{equation}
В первом случае $n_0 = 100$.

Во втором случае $n_0$ в зависимости от $\alpha$ нужно увеличивать, например, $n_0 = 1000, 10000, 100000$,
чтобы дисперсия была устойчивой.

In [23]:
def variance(array):
    return sum(array - mean(array)) ** 2 / (array.shape[0])

In [24]:
def generate_F(n, alpha = 0.1):
    return ((-log(rand(n))) ** 0.5) / alpha

In [25]:
def generate_G(n):
    return (-log(rand(n))) ** (1 / 3.)

In [26]:
def F(u, alpha=0.1):
    return 1 - exp(-(alpha * u) ** 2)

In [27]:
def one_minus_G(u):
    return exp(-u ** 3)

Надём точное значение интеграла, представленного первым способом.

In [28]:
def integrand_1(u):
    return 3 * (1 - exp(-(0.1 * u) ** 2)) * u **2 * exp(-u ** 3)

In [29]:
print "The exact value of first integral:", quad(integrand_1, 0, inf)[0]

The exact value of first integral: 0.00896825263134


Найдём точное значение интеграла, представленного вторым способом.

In [30]:
def integrand_2(u):
    return 2 * 0.1 ** 2 * u * exp(-(0.1 * u) ** 2 - u ** 3)

In [31]:
print "The exact value of second integral:", quad(integrand_2, 0, inf)[0]

The exact value of second integral: 0.00896825263134


In [32]:
def find_size(sample):
    epsilon = 0.01
    z = norm.ppf(1 - gamma / 2.)
    sum1 = 0
    sum2 = 0
    n = 100
    for x in sample:
        sum1 += x
        sum2 += x * x
        n += 1
        
        if n < 2: continue
        sigma2 = float(1) / (n - 1) * (sum2 - float(sum1 ** 2) / n)
        a = float(sum1) / n
        crit = float(z * z * sigma2) / (a * a * epsilon * epsilon)
        
        if n > crit:
            break
    return n

In [33]:
true_value = quad(integrand_1, 0, inf)[0]
sample = F(generate_G(10 ** 5), alpha=0.1)
#sample = one_minus_G(generate_F(10 ** 7))
n = find_size(sample)
real_value = mean(sample[:n])
print "real value:", real_value
print "true value:", true_value
print "n:", n
if true_value > 0.99 * real_value and true_value < 1.01 * real_value:
    print('lies in the interval')

real value: 0.00896238144598
true value: 0.00896825263134
n: 17909
lies in the interval
