# Доверительные интервалы

#### Импорты

In [33]:
import numpy as np
from scipy import stats
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic
from statsmodels.stats.proportion import proportion_confint
from statsmodels.stats.proportion import samplesize_confint_proportion

#### Конспект

Квантиль - значение, которое случайная величина не превышает с определенной вероятностью
$P(X ≤ X_α) ≥α $

Правило 2 сигм - Если случайная величина имеет нормальное распределение, то $P(μ − 2σ ≤ X ≤ μ + 2σ) ≈ 0.95$

Предсказательный интервал - $P􏰀(X_\frac{α}{2} ≤ X ≤ X_\frac{1-α}{2})􏰁=1−α$

Точечная оценка - какая-то статистика для оценки неизвестного параметра.

Доверительный интервал - как предсказательный только вместо случайной величины X - неизвестный параметр, а вместо квантилей X квантили распределения какой-то статистики.

В доверительном интервале случайны границы(квантили), а в предсказательном - случайная величина X. Предсказательный оценивает диапазон, в котором меняется случайная величина, а доверительный для среднего - в каком диапазоне скорее всего лежит среднее.

Исходя из ЦПТ - распределение выборочного среднего по большой выборке может быть аппроксимировано нормальным. Следовательно, можно заменять мат ожидание на выборочное среднее и строить доверительные интервалы для норм. распределения.

Распределение Хи квадрат  $\sum(X_i)$

Распределение Стьюдента  $\frac{X_1}{\sqrt{X_2 / v}}$

Распределение Фишера $\frac{X_1 / d_1}{X_2 / d_2}$

#### Переменные

In [28]:
#Выборка
data = np.array(1*[1] + 49*[0])

#Количество образцов
n = 50

#Уровень недоверия
a = 0.05

#Теоретическая дисперсия
theoretical_disp = 0.02 

#Выборочная дисперсия
mean_disp = data.std()**2

#Выборочное среднее
mean_val = data.mean()

#### Доверительный интервал среднего

Пример задачи: оценить средний уровень дохода из выборки по региону X. Оценить средний уровень дохода из выборки по региону Y.  Если доверительные интервалы средних двух выборок не пересекаются => можно делать вывод о разности средних. Также используется для сравнение результатов оценки классификаторов (cross_val_score).

Z-интервал, когда известна дисперсия $\bar{X}_n \pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$

In [24]:
_zconfint_generic(mean_val,np.sqrt(theoretical_disp/n),a, 'two-sided')

(-0.0077180764869935574, 0.047718076486993555)

T-интервал, теоретическая дисперсия заменяется выборочной. $\bar{X}_n \pm t_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}}$

In [25]:
_tconfint_generic(mean_val, np.sqrt(mean_disp/n),n - 1, a, 'two-sided')

(-0.019787559717132242, 0.059787559717132246)

#### Доверительный интервал доли

Пример задачи: Интервально оценить долю носителей генов m из популяции размера n.

На основе нормального распределения: $\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$

In [30]:
proportion_confint(sum(data), n, method = 'normal')

Доверительный интервал Уилсона: $\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{
z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$

In [32]:
proportion_confint(sum(data), n, method = 'wilson')

#### Вычисление необходимого размера выборки

In [39]:
np.ceil(samplesize_confint_proportion(mean_val, a/2)) # a/2 - точность.

121.0

#### Доверительный вариант разности долей

Для независимых выборок. Пример: при испытаниях лекарства есть 2 выборки испытуемых X1 и X2, после эксперимента лучше стало n из X1 и m из X2. Построить доверительный интервал для улучшения состояния испытуемых.

$p_1 - p_2\colon \;\; \hat{p}_1 - \hat{p}_2 \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}$

In [41]:
def proportions_confint_diff_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)   
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

Для зависимых выборок. Пример: при тестировании новой кнопки есть 2 выборки лайков, которые ставили одни и те же люди. Построить доверительный интервал для повышения лайков при использовании новой кнопки.

$p_1 - p_2\colon \;\;  \frac{f - g}{n} \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}}$

In [42]:
def proportions_confint_diff_rel(sample1, sample2, alpha = 0.05):
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    sample = list(zip(sample1, sample2))
    n = len(sample)
        
    f = sum([1 if (x[0] == 1 and x[1] == 0) else 0 for x in sample])
    g = sum([1 if (x[0] == 0 and x[1] == 1) else 0 for x in sample])
    
    left_boundary = float(f - g) / n  - z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    right_boundary = float(f - g) / n  + z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    return (left_boundary, right_boundary)