### Z- критерий для доли
выборка:$X^n=(X_1,...,X_n)$ <br>
        $X\sim Ber(p)$<br>
нулевая гипотеза:$H_0:p=p_0$<br>
альтернатива:$H_1:p<\not=>p_0$<br>
статистика:$Z(X^n)=\frac{\hat p-p_0}{\sqrt \frac{p_0(1-p_0)}{n}},\hat p=\bar X_n$<br> 
$\hat p$ -выборочное среднее , то есть распределение единиц<br>
нулевое распределение:$Z(X^n)\sim N(0,1)$<br>

### Z- критерий для двух долей
выборки:$X_1^{n_1}=(X_{11},...,X_1n_1),X_1 \sim Ber(p_1)$ <br>
        $X_2^{n_2}=(X_{21},...,X_2n_2),X_2 \sim Ber(p_2)$ <br>
        **выборки независимы**<br>
нулевая гипотеза:$H_0:p_1=p_2$<br>
альтернатива:$H_1:p_1<\not=>p_2$<br>       
статистика:$Z(X_1^{n_1},X_2^{n_2})=\frac{\hat p_1-p_2}{\sqrt {P(1-P)(\frac{1}{n_1}+\frac{1}{n_2})}},P=\frac{\hat p_1n_1+\hat p_2n_2}{n_1+n_2}$<br> 
нулевое распределение:$Z(X_1^{n_1},X_2^{n_2})\sim N(0,1)$<br>

данные в такой задаче удобно записывать следующим образом:

   Исход \выборка| $X_1$  | $X_2$ 
  ------------- | -------------|
  1  | a | b 
  0  | c | d
  $\sum$  | $n_1$ | $n_2$
  
 если выборки зависимы:
 
   $X_1\X_2$|1 | 0|$\sum$
  ------------- | -------------| -------------|
  1  | e | f |e+f
  0  | g| h|g+h
  $\sum$  | e+g | f+h|n
  
выборки:$X_1^{n_1}=(X_{11},...,X_1n_1),X_1 \sim Ber(p_1)$ <br>
        $X_2^{n_2}=(X_{21},...,X_2n_2),X_2 \sim Ber(p_2)$ <br>
        **выборки связанные**(а значит как минимум одного размера)<br>
  нулевая гипотеза:$H_0:p_1=p_2$<br>
альтернатива:$H_1:p_1<\not=>p_2$<br> 
статистика:$Z(X_1^{n_1},X_2^{n_2})=\frac{f-g}{\sqrt {f+g-\frac{(f-g)^2}{n}}}$<br> 
нулевое распределение:$Z(X_1^{n_1},X_2^{n_2})\sim N(0,1)$ при $H_0=0$<br>

#### Задача 
Есть товар или услуга, которые мы хотим рекламировать с помощью баннера.<br>У нас есть два баннера (новый и старый) и статистика по кликам(создали специальную веб форму и попросили ставить лайки).<br>Нужно понять какой баннер лучше.

In [1]:
import numpy as np
import pandas as pd
import scipy
from statsmodels.stats.weightstats import *
from statsmodels.stats.proportion import proportion_confint

In [2]:
data = pd.read_csv(r'..\data\banner_click_stat.txt', header = None, sep = '\t')
data.columns = ['banner_a', 'banner_b']

In [3]:
data.head()

Unnamed: 0,banner_a,banner_b
0,0,0
1,1,1
2,0,0
3,0,0
4,0,0


In [4]:
data.describe()

Unnamed: 0,banner_a,banner_b
count,1000.0,1000.0
mean,0.037,0.053
std,0.188856,0.224146
min,0.0,0.0
25%,0.0,0.0
50%,0.0,0.0
75%,0.0,0.0
max,1.0,1.0


## Интервальные оценки долей
$$ \hat{p} \pm  z_{1-\frac{\alpha}{2} } \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n}  } $$ 

In [5]:
#по умолчанию 95% доверительный интервал
conf_interval_banner_a = proportion_confint(sum(data.banner_a), 
                                            data.shape[0],
                                            method = 'normal')
conf_interval_banner_b = proportion_confint(sum(data.banner_b), 
                                            data.shape[0],
                                            method = 'normal')
print ('95%% confidence interval for a click probability, banner a: [%f, %f]' % conf_interval_banner_a)
print ('95%% confidence interval for a click probability, banner b [%f, %f]' % conf_interval_banner_b)

95% confidence interval for a click probability, banner a: [0.025301, 0.048699]
95% confidence interval for a click probability, banner b [0.039115, 0.066885]


интервалы пересекаются и какой либо вывод сделать мы не можем.
## Z-критерий для разности долей (независимые выборки)

   | $X_1$ | $X_2$  
  ------------- | -------------|
  1  | a | b 
  0  | c | d 
  $\sum$ | $n_1$| $n_2$
  
$$ \hat{p}_1 = \frac{a}{n_1}$$

$$ \hat{p}_2 = \frac{b}{n_2}$$


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\; \hat{p}_1 - \hat{p}_2 \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}$$

$$Z-статистика: Z({X_1, X_2}) =  \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{P(1 - P)(\frac{1}{n_1} + \frac{1}{n_2})}}$$
$$P = \frac{\hat{p}_1{n_1} + \hat{p}_2{n_2}}{{n_1} + {n_2}} $$

In [6]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return scipy.stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - scipy.stats.norm.cdf(z_stat)

In [7]:
"95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(data.banner_a, data.banner_b)

'95% confidence interval for a difference between proportions: [-0.034157, 0.002157]'

интервал получился довольно узким, но ноль в него входит и по прежнему непонятно как сравнивать наши баннеры

In [8]:
"p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(data.banner_a, data.banner_b))

'p-value: 0.084379'

это значит на уровне значимости 0.05 не можем отбросить гипотезу о том, что доли одинаковы.<br>
Воспользуем априорным предположением , что новый баннер лучше (альтернатива *less*):

In [9]:
"p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(data.banner_a, data.banner_b), 'less')

'p-value: 0.042189'

Получившийся уровень значимости позволяет отбросить нулевую гипотезу и новый баннер действительно лучше.

предположим баннеры оценивали одни и те же люди
## Z-критерий для разности долей (связанные выборки)
запишем таблицу сопряженности(случаи когда людям понравились оба баннера, только один и ни одного):

  $X_1$ \ $X_2$ | 1| 0 | $\sum$
  ------------- | -------------|
  1  | e | f | e + f
  0  | g | h | g + h
  $\sum$ | e + g| f + h | n  
  
 
  
$$ \hat{p}_1 = \frac{e + f}{n}$$

$$ \hat{p}_2 = \frac{e + g}{n}$$

$$ \hat{p}_1 - \hat{p}_2 = \frac{f - g}{n}$$


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\;  \frac{f - g}{n} \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{f + g}{n^2} - \frac{(f - g)^2}{n^3}}$$

$$\text{Z-статистика}: Z({X_1, X_2}) = \frac{f - g}{\sqrt{f + g - \frac{(f-g)^2}{n}}}$$

In [10]:
def proportions_diff_confint_rel(sample1, sample2, alpha = 0.05):
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    sample = list(zip(sample1, sample2))
    n = len(sample)
        
    f = sum([1 if (x[0] == 1 and x[1] == 0) else 0 for x in sample])
    g = sum([1 if (x[0] == 0 and x[1] == 1) else 0 for x in sample])
    
    left_boundary = float(f - g) / n  - z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    right_boundary = float(f - g) / n  + z * np.sqrt(float((f + g)) / n**2 - float((f - g)**2) / n**3)
    return (left_boundary, right_boundary)
def proportions_diff_z_stat_rel(sample1, sample2):
    sample = list(zip(sample1, sample2))
    n = len(sample)
    
    f = sum([1 if (x[0] == 1 and x[1] == 0) else 0 for x in sample])
    g = sum([1 if (x[0] == 0 and x[1] == 1) else 0 for x in sample])
    
    return float(f - g) / np.sqrt(f + g - float((f - g)**2) / n )

In [11]:
"95%% confidence interval for a difference between proportions: [%f, %f]" \
      % proportions_diff_confint_rel(data.banner_a, data.banner_b)

'95% confidence interval for a difference between proportions: [-0.026689, -0.005311]'

Интевал лежит левее нуля , соответсвенно можем предположить , что новый баннер лучше старого

In [12]:
"p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_rel(data.banner_a, data.banner_b))

'p-value: 0.003349'

Уверенно отвергаем нулевую гипотезу.

In [13]:
"p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_rel(data.banner_a, data.banner_b), 'less')

'p-value: 0.001675'

еще более уверенно это делаем.