# Урок 5. Применение математической статистики для проверки гипотез в реальной жизни для популярных метрик

In [1]:
import numpy as np

from scipy import stats

import warnings
warnings.filterwarnings('ignore')

## Задание 1

Мы запустили АБ-тест на увеличение среднего дохода за сеанс. По итогам тестирования мы получили следующие данные. Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим в продакшн?

$H_0: \bar{X} - \bar{Y} = 0$ \
$H_1: \bar{X} - \bar{Y} < 0$ – левосторонняя критическая область

Для проверки нулевой гипотезы используют статистический критерий \
$Z = \cfrac{\bar{x}-\bar{y}}{\sqrt{\cfrac{D_x^2}{n}+\cfrac{D_y^2}{m}}}$, где \
$\bar{x}$, $\bar{y}$ - выборочные средние \
$D_x^2$, $D_y^2$ - смещенные выборочные дисперсии (можно использовать и несмещенную)

Для левосторонней критической области. Если $z_н > -z_к$, то гипотеза $H_0$ на уровне значимости $\alpha$ принимается. Если $z_н < -z_к$, то отвергается.

In [2]:
Mx, SDx, Nx = 260, 20, 100 #A
My, SDy, Ny = 270, 40, 120 #B
alpha = 0.05

In [3]:
Zk = stats.norm.ppf(1-alpha)
print(f'Zk = {Zk:.2f}')

Zn = (Mx-My)/np.sqrt(SDx**2/Nx + SDy**2/Ny)
print(f'Zn = {Zn:.2f}')

print(f'H0: M(X)=M(Y) is {Zn>-Zk}')

Zk = 1.64
Zn = -2.40
H0: M(X)=M(Y) is False


## Задание 2

Мы провели АБ-тест на увеличение ARPU. По итогам тестирования мы получили следующие данные. Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим в продакшн?

$H_0: \bar{X} - \bar{Y} = 0$ \
$H_1: \bar{X} - \bar{Y} \not= 0$ – двусторонняя критическая область

Для проверки нулевой гипотезы используют статистический критерий \
$Z = \cfrac{\bar{x}-\bar{y}}{\sqrt{\cfrac{D_x^2}{n}+\cfrac{D_y^2}{m}}}$, где \
$\bar{x}$, $\bar{y}$ - выборочные средние \
$D_x^2$, $D_y^2$ - смещенные выборочные дисперсии (можно использовать и несмещенную)

Двусторонняя критическая область. Если $|z_н| < z_к$, то гипотеза $H_0$ принимается, в противном случае – отвергается.

In [4]:
Mx, SDx, Nx = 300, 20, 600 #A
My, SDy, Ny = 301, 5, 620 #B
alpha = 0.05

In [5]:
Zk = stats.norm.ppf(1-alpha/2)
print(f'Zk = {Zk:.2f}')

Zn = (Mx-My)/np.sqrt(SDx**2/Nx + SDy**2/Ny)
print(f'Zn = {Zn:.2f}')

print(f'H0: M(X)=M(Y) is {abs(Zn)<Zk}')

Zk = 1.96
Zn = -1.19
H0: M(X)=M(Y) is True


## Задание 3

Мы провели АБ-тест на увеличение average timespent per user. По итогам тестирования мы получили следующие данные. Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим на продакшн?

$H_0: \bar{X} - \bar{Y} = 0$ \
$H_1: \bar{X} - \bar{Y} > 0$ – правосторонняя критическая область

Для проверки нулевой гипотезы используют статистический критерий \
$Z = \cfrac{\bar{x}-\bar{y}}{\sqrt{\cfrac{D_x^2}{n}+\cfrac{D_y^2}{m}}}$, где \
$\bar{x}$, $\bar{y}$ - выборочные средние \
$D_x^2$, $D_y^2$ - смещенные выборочные дисперсии (можно использовать и несмещенную)

Правосторонняя критическая область. Если $z_н < z_к$, то гипотеза $H_0$ принимается, в случае $z_н > z_к$ – отвергается.

In [6]:
Mx, SDx, Nx = 478, 20, 92 #A
My, SDy, Ny = 470, 30, 93 #B
alpha = 0.05

In [7]:
Zk = stats.norm.ppf(1-alpha)
print(f'Zk = {Zk:.2f}')

Zn = (Mx-My)/np.sqrt(SDx**2/Nx + SDy**2/Ny)
print(f'Zn = {Zn:.2f}')

print(f'H0: M(X)=M(Y) is {Zn<Zk}')

Zk = 1.64
Zn = 2.14
H0: M(X)=M(Y) is False


## Задание 5

Вычислите  выборочную дисперсию, выборочное  среднее, стандартное отклонение , моду и медиану для следующего множества значений: [5, 5, 5, 18, 10, 8, 9, 10, 19, 21 ]

In [8]:
X = np.array([5, 5, 5, 18, 10, 8, 9, 10, 19, 21])

In [9]:
# несмещенная дисперсия
np.var(X, ddof=1)

37.333333333333336

In [10]:
np.mean(X)

11.0

In [11]:
# несмещенное стандартное отклонение
np.std(X, ddof=1)

6.110100926607787

In [12]:
stats.mode(X)[0]

array([5])

In [13]:
np.median(X)

9.5

## Задание 6

Постройте 95% доверительный интервал для  конверсии = 11% с выборкой 1500 человек -  напишите кратко как вы будете интерпретировать результат.

In [19]:
w, n = 0.11, 1500
gamma = 0.95
alpha = 1 - gamma

t = round(stats.t.ppf(1-alpha/2,n-1),2)

print(f'{w - t * np.sqrt(w*(1-w)/n):.3f} < p < {w + t * np.sqrt(w*(1-w)/n):.3f}')

0.094 < p < 0.126


С верояностью 0.95 можно утверждать, что доверительный интервал (0.094;0.126) накроет истинное значение конверсии.