# Реализация правосторонней, левосторонней и двусторонней гипотез с помощью z-критерия для пропорций

# Задание 1.

In [58]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

# 1.1. Проверка правосторонней гипотезы с помощью z-критерия для пропорций

Допустим, у нас есть приложение такси. Для привлечения интереса к приложению мы используем push-уведомления. 
Также мы считаем, что женщины склонны больше реагировать на такие уведомления, чем мужчины.
Для проверки этой гипотезы мы показали push-уведомления двум группам людей: одна состоит из 10000 женщин, вторая - из 10000 мужчин. Теперь мы хотим посчитать, какой процент женщин и какой мужчин отреагировали на уведомление и воспользовались приложением в течение трёх дней с момента уведомления.
Таким образом, наши гипотезы звучат так:
H0 - нет значимой разницы между процентом мужчин и женщин, воспользовавшихся приложением после push-уведомления;
H1 - процент женщин, воспользовавшихся приложением, больше, чем процент мужчин.
В качестве уровня значимости возьмём традиционный 0.05.

In [175]:
# Сгенерируем наши выборки:
np.random.seed(123)

arr_0 = np.random.binomial(1, 0.25, 10000) # Количество женщин, воспользовавшихся приложением
arr_1 = np.random.binomial(1, 0.23, 10000) # Количество мужчин, воспользовавшихся приложением

In [176]:
# Зададим функцию подсчитывания z-критерия для пропорций:
def right_sided_z_crit(arr_0, arr_1):
    N1 = len(arr_0)
    N2 = len(arr_1)
    p1 = sum(arr_0) / len(arr_0)
    p2 = sum(arr_1) / len(arr_1)
    
    p = (N1 * p1 + N2 * p2) / (N1 + N2) 
    z = np.sqrt(N1 * N2 / (N1 + N2)) * ((p1 - p2) / np.sqrt(p * (1 - p)))
    return z

In [177]:
right_sided_z_crit(arr_0, arr_1)

2.4767208023734564

In [178]:
# Определим критическое значение z-критерия для выбранного уровня значимости (0.05) и сравним его с полученным результатом:
def right_sided_z_crit_result(arr_0, arr_1, significance = 0.05):
    z_crit = -stats.norm.ppf(significance)
    z = right_sided_z_crit(arr_0, arr_1)
    if z > z_crit:
        print("Разница значима")
    else:
        print("Нет значимой разницы")

In [179]:
right_sided_z_crit_result(arr_0, arr_1, significance = 0.05)

Разница значима


Таким образом, с помощью z-критерия для пропорций мы выяснили, что разница между реакцией на push-уведомления мужчин и женщин, пользующихся нашим приложением, скорее всего, действительно значима: на представителей женского пола push-уведомления оказывают большее влияние. Мы подтверждили нашу альтернативную правостороннюю гипотезу.

# 1.2. Проверка левосторонней гипотезы с помощью z-критерия для пропорций

Мы всё ещё являемся приложением такси и совсем не хотим терять наших пользователей. Нам кажется, что некоторые пользователи отказываются от поездки на этапе подачи машины, увидев в приложении слишком долгое время прибытия водителя. Мы решили провести эксперимент: взяли две группы участников (каждая по 5 тысяч человек) и снизили для одной группы высвечивающееся время прибытия водителя в два раза. Мы считаем, что в этой группе процент отказов от поездки на этапе подачи машины будет меньше. Таким образом, наши гипотезы будут следующие:
H0 - значимой разницы между двумя выборками в проценте отказов от заказа нет;
H1 - в той выборке, в которой людям высветилось меньшее время прибытия автомобиля, процент отказов от заказа будет меньше.
Уровень значимости - 0.05.

In [181]:
# Сгенерируем наши выборки:
np.random.seed(123)

arr_0 = np.random.binomial(1, 0.11, 5000) # Количество отказов от заказа в группе с уменьшенным вдвое временем прибытия водителя
arr_1 = np.random.binomial(1, 0.12, 5000) # Количество отказов от заказа в группе с реальным временем прибытия водителя

In [182]:
# Зададим функцию подсчитывания z-критерия для пропорций:
def left_sided_z_crit(arr_0, arr_1):
    N1 = len(arr_0)
    N2 = len(arr_1)
    p1 = sum(arr_0) / len(arr_0)
    p2 = sum(arr_1) / len(arr_1)
    
    p = (N1 * p1 + N2 * p2) / (N1 + N2) 
    z = np.sqrt(N1 * N2 / (N1 + N2)) * ((p1 - p2) / np.sqrt(p * (1 - p)))
    return z

In [183]:
left_sided_z_crit(arr_0, arr_1)

-0.41597942649911157

In [184]:
# Определим критическое значение z-критерия для выбранного уровня значимости (0.05) и сравним его с полученным результатом:
def left_sided_z_crit_result(arr_0, arr_1, significance = 0.05):
    z_crit = stats.norm.ppf(significance)
    z = left_sided_z_crit(arr_0, arr_1)
    if z < z_crit:
        print("Разница значима")
    else:
        print("Нет значимой разницы")

In [185]:
left_sided_z_crit_result(arr_0, arr_1, significance = 0.05)

Нет значимой разницы


Таким образом, с помощью z-критерия для пропорций мы выяснили, что на самом деле нет значимой корелляции между временем прибытия водителя и процентом отказов клиентов от заказа.

# 1.3. Проверка двусторонней гипотезы с помощью z-критерия для пропорций 

И вот мы вновь являемся приложением такси и на этот раз хотим привлечь в наше приложение больше новых пользователей. Для этого мы нарисовали целых два новых рекламных баннера и провели эксперимент, чтобы выяснить, какой из них лучше. Также нельзя сразу отказаться от предположения, что существенной разницы между ними нет и на процент кликов это никак не повлияет. Для этого нам вновь приходит на помощь z-критерий для пропорций. Значит, наши гипотезы сформулированы так:
H0 - значимой разницы в проценте вызванных кликов между баннерами нет;
H1 - один из баннеров действительно лучше второго и привлекает больше пользователей.
Уровень значимости - 0.05.

In [186]:
# Генерируем выборки:
np.random.seed(123)

arr_0 = np.random.binomial(1, 0.16, 500) # Количество человек, кликнувших первый баннер
arr_1 = np.random.binomial(1, 0.17, 500) # Количество человек, кликнувших второй баннер

In [187]:
# Зададим функцию подсчитывания z-критерия для пропорций:
def two_sided_z_crit(arr_0, arr_1):
    N1 = len(arr_0)
    N2 = len(arr_1)
    p1 = sum(arr_0) / len(arr_0)
    p2 = sum(arr_1) / len(arr_1)
    p = (N1 * p1 + N2 * p2) / (N1 + N2) 
    z = np.sqrt(N1 * N2 / (N1 + N2)) * ((p1 - p2) / np.sqrt(p * (1 - p)))
    return z

In [188]:
# Определим критическое значение z-критерия для выбранного уровня значимости (0.05) и сравним его с полученным результатом:
def two_sided_z_crit_result(arr_0, arr_1, significance = 0.05):
    z_crit_left = stats.norm.ppf(significance / 2)
    z_crit_right = -stats.norm.ppf(significance / 2)
    z = two_sided_z_crit(arr_0, arr_1)
    if z < z_crit_left or z > z_crit_right:
        print("Разница значима")
    else:
        print("Нет значимой разницы")

In [189]:
two_sided_z_crit_result(arr_0, arr_1, significance = 0.05)

Нет значимой разницы


Итак, с помощью z-критерия для пропорций мы убедились в том, что между новыми рекламными баннерами нет значимой разницы в проценте вызванных кликов. :(

Таким образом, мы реализовали проверку правосторонней, левосторонней и двусторонней гипотезы с помощью z - критерия для пропорций на примере приложения такси.