Выберите две закономерности в данных из приведенных ниже, сформулируйте для них гипотезы по всем правилам:
● В период Surge видим более низкую price-to-order конверсию
● Для устройств Android наблюдаем более высокие юзерские отмены
● Если Заказ из центра, то видим более низкие юзерские отмены
● Если Comfort & Business классы, то более низкие юзерские отмены, более длинные поездки

Опишите порядок проведения теста для проверки гипотез.

Разбейте юзеров на группы с помощью рандома по следующему алгориму:
● Добавьте новую колонку, где каждому юзеру присвойте значение функции RAND() - выдает случайное число от 0 до 1
● В зависимости от значения rand - поместите пользователя в группу 1 или 2. (если rand >0.5, то 1, иначе 2)

Проверьте на однородность с помощью t-теста (встроенной функией excel)
Важно: функция работает только на выборках одинакового размера. Убедитесь что группы 1 и 2 одинаковы по количеству юзеров. Для выравнивания можно исключить некоторое кол-во юзеров в большей группе.

In [2]:
import pandas as pd
import numpy as np
from scipy import stats as st
from scipy.stats import mannwhitneyu
from scipy.stats import norm
import random

In [4]:
df = pd.read_csv('Netology_A_B-testing_HW_1 (2).csv')
df.head()

Unnamed: 0.1,Unnamed: 0,date,user_id,hour,app_opened,price_seen,order_made,surge,ride_completed,user_cancelled,age,os,city_center_order,order_class,distance,rfm
0,0,2020-05-21,867689,12,1,1,1,no surge,1,0,20,iOS,0,business,7.982135,low
1,1,2020-05-23,752172,5,1,1,1,no surge,1,0,37,Android,1,economy,2.908468,high
2,2,2020-05-20,486559,15,1,1,1,no surge,1,0,47,Android,0,comfort,7.224614,low
3,3,2020-05-19,304024,0,1,1,1,no surge,1,0,59,Android,1,economy,1.874349,low
4,4,2020-05-23,139420,0,1,1,1,no surge,1,0,19,Android,0,business,10.704778,medium


В период Surge видим более низкую price-to-order конверсию


H0: Price-to-order конверсия не отличается в моменты повышенного спроса и в обычное время

In [5]:
# Разделяем датафрейм по целевой метрике surge и price seen
df_surge = df[ (df['price_seen'] == 1) & (df['surge'] == 'surge') ]
df_nosurge = df[ (df['price_seen'] == 1) & (df['surge'] == 'no surge')]



In [6]:
# Оставдяем только уникальных пользователей и усредняем показатели
df_surge_uniq = df_surge.groupby(['user_id']).mean().reset_index()
df_nosurge_uniq = df_nosurge.groupby(['user_id']).mean().reset_index()

In [7]:
# В подвыборке оставляем 3000 пользователей, т.к. для стат.тестов минимальный порог 2500

df_surge_uniq_sample = df_surge_uniq.sample(n=3000, random_state=1)
df_nosurge_uniq_sample = df_nosurge_uniq.sample(n=3000, random_state=1)

In [8]:
# Проверим однородность с помощью t-теста, предполагая, что ЦПТ выполняется

result_tt = st.ttest_ind(df_surge_uniq_sample['order_made'], df_nosurge_uniq_sample['order_made'], equal_var=False)
alpha = 0.05
if (result_tt.pvalue < alpha):
    print(f'Отвергаем нулевую гипотезу, конверсия в часы пик отличается, statistic - {result_tt.statistic}  pvalue - {round(result_tt.pvalue, 5)}')
else:
    print(f'Не отвергаем нулевую гипотезу конверсия одинаковая, statistic - {result_tt.statistic}  pvalue - {round(result_tt.pvalue, 5)}')

Отвергаем нулевую гипотезу, конверсия в часы пик отличается, statistic - -15.81287648523105  pvalue - 0.0


Для устройств Android наблюдаем более высокие юзерские отмены


H0: количество отказов не зависит от используемой операционной системы

In [9]:
# Разделяем датафрейм по целевой метрике
df_ios = df[ (df['os'] == 'iOS') & (df['price_seen'] == 1) ]
df_android = df[ (df['os'] == 'Android') & (df['price_seen'] == 1)]

In [10]:
# Оставляем только уникальных пользователей и усредняем показатели
df_ios_uniq = df_ios.groupby(['user_id']).mean().reset_index()
df_android_uniq = df_android.groupby(['user_id']).mean().reset_index()

In [11]:
# В подвыборке оставим 3000 пользователей, т.к. для стат.тестов минимальный порог 2500

df_ios_uniq_sample = df_ios_uniq.sample(n=3000, random_state=1)
df_android_uniq_sample = df_android_uniq.sample(n=3000, random_state=1)

In [12]:
# Проверим однородность с помощью t-теста, предполагая, что ЦПТ выполняется

result_tt = st.ttest_ind(df_ios_uniq_sample['user_cancelled'], df_android_uniq_sample['user_cancelled'], equal_var=False)
alpha = 0.05
if (result_tt.pvalue < alpha):
    print(f'Отвергаем нулевую гипотезу, количество отказов различается, statistic - {result_tt.statistic}  pvalue - {round(result_tt.pvalue, 5)}')
else:
    print(f'Не отвергаем нулевую гипотезу, отказы в обеих группах одинаковые, statistic - {result_tt.statistic}  pvalue - {round(result_tt.pvalue, 5)}')

Отвергаем нулевую гипотезу, количество отказов различается, statistic - -7.601923031380705  pvalue - 0.0
