### Задача

Вы работаете в компании *SkyJewel* (аналог Sokolov), которая занимается производством и продажей ювелирных изделий. 

В компании регулярно применяется рекламная акция, в соответствии с которой зарегистрированному в приложении пользователю приходит пуш-уведомление о выгодных скидках.

Было решено провести A/B Тест, где тестовой группе вместо пуш-уведомления приходит смс-сообщение с таким же содержанием.

Вам необходимо проанализировать результаты A/B Теста.

<aside>
⬇️ Скачайте файл для работы над заданием

[Домашняя работа Бизнес-3 (исходник).csv](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/7a637998-2cad-4000-bff5-320b7baae59e/Домашняя_работа_Бизнес-3_(исходник).csv)

- Описание таблицы
    
    ***id_client*** - уникальный идентификатор клиента
    
    ***id_group*** - идентификатор группы (0 - контроль, 1 - тест)
    
    ***city*** - название города
    
    ***nflag_purchase*** - факт покупки (1 - приобретен рекламируемый товар, 0 - нет)
    
    ***time_came*** - дата регистрации пользователя в приложении 
    
</aside>

Ниже вы найдете вспомогательный алгоритм выполнения задания. 
**Важно:** не лишайте себя возможности поразмышлять над аналитической задачей и прийти к собственному решению. 

- Алгоритм выполнения задания
    1. Рассчитайте результаты A/B Теста по всей совокупности и сделайте выводы.
    2. Рассчитайте результаты A/B Теста для каждого города в отдельности и сделайте выводы.
    3. Рассчитайте результаты A/B Теста для каждого города отдельно для тех, кто зарегистрировался в 2020 году, и отдельно для тех, кто зарегистрировался в 2021 году. Сделайте выводы.
    
    (*) Подумайте о том, как можно автоматизировать алгоритм, чтобы не рассчитывать каждый раз одно и то же для каждого нового сегмента (ввести функцию с интерпретируемыми принтами).

In [1]:
import pandas as pd
from scipy.stats import ttest_ind

In [2]:
df = pd.read_csv('Домашняя работа Бизнес-3 (исходник).csv', sep = ';')

In [3]:
df

Unnamed: 0,id_client,id_group,city,nflag_purchase,time_came
0,24360208,0,Moscow,1,21.10.2021
1,24360925,1,Moscow,1,16.10.2021
2,24357607,1,Saint-Petersbourg,0,09.01.2021
3,24362041,0,Saint-Petersbourg,0,25.01.2020
4,24360773,1,Novosibirsk,0,03.04.2021
...,...,...,...,...,...
6389,24356990,1,Moscow,1,08.10.2021
6390,24359007,0,Novosibirsk,1,24.05.2021
6391,24362669,1,Moscow,0,20.05.2021
6392,24357547,0,Novosibirsk,0,13.01.2021


In [4]:
def test_calc(test_group, control_group, alpha=0.05):
    s, p_value = ttest_ind(test_group, control_group)
    
    if p_value < alpha:
        if s > 0:
            print('группы не равны, результаты тестовой группы лучше')
        else: print('группы не равны, результаты контрольной группы лучше')    
    else: print('группы равны')
    
    print('s=',s, 'p=',p_value)

# Тест по всем

In [5]:
test_calc(df[df['id_group']==1]['nflag_purchase'], df[df['id_group']==0]['nflag_purchase'])

группы не равны, результаты тестовой группы лучше
s= 2.4013624185110922 p= 0.01636252986305824


In [7]:
print (df[df['id_group']==1]['nflag_purchase'].mean())
print (df[df['id_group']==0]['nflag_purchase'].mean())

0.3022029165373875
0.2749921160517187


# Тест по городам

In [25]:
for i in df.city.unique():
    
    df_loc = df[df['city']==i] 
    print(i)
    test_group = df_loc[df_loc['id_group']==1]['nflag_purchase']
    control_group = df_loc[df_loc['id_group']==0]['nflag_purchase']
    
    test_calc(test_group, control_group)
    print()

Moscow
группы равны
s= 0.8450837813559312 p= 0.3981571415772427

Saint-Petersbourg
группы равны
s= 1.6604718327634895 p= 0.09701308927385824

Novosibirsk
группы равны
s= 0.4978267258755046 p= 0.6186980029170557

Kazan
группы равны
s= 0.5357666217562046 p= 0.592246594180279

Vladivostok
группы не равны, результаты тестовой группы лучше
s= 2.1734327152064643 p= 0.030257214768841512



# Тест по городам и годам

In [28]:
from datetime import datetime
df['time_came'] = pd.to_datetime(df['time_came'])

  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_came'] = pd.to_datetime(df['time_came'])
  df['time_c

In [30]:
df['year']=df['time_came'].dt.year

In [31]:
for i in df.city.unique():
    for j in df.year.unique():
        
    
        df_loc = df[(df['city']==i) & (df['year']==j)] 
        print(i)
        print(j) 
        test_group = df_loc[df_loc['id_group']==1]['nflag_purchase']
        control_group = df_loc[df_loc['id_group']==0]['nflag_purchase']
    
        test_calc(test_group, control_group)
        print()

Moscow
2021
группы равны
s= 0.5603683900894895 p= 0.5753106595236979

Moscow
2020
группы равны
s= 0.6663258646086272 p= 0.5054399863130574

Saint-Petersbourg
2021
группы равны
s= 1.2904782210001127 p= 0.19716903302230424

Saint-Petersbourg
2020
группы равны
s= 1.0648100022929947 p= 0.28741355911452665

Novosibirsk
2021
группы равны
s= 0.5222733783307411 p= 0.6016373697833897

Novosibirsk
2020
группы равны
s= 0.24036968556132807 p= 0.8101519376946962

Kazan
2021
группы равны
s= 0.11025208256715152 p= 0.9122617463673748

Kazan
2020
группы равны
s= 0.6091471183931282 p= 0.5426955440428094

Vladivostok
2021
группы равны
s= 0.3858679356044035 p= 0.6999017522609832

Vladivostok
2020
группы не равны, результаты тестовой группы лучше
s= 2.9478353895151996 p= 0.0035991718341134645

