>### Retention – показатель удержания пользователей. Иными словами – отражает то, сколько пользователей возвращаются в продукт спустя заданное время. 

>#### Обычно день начала использования сервиса называется Day 0 – момент, когда юзер впервые воспользовался продуктом. N-Day Retention показывает, сколько процентов пользователей, начавших пользоваться продуктом в день 0, вернулись и продолжили использовать продукт N дней спустя.  



In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from datetime import datetime

In [2]:
df = pd.read_csv('./info_about_test_task/data.csv')
df.head(5)

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   Invoice      1067371 non-null  object 
 1   StockCode    1067371 non-null  object 
 2   Description  1062989 non-null  object 
 3   Quantity     1067371 non-null  int64  
 4   InvoiceDate  1067371 non-null  object 
 5   Price        1067371 non-null  float64
 6   Customer ID  824364 non-null   float64
 7   Country      1067371 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 65.1+ MB


In [4]:
df.rename(columns={el: el.lower().replace(' ', '_') for el in df.columns}, inplace=True)

df = df.drop_duplicates()
df = df.dropna()

df = df.astype({'invoicedate': np.datetime64, 'customer_id': int})

In [5]:
db = df.copy()
db.head()

Unnamed: 0,invoice,stockcode,description,quantity,invoicedate,price,customer_id,country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085,United Kingdom


In [6]:
db['start_period_month'] = db['invoicedate'].apply(lambda t: datetime(t.year, t.month, 1))
db['Cohort'] = db.groupby('customer_id').start_period_month.transform('min')
db.head(7)

Unnamed: 0,invoice,stockcode,description,quantity,invoicedate,price,customer_id,country,start_period_month,Cohort
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085,United Kingdom,2009-12-01,2009-12-01
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom,2009-12-01,2009-12-01
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom,2009-12-01,2009-12-01
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085,United Kingdom,2009-12-01,2009-12-01
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085,United Kingdom,2009-12-01,2009-12-01
5,489434,22064,PINK DOUGHNUT TRINKET POT,24,2009-12-01 07:45:00,1.65,13085,United Kingdom,2009-12-01,2009-12-01
6,489434,21871,SAVE THE PLANET MUG,24,2009-12-01 07:45:00,1.25,13085,United Kingdom,2009-12-01,2009-12-01


In [7]:
db['CohortPeriod'] = (db.start_period_month.dt.year - db.Cohort.dt.year) * 12 + \
                                            (db.start_period_month.dt.month - db.Cohort.dt.month) + 1
db.head(5)

Unnamed: 0,invoice,stockcode,description,quantity,invoicedate,price,customer_id,country,start_period_month,Cohort,CohortPeriod
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085,United Kingdom,2009-12-01,2009-12-01,1
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom,2009-12-01,2009-12-01,1
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom,2009-12-01,2009-12-01,1
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085,United Kingdom,2009-12-01,2009-12-01,1
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085,United Kingdom,2009-12-01,2009-12-01,1


In [8]:
table_agg = db.groupby(['Cohort', 'CohortPeriod'], as_index=False) \
              .agg({'customer_id': pd.Series.nunique})

pivot_table = table_agg.pivot(values='customer_id', index='Cohort', columns='CohortPeriod')

result_table = pivot_table.divide(pivot_table.iloc[:, 0], axis=0) * 100
(result_table
            .style
            .set_caption('Retention Rate')  
            .background_gradient(cmap='viridis')
            .highlight_null('white')
            .format(na_rep=""))

CohortPeriod,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25
Cohort,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1
2009-12-01 00:00:00,100.0,37.511962,34.258373,42.77512,39.23445,39.043062,39.043062,35.789474,33.971292,37.511962,43.253589,49.569378,37.033493,29.186603,25.550239,30.526316,26.124402,30.239234,28.995215,27.464115,26.220096,31.770335,30.526316,40.861244,20.861244
2010-01-01 00:00:00,100.0,21.827411,30.203046,30.456853,27.918782,29.187817,26.649746,23.096447,28.93401,34.010152,30.964467,16.497462,20.558376,16.751269,18.020305,15.228426,21.827411,18.781726,17.51269,18.527919,23.604061,18.527919,22.335025,7.360406,
2010-02-01 00:00:00,100.0,30.027548,22.589532,30.30303,25.619835,20.936639,21.763085,28.374656,27.548209,29.201102,13.22314,12.947658,15.151515,19.283747,13.498623,20.385675,18.4573,16.804408,14.600551,23.415978,24.793388,17.07989,6.336088,,
2010-03-01 00:00:00,100.0,21.788991,25.917431,23.623853,22.93578,19.954128,24.082569,29.816514,28.899083,11.46789,11.46789,14.220183,19.266055,16.513761,19.036697,16.972477,17.431193,15.825688,16.972477,20.412844,21.330275,7.568807,,,
2010-04-01 00:00:00,100.0,23.024055,19.931271,16.151203,18.556701,23.024055,27.147766,26.116838,11.340206,11.683849,8.247423,14.43299,13.745704,16.151203,15.80756,14.776632,14.089347,14.089347,17.182131,20.962199,6.52921,,,,
2010-05-01 00:00:00,100.0,19.291339,17.716535,19.291339,18.897638,25.984252,22.047244,12.992126,6.692913,8.661417,12.204724,13.779528,14.96063,16.141732,10.629921,12.992126,14.173228,16.535433,15.748031,4.724409,,,,,
2010-06-01 00:00:00,100.0,21.561338,19.702602,20.446097,23.048327,28.252788,13.011152,9.29368,8.178439,11.895911,10.408922,14.126394,15.613383,13.011152,11.152416,12.267658,13.754647,20.446097,5.947955,,,,,,
2010-07-01 00:00:00,100.0,20.765027,20.218579,28.415301,30.054645,15.300546,11.47541,15.300546,14.20765,12.021858,13.661202,15.846995,13.661202,14.20765,20.218579,17.486339,24.590164,9.289617,,,,,,,
2010-08-01 00:00:00,100.0,24.683544,31.64557,32.278481,18.35443,13.291139,10.126582,13.924051,14.556962,13.291139,13.924051,12.658228,17.088608,20.253165,18.35443,20.253165,6.962025,,,,,,,,
2010-09-01 00:00:00,100.0,30.165289,26.033058,14.049587,9.090909,10.330579,14.049587,9.917355,12.396694,14.049587,12.809917,10.330579,21.487603,17.768595,17.768595,5.371901,,,,,,,,,


>## Отлично! Теперь довольно легко заметить, что ретеншен в каждый из месяцев был наибольшим среди пользователей из самой первой когорты, 2009-12.

# Имеются данные по расходам на рекламу

- среднедневной ставке за просмотр по рекламным кампаниям
- количеству заболевших коронавирусом в стране
- количеству регистраций новых пользователей в разбивке по:
    - дням (date) 
    - странам
    - типу источников
    - рекламным кампаниям

>#### Используя эти данные необходимо ответить на вопрос, как объемы расходов влияют на стоимость регистрации в условиях пандемии?

Для ответа на вопрос, нам понадобится информация по:

    0) Стоимость регистрации - Y
    1) средней ставке за просмотр по рекламным компаниям - X1
    2) количество заболевших коронавирусом в стране - X2
    3) количество регистраций новых пользователей в разбивке по странам (X31) и рекламным кампаниям (X32)
   
Если увеличить объем расхода на рекламу, увеличится средняя ставка за просмотр по рекламным компаниям (при фиксированном числе показов рекламной компании). Далее ищем линейную связь между количеством регистраций новых пользователей в разбивке по рекламным кампаниям и средней ставкой за просмот, если не учитывать пандемию, то стоимость регистрации уменьшится, при положительной линейной связи, и уменьшится, при отрицательной связи. 
Учтем пандемию. При увеличении числа заболевших, увеличится число людей находящихся дома в стране, следовательно 
возможен рост регистрации новых пользователей, для этого посчитав корреляцию мы определим влияние числа заболевших на количество регистраций новых пользователей в разбивке по странам, соответсвенно есть следующие варианты:

    1. Если увеличить объемы расходов то увеличится X1 и X32, при увеличении X2 и X31, тогда Y уменьшится.
    2. Если увеличить объемы расходов то увеличится X1, но уменьшится X32, при увеличении X2, но уменьшении X31, тогда рост Y увеличится.
    3. Если увеличить объемы расходов то увеличится X1, но уменьшится X32, при увеличении X2 и X31, тогда рост Y неизменится.
    4. Если увеличить объемы расходов то увеличится X1, но уменьшится X32, при увеличении X2 и X31, тогда рост Y неизменится.
    5. Если увеличить объемы расходов то увеличится X1 и X32, при уменьшении X2, но увеличении X31, тогда рост Y уменьшится.

>#### Опишите процедуры и методы анализа, которые бы позволили ответить на этот вопрос. (Не обязательно использовать все имеющиеся данные)
    
    1) Сначала мы проведем описание изучаемых объектов (задействуем экспертов предметной области)
    2) Следующий этап – выявление переменных и формулировка гипотез. Наэтом этапе происходит операционализация понятий. То есть переход от абстрактных понятий предметной области к переменным, которые могут быть измерены количественно и качественно. На этом же этапе происходит формулировка гипотез в терминах переменных.
    3) Сбор и подготовка данных.
    4) Разведочный анализ данны. Визуализации подготовленного набора данных (bar plot, line plot (для time series, qq для оценки распределения, диаграмма рассеивания для оценки линейных связей между переменными)), описанию с помощью разного рода описательных статистик (R, M, q) и выявлению различных отклонений в данных (box plot).
    5) Очистка данных от шумов и аномали.
    6)  Преобразование данных (вдруг данные резко отличаются по масштабу и их проще стандартизировать и потом уже работать с ними)
    7) Построение модели (Y ~ X1 + X2 + X31 + X32)
>#### Как бы вы проверяли надежность выводов? 
    
    Диспресионный анализ. Проедение AB тестов, с группами A без учета пандемии и B с учетом пандемии, выявил есть ли стат. значимость в различиях. Если бы пандемия имела стат. значимость (она будет иметь стат. значимость, но лучше это проверить), нужно перейти к апробации результатов т. е. провести ещё AB тесты с изменением влияющих переменных.

>#### Как вам кажется, какую форму имела бы функция зависимости стоимости регистрации от объемов инвестиций (расходов на рекламу) при прочих равных, и почему?
    
    Мне кажется функция имела бы вид  кусочной функции y ~ exp(x), где y - стоимость регистрации, а x - расходы на рекламу. Сначала мы инвестируем в рекламу, стоимость растет, но по достижении порогового значения, реклама начинаем окупаться и приносить всю большую прибыль, в итоге расходы на рекламу снижаются.