### Задание
Перед вами реальные данные проведенной маркетинговой кампании по продаже продуктов. Ваша задача на основании данных провести аналитику проведенной кампании и сделать аналитическую записку о том, насколько она успешно прошла. Иные выводы на основании данных приветствуются.

Аналитическую записку можете представить в любом из доступных вам инструментов ворд, эксель, power point или пайплайн в питоне.

In [1]:
import pandas as pd
import numpy as np

import matplotlib
import matplotlib.image as img
import matplotlib.pyplot as plt


%matplotlib inline
%config InlineBackend.figure_format = 'png'

In [2]:
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.set_option('display.max_rows', 50)

In [3]:
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

## Загрузка данных

In [4]:
DATASET_PATH = r'/Users/Kristina/Desktop/EDA/test_da.csv' 

In [5]:
df = pd.read_csv(DATASET_PATH)
df.head()

Unnamed: 0,Id клиента,Дата начала кампании,дата изменения статуса по оферу (отклику),"Статус отклика, проставленный менеджерами/системой",Дата обработки офера менеджером/системой,дата окончания кампании,Флаг согласия клиента на офер,Факт обработки офера клиентским менеджером,Факт успешной коммуникации с клиентом,"код региональной группы (в каком регионе находится точка, обсуживающая сеть)","Подкод региональной группы (в каком регионе находится точка, обсуживающая сеть)",Дата открытия первого продукта,Дата открытия второго продукта,Дата открытие третьего продукта,Дата открытия третьего продукта,Дата проведения первой операции,Флаг отклика на кампанию,Флаг активации
0,1.0,12/16/2020,3/24/2021,Перезвонить,3/24/2021,3/31/2021 20:59,0,1,0,1.0,1.0,,,,,,0,0
1,2.0,12/16/2020,12/17/2020,Перезвонить,12/17/2020,3/31/2021 20:59,0,1,0,2.0,2.0,,,,,,0,0
2,3.0,12/16/2020,2/1/2021,Перезвонить,2/1/2021,3/31/2021 20:59,0,1,0,1.0,3.0,,,,,,0,0
3,4.0,12/16/2020,12/23/2020,Перезвонить,12/23/2020,3/31/2021 20:59,0,1,0,2.0,4.0,,,,,,0,0
4,5.0,12/16/2020,12/17/2020,Перезвонить,12/17/2020,3/31/2021 20:59,0,1,0,2.0,2.0,,,,,,0,0


Видим, что названия столбцов написаны по-русски, нам будет неудобно к ним обращаться, поэтому переименуем.

## Общая информация о данных

### Описание датасета

- **id_client** - Id клиента
- **date_campaign_start** - Дата начала кампании
- **date_click_change** - Дата изменения статуса по оферу (отклику)
- **response_status** - Статус отклика, проставленный менеджерами/системой
- **date_offer_processing** - Дата обработки офера менеджером/системой 
- **date_campaign_end** - Дата окончания кампании
- **flag_client_status** - Флаг согласия клиента на офер
- **fact_offer_processing** - Факт обработки офера клиентским менеджером
- **fact_communication_success** - Факт успешной коммуникации с клиентом
- **regional_group_code** - Код региональной группы (в каком регионе находится точка, обсуживающая сеть)
- **regional_subcode** - Подкод региональной группы (в каком регионе находится точка, обсуживающая сеть)
- **first_product_opening_date** - Дата открытия первого продукта
- **second_product_opening_date** - Дата открытия второго продукта
- **third_product_opening_date** - Дата открытия третьего продукта
- **fourth_product_opening_date** - Дата открытия четвертого продукта
- **first_operation_date** - Дата проведения первой операции
- **campaign_response_flag** - Флаг отклика на кампанию
- **activation_flag** - Флаг активации

In [6]:
df.columns = ['client_id', 'date_campaign_start', 'date_click_change', 'response_status', 
              'date_offer_processing', 'date_campaign_end', 'flag_client_status',
              'fact_offer_processing', 'fact_communication_success', 'regional_group_code',    
              'regional_subcode', 'first_product_opening_date', 'second_product_opening_date',
              'third_product_opening_date', 'fourth_product_opening_date',                    
              'first_operation_date', 'campaign_response_flag', 'activation_flag']

In [7]:
df

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,date_campaign_end,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1.00,12/16/2020,3/24/2021,Перезвонить,3/24/2021,3/31/2021 20:59,0,1,0,1.00,1.00,,,,,,0,0
1,2.00,12/16/2020,12/17/2020,Перезвонить,12/17/2020,3/31/2021 20:59,0,1,0,2.00,2.00,,,,,,0,0
2,3.00,12/16/2020,2/1/2021,Перезвонить,2/1/2021,3/31/2021 20:59,0,1,0,1.00,3.00,,,,,,0,0
3,4.00,12/16/2020,12/23/2020,Перезвонить,12/23/2020,3/31/2021 20:59,0,1,0,2.00,4.00,,,,,,0,0
4,5.00,12/16/2020,12/17/2020,Перезвонить,12/17/2020,3/31/2021 20:59,0,1,0,2.00,2.00,,,,,,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12024,7453188219.00,12/16/2020,2/16/2021,Согласие,2/16/2021,3/31/2021 20:59,1,1,1,3.00,41.00,,,,,,0,0
12025,7722363447.00,12/16/2020,12/28/2020,Согласие,12/28/2020,3/31/2021 20:59,1,1,1,2.00,34.00,,,,,,0,0
12026,7729630437.00,12/16/2020,3/23/2021,Согласие,3/23/2021,3/31/2021 20:59,1,1,1,2.00,29.00,,,,,,0,0
12027,7706809212.00,12/16/2020,2/15/2021,Согласие,2/15/2021,3/31/2021 20:59,1,1,1,2.00,12.00,,,,,,0,0


In [8]:
df.shape

(12029, 18)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12029 entries, 0 to 12028
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   client_id                    12013 non-null  float64
 1   date_campaign_start          12029 non-null  object 
 2   date_click_change            12029 non-null  object 
 3   response_status              12029 non-null  object 
 4   date_offer_processing        12029 non-null  object 
 5   date_campaign_end            12029 non-null  object 
 6   flag_client_status           12029 non-null  int64  
 7   fact_offer_processing        12029 non-null  int64  
 8   fact_communication_success   12029 non-null  int64  
 9   regional_group_code          12010 non-null  float64
 10  regional_subcode             12010 non-null  float64
 11  first_product_opening_date   203 non-null    object 
 12  second_product_opening_date  52 non-null     object 
 13  third_product_op

In [10]:
df.nunique()

client_id                      11969
date_campaign_start                4
date_click_change                 77
response_status                    9
date_offer_processing             78
date_campaign_end                  1
flag_client_status                 2
fact_offer_processing              2
fact_communication_success         2
regional_group_code                4
regional_subcode                  98
first_product_opening_date        67
second_product_opening_date       35
third_product_opening_date         5
fourth_product_opening_date       12
first_operation_date              50
campaign_response_flag             2
activation_flag                    2
dtype: int64

### Пропуски в данных

In [11]:
df.isna().sum()

client_id                         16
date_campaign_start                0
date_click_change                  0
response_status                    0
date_offer_processing              0
date_campaign_end                  0
flag_client_status                 0
fact_offer_processing              0
fact_communication_success         0
regional_group_code               19
regional_subcode                  19
first_product_opening_date     11826
second_product_opening_date    11977
third_product_opening_date     12024
fourth_product_opening_date    12014
first_operation_date           11848
campaign_response_flag             0
activation_flag                    0
dtype: int64

Видим, что у нас пропущено %id% клиентов и %regional_group_code%, %regional_subcode%.  

Нам стоит взглянуть на эти данные, чтобы понять что дальше делать с пропусками, так как если пропущено id, но вся информация по клиенту заполнена - мы сможем подтянуть информацию по этому клиенту из других баз данных(кому за дату N звонили, выдали продукт и тд).

In [12]:
idx1 = df.loc[pd.isna(df['client_id']), :].index
idx1

Int64Index([  149,   622,  2359,  2373,  2420,  3996,  4256,  4393,  5673,
             6583,  6988,  7433,  9897, 11128, 11281, 11502],
           dtype='int64')

In [13]:
idx2 = df.loc[pd.isna(df['regional_group_code']), :].index
idx2

Int64Index([  149,   622,  1609,  2359,  2373,  2420,  3996,  4256,  4393,
             5673,  6583,  6881,  6988,  7433,  8020,  9897, 11128, 11281,
            11502],
           dtype='int64')

In [14]:
df.iloc[[149, 622,  2359,  2373,  2420,  3996,  4256,  4393,  5673,
             6583,  6988,  7433,  9897, 11128, 11281, 11502]] [:5]

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,date_campaign_end,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
149,,12/16/2020,2/16/2021,Отказ клиента,2/16/2021,3/31/2021 20:59,0,1,1,,,,,,,,0,0
622,,12/16/2020,3/4/2021,Отказ клиента,3/4/2021,3/31/2021 20:59,0,1,1,,,,,,,,0,0
2359,,12/16/2020,12/16/2020,контрольная группа,4/1/2021,3/31/2021 20:59,0,0,0,,,3/24/2021 0:00,,,,,1,0
2373,,12/16/2020,12/16/2020,контрольная группа,4/1/2021,3/31/2021 20:59,0,0,0,,,,,,,,0,0
2420,,12/16/2020,12/22/2020,Недозвон,12/22/2020,3/31/2021 20:59,0,1,0,,,,,,,,0,0


In [15]:
df.iloc[[149,   622,  1609,  2359,  2373,  2420,  3996,  4256,  4393,
             5673,  6583,  6881,  6988,  7433,  8020,  9897, 11128, 11281,
            11502]] [:5]

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,date_campaign_end,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
149,,12/16/2020,2/16/2021,Отказ клиента,2/16/2021,3/31/2021 20:59,0,1,1,,,,,,,,0,0
622,,12/16/2020,3/4/2021,Отказ клиента,3/4/2021,3/31/2021 20:59,0,1,1,,,,,,,,0,0
1609,280000000000.0,12/16/2020,1/15/2021,Отказ клиента,1/15/2021,3/31/2021 20:59,0,1,1,,,,,,,,0,0
2359,,12/16/2020,12/16/2020,контрольная группа,4/1/2021,3/31/2021 20:59,0,0,0,,,3/24/2021 0:00,,,,,1,0
2373,,12/16/2020,12/16/2020,контрольная группа,4/1/2021,3/31/2021 20:59,0,0,0,,,,,,,,0,0


Видим, что все данные по статусам клиентов есть и некоторые клиенты даже открыли продукты после рекламной кампании - не будем выбрасывать эти строки. 

### Приведение типов 

#### datetime

In [16]:
for colname in ['date_campaign_start', 'date_click_change', 'date_offer_processing', 'date_campaign_end',
                'first_product_opening_date', 'second_product_opening_date','third_product_opening_date',
                'fourth_product_opening_date', 'first_operation_date']:
        df[colname] = pd.to_datetime(df[colname])

#### object

In [17]:
df

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,date_campaign_end,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1.00,2020-12-16,2021-03-24,Перезвонить,2021-03-24,2021-03-31 20:59:00,0,1,0,1.00,1.00,NaT,NaT,NaT,NaT,NaT,0,0
1,2.00,2020-12-16,2020-12-17,Перезвонить,2020-12-17,2021-03-31 20:59:00,0,1,0,2.00,2.00,NaT,NaT,NaT,NaT,NaT,0,0
2,3.00,2020-12-16,2021-02-01,Перезвонить,2021-02-01,2021-03-31 20:59:00,0,1,0,1.00,3.00,NaT,NaT,NaT,NaT,NaT,0,0
3,4.00,2020-12-16,2020-12-23,Перезвонить,2020-12-23,2021-03-31 20:59:00,0,1,0,2.00,4.00,NaT,NaT,NaT,NaT,NaT,0,0
4,5.00,2020-12-16,2020-12-17,Перезвонить,2020-12-17,2021-03-31 20:59:00,0,1,0,2.00,2.00,NaT,NaT,NaT,NaT,NaT,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12024,7453188219.00,2020-12-16,2021-02-16,Согласие,2021-02-16,2021-03-31 20:59:00,1,1,1,3.00,41.00,NaT,NaT,NaT,NaT,NaT,0,0
12025,7722363447.00,2020-12-16,2020-12-28,Согласие,2020-12-28,2021-03-31 20:59:00,1,1,1,2.00,34.00,NaT,NaT,NaT,NaT,NaT,0,0
12026,7729630437.00,2020-12-16,2021-03-23,Согласие,2021-03-23,2021-03-31 20:59:00,1,1,1,2.00,29.00,NaT,NaT,NaT,NaT,NaT,0,0
12027,7706809212.00,2020-12-16,2021-02-15,Согласие,2021-02-15,2021-03-31 20:59:00,1,1,1,2.00,12.00,NaT,NaT,NaT,NaT,NaT,0,0


In [18]:
def convert_to_obj(s):
    s = (
        s.fillna(0)
        .astype(int)
        .astype(object)
        .where(s.notnull())
    )
    return s

In [19]:
df['client_id'] = convert_to_obj(df['client_id'])

In [20]:
df['regional_group_code'] = convert_to_obj(df['regional_group_code'])

In [21]:
df['regional_subcode'] = convert_to_obj(df['regional_subcode'])

In [22]:
for colname in ['flag_client_status', 'campaign_response_flag', 'fact_offer_processing', 
                'fact_communication_success','campaign_response_flag', 'activation_flag']:
    df[colname] = df[colname].astype(str)

In [23]:
df.dtypes

client_id                              object
date_campaign_start            datetime64[ns]
date_click_change              datetime64[ns]
response_status                        object
date_offer_processing          datetime64[ns]
date_campaign_end              datetime64[ns]
flag_client_status                     object
fact_offer_processing                  object
fact_communication_success             object
regional_group_code                    object
regional_subcode                       object
first_product_opening_date     datetime64[ns]
second_product_opening_date    datetime64[ns]
third_product_opening_date     datetime64[ns]
fourth_product_opening_date    datetime64[ns]
first_operation_date           datetime64[ns]
campaign_response_flag                 object
activation_flag                        object
dtype: object

In [24]:
df[:5]

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,date_campaign_end,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1,2020-12-16,2021-03-24,Перезвонить,2021-03-24,2021-03-31 20:59:00,0,1,0,1,1,NaT,NaT,NaT,NaT,NaT,0,0
1,2,2020-12-16,2020-12-17,Перезвонить,2020-12-17,2021-03-31 20:59:00,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
2,3,2020-12-16,2021-02-01,Перезвонить,2021-02-01,2021-03-31 20:59:00,0,1,0,1,3,NaT,NaT,NaT,NaT,NaT,0,0
3,4,2020-12-16,2020-12-23,Перезвонить,2020-12-23,2021-03-31 20:59:00,0,1,0,2,4,NaT,NaT,NaT,NaT,NaT,0,0
4,5,2020-12-16,2020-12-17,Перезвонить,2020-12-17,2021-03-31 20:59:00,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0


### Категориальные переменные

In [25]:
for colname in df.select_dtypes(include='object').columns:
    print(str(colname) + '\n\n' + str(df[colname].value_counts()) + '\n' + '-' * 50 + '\n')

client_id

231000000000    7
254000000000    6
772000000000    6
280000000000    6
773000000000    4
               ..
7810312829      1
7701211771      1
7714415356      1
7806074427      1
5752045568      1
Name: client_id, Length: 11969, dtype: int64
--------------------------------------------------

response_status

Отказ клиента                5685
Согласие                     1453
Перезвонить                  1339
Договоренность на контакт    1025
Недозвон                      995
контрольная группа            630
Отказ банка                   335
Договоренность на сделку      287
Заявка неактуальна            280
Name: response_status, dtype: int64
--------------------------------------------------

flag_client_status

0    10576
1     1453
Name: flag_client_status, dtype: int64
--------------------------------------------------

fact_offer_processing

1    11399
0      630
Name: fact_offer_processing, dtype: int64
--------------------------------------------------

fact_commun

In [26]:
df.describe(include='object')

Unnamed: 0,client_id,response_status,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,campaign_response_flag,activation_flag
count,12013,12029,12029,12029,12029,12010,12010,12029,12029
unique,11969,9,2,2,2,4,98,2,2
top,231000000000,Отказ клиента,0,1,1,2,10,0,0
freq,7,5685,10576,11399,8730,5492,491,11798,11848


Теперь датасет подготовлен к анализу.

## Анализ датасета

In [27]:
#Временной интервал

In [28]:
df['date_campaign_start'].value_counts()

2020-12-16    11355
2021-02-18      671
2021-03-05        2
2021-03-17        1
Name: date_campaign_start, dtype: int64

Рекламную кампанию запустили 2020-12-16, далее она откручивалась 2 дня до 2021-02-18 и случайно показалась еще позже. 
Я хочу выяснить насколько быстро клиентские менеджеры обрабатывали заявки.  
Закончилась она официально **2021-03-31**, но открутили все значительно раньше.

Столбец с окончанием можно удалить, так как и так колонок много.

In [29]:
df = df.drop(['date_campaign_end'], axis = 1)

df[:5]

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1,2020-12-16,2021-03-24,Перезвонить,2021-03-24,0,1,0,1,1,NaT,NaT,NaT,NaT,NaT,0,0
1,2,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
2,3,2020-12-16,2021-02-01,Перезвонить,2021-02-01,0,1,0,1,3,NaT,NaT,NaT,NaT,NaT,0,0
3,4,2020-12-16,2020-12-23,Перезвонить,2020-12-23,0,1,0,2,4,NaT,NaT,NaT,NaT,NaT,0,0
4,5,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0


In [30]:
#Клиенты

Мы заметили, что некоторые client_id повторяются в датасете, что довольно странно, значит у нас либо повторы в данных, либо менеджеры
вносили разные статусы по одним и тем же клиентам отдельно. Надо обратить внимание на этот момент.

In [31]:
df['client_id'].value_counts()[:20]

231000000000    7
254000000000    6
772000000000    6
280000000000    6
773000000000    4
650000000000    3
382000000000    3
246000000000    3
541000000000    3
366000000000    3
410000000000    2
504000000000    2
263000000000    2
774000000000    2
250000000000    2
632000000000    2
551000000000    2
561000000000    2
616000000000    2
617000000000    2
Name: client_id, dtype: int64

In [32]:
repeated_clients_id = [
231000000000, 254000000000, 772000000000, 280000000000, 773000000000, 650000000000, 382000000000, 246000000000,
541000000000, 366000000000, 410000000000, 504000000000, 263000000000, 774000000000, 250000000000, 632000000000,
551000000000, 561000000000, 616000000000, 617000000000]

In [33]:
df_repeated_clients = df.loc[df['client_id'].isin(repeated_clients_id)] 
    
df_repeated_clients   \
        .sort_values(['client_id', 'date_click_change', 'date_offer_processing'])

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
11615,231000000000,2020-12-16,2020-12-16,контрольная группа,2021-04-01,0,0,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
10317,231000000000,2020-12-16,2020-12-17,Недозвон,2020-12-17,0,1,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
3921,231000000000,2020-12-16,2020-12-22,Недозвон,2020-12-22,0,1,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
10151,231000000000,2020-12-16,2020-12-22,Недозвон,2020-12-22,0,1,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
1630,231000000000,2020-12-16,2020-12-30,Перезвонить,2020-12-30,0,1,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5282,773000000000,2020-12-16,2021-02-10,Отказ клиента,2021-02-10,0,1,1,2,4,NaT,NaT,NaT,NaT,NaT,0,0
8151,773000000000,2020-12-16,2021-03-26,Отказ клиента,2021-03-26,0,1,1,2,42,NaT,NaT,NaT,NaT,NaT,0,0
11360,773000000000,2020-12-16,2021-03-26,Отказ клиента,2021-03-26,0,1,1,2,42,NaT,NaT,NaT,NaT,NaT,0,0
5618,774000000000,2020-12-16,2021-01-13,Договоренность на контакт,2021-03-30,0,1,1,2,26,NaT,NaT,NaT,NaT,NaT,0,0


По этим 20 клиентам менеджеры отдела продаж, кажется, начинали работу заново, так как если я правильно понимаю, то @date_offer_processing@ должна быть первой датой начала связи менеджера отдела продаж с клиентом, а @date_click_change@ уже меняться в зависимости от дальнейших действий с клиентом(статус: недозвон => перезвон => и тд).

Также для клиента с id 246000000000 занесены идентичные данные.

Я думаю, стоит оставить данные по повторяющимся клиентам по самой последней дате, так как это отразит какой конечный статус по клиенту.

In [34]:
df_repeated_max = df_repeated_clients.sort_values(['date_offer_processing']) \
    .groupby('client_id').last().reset_index()

df_repeated_max[:20]

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,231000000000,2020-12-16,2020-12-16,контрольная группа,2021-04-01,0,0,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
1,246000000000,2020-12-16,2021-03-23,Отказ клиента,2021-03-23,0,1,1,3,25,NaT,NaT,NaT,NaT,NaT,0,0
2,250000000000,2020-12-16,2021-01-22,Договоренность на контакт,2021-01-22,0,1,1,3,8,NaT,NaT,NaT,NaT,NaT,0,0
3,254000000000,2020-12-16,2021-02-15,контрольная группа,2021-04-01,0,0,0,3,8,NaT,NaT,NaT,NaT,NaT,0,0
4,263000000000,2020-12-16,2020-12-16,контрольная группа,2021-04-01,0,0,0,3,23,NaT,NaT,NaT,NaT,NaT,0,0
5,280000000000,2020-12-16,2021-01-15,Отказ клиента,2021-01-15,0,1,1,3,66,NaT,NaT,NaT,NaT,NaT,0,0
6,366000000000,2020-12-16,2021-02-16,Отказ клиента,2021-02-16,0,1,1,3,31,NaT,NaT,NaT,NaT,NaT,0,0
7,382000000000,2020-12-16,2021-03-11,Согласие,2021-03-11,1,1,1,3,49,NaT,NaT,NaT,NaT,NaT,0,0
8,410000000000,2020-12-16,2020-12-22,Отказ клиента,2020-12-22,0,1,1,3,75,NaT,NaT,NaT,NaT,NaT,0,0
9,504000000000,2020-12-16,2021-03-26,Отказ клиента,2021-03-26,0,1,1,2,42,NaT,NaT,NaT,NaT,NaT,0,0


Из данных выше мы видим, что клиенты под индексом 17 и 19 открыли банковский продукт после рекламного сообщения.

Теперь вычтем значения клиентов с повторным статусом и добавим повторных клиентов с последним статусом, который мы вывели выше.

In [35]:
df = df[~df.client_id.isin(df_repeated_clients.client_id)]

df

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1,2020-12-16,2021-03-24,Перезвонить,2021-03-24,0,1,0,1,1,NaT,NaT,NaT,NaT,NaT,0,0
1,2,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
2,3,2020-12-16,2021-02-01,Перезвонить,2021-02-01,0,1,0,1,3,NaT,NaT,NaT,NaT,NaT,0,0
3,4,2020-12-16,2020-12-23,Перезвонить,2020-12-23,0,1,0,2,4,NaT,NaT,NaT,NaT,NaT,0,0
4,5,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12024,7453188219,2020-12-16,2021-02-16,Согласие,2021-02-16,1,1,1,3,41,NaT,NaT,NaT,NaT,NaT,0,0
12025,7722363447,2020-12-16,2020-12-28,Согласие,2020-12-28,1,1,1,2,34,NaT,NaT,NaT,NaT,NaT,0,0
12026,7729630437,2020-12-16,2021-03-23,Согласие,2021-03-23,1,1,1,2,29,NaT,NaT,NaT,NaT,NaT,0,0
12027,7706809212,2020-12-16,2021-02-15,Согласие,2021-02-15,1,1,1,2,12,NaT,NaT,NaT,NaT,NaT,0,0


In [36]:
df['client_id'].value_counts()[:5]

7816151039    1
9715307861    1
7709807968    1
3321035353    1
7716191052    1
Name: client_id, dtype: int64

In [37]:
df = pd.concat([df, df_repeated_max], axis=0)

df

Unnamed: 0,client_id,date_campaign_start,date_click_change,response_status,date_offer_processing,flag_client_status,fact_offer_processing,fact_communication_success,regional_group_code,regional_subcode,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date,campaign_response_flag,activation_flag
0,1,2020-12-16,2021-03-24,Перезвонить,2021-03-24,0,1,0,1,1,NaT,NaT,NaT,NaT,NaT,0,0
1,2,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
2,3,2020-12-16,2021-02-01,Перезвонить,2021-02-01,0,1,0,1,3,NaT,NaT,NaT,NaT,NaT,0,0
3,4,2020-12-16,2020-12-23,Перезвонить,2020-12-23,0,1,0,2,4,NaT,NaT,NaT,NaT,NaT,0,0
4,5,2020-12-16,2020-12-17,Перезвонить,2020-12-17,0,1,0,2,2,NaT,NaT,NaT,NaT,NaT,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15,632000000000,2020-12-16,2021-02-26,Согласие,2021-02-26,1,1,1,3,56,NaT,NaT,NaT,NaT,NaT,0,0
16,650000000000,2020-12-16,2021-03-26,Отказ клиента,2021-03-26,0,1,1,3,16,NaT,NaT,NaT,NaT,NaT,0,0
17,772000000000,2021-02-18,2021-02-25,Согласие,2021-02-25,1,1,1,2,42,2021-02-15,NaT,NaT,NaT,NaT,0,0
18,773000000000,2020-12-16,2021-03-26,Отказ клиента,2021-03-26,0,1,1,2,42,NaT,NaT,NaT,NaT,NaT,0,0


Все, теперь мы видим статусы по каждому клиенту, а также по тем, кто не отобразился в id, но по которым есть статусы. Посмотрим еще раз на данные.

## Выводы

In [38]:
df['response_status'].value_counts()

Отказ клиента                5664
Согласие                     1449
Перезвонить                  1330
Договоренность на контакт    1025
Недозвон                      987
контрольная группа            630
Отказ банка                   333
Договоренность на сделку      287
Заявка неактуальна            280
Name: response_status, dtype: int64

Не уверена, что правильно понимаю что подразумевается под контрольной группой в данном контексте, но предполагаю, что это – это группа клиентов, которые попали в рекламную кампанию на равных условиях с основной группой (с тем же рекламным сообщением) с разницей в том, что на контрольную группу не оказывают экспериментальное воздействие.

То есть, клиенты, которым сотрудники отдела продаж не звонили. Проверю это позже. Переменную назову @control_group@

Если далее продолжить оценивать статусы от команды продаж, то успехом будут следующее:

-- **Согласие** - значит клиент согласен открыть какой-либо из рекламируемых продуктов.  
-- **Договоренность на сделку** - статус напоминает первый, без контекста не могу увидеть разницу.  
-- **Отказ банка** - я думаю, этот статус можно добавить, так как клиент попал под таргетинг ЦА, был согласен на новый продукт, но не смог его получить по какой-то причине, о которой не мог знать ни маркетолог ни сотрудник отдела продаж.

Также я считаю, что не хватает статуса "Открыл банковский продукт".

In [39]:
# согласие
agreed = df[(df['response_status'] == 'Согласие')]['client_id'].shape[0]

agreed

1449

In [40]:
# договоренность на сделку
future_deal = df[(df['response_status'] == 'Договоренность на сделку')]['client_id'].shape[0]

future_deal

287

In [41]:
# Отказ банка
bank_refusal = df[(df['response_status'] == 'Отказ банка')]['client_id'].shape[0]

bank_refusal

333

In [42]:
df[(df['response_status'] == 'контрольная группа') & (df['fact_communication_success'] == '0')] \
    [['client_id', 'response_status', 'fact_communication_success']]

Unnamed: 0,client_id,response_status,fact_communication_success
685,5752019857,контрольная группа,0
878,7814757498,контрольная группа,0
879,5259107790,контрольная группа,0
880,3906268122,контрольная группа,0
881,3908000145,контрольная группа,0
...,...,...,...
11632,6672355245,контрольная группа,0
0,231000000000,контрольная группа,0
3,254000000000,контрольная группа,0
4,263000000000,контрольная группа,0


Мое предположение оказалось верно - с контрольной группой менеджеры не связывались, видимо, эти участники должны самостоятельно в мобильном приложении или каким-то другим образом оформить интересующий продукт.

### Конверсии 

In [43]:
all_clients = df.shape[0]

all_clients

11985

In [44]:
response_status = df['response_status'].shape[0]

response_status

11985

In [45]:
part_clients = all_clients - df[(df['response_status'] == 'контрольная группа')]['client_id'].shape[0]

part_clients

11355

In [46]:
control_group = df[(df['response_status'] == 'контрольная группа')]['client_id'].shape[0]

control_group

630

In [47]:
print(f'Всего у нас {all_clients} cтрок в датасете и такое же количество {response_status} проставленных статусов по клиентам, можем просчитать конверсию в целевое действие.')

Всего у нас 11985 cтрок в датасете и такое же количество 11985 проставленных статусов по клиентам, можем просчитать конверсию в целевое действие.


Теперь я хочу посмотреть на **фактический успех рекламной кампании**.

In [48]:
df[['first_product_opening_date', 'second_product_opening_date', 'third_product_opening_date',
    'fourth_product_opening_date', 'first_operation_date']].describe()

Unnamed: 0,first_product_opening_date,second_product_opening_date,third_product_opening_date,fourth_product_opening_date,first_operation_date
count,203,52,5,15,181
unique,67,35,5,12,50
top,2021-03-11 00:00:00,2021-03-16 00:00:00,2021-01-19 00:00:00,2020-12-02 00:00:00,2020-12-16 00:00:00
freq,8,4,1,4,18
first,2020-12-16 00:00:00,2020-12-16 00:00:00,2020-12-22 00:00:00,2020-12-01 00:00:00,2020-12-16 00:00:00
last,2021-03-31 00:00:00,2021-03-31 00:00:00,2021-02-05 00:00:00,2021-03-18 00:00:00,2021-12-02 00:00:00


In [49]:
ordered_clients = df[pd.notnull(df['first_product_opening_date'])]['client_id'].shape[0]

ordered_clients

203

In [50]:
control_group_order = df[pd.notnull(df['first_product_opening_date']) & (df['response_status'] == 'контрольная группа')] \
        ['client_id'].shape[0]

control_group_order

7

#### CR_to_offer

In [51]:
cr_offer = round((agreed + future_deal + bank_refusal) / all_clients, 2)

cr_offer

0.17

#### CR to order

In [52]:
# общая конверсия
total_сonversion_to_order = round((ordered_clients / all_clients) * 100, 2)

total_сonversion_to_order 

1.69

In [53]:
# конверсия без контрольной группы
part_convertion_to_order = round(((ordered_clients - control_group_order) / part_clients) * 100, 2)

part_convertion_to_order

1.73

In [54]:
# конверсия в заказ у контрольной группы
сonversion_to_order_control = round((control_group_order / control_group) * 100, 2)

сonversion_to_order_control

1.11

В целом, конверсии больше 1 процента и это неплохо, но чтобы сказать более уверенно, прошла ли кампания успешна, нужно сравнивать показатели CAC, LTV, ROI, а также знать целевое значение CR, к которому мы стремимся. Для этого нам нужно владеть информацией о тарифах услуги или продукта.

Я рассмотрела наиболее открываемый первый продукт в разрезе всей аудитории и контрольной группы.

Так же, следующим шагом можно было выделить количество клиентов, которые открыли минимум 1 продукт из всех 4х и посчитать конверсию ко всем пользователям.

### География

In [55]:
df['regional_group_code'].value_counts()

2    5483
3    4727
1    1550
4     207
Name: regional_group_code, dtype: int64

Также, если я правильно разобралась, то рекламная кампания была нацелена на регионы и больше всего откликов получили с Новосибирской и Ленинградской области.