# Приложение "Ненужные вещи"

# Задача

1. Проанализируйте связь целевого события — просмотра контактов — и других действий пользователей.

2. Оцените, какие действия чаще совершают те пользователи, которые просматривают контакты (contacts_show и show_contacts).

- Проведите исследовательский анализ данных
- Проанализируйте влияние событий на совершение целевого события
- Проверьте статистические гипотезы
    1. Одни пользователи совершают действия `tips_show` и `tips_click`, другие — только `tips_show`. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.
    2. Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.
    
    
# Описание данных:

Датасет содержит данные о событиях, совершенных в мобильном приложении "Ненужные вещи". В нем пользователи продают свои ненужные вещи, размещая их на доске объявлений.

В датасете содержатся данные пользователей, впервые совершивших действия в приложении после 7 октября 2019 года.

Колонки в mobile_sources.csv: 

- `userId` — идентификатор пользователя,

- `source` — источник, с которого пользователь установил приложение.

Колонки в mobile_dataset.csv: 

- `event.time` — время совершения,

- `user.id` — идентификатор пользователя,

- `event.name` — действие пользователя.

Виды действий:

- `advert_open` — открыл карточки объявления,

- `photos_show` — просмотрел фотографий в объявлении,

- `tips_show` — увидел рекомендованные объявления,

- `tips_click` — кликнул по рекомендованному объявлению,

- `contacts_show` и `show_contacts` — посмотрел номер телефона,

- `contacts_call` — позвонил по номеру из объявления,

- `map` — открыл карту объявлений,

- `search_1`—`search_7` — разные действия, связанные с поиском по сайту,

- `favorites_add` — добавил объявление в избранное.


# План работы


 <b>Шаг 1. Загрузить данные и изучить общую информацию</b>

Загрузите данные о сервисе «Ненужные вещи».

df_source - 'https://code.s3.yandex.net/datasets/mobile_sources.csv' - датасет, который хранит данные об источниках, с которых пользователь установил приложение.

df - 'https://code.s3.yandex.net/datasets/mobile_dataset.csv' - датасет, который содержит данные о действиях пользователей в приложении. 

Изучить общую информацию о датасетах. 

Общее кол-во данных в датасетах, кол-во дубликатов, пропущенных данных, посмотреть типы данных.


 <b>Шаг 2.  Выполнить предобработку данных</b>

При необходимости удалить дубликаты, заполнить пропуски, поменять типы данных.  

Привести названия всех столбцов к одному виду, для удобства.

Добавить столбец в df с датами действий. 

 <b>Шаг 3. Анализ данных</b>

1. Посмотреть начальные и конечные даты ДФ. Построить гистограмму зависимости кол-ва действий от времени. Есть ли какая-то периодичность изменения данных и что на это влияет.


2. Посмотреть виды действий и заменить `contacts_show` на `show_contacts`, т.к. это одно и то же. 


3. Посмотреть общее кол-во пользователей и кол-во уникальных пользователей. Посмотреть как распределяются пользователи по видам действий, построить гистограммы для: общего кол-ва, для уникальных и процентное соотношение уникальных к общим. Сравнить их между собой. 


4. Заменить все search_1-7 на просто search, так как на эти действия приходятся наименьшее кол-во пользователей, а значит они не так сильно влияют на весь дф. А с учетом того, что это по сути одно действие - "поиск по сайту", то логичнее было бы их объединить.


5. Сделать все аналогичное пункту 3.3, только с учетом объединенных search_1-7 и сравнить.


6. Выяснить, из каких источников пользователи приходят в приложение и посмотреть, как распределены источники по видам действий в приложении, мб есть какие-то аномалии (например, что посльзователи из какого-то источника выполняют только одно действие). Построить визуализацию.


7. Посмотреть как распределены виды действий по времени, мб есть аномалии. Построить график зависимостей частот действий от времени.

  
8. Так как нам надо проверить связь целевого события (проверка контактов) от остальных действий, то нужно сделать срез по дф для действия `show_contacts`, получить уникальные user_id и по ним сделать срез по всему дф. И посмотреть как распределены остальные действия для этих юзеров. Построить гистограммы для общего кол-ва, для уникальных и для процентного соотношения уникальных к общим. 


9. Построить график зависимостей ДФ для целевого действия из пункта 3.8 от времени. 


10. Разбить время пользователей на сессии (либо на 20-30 минут, либо на суточное разбиение). На основе веделенных сессий, посмотреть сценарии взаимодействия с приложением, выделить несколько основных. 

10.1. Проверить, сколько длится сессия у тех, кто совершал целевое событие и тех, кто не совершал


11. Построить визуализацию, мб воронку, для нескольких сценариев. Сравнить их между собой и выделить наиболее приоритетные, с наибольшей долей уникалыных пользователей, которые доходят до целевого действия.


12. Посмотреть на каком шаге сценариев больше всего отпадают пользователи. В процентом соотношении + в абсолют. величинах. 


13. Посмотреть среднее кол-во действий, которое приходится на одного пользователя. Посчитать выбросы (95, 99 - процентили). Очистить данные.

<b>Шаг 4. Изучить результаты эксперимента</b>


 
1. Одни пользователи совершают действия tips_show и tips_click, другие — только tips_show. Проверьте гипотезу: конверсия для просмотров контактов различается у этих двух групп.
(проверить данные с выбросами и "очищенные")


2. Взять два (или несколько) сценария из пункта 3.9 и проверить гипотезу: конверсия для целевого действия (либо "просмотр контактов", либо какое-то конечное действие, к которому приходят сценарии, либо, по возможности, рассмотреть сценарии с одним-двумя одинаковыми дейтсвиями в составе) различается у этих двух групп.

<b>Шаг 5. Написать общий вывод</b> 

# Шаг 1. Загрузить данные и изучить общую информацию

Загрузите данные о сервисе «Ненужные вещи».

df_source - 'https://code.s3.yandex.net/datasets/mobile_sources.csv' - датасет, который хранит данные об источниках, с которых пользователь установил приложение.

df - 'https://code.s3.yandex.net/datasets/mobile_dataset.csv' - датасет, который содержит данные о действиях пользователей в приложении. 

Изучить общую информацию о датасетах. 

Общее кол-во данных в датасетах, кол-во дубликатов, пропущенных данных, посмотреть типы данных.

In [13]:
import pandas as pd
from scipy import stats as st
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime, date
import plotly
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio
pio.renderers.default='notebook'
import math as mth
import warnings
warnings.filterwarnings('ignore')

In [14]:
df_sources = pd.read_csv('https://code.s3.yandex.net/datasets/mobile_sources.csv')
df = pd.read_csv('https://code.s3.yandex.net/datasets/mobile_dataset.csv')

In [15]:
def data_fr(df):
    display(df.head(10))
    print(2 * "\n")
    display(df.info())
    print(2 * "\n")
    display(df.describe().T)
    print(2 * "\n")
    print('Кол-во нулей:')
    display(df.isnull().sum())
    print(2 * "\n")
    print(f'Кол-во дубликатов: {df.duplicated().sum()}')

In [16]:
data_fr(df_sources)

Unnamed: 0,userId,source
0,020292ab-89bc-4156-9acf-68bc2783f894,other
1,cf7eda61-9349-469f-ac27-e5b6f5ec475c,yandex
2,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,yandex
3,d9b06b47-0f36-419b-bbb0-3533e582a6cb,other
4,f32e1e2a-3027-4693-b793-b7b3ff274439,google
5,17f6b2db-2964-4d11-89d8-7e38d2cb4750,yandex
6,62aa104f-592d-4ccb-8226-2ba0e719ded5,yandex
7,57321726-5d66-4d51-84f4-c797c35dcf2b,google
8,c2cf55c0-95f7-4269-896c-931d14deaab5,google
9,48e614d6-fe03-40f7-bf9e-4c4f61c19f64,yandex





<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4293 entries, 0 to 4292
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userId  4293 non-null   object
 1   source  4293 non-null   object
dtypes: object(2)
memory usage: 67.2+ KB


None






Unnamed: 0,count,unique,top,freq
userId,4293,4293,842cd1d5-ef1d-4398-a1d6-93b1890676fc,1
source,4293,3,yandex,1934





Кол-во нулей:


userId    0
source    0
dtype: int64




Кол-во дубликатов: 0


In [17]:
data_fr(df)

Unnamed: 0,event.time,event.name,user.id
0,2019-10-07 00:00:00.431357,advert_open,020292ab-89bc-4156-9acf-68bc2783f894
1,2019-10-07 00:00:01.236320,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
2,2019-10-07 00:00:02.245341,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c
3,2019-10-07 00:00:07.039334,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
4,2019-10-07 00:00:56.319813,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c
5,2019-10-07 00:01:19.993624,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c
6,2019-10-07 00:01:27.770232,advert_open,020292ab-89bc-4156-9acf-68bc2783f894
7,2019-10-07 00:01:34.804591,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
8,2019-10-07 00:01:49.732803,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c
9,2019-10-07 00:01:54.958298,advert_open,020292ab-89bc-4156-9acf-68bc2783f894





<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74197 entries, 0 to 74196
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   event.time  74197 non-null  object
 1   event.name  74197 non-null  object
 2   user.id     74197 non-null  object
dtypes: object(3)
memory usage: 1.7+ MB


None






Unnamed: 0,count,unique,top,freq
event.time,74197,74197,2019-10-09 09:04:54.930611,1
event.name,74197,16,tips_show,40055
user.id,74197,4293,cb36854f-570a-41f4-baa8-36680b396370,478





Кол-во нулей:


event.time    0
event.name    0
user.id       0
dtype: int64




Кол-во дубликатов: 0


В ДФ дубликатов не обнаружено, пропущенных данных тоже нет. 

Надо поменять тип данных в колонке с датой и временем, создать новую колонку для даты, для удобства.

Также для удобства далее переименую некоторые колонки датафреймов.

# Шаг 2.  Выполнить предобработку данных

При необходимости удалить дубликаты, заполнить пропуски, поменять типы данных.  

Привести названия всех столбцов к одному виду, для удобства.

Добавить столбец в df с датами действий. 

In [18]:
df_sources = df_sources.rename(columns={'userId':'user_id'})
df_sources.head()

Unnamed: 0,user_id,source
0,020292ab-89bc-4156-9acf-68bc2783f894,other
1,cf7eda61-9349-469f-ac27-e5b6f5ec475c,yandex
2,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,yandex
3,d9b06b47-0f36-419b-bbb0-3533e582a6cb,other
4,f32e1e2a-3027-4693-b793-b7b3ff274439,google


In [19]:
df.columns = [x.replace('.', '_') for x in df.columns]
df.head()

Unnamed: 0,event_time,event_name,user_id
0,2019-10-07 00:00:00.431357,advert_open,020292ab-89bc-4156-9acf-68bc2783f894
1,2019-10-07 00:00:01.236320,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
2,2019-10-07 00:00:02.245341,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c
3,2019-10-07 00:00:07.039334,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
4,2019-10-07 00:00:56.319813,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c


Посмотрю скрытые дубли по времени и айди

In [20]:
df[['event_time', 'user_id']].duplicated().sum()

0

In [21]:
df.event_time = pd.to_datetime(df['event_time']).round('1s')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74197 entries, 0 to 74196
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   event_time  74197 non-null  datetime64[ns]
 1   event_name  74197 non-null  object        
 2   user_id     74197 non-null  object        
dtypes: datetime64[ns](1), object(2)
memory usage: 1.7+ MB


Сделаю отдельную колонку для даты

In [22]:
df['event_date'] = pd.to_datetime(df['event_time']).dt.date.astype('datetime64[ns]')
df.head()

Unnamed: 0,event_time,event_name,user_id,event_date
0,2019-10-07 00:00:00,advert_open,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07
1,2019-10-07 00:00:01,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07
2,2019-10-07 00:00:02,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07
3,2019-10-07 00:00:07,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07
4,2019-10-07 00:00:56,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07


# Шаг 3. Анализ данных

## 1. Посмотреть начальные и конечные даты ДФ. Построить гистограмму зависимости кол-ва действий от времени. Есть ли какая-то периодичность изменения данных и что на это влияет.

In [23]:
print('Дата начала ДФ:', df.event_time.min())
print('Дата конца ДФ:',df.event_time.max())

Дата начала ДФ: 2019-10-07 00:00:00
Дата конца ДФ: 2019-11-03 23:58:13


In [None]:
fig = px.histogram(df,
                   x='event_time',
                   nbins=500,
                   title='Events per day')
fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Day, time')
fig.show()

![](\newplot.png)

Прослеживается четкая зависимость от времени суток - в ночное время активность снижается, в дневное возрастает. Судя по этому графику, сложно сказать, есть ли зависимость от дней недели, так как на первый взгляд, пиковые значения приходятся на рандомные даты.

Далее добавлю столбец для дней недели и построю гистограмму и посмотрю на какие дни приходятся максимальные и минимальные значения.

In [24]:
df['weekday'] = pd.to_datetime(df['event_time']).dt.weekday
df.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday
0,2019-10-07 00:00:00,advert_open,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
1,2019-10-07 00:00:01,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
2,2019-10-07 00:00:02,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07,0
3,2019-10-07 00:00:07,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
4,2019-10-07 00:00:56,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07,0


In [None]:
fig = px.histogram(df,
                   x='weekday',
                   nbins=7,
                   title='Events per weekday')
fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Weekday')
fig.show()

![](\newplot2.png)

Все более-менее ровно. Максимум приходится на понедельник (11,6к), потом в течении недели активность плавно снижается, но не критично и минимум достигается в субботу(9,1к). В воскресенье активность средняя, на уровне середины недели (10,5к). 

## 2. Посмотреть виды действий и заменить `contacts_show` на `show_contacts`, т.к. это одно и то же.

In [25]:
print('Виды действий пользователей в приложении:', df.event_name.unique())

Виды действий пользователей в приложении: ['advert_open' 'tips_show' 'map' 'contacts_show' 'search_4' 'search_5'
 'tips_click' 'photos_show' 'search_1' 'search_2' 'search_3'
 'favorites_add' 'contacts_call' 'search_6' 'search_7' 'show_contacts']


Виды действий:

- `advert_open` — открыл карточки объявления,
- `photos_show` — просмотрел фотографий в объявлении,
- `tips_show` — увидел рекомендованные объявления,
- `tips_click` — кликнул по рекомендованному объявлению,
- `contacts_show` и `show_contacts` — посмотрел номер телефона,
- `contacts_call` — позвонил по номеру из объявления,
- `map` — открыл карту объявлений,
- `search_1`—`search_7` — разные действия, связанные с поиском по сайту,
- `favorites_add` — добавил объявление в избранное.

Так как `contacts_show` и `show_contacts` - это одно и то же действие, то заменю `contacts_show` на `show_contacts`, чтобы не плодить ненужных альтернатив.

In [26]:
df['event_name'] = df['event_name'].replace('contacts_show','show_contacts')

## 3. Посмотреть общее кол-во пользователей и кол-во уникальных пользователей. Посмотреть как распределяются пользователи по видам действий, построить гистограммы для: общего кол-ва, для уникальных и процентное соотношение уникальных к общим. Сравнить их между собой. 

In [27]:
unique_users = len(df.user_id.unique())
print('Общее кол-во пользователей:', len(df.user_id)) 
print('Кол-во уникальных пользователей:', unique_users)


Общее кол-во пользователей: 74197
Кол-во уникальных пользователей: 4293


In [28]:
event_name = ( df.groupby('event_name')['user_id'].
                 agg( ['count', 'nunique']).
                 sort_values(by='count', ascending=False) )

event_name['perc'] =  round(event_name['nunique'] *100 / event_name['count'], 1)               
event_name.head()



Unnamed: 0_level_0,count,nunique,perc
event_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tips_show,40055,2801,7.0
photos_show,10012,1095,10.9
advert_open,6164,751,12.2
show_contacts,4529,981,21.7
map,3881,1456,37.5


In [None]:
fig = make_subplots(rows=1, cols=3, 
                    subplot_titles=('Count for all',
                                    'Count for unique ID',
                                    'Percent unique ID from all'
                                   ))

trace0 = go.Bar(name='Count',
                x=event_name.index,
                y=event_name['count']
                )

trace1 = go.Bar(name='Unique count',
                x=event_name.index,
                y=event_name['nunique']
                )

trace2 = go.Bar(name='Percent unique ID from all',
                x=event_name.index,
                y=event_name['perc']
                )               

fig.append_trace(trace0, 1, 1)
fig.append_trace(trace1, 1, 2)
fig.append_trace(trace2, 1, 3)

fig.update_layout(title='Events',
                  margin=dict(l=0, r=0, t=70, b=0),
                 width = 1200,
                 height = 400,
                 bargap=0.05)
                 #plot_bgcolor='#444')

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Event name')
fig['layout']['xaxis2'].update(title_text='Event name')
fig['layout']['xaxis3'].update(title_text='Event name')
fig['layout']['yaxis3'].update(title_text='Percent, %')

fig.show()

![](\newplot3.png)

Чаще всего пользователи совершают следующие действия: 

- увидел рекомендованное объявление (40к)
- просмотр фото (10к)
- открыл карточку объявления (6,1к)
- просмотр контактов (4,5-к)
- открыл карту объявление (3,8к)
- search_1 поиск по сайту (3,5к)

Реже всего выполняются альтернативные поиски по сайту, звонки по номеру из объявления, переход к рекомендованному объявлению и добавление в избранное.

Однако, если посмотреть процентное соотношение кол-ва уникальных пользователей к частоте совершения этого действия, то видно, что выше всего процент у search_2-7 (от 40 до 74%), что может указывать на то, что данные поиски по сайту не особо удобны (если вообще возможны) для простого скроллинга. Либо просто неудобны для пользователей и поэтому попробовав единожды, они больше к ним не возвращались.

Так же довольно большой процент уникальных пользователей у просмотра карты (что скорее всего связано с поиском ближайших объявлений и сортировкой по дальности).

А наименьший процент уникальных пользвателей (7%) у действия "просмотр рекомендованного объявления", что объясняется огромной частотой выполнения действия (40к) и не особо большим кол-вом уникальных пользователей (2800). Скорее всего это действие автоматическое, как, например, "просмотр главной страницы", "обязательная реклама для бесплатных приложений" и т.д.



In [None]:
fig = px.bar(event_name,
             x=event_name.index,
             y=event_name['nunique'] *100 / unique_users,
             title='% of unique users / events name',
             text=round(event_name['nunique'] *100 / unique_users))

fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Events')
fig.update_yaxes(title_text='%')
fig.show()

![](\newplot4.png)

Если сравнить проценты уникальных пользователей, которые приходится на каждое действие, к уникальным пользователям всего ДФ, то на search_2, search_3, search_6 и search_7 приходится менее 4-6%, на search_4 - 11%, а больше всего у search_1 (18%) и search_5 (15%). 

Около 65% уникальных пользователей из всего дф просматривают рекомендованные объявления, а 34% смотрят карту. Проценты для остальных действий находятся в пределах 8-26%. 

## 4. Заменить все search_1-7 на просто search.
## 5. Сделать все аналогичное пункту 3.3, только с учетом объединенных search_1-7 и сравнить.

Так как на эти действия приходится наименьшее кол-во пользователей, а значит они не так сильно влияют на весь дф. А с учетом того, что это по сути одно действие - "поиск по сайту", то логичнее было бы их объединить.

In [29]:
for i in range(1, 8):
    df['event_name'] = df['event_name'].replace(f'search_{i}','search')

In [30]:
event_name = ( df.groupby('event_name')['user_id'].
                 agg( ['count', 'nunique']).
                 sort_values(by='count', ascending=False) )

event_name['perc'] =  round(event_name['nunique'] *100 / event_name['count'], 1)               
event_name.head(10)

Unnamed: 0_level_0,count,nunique,perc
event_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tips_show,40055,2801,7.0
photos_show,10012,1095,10.9
search,6784,1666,24.6
advert_open,6164,751,12.2
show_contacts,4529,981,21.7
map,3881,1456,37.5
favorites_add,1417,351,24.8
tips_click,814,322,39.6
contacts_call,541,213,39.4


In [None]:
fig = make_subplots(rows=1, cols=3, 
                    subplot_titles=('Count for all',
                                    'Count for unique ID',
                                    'Percent unique ID from all'
                                   ))

trace0 = go.Bar(name='Count',
                x=event_name.index,
                y=event_name['count']
                )

trace1 = go.Bar(name='Unique count',
                x=event_name.index,
                y=event_name['nunique']
                )

trace2 = go.Bar(name='Percent unique ID from all',
                x=event_name.index,
                y=event_name['perc']
                )               

fig.append_trace(trace0, 1, 1)
fig.append_trace(trace1, 1, 2)
fig.append_trace(trace2, 1, 3)

fig.update_layout(title='Events',
                  margin=dict(l=0, r=0, t=70, b=0),
                 width = 1200,
                 height = 400,
                 bargap=0.05)
                 #plot_bgcolor='#444')

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Event name')
fig['layout']['xaxis2'].update(title_text='Event name')
fig['layout']['xaxis3'].update(title_text='Event name')
fig['layout']['yaxis3'].update(title_text='Percent, %')

fig.show()

![](\newplot5.png)

С учетом объединения поисков по сайту, суммарно на это действие стало приходиться около 6784 раз выполнений, сумма уникальных пользователей стала 1666, а процент усреднился и стал - 24,6%.

In [None]:
fig = px.bar(event_name,
             x=event_name.index,
             y=event_name['nunique'] *100 / unique_users,
             title='% of unique users / events name',
             text=round(event_name['nunique'] *100 / unique_users))

fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Events')
fig.update_yaxes(title_text='%')
fig.show()

![](\newplot6.png)

После объединения всех search, на это действие стало приходиться 39% от всех уникальных пользователей дф.

## 6. Выяснить, из каких источников пользователи приходят в приложение и посмотреть, как распределены источники по видам действий в приложении, мб есть какие-то аномалии (например, что посльзователи из какого-то источника выполняют только одно действие). Построить визуализацию.

In [31]:
print('Кол-во уникальных пользователей в df_sources (с данными об источниках):', len(df_sources.user_id.unique()))
print('Кол-во уникальных пользователей в df (с данными о действиях):', unique_users)

Кол-во уникальных пользователей в df_sources (с данными об источниках): 4293
Кол-во уникальных пользователей в df (с данными о действиях): 4293


Ну так как кол-во уникальных пользователей в обоих дф совпадает, то можно предположить, что данные а) не пропущены б) каждом айди из df соответствует айди из df_sources. Поэтому объединю эти две таблицы и как распределяются источники установки по выполненным действиям и нет ли там где атаки ботов или наоборот игнора какой-то функции. 

In [32]:
df_sources.groupby('source')['user_id'].agg(['count']).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count
source,Unnamed: 1_level_1
yandex,1934
other,1230
google,1129


Больше всего пользователей пришло из яндекса (1934), потом из сторонних источников (1230), а на третьем месте гугл (1129).

In [33]:
df_sources_all = df[['user_id','event_name','event_date']].merge(df_sources, how='outer')

df_sources_events = df_sources_all.groupby(['event_name', 'source'], as_index=False)['user_id'].count().sort_values(by='user_id', ascending=False)
df_sources_events.head()

Unnamed: 0,event_name,source,user_id
26,tips_show,yandex,19952
25,tips_show,other,10125
24,tips_show,google,9978
14,photos_show,yandex,3684
12,photos_show,google,3466


In [None]:
fig = px.bar(df_sources_events,
             x='event_name',
             y='user_id', 
             color='source',
             title='Sources count / events')

fig.update_yaxes(title_text='Count')
fig.update_xaxes(title_text='Events')
fig.update_layout(
                   margin=dict(l=0, r=0, t=50, b=0),
                   width = 900,
                   height = 500)
fig.show()

![](\newplot7.png)

Однозначно можно сказать, что в данном вопросе аномалий нет. Все источники пользователей распределены равномерно по действиям, нет аномалий по слишком большому или слишком малому соотношени. В целом доли распределены так же, как и общее число пользователей с источников. 

In [None]:
df_2 = df_sources_all.groupby(['event_date', 'source'], as_index=False)['user_id'].count()

fig = go.Figure()

for i in df_sources_all.source.unique():
    fig.add_trace(go.Scatter(x = df_2[df_2['source'] == i]['event_date'],
                             y = df_2[df_2['source'] == i]['user_id'],
                             mode = 'lines',
                             name = i))


fig.update_layout(title='Events count for sources',
                   xaxis_title='Day',
                   yaxis_title='Count')

fig.show()

![](\newplot8.png)

Вот так распределены пользователи, пришедшие с определенных источников, то есть сказать, что есть какие-то скачки или провалы невозможно. Только если 2 ноября наблюдаются некоторые падения активности пользователей с яндеска и гугла. Опять же, данная проврка была проведена, чтобы исключить возможность бот-атак или других каких-либо аномалий в ДФ. 

## 7. Посмотреть как распределены виды действий по времени, мб есть аномалии. Построить график зависимостей частот действий от времени.

Посмотрю как распределены дейсвия пользователей по времени:

- первый график для частоты
- второй это зависимость уникальных айди от времени

In [34]:
df_1 = df.groupby(['event_date', 'event_name'], as_index=False).agg({'user_id':['count','nunique']})
df_1.columns

MultiIndex([('event_date',        ''),
            ('event_name',        ''),
            (   'user_id',   'count'),
            (   'user_id', 'nunique')],
           )

In [35]:
df.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday
0,2019-10-07 00:00:00,advert_open,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
1,2019-10-07 00:00:01,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
2,2019-10-07 00:00:02,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07,0
3,2019-10-07 00:00:07,tips_show,020292ab-89bc-4156-9acf-68bc2783f894,2019-10-07,0
4,2019-10-07 00:00:56,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c,2019-10-07,0


In [None]:
fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=('Count for all',
                                    'Count for unique ID'
                                   ))

for i in df.event_name.unique():
    trace0 = go.Scatter(x = df_1[df_1['event_name'] == i]['event_date'],
                             y = df_1[df_1['event_name'] == i]['user_id','count'],
                             mode = 'lines',
                             name = i)
    fig.append_trace(trace0, 1, 1)


    trace1 = go.Scatter(x = df_1[df_1['event_name'] == i]['event_date'],
                             y = df_1[df_1['event_name'] == i]['user_id','nunique'],
                             mode = 'lines',
                             name = i)
    fig.append_trace(trace1, 2, 1)
    


fig.update_layout(title='Counts',
                   margin=dict(l=0, r=0, t=50, b=0),
                   width = 900,
                   height = 700)

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Day')
fig['layout']['xaxis2'].update(title_text='Day')

fig.show()

![](\newplot9.png)

На первом графике видно, что действие - просмотр рекомендованного объявления - чаще всего выполнялось на всех промежутке времени. Так же его выполняло и наибольшее кол-во уникальных пользователей.

Судя по графикам, все действия распределены равномерно и нет никаких скачков, падений. Так же  и нет роста или уменьшения кол-ва пользователей с течением времени почти для всех действий, кроме просмотра фото - на начало дф и первые несколько дней это действие выполняли 36-47 пользователей, на конец ДФ их количество выросло до 70-85. 

## 8. Дф для действия `show_contacts`

Так как нам надо проверить связь целевого события (проверка контактов) от остальных действий, то нужно сделать срез по дф для действия `show_contacts`, получить уникальные user_id и по ним сделать срез по всему дф. И посмотреть как распределены остальные действия для этих юзеров. Построить гистограммы для общего кол-ва, для уникальных и для процентного соотношения уникальных к общим. 

In [36]:
user_id_show_contacts = list(df.query('event_name == "show_contacts"').user_id.unique())

In [37]:
df_contacts_events = df.query('user_id == @user_id_show_contacts')
df_contacts_events.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday
12,2019-10-07 00:02:07,tips_show,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,2019-10-07,0
24,2019-10-07 00:05:16,show_contacts,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,2019-10-07,0
28,2019-10-07 00:06:01,tips_show,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,2019-10-07,0
32,2019-10-07 00:06:56,tips_show,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,2019-10-07,0
35,2019-10-07 00:09:25,tips_show,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,2019-10-07,0


In [38]:
event_name = ( df_contacts_events.groupby('event_name')['user_id'].
                 agg( ['count', 'nunique']).
                 sort_values(by='count', ascending=False) )

event_name['perc'] =  round(event_name['nunique'] *100 / event_name['count'], 1)               
event_name.head(10)

Unnamed: 0_level_0,count,nunique,perc
event_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tips_show,12768,516,4.0
show_contacts,4529,981,21.7
photos_show,3828,339,8.9
search,2084,377,18.1
advert_open,1589,138,8.7
map,1101,289,26.2
contacts_call,541,213,39.4
favorites_add,424,136,32.1
tips_click,333,100,30.0


In [None]:
fig = make_subplots(rows=1, cols=3, 
                    subplot_titles=('Count for all',
                                    'Count for unique ID',
                                    'Percent unique ID from all'
                                   ))

trace0 = go.Bar(name='Count',
                x=event_name.index,
                y=event_name['count']
                )

trace1 = go.Bar(name='Unique count',
                x=event_name.index,
                y=event_name['nunique']
                )

trace2 = go.Bar(name='Percent unique ID from all',
                x=event_name.index,
                y=event_name['perc']
                )               

fig.append_trace(trace0, 1, 1)
fig.append_trace(trace1, 1, 2)
fig.append_trace(trace2, 1, 3)

fig.update_layout(title='Events',
                  margin=dict(l=0, r=0, t=70, b=0),
                 width = 1200,
                 height = 400,
                 bargap=0.05)
                 #plot_bgcolor='#444')

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Event name')
fig['layout']['xaxis2'].update(title_text='Event name')
fig['layout']['xaxis3'].update(title_text='Event name')
fig['layout']['yaxis3'].update(title_text='Percent, %')

fig.show()

![](\newplot10.png)

Если проанализировать действия пользователей, которые хоть раз смотрели контакты, то видно, что помимо основного целевого действия, превалируют - просмотр рекомендованного объявления (12,7к всего и 516 уникальных пользователей), поиск (2084 и 377), просмотр фото (3828 и 339) и просмотр карты (1101 и 289). 

In [None]:
fig = px.bar(event_name,
             x=event_name.index,
             y=event_name['nunique'] *100 / unique_users,
             title='% of unique users / events name',
             text=round(event_name['nunique'] *100 / unique_users))

fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Events')
fig.update_yaxes(title_text='%')
fig.show()

![](\newplot11.png)

Наибольший процент уникальных пользователей относительно всего дф, приходится на: просмотр контактов (23%), просмотр рекомендованного объявления (12%). Все остальные действия занимают долю меньше 10%. 

## 9. Построить график зависимостей ДФ для целевого действия из пункта 3.8 от времени.

In [39]:
df_2 = df_contacts_events.groupby(['event_date', 'event_name'], as_index=False).agg({'user_id':['count','nunique']})
df_2.head()

Unnamed: 0_level_0,event_date,event_name,user_id,user_id
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,nunique
0,2019-10-07,advert_open,11,4
1,2019-10-07,contacts_call,7,6
2,2019-10-07,favorites_add,19,3
3,2019-10-07,map,44,9
4,2019-10-07,photos_show,67,13


In [None]:
fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=('Count for all',
                                    'Count for unique ID'
                                   ))

for i in df.event_name.unique():
    trace0 = go.Scatter(x = df_2[df_2['event_name'] == i]['event_date'],
                             y = df_2[df_2['event_name'] == i]['user_id','count'],
                             mode = 'lines',
                             name = i)
    fig.append_trace(trace0, 1, 1)


    trace1 = go.Scatter(x = df_2[df_2['event_name'] == i]['event_date'],
                             y = df_2[df_2['event_name'] == i]['user_id','nunique'],
                             mode = 'lines',
                             name = i)
    fig.append_trace(trace1, 2, 1)
    


fig.update_layout(title='Counts',
                   margin=dict(l=0, r=0, t=50, b=0),
                   width = 900,
                   height = 700)

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Day')
fig['layout']['xaxis2'].update(title_text='Day')

fig.show()

![](\newplot12.png)

Если построить график аналогичный графику из 3.7, но для дф для просмотра контактов, то видно, что суммарное кол-во просмотра рекомендованных объявлений уже не настолько больше, чем в пункте 3.7. Уровень всех действий более-менее сравнялся. И распределение действий уникальных пользователей тоже сравнялось.

На нижнем графике хорошо видно, что с течением времени, кол-во уникальных пользователей, которые пользовались функциями "просмотр фото", "просмотр контактов", "поиск" только росло, зато для "просмотра карты" в последнии 5 дней резко упало. 

## 10. Разбить время пользователей на сессии (либо на 20-30 минут, либо на суточное разбиение). На основе введеленных сессий, посмотреть сценарии взаимодействия с приложением, выделить несколько основных. Для нескольких сценариев посмотреть их время жизни.

Так как наше целевое действие - это просмотр контактов, то и сценарии я буду строить на основе ДФ, со срезом по этим действиям. То есть по пользователям, которые хоть раз смотрели контакты, но совсем не обязательно, что оно попадет в каждый сценарии.  

In [40]:
df_contacts_events = df_contacts_events.sort_values(by=['user_id', 'event_time'])
df_contacts_events.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5
31636,2019-10-19 21:35:19,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5
31640,2019-10-19 21:36:44,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5
31659,2019-10-19 21:42:14,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5


In [41]:
df_contacts_events.groupby(['event_date', 'user_id'])['event_name'].count().sort_values(ascending=False)

event_date  user_id                             
2019-10-13  c140f88a-c544-4ce6-a6bd-578a1a0d1b18    169
2019-10-14  955bd7b0-8da8-49df-adee-546b59347634    119
2019-10-29  abdcbe3c-221b-4f59-afd9-bf9ca78f7e4c    118
2019-10-12  c140f88a-c544-4ce6-a6bd-578a1a0d1b18    114
2019-10-28  e13f9f32-7ae3-4204-8d60-898db040bcfc    111
                                                   ... 
2019-10-17  40ac38b1-71f1-4295-99b3-f5a419386e8e      1
2019-10-11  62a5375a-eb94-4ed2-90ef-3d79d8e0c359      1
2019-10-19  83ae922a-1d12-458a-b591-0ea6d283ce0d      1
2019-10-18  10d599e4-5e65-47a9-9b01-958f8ab2fcac      1
2019-10-26  a107daca-36e9-458e-93f2-ab615bdbb394      1
Name: event_name, Length: 2475, dtype: int64

Если разбивать на сессии по суткам, то в одну сессию попадает слишком много действий, чтобы выделить какой-то сценарий. Поэтому разбивать на сессии буду по полчаса.

In [42]:
g_cont = ( df_contacts_events.groupby('user_id')['event_time'].diff() > pd.Timedelta('30Min') ).cumsum()


In [43]:
df_contacts_events['session_id'] = df_contacts_events.groupby(['user_id', g_cont], sort=False).ngroup() + 1

df_contacts_events.tail(15)

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
72364,2019-11-03 14:48:44,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3818
72487,2019-11-03 15:36:01,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72491,2019-11-03 15:36:29,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72498,2019-11-03 15:37:18,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72502,2019-11-03 15:37:44,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72547,2019-11-03 15:47:44,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72552,2019-11-03 15:48:05,show_contacts,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72564,2019-11-03 15:50:02,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72574,2019-11-03 15:50:35,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819
72579,2019-11-03 15:50:56,tips_show,fffb9e79-b927-4dbb-9b48-7fd09b23a62b,2019-11-03,6,3819


Очень много tips show приходится на одного пользователя, поэтому если принять, что это действие происходит автоматически в приложении и на него не влияют действия пользователя, то просто удалю их из рассмотрения сценария, т.к. в анализе действий юзера в приложении оно  просто мешать и раздувать данные.

In [44]:
df_cont_clean = df_contacts_events.query('event_name != "tips_show"')
df_cont_clean.head(15)

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31636,2019-10-19 21:35:19,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31640,2019-10-19 21:36:44,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31659,2019-10-19 21:42:14,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31670,2019-10-19 21:44:56,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31685,2019-10-19 21:46:53,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31730,2019-10-19 21:58:00,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31737,2019-10-19 21:59:55,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


Теперь получу несколько сессий, с наибольшим кол-вом действий.

In [45]:
sessions = list(df_cont_clean.groupby('session_id')['event_date'].count().sort_values(ascending=False).head(15).index)

In [46]:
df_cont_clean.query('session_id == @sessions[0]')

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
54002,2019-10-27 19:47:51,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54006,2019-10-27 19:49:26,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54007,2019-10-27 19:49:26,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54012,2019-10-27 19:51:13,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54013,2019-10-27 19:51:15,show_contacts,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
...,...,...,...,...,...,...
54107,2019-10-27 20:00:09,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54116,2019-10-27 20:00:55,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54117,2019-10-27 20:00:55,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314
54118,2019-10-27 20:00:56,photos_show,13140930-df18-4793-a230-7cca5c8813db,2019-10-27,6,314


Теперь видно, что много однотипных действий - "просмотр фото", "поиск" и т.д. Скорее всего учитывается, например, каждое фото в объявление, каждое объявление, найденное с помощью поиска. Поэтому просто уберу дубли по номеру сессии и виду действия, что бы можно было бы точнее выделить сценарий.

In [47]:
df_cont_clean[['session_id', 'event_name']].duplicated().sum()

9096

In [48]:
df_cont_clean = df_cont_clean.drop_duplicates(subset=['session_id', 'event_name'])
df_cont_clean.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


Теперь намного лучше. Далее выделю несколько сессий с наибольшим кол-вом действий, мб есть какой-то частый сценарий.

In [49]:
sessions_1 = list(df_cont_clean.groupby('session_id')['event_date'].count().
                  sort_values(ascending=False).head(15).index)

In [50]:
for i in range(0, 5):
    display(df_cont_clean.query('session_id == @sessions_1[@i]'))

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
30532,2019-10-19 15:08:12,show_contacts,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411
30533,2019-10-19 15:08:15,contacts_call,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411
30556,2019-10-19 15:16:27,photos_show,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411
30603,2019-10-19 15:34:21,search,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411
30620,2019-10-19 15:37:34,favorites_add,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411
30685,2019-10-19 15:57:56,advert_open,604d74a6-2481-4e12-989e-38789e35675a,2019-10-19,5,1411


Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
7345,2019-10-10 10:29:27,photos_show,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028
7361,2019-10-10 10:38:22,search,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028
7404,2019-10-10 10:49:58,show_contacts,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028
7437,2019-10-10 11:04:30,favorites_add,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028
7453,2019-10-10 11:09:58,advert_open,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028
7463,2019-10-10 11:16:07,contacts_call,40ac38b1-71f1-4295-99b3-f5a419386e8e,2019-10-10,3,1028


Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
60677,2019-10-29 21:18:25,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4
60683,2019-10-29 21:19:35,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4
60714,2019-10-29 21:26:40,show_contacts,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4
60717,2019-10-29 21:26:52,contacts_call,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4
60881,2019-10-29 22:10:07,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4
60884,2019-10-29 22:10:22,advert_open,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-29,1,4


Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
5182,2019-10-09 08:54:26,search,78e8c1af-ca3b-41e9-914c-66f74590b9b6,2019-10-09,2,1794
5204,2019-10-09 09:01:43,favorites_add,78e8c1af-ca3b-41e9-914c-66f74590b9b6,2019-10-09,2,1794
5210,2019-10-09 09:02:59,show_contacts,78e8c1af-ca3b-41e9-914c-66f74590b9b6,2019-10-09,2,1794
5242,2019-10-09 09:19:13,map,78e8c1af-ca3b-41e9-914c-66f74590b9b6,2019-10-09,2,1794
5245,2019-10-09 09:19:58,advert_open,78e8c1af-ca3b-41e9-914c-66f74590b9b6,2019-10-09,2,1794


Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
47116,2019-10-25 13:35:27,advert_open,8cf10cd3-ccc9-40cd-b3a1-6b8c310fc58d,2019-10-25,4,2079
47122,2019-10-25 13:37:16,search,8cf10cd3-ccc9-40cd-b3a1-6b8c310fc58d,2019-10-25,4,2079
47129,2019-10-25 13:39:02,favorites_add,8cf10cd3-ccc9-40cd-b3a1-6b8c310fc58d,2019-10-25,4,2079
47138,2019-10-25 13:41:02,photos_show,8cf10cd3-ccc9-40cd-b3a1-6b8c310fc58d,2019-10-25,4,2079
47163,2019-10-25 13:48:53,show_contacts,8cf10cd3-ccc9-40cd-b3a1-6b8c310fc58d,2019-10-25,4,2079


In [51]:
df_top15_ses = df_cont_clean.query('session_id == @sessions_1')
df_top15_ses.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33533,2019-10-20 19:17:19,show_contacts,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33534,2019-10-20 19:17:25,contacts_call,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


In [52]:
df_top15_ses['session_id'] = df_top15_ses['session_id'].astype('str')
#df_top15_ses.info()

In [None]:
fig = px.bar(df_top15_ses,
             x='session_id',
             y='event_name', 
             color='event_name',
             title='Sources count / events')

fig.update_yaxes(title_text='Count')
fig.update_xaxes(title_text='Events')
fig.update_layout(
                   margin=dict(l=0, r=0, t=50, b=0),
                   width = 900,
                   height = 500)
fig.show()

![](\newplot13.png)

Если посмотреть самые объемные по видам действий сессии, то видно, что большая часть из них имеет в своем составе:

1. Поиск 15 / 15
2. Просмотр контактов 15 / 15
3. Добавление в избранное 13 / 15
4. Просмотр фото 11 / 15
5. Открытие объявления 10 / 15
6. Звонок по телефону 8 / 15

В целом из этого можно составить наиболее полный сценарий:

Поиск - просмотр фото - добавление в избранное - открытие объявления - просмотр контактов - звонок по телефону. 

Скорее всего, их порядок может миксоваться, меняться местами, но состав +- будет одинаковый, по крайней мере, при кол-ве действий от 4.

Далее я посмотрю как распределена частота, если нижнюю границу сессии установить на уровне 3 видов действий. 

In [53]:
sessions_2 = list(df_cont_clean.groupby('session_id')['event_date'].count()[lambda x: x >= 3].index)
len(sessions_2)

535

In [54]:
df_cont_clean.query('session_id == @sessions_2')

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33533,2019-10-20 19:17:19,show_contacts,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33534,2019-10-20 19:17:25,contacts_call,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
...,...,...,...,...,...,...
2934,2019-10-08 11:31:39,map,fdd232f5-962d-4eed-ac02-f0141385cc8f,2019-10-08,1,3768
3017,2019-10-08 11:52:04,tips_click,fdd232f5-962d-4eed-ac02-f0141385cc8f,2019-10-08,1,3768
34582,2019-10-21 10:59:24,show_contacts,ff1554b5-919e-40b1-90bb-ee1f7f6d5846,2019-10-21,0,3785
34583,2019-10-21 10:59:26,contacts_call,ff1554b5-919e-40b1-90bb-ee1f7f6d5846,2019-10-21,0,3785


In [None]:
fig = px.histogram(df_cont_clean.query('session_id == @sessions_2'),
                   x='event_name',
                   nbins=len(df_cont_clean.event_name.unique()),
                   title='Events')
fig.update_layout(bargap=0.1)
fig.update_xaxes(title_text='Events')
fig.show()

![](\newplot14.png)

Чаще всего встречаются поиск, просмотр контактов, открытие объявления, звонок по телефону, просмотр карты и просмотр фото.

Можно предположить такие сценарии:

Поиск - открытие объявления - просмотр фото - просмотр контактов

Поиск - открытие объявления - просмотр контактов

Поиск - просмотр карты - открытие объявления - просмотр контактов

Поиск - просмотр карты - просмотр контактов - звонок по объявлению

Опять же, все эти действия легко могут миксоваться между собой и быть взаимозаменяемыми. Но по гистограмме видно, что в сценарий мало вписываются два действия - добавление в избранное и кликнуть по рекомендованному объявлению. И если первое можно еще объяснить нежелание засорять ненужными объявлениями избранного, то второе указывает на то, что алгоритмя предложенных объявлений работает не очень хорошо и выдает неактуальные для пользователей предложения.

### 10.1 Проверить сколько длится сессия у тех, кто совершал целевое событие и тех, кто не совершал.

Посчитаю среднее время длительности сессии у тех пользователей, кто смотрел контакты у объявления и тех, кто этого не делал, и сравню их между собой.

In [55]:
df_cont_clean.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


In [56]:
s_c = list(df_cont_clean.query('event_name == "show_contacts"').session_id)
df_not_sc = df_cont_clean.query('session_id != @s_c')
df_not_sc.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
43761,2019-10-24 10:50:40,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-24,3,3
43766,2019-10-24 10:52:19,advert_open,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-24,3,3
58047,2019-10-29 02:17:12,photos_show,00551e79-152e-4441-9cf7-565d7eb04090,2019-10-29,1,9


In [57]:
not_show_contacts = df_not_sc.groupby('session_id',as_index=False)['event_time'].agg(['max','min'])
not_show_contacts['lifetime'] = (not_show_contacts['max'] - not_show_contacts['min'])
print('Продолжительность сессии, если в составе нет просмотра контактов:',
      not_show_contacts['lifetime'].describe())

Продолжительность сессии, если в составе нет просмотра контактов: count                         1466
mean     0 days 00:02:03.898362892
std      0 days 00:08:29.843949796
min                0 days 00:00:00
25%                0 days 00:00:00
50%                0 days 00:00:00
75%         0 days 00:00:13.750000
max                0 days 02:54:05
Name: lifetime, dtype: object


In [58]:
df_sc = df_cont_clean.query('session_id == @s_c')
show_contact = df_sc.groupby('session_id',as_index=False)['event_time'].agg(['max','min'])
show_contact['lifetime'] = show_contact['max'] - show_contact['min']
print('Продолжительность сессии, если в составе есть просмотр контактов:', show_contact['lifetime'].describe())

Продолжительность сессии, если в составе есть просмотр контактов: count                         1703
mean     0 days 00:07:03.784497944
std      0 days 00:14:24.569618419
min                0 days 00:00:00
25%                0 days 00:00:00
50%                0 days 00:01:02
75%                0 days 00:07:51
max                0 days 03:21:08
Name: lifetime, dtype: object


В среднем сессия, которая имеет в своем составе целевое действие, длится в три раза дольше, чем те, которые не имеют.

Но это если сравнивать сессии пользователей, которые хоть единожды, но совершали целевое действие. А далее я сравню пользователей, которые никогда не смотрели контакты.

In [59]:
df_not_contacts_events = df.query('user_id != @user_id_show_contacts')

df_not_contacts_events = df_contacts_events.sort_values(by=['user_id', 'event_time'])
g_not_cont = ( df_not_contacts_events.groupby('user_id')['event_time'].diff() > pd.Timedelta('30Min') ).cumsum()
df_not_contacts_events['session_id'] = df_not_contacts_events.groupby(['user_id', g_not_cont], 
                                                                      sort=False).ngroup() + 1
df_not_cont_clean = df_not_contacts_events.query('event_name != "tips_show"')
df_not_cont_clean = df_not_cont_clean.drop_duplicates(subset=['session_id', 'event_name'])
df_not_cont_clean.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


In [60]:
show_not_not_contact = df_not_cont_clean.groupby('session_id',as_index=False)['event_time'].agg(['max','min'])
show_not_not_contact['lifetime'] = (show_not_not_contact['max'] - show_not_not_contact['min'])
print('Продолжительность сессии пользователей, которые вообще ни разу не смотрели контакты:', show_not_not_contact['lifetime'].describe())

Продолжительность сессии пользователей, которые вообще ни разу не смотрели контакты: count                         3169
mean     0 days 00:04:45.055222467
std      0 days 00:12:17.666960072
min                0 days 00:00:00
25%                0 days 00:00:00
50%                0 days 00:00:00
75%                0 days 00:03:49
max                0 days 03:21:08
Name: lifetime, dtype: object


In [61]:
print('Кол-во сессий с одним действием, у тех пользователей, которые ни разу не выполняли целевое действие:', 
      len(df_not_cont_clean.groupby('session_id')['event_name'].count()[lambda x: x == 1]))
print('Кол-во сессий с одним действием, у тех пользователей, которые выполнили целевое действие:', 
      len(df_sc.groupby('session_id')['event_name'].count()[lambda x: x == 1]))

Кол-во сессий с одним действием, у тех пользователей, которые ни разу не выполняли целевое действие: 1698
Кол-во сессий с одним действием, у тех пользователей, которые выполнили целевое действие: 611


В этом случае продолжительность сессии больше, чем у тех, кто в конкретной сессии не смотрел контакты, но хоть раз это делал. И меньше, чем в тех сессиях, когда контакты просматривались. 

<div class="alert alert-block alert-info"> 
У людей, которые совершали целевое действие хоть раз, наибольшее среднее время, проведенное в приложении - 7 минут, при этом довольно большое стандартное отклонение - 14 минут, что говорит о больших выбросах. При этом медиана - 1 минута, 3 квартиль - 8 минут, что почти совпадает со средним, а значит, что пользователи совершали много супер коротких сессий из одного действия. 

У пользователей, которые ни разу не совершали целевое действие, среднее время, проведенное в приложении - 4 минуты 45 секунд, при этом тоже довольно большое стандартное отклонение - 12 минут, но которое меньше, чем у тех, которые смотрели контакты. Это так же указывает на наличие выбросов. При этом медиана - 0 минут 0 секунд, скорее всего половина этих пользователей проводила в приложении доли секунд и совершала одно действие. 3 квартиль - 3 минуты 49 секунд, что тоже близко к среднему, как и в первом случае.

Так как у рассмотренных двух групп пользователей различаются: среднии, медианные, а также 3квартили, и все в пользу тех, кто хоть раз совершал целевое действие, то можно сказать, что:
    
    
1. Пользователи, которые совершали целевое действие, больше времени проводят в приложении

2. Имеют меньшее кол-во коротких сессий, когда выполнялось только одно действие. У тех, кто ни разу не смотрел контакты - 1698 единичных сессий; у тех, кто совершал целевое действие - 611.  </div>

## 11. Построить визуализацию, для нескольких сценариев. Сравнить их между собой и выделить наиболее приоритетные, с наибольшей долей уникальных пользователей, которые доходят до целевого действия.

## 12. Посмотреть на каком шаге сценариев больше всего отпадают пользователи. В процентом соотношении + в абсолют. величинах.

Объединю эти два пункта, так как процентное соотношени и сколько отпало пользователей, есть на визуализациях воронок.

В пункте 10 работы было выделено несколько сценариев из них самым длинным является:

Поиск - просмотр фото - добавление в избранное - открытие объявления - просмотр контактов - звонок по телефону

А самым частым:

Поиск - открытие объявления - просмотр фото - просмотр контактов


In [62]:
long_script = ( df_cont_clean.query('event_name == "search" |  event_name == "photos_show" | event_name == "favorites_add" | event_name == "advert_open" | event_name == "show_contacts" | event_name == "contacts_call"') )

In [63]:
long_script.groupby('session_id')['event_name'].count()[lambda x: x == 6]

session_id
4       6
1028    6
1411    6
Name: event_name, dtype: int64

Их всего 3 штуки, поэтому их рассматривать не имеет смысла. Возьму без сценарий без добавления в избранное.

In [64]:
long_script = ( df_cont_clean.query('event_name == "search" |  event_name == "photos_show" | event_name == "advert_open" | event_name == "show_contacts" | event_name == "contacts_call"') )

long_script.groupby('session_id')['event_name'].count()[lambda x: x == 5]

session_id
4       5
1028    5
1411    5
Name: event_name, dtype: int64

In [65]:
short_script_1 = ( df_cont_clean.query('event_name == "search" |  event_name == "photos_show" | event_name == "advert_open" | event_name == "show_contacts"') )

short_script_1.groupby('session_id')['event_name'].count()[lambda x: x == 4]

session_id
4       4
710     4
771     4
1028    4
1411    4
2079    4
3336    4
Name: event_name, dtype: int64

Однако сессий, когда выполнялся бы длинный сценарий полностью, очень мало. Поэтому буду рассматривать сценарии из 3 действий: 

Поиск - просмотр фото - просмотр контактов

Поиск - просмотр фото - открытие объявления 

Первое с целевым действием, второе без.

In [66]:
short_script_sc = ( df_cont_clean.query('event_name == "search" |  event_name == "photos_show"  | event_name == "show_contacts"') )

print('Кол-во сессий, когда был сделан сценарий-1:',
      len(short_script_sc.groupby('session_id')['event_name'].count()[lambda x: x == 3]))

Кол-во сессий, когда был сделан сценарий-1: 134


In [67]:
short_script = ( df_cont_clean.query('event_name == "search" |  event_name == "photos_show"  | event_name == "advert_open"') )

print('Кол-во сессий, когда был сделан сценарий-2:', 
      len(short_script.groupby('session_id')['event_name'].count()[lambda x: x == 3]))

Кол-во сессий, когда был сделан сценарий-2: 21


Действительно, первый сценарий является наиболее частым у пользователей, которые хоть раз смотрели контакты.

А теперь проверю второй сценарий по всему ДФ, т.е. и по пользователям, которые ни разу не делали целевое действие.

In [68]:
df_not_cont_clean.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
31632,2019-10-19 21:34:34,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
31655,2019-10-19 21:40:39,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-19,5,1
33482,2019-10-20 18:49:24,search,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33498,2019-10-20 18:59:23,photos_show,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2
33510,2019-10-20 19:03:02,favorites_add,00157779-810c-4498-9e05-a1e9e3cedf93,2019-10-20,6,2


In [69]:
short_script_2 = ( df_not_cont_clean.query('event_name == "search" |  event_name == "photos_show"  | event_name == "advert_open"') )

print('Кол-во сессий, когда был сделан сценарий-2:', 
      len(short_script_2.groupby('session_id')['event_name'].count()[lambda x: x == 3]) 
      + len(short_script.groupby('session_id')['event_name'].count()[lambda x: x == 3]))

Кол-во сессий, когда был сделан сценарий-2: 42


Всего выделено три основных сценария: первый - самый часто встречающийся (Поиск - просмотр фото - просмотр контактов)

второй - с альтернативным целевым действием (поиск - просмотр фото - просмотр объявления)

третий - самый длинный и самый полный (поиск - просмотр фото - просмотр контактов - открытие объявления - звонок по объявлению).

Наиболее приоритетным является первый, а второ будет рассматриваться, как альтернатива, и на их основе будет проводиться эксперимент 4.2. 

Вначале посчитаю кол-во уникальных пользователей на первом шаге воронки. Потому возьму сессии этих пользователей и профильтрую по нему срез по второму шагу - просмотр фото, чтобы туда попали только те, кто совершал поиск.

In [70]:
df = df.sort_values(by=['user_id', 'event_time'])
d = ( df.groupby('user_id')['event_time'].diff() > pd.Timedelta('30Min') ).cumsum()
df['session_id'] = df.groupby(['user_id', d], sort=False).ngroup() + 1

df_clean = df.drop_duplicates(subset=['session_id', 'event_name'])

In [71]:
def funnel(df, event_first, event_second, event_third):
    
    corr = ( df.query('event_name == @event_first').
                           groupby('event_name', as_index=False)['user_id'].nunique())
    
    ff = df.query('event_name == @event_first')[['event_time', 'session_id']]
    
    #filtr = list(df.query('event_name == @event_first').session_id.unique())
    
    corr = corr.append( df.query('event_name == @event_second').
                                 query('session_id == list(@ff.session_id)').
                                 merge(ff, on='session_id', suffixes=('', '_x')).
                                 query('event_time > event_time_x').
                                 groupby('event_name', as_index=False)['user_id'].nunique())
    
    ff = ( df.query('event_name == @event_second').
           query('session_id == list(@ff.session_id)').
           merge(ff, on='session_id', suffixes=('', '_x')).
           query('event_time > event_time_x'))[['event_time', 'session_id']]
    
    corr = corr.append( df.query('event_name == @event_third').
                                 query('session_id == list(@ff.session_id)').
                                 merge(ff, on='session_id', suffixes=('', '_x')).
                                 query('event_time > event_time_x').
                                 groupby('event_name', as_index=False)['user_id'].nunique()).reset_index(drop=True)
    
    
    return corr

In [72]:
new_funnel_script_1 = funnel(df_clean, 'search', 'photos_show','show_contacts')
new_funnel_script_1

Unnamed: 0,event_name,user_id
0,search,1666
1,photos_show,478
2,show_contacts,59


In [73]:
new_funnel_script_2 = funnel(df_clean, 'search', 'photos_show','advert_open')
new_funnel_script_2

Unnamed: 0,event_name,user_id
0,search,1666
1,photos_show,478
2,advert_open,13


In [74]:
new_funnel_script_3 = funnel(df_clean, 'search', 'show_contacts','contacts_call')
new_funnel_script_3

Unnamed: 0,event_name,user_id
0,search,1666
1,show_contacts,242
2,contacts_call,69


In [None]:
fig = go.Figure(go.Funnel(
                 y=new_funnel_script_1.event_name,
                 x=new_funnel_script_1.user_id,
                 textinfo = "value+percent initial+percent previous"
                 ))

fig.update_yaxes(title_text='Events')

fig.show()

![](\newplot15.png)

In [None]:
fig = go.Figure(go.Funnel(
                 y=new_funnel_script_2.event_name,
                 x=new_funnel_script_2.user_id,
                 textinfo = "value+percent initial+percent previous"
                 ))

fig.update_yaxes(title_text='Events')

fig.show()

![](\newplot16.png)

In [None]:
fig = go.Figure(go.Funnel(
                 y=new_funnel_script_3.event_name,
                 x=new_funnel_script_3.user_id,
                 textinfo = "value+percent initial+percent previous"
                 ))

fig.update_yaxes(title_text='Events')

fig.show()

![](\newplot17.png)

<div class="alert alert-block alert-info"> Получились три воронки, где: первая - с целевым действие "просмотр контактов". Наиболее часто встречающийся сценарий. 
    
вторая - с альтернативным целевым действием "просмотр объявления". Просто чтоб была.
    
третья - чтобы сценарий, когда после просмотра контактов, еще и позвонили. (самый большой процент от предыдущего шага здесь)</div>

 <div class="alert alert-block alert-info"> Далее посмотрю сколько человек переходят с какого-то действия на целевое и так можно сказать, что сильнее всего влияет на просмотр контактов, т.е. конверсию. </div>

In [75]:
all_events = list(df.query('event_name != "show_contacts"').event_name.unique())

In [76]:
def funnel_1(df, event_first, event_second):
    
    corr = ( df.query('event_name == @event_first').
                           groupby('event_name', as_index=False)['user_id'].nunique())
    
    ff = df.query('event_name == @event_first')[['event_time', 'session_id']]
    
    #filtr = list(df.query('event_name == @event_first').session_id.unique())
    
    corr = corr.append( df.query('event_name == @event_second').
                                 query('session_id == list(@ff.session_id)').
                                 merge(ff, on='session_id').
                                 query('event_time_x > event_time_y').
                                 groupby('event_name', as_index=False)['user_id'].nunique()).reset_index(drop=True)
    
    corr['perc'] = round(corr.user_id * 100 / corr.user_id.shift(periods=1), 2)
    return corr 

In [77]:
for i in all_events:
    display(funnel_1(df_clean, i, 'show_contacts'))

Unnamed: 0,event_name,user_id,perc
0,tips_show,2801,
1,show_contacts,431,15.39


Unnamed: 0,event_name,user_id,perc
0,map,1456,
1,show_contacts,181,12.43


Unnamed: 0,event_name,user_id,perc
0,search,1666,
1,show_contacts,242,14.53


Unnamed: 0,event_name,user_id,perc
0,photos_show,1095,
1,show_contacts,191,17.44


Unnamed: 0,event_name,user_id,perc
0,favorites_add,351,
1,show_contacts,48,13.68


Unnamed: 0,event_name,user_id,perc
0,contacts_call,213,


Unnamed: 0,event_name,user_id,perc
0,advert_open,751,
1,show_contacts,75,9.99


Unnamed: 0,event_name,user_id,perc
0,tips_click,322,
1,show_contacts,26,8.07


In [78]:
all_events = list(df.query('event_name != "show_contacts" & event_name != "contacts_call"').event_name.unique())

In [79]:
p = []
d = []
s = []
for i in all_events:
    p.append(funnel_1(df_clean, i, 'show_contacts').perc[1])
    d.append(funnel_1(df_clean, i, 'show_contacts').event_name[0])
    s.append(funnel_1(df_clean, i, 'show_contacts').user_id[1])
 


In [None]:
fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=('Count for all',
                                    'Percent unique ID from events'
                                   ))

trace0 = go.Bar(name='Count',
                x=d,
                y=s
                )

trace1 = go.Bar(name='%',
                x=d,
                y=p
                )
             

fig.append_trace(trace0, 1, 1)
fig.append_trace(trace1, 2, 1)


fig.update_layout(title='Events',
                  margin=dict(l=0, r=0, t=70, b=0),
                 width = 1000,
                 height = 700,
                 bargap=0.05)
                 #plot_bgcolor='#444')

fig.update_yaxes(title_text='Count')
fig['layout']['xaxis1'].update(title_text='Event name')
fig['layout']['xaxis2'].update(title_text='Event name')
fig['layout']['yaxis2'].update(title_text='Percent, %')

fig.show()

![](\newplot18.png)

<div class="alert alert-block alert-info"> Первый график - это абсолютные величины, второй - проценты тех, кто совершает какое-то действие и далее просмотр контактов в одной сессии. 

Нет переходов от звонков по объявлению к просмотру коттактов, что и понятно, он невозможен без просмотра контактов. 

Наибольший процент у просмотров фото (17%), потом идет просмотр рекомендованного объявления (15%), поиск (14,5%), добавление в избранное (14%).

В абсолютных величинах преобладают - просмотр рекомендованного объявления (431), поиск (242), просмотр фото (191), просмотр карты (181).

Если принять, что просмотр объявления - это автоматическое действие и не учитывать его влияние, то сильнее всего на целевое действие влияют - поиск и просмотр фото. </div>

## 13. Посмотреть среднее кол-во действий, которое приходится на одного пользователя. Посчитать выбросы (95, 99 - процентили). 



Так как изначально я думала проводить другой тест для гипотез, а потом поняла, что он не подойдет под конкретную задачу, поэтому остался данный пункт.

В среднем на пользователя из ДФ приходится по 17 действий в приложении. 

In [80]:
round(df.groupby('user_id')['event_name'].count().mean(), 2)

17.28

In [81]:
limit_events = ( np.percentile(df.
                               groupby('user_id')['event_name'].
                               count(), [95, 99]) )
limit_events

array([ 59., 132.])

In [None]:
fig = go.Figure()


fig.add_trace(go.Scatter(x=pd.Series(range(0,len(df_contacts_events['user_id']))),
                         y=df.groupby('user_id')['event_name'].count(),
                             mode='markers',
                             name='Events'))

fig.add_trace(go.Scatter(x=pd.Series(range(0,len(df.groupby('user_id')))),
                        y=np.ones_like(range(0,len(df.groupby('user_id')))) * limit_events[0],
                        mode='lines',
                        name='95-percentile'))

fig.add_trace(go.Scatter(x=pd.Series(range(0,len(df.groupby('user_id')))),
                        y=np.ones_like(range(0,len(df.groupby('user_id')))) * limit_events[1],
                        mode='lines',
                        name='99-percentile'))

fig.update_layout(title='Точечный график кол-ва действий в приложении пользователей',
                   xaxis_title='Users',
                   yaxis_title='Revenue')

![](\newplot19.png)

На графике хорошо видно, что большиство бользователей совершают сного меньше ста действий в приложении, а все, что больше ста имеет лишь единичный характер и является скорее исключением. 

# Шаг 4. Изучить результаты эксперимента

## 1. Одни пользователи совершают действия tips_show и tips_click, другие — только tips_show. Проверьте гипотезу: конверсия для просмотров контактов различается у этих двух групп.

group_a - это те, кто совершают tips_show и tips_click

group_b - это те, кто совершают только tips_show 

Для начала сделаю срез по группе А, т.е. по тем, кто совершают оба действия. Это будет группа А. 

Потом сделаю срез по тем, кто сделал только tips_click, и исключу их из среза, где оба дествия, и получится, что останутся только те, кто делал только tips_show, без tips_click. Это будет группа В.

In [82]:
group_a = df_clean.query('event_name == "tips_show" | event_name == "tips_click"')
group_a.event_name.unique()

array(['tips_show', 'tips_click'], dtype=object)

In [83]:
filtr = list(df_clean.query('event_name == "tips_click"').user_id.unique())

In [84]:
group_b = group_a.query('user_id != @filtr')

group_b.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id
805,2019-10-07 13:39:46,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-07,0,1
6565,2019-10-09 18:40:29,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-09,2,2
36412,2019-10-21 19:52:31,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-21,0,3
37559,2019-10-22 11:19:11,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-22,1,4
33368,2019-10-20 17:48:42,tips_show,004690c3-5a84-4bb7-a8af-e0c8f8fca64e,2019-10-20,6,13


Для начала создам сводные таблицы с данными, которые пригодятся для проведения тестов.

Первая таблица - кол-во уникальных пользователей для разных групп тестирования (А и В) в зависимости от типа действия.

Вторая таблица - общее кол-во уникальных пользователей в разных группах тестирования.

Пропорции рассчитавались так, что для каждой сравниваемой группы бралось кол-во уникальных пользователей для конкретного события и делилось на общее кол-во уникальных пользователей в этой группе. И так сравнивались разные группы между собой.

In [85]:
group_a_id = list(group_a.user_id.unique())
group_b_id = list(group_b.user_id.unique())

In [86]:
df_group_a_id = df_clean.query('user_id == @group_a_id')
df_group_a_id['group'] = 'A'
df_group_b_id = df_clean.query('user_id == @group_b_id')
df_group_b_id['group'] = 'B'
df_group_ab = df_group_a_id.append(df_group_b_id)
df_group_a_id.head()   

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id,group
805,2019-10-07 13:39:46,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-07,0,1,A
6541,2019-10-09 18:33:56,map,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-09,2,2,A
6565,2019-10-09 18:40:29,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-09,2,2,A
36412,2019-10-21 19:52:31,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-21,0,3,A
36419,2019-10-21 19:53:39,map,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-21,0,3,A


In [87]:
ztest =  df_group_ab.pivot_table(index='event_name', 
                values='user_id', 
                aggfunc=['nunique'])\
.sort_values(by=('nunique', 'user_id'), 
             ascending=False)

ztest.columns = ['unique_users_all']

for i in df_group_ab.group.unique():
    ztest[i] = df_group_ab.query('group == @i').pivot_table(index='event_name', 
                    values='user_id', 
                    aggfunc=['nunique'])
                   

ztest_count = df_group_ab.pivot_table(index='group', 
                values='user_id', 
                aggfunc=['nunique'])\
.sort_values(by=('nunique', 'user_id'), 
             ascending=False)

ztest_count = ztest_count.T

display(ztest)
ztest_count

Unnamed: 0_level_0,unique_users_all,A,B
event_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
tips_show,2801,2801,2504.0
map,1360,1360,1212.0
search,808,808,727.0
advert_open,598,598,532.0
show_contacts,525,525,425.0
tips_click,322,322,
favorites_add,112,112,80.0
photos_show,13,13,9.0
contacts_call,1,1,1.0


Unnamed: 0,group,A,B
nunique,user_id,2826,2504


In [88]:
df_group_a_id.head()

Unnamed: 0,event_time,event_name,user_id,event_date,weekday,session_id,group
805,2019-10-07 13:39:46,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-07,0,1,A
6541,2019-10-09 18:33:56,map,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-09,2,2,A
6565,2019-10-09 18:40:29,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-09,2,2,A
36412,2019-10-21 19:52:31,tips_show,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-21,0,3,A
36419,2019-10-21 19:53:39,map,0001b1d5-b74a-4cbf-aeb0-7df5947bf349,2019-10-21,0,3,A


In [89]:
ztest_df1 = funnel(df_group_a_id, 'tips_show', 'tips_click','show_contacts')
ztest_df1

Unnamed: 0,event_name,user_id
0,tips_show,2801
1,tips_click,281
2,show_contacts,23


<div class="alert alert-block alert-info"> Так, ну в первой группе размер группы, т.е. те, кто сделали оба действия, будут 281 человек, а целевое - 23. Во второй - 2504 и 352 соответственно. </div>

In [90]:
ztest_df2 = funnel_1(df_group_b_id, 'tips_show', 'show_contacts').drop(columns='perc')
ztest_df2

Unnamed: 0,event_name,user_id
0,tips_show,2504
1,show_contacts,352


H-0: доли (пропорции) групп А и Б равны, Н-1: доли (пропорции) групп А и Б не равны.

Проверка будет проводиться односторонним z-тестом для долей/пропорций.

Пропорции будут считаться между группами А и В на каждом виде действий (т.е. 9 экспериментов).

Критический уровень стат значимости = 0.05, ибо 0.1 слишком много для данного кол-ва экспериментов.

In [91]:
alpha=0.05

p1 = ztest_df1.user_id[2] / ztest_df1.user_id[1]
p2 = ztest_df2.user_id[1] / ztest_df2.user_id[0]

p_combined = (ztest_df1.user_id[2] + ztest_df2.user_id[1]) / (ztest_df1.user_id[1] + ztest_df2.user_id[0])

difference = p1 - p2 
        

z_value = difference / mth.sqrt(p_combined * (1 - p_combined) * (1/ztest_df1.user_id[1]+ 1/ztest_df2.user_id[0]))

distr = st.norm(0, 1) 

p_value = round((1 - distr.cdf(abs(z_value))) * 2, 4)

print(f'p-значение для двух групп tips_show + tips_click и только tips_show для конверсии целевого действия: ', p_value)

if p_value < alpha:
    print(f'Отвергаем нулевую гипотезу: между долями групп tips_show + tips_click и только tips_show для конверсии целевого действия есть значимая разница')
    
else: 
    print(
          f'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп tips_show + tips_click и только tips_show для конверсии целевого действия разными'
        )
    

p-значение для двух групп tips_show + tips_click и только tips_show для конверсии целевого действия:  0.0062
Отвергаем нулевую гипотезу: между долями групп tips_show + tips_click и только tips_show для конверсии целевого действия есть значимая разница


<div class="alert alert-block alert-info"> По итогу оказалось, что разница конверсии целевого действия у этих двух групп все же есть, так как нулевая гипотеза о равенстве долей была отвергнута. </div>

In [92]:
def z_test(df1, df2, num_1, num_2, alpha):
 

        event_name = df1.index

        p1 = df1[num_1] / df2[num_1].values
        p2 = df1[num_2] / df2[num_2].values

        p_combined = (df1[num_1] + df1[num_2]) / (df2[num_1].values + df2[num_2].values)

        difference = p1 - p2 
        
        for i in event_name:
            z_value = difference[i] / mth.sqrt(p_combined[i] * (1 - p_combined[i]) * (1/df2[num_1].values + 1/df2[num_2].values))

            distr = st.norm(0, 1) 

            p_value = round((1 - distr.cdf(abs(z_value))) * 2, 4)

            print(f'p-значение для двух групп ({num_1}, {num_2}) на шаге воронки {i}: ', p_value)

            if p_value < alpha:
                print(f'Отвергаем нулевую гипотезу: между долями групп {num_1}, {num_2} на шаге воронки {i} есть значимая разница')
                print('\n')
            else: 
                print(
                    f'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп {num_1}, {num_2} на шаге воронки {i} разными'
                )
                print('\n')

In [93]:
z_test(ztest, ztest_count, 'A', 'B', alpha=0.05)

p-значение для двух групп (A, B) на шаге воронки tips_show:  0.0
Отвергаем нулевую гипотезу: между долями групп A, B на шаге воронки tips_show есть значимая разница


p-значение для двух групп (A, B) на шаге воронки map:  0.8394
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки map разными


p-значение для двух групп (A, B) на шаге воронки search:  0.7222
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки search разными


p-значение для двух групп (A, B) на шаге воронки advert_open:  0.9393
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки advert_open разными


p-значение для двух групп (A, B) на шаге воронки show_contacts:  0.1266
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки show_contacts разными


p-значение для двух групп (A, B) на шаге воронки tips_click:  nan
Не получилось отвергнуть нулевую 

В целом можно сказать, что пропорции у двух групп равны. И только на этапе  tips_show была отвергнута нулевая гипотеза о равенстве и доли оказались неравными. 

Ну, а если смотреть конверсию только для целевого действия, то она у них не различается, так как не удалось отвергнуть нулевую гипотезу.

Далее я хотела сделать данный тест для "очищенных" данных, для этого выполняла пункт 3.13, но так как сравниваются доли уникальных пользователей, то если убрать пользователей, которые совершали больше обычного действий, то это мало повлияет на соотношения, как если бы мы сравнивали доли от суммаркого кол-ва действий и уникалых пользователей. 

## 2. Взять два (или несколько) сценария из пункта 3.10-3.11 и проверить гипотезу: конверсия для целевого действия (либо "просмотр контактов", либо какое-то конечное действие, к которому приходят сценарии, либо, по возможности, рассмотреть сценарии с одним-двумя одинаковыми действиями в составе) различается у этих двух групп.

Предположим, что у нас есть две группы подопытных. Одна группа идет по одному сценарию, вторая по другому. Помимо своего обязательного набора из сценариев, они могут совершать другие виды действий в приложении. Разность в долях для этих действий и будем проверять.

Возьму два однотипных сценария:

Поиск - просмотр фото - просмотр контактов

Поиск  - просмотр фото - открытие объявления

Только одно заканчивается целевым действием, а второе нет.

Нулевая гипотеза - доли у данных сценариев равны.

Альтернативная гипотеза - доли сценариев разные. 

Проверка будет проводиться односторонним z-тестом для долей/пропорций.

Пропорции будут считаться между группами А и В на каждом виде действий (т.е. 9 экспериментов).

Критический уровень стат значимости = 0.05.

In [94]:
group_a = df.query('event_name == "search" | event_name == "photos_show" | event_name == "show_contacts"')


In [95]:
df.event_name.unique()

array(['tips_show', 'map', 'search', 'photos_show', 'favorites_add',
       'show_contacts', 'contacts_call', 'advert_open', 'tips_click'],
      dtype=object)

In [96]:
group_b = df.query('event_name == "search" | event_name == "photos_show" | event_name == "advert_open"')


In [97]:
group_a_id = list(group_a.user_id.unique())
group_b_id = list(group_b.user_id.unique())

In [98]:
df_group_a_id = df.query('user_id == @group_a_id')
df_group_a_id['group'] = 'A'
df_group_b_id = df.query('user_id == @group_b_id')
df_group_b_id['group'] = 'B'
df_group_ab = df_group_a_id.append(df_group_b_id)
df_group_ab.group.unique() 

array(['A', 'B'], dtype=object)

In [99]:
ztest =  df_group_ab.pivot_table(index='event_name', 
                values='user_id', 
                aggfunc=['nunique'])\
.sort_values(by=('nunique', 'user_id'), 
             ascending=False)

ztest.columns = ['unique_users_all']

for i in df_group_ab.group.unique():
    ztest[i] = df_group_ab.query('group == @i').pivot_table(index='event_name', 
                    values='user_id', 
                    aggfunc=['nunique'])
                   

ztest_count = df_group_ab.pivot_table(index='group', 
                values='user_id', 
                aggfunc=['nunique'])\
.sort_values(by=('nunique', 'user_id'), 
             ascending=False)

ztest_count = ztest_count.T

display(ztest)
ztest_count

Unnamed: 0_level_0,unique_users_all,A,B
event_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
search,1666,1666,1666
tips_show,1464,1179,1126
photos_show,1095,1095,1095
show_contacts,981,981,570
map,903,660,742
advert_open,751,408,751
favorites_add,317,301,292
contacts_call,213,213,185
tips_click,174,151,114


Unnamed: 0,group,A,B
nunique,user_id,2571,2503


In [100]:
new_funnel_script_1

Unnamed: 0,event_name,user_id
0,search,1666
1,photos_show,478
2,show_contacts,59


In [101]:
new_funnel_script_2

Unnamed: 0,event_name,user_id
0,search,1666
1,photos_show,478
2,advert_open,13


In [102]:
alpha=0.05

p1 = new_funnel_script_1.user_id[2] / new_funnel_script_1.user_id[0]
p2 = new_funnel_script_2.user_id[2] / new_funnel_script_2.user_id[0]

p_combined = (new_funnel_script_1.user_id[2] + new_funnel_script_2.user_id[2]) / (new_funnel_script_1.user_id[0] + new_funnel_script_2.user_id[0])

difference = p1 - p2 
        

z_value = difference / mth.sqrt(p_combined * (1 - p_combined) * (1/new_funnel_script_1.user_id[0]+ 1/new_funnel_script_2.user_id[0]))

distr = st.norm(0, 1) 

p_value = round((1 - distr.cdf(abs(z_value))) * 2, 4)

print(f'p-значение для двух сценариев для конверсии целевого действия: ', p_value)

if p_value < alpha:
    print(f'Отвергаем нулевую гипотезу: между долями двух сценариев для конверсии целевого действия есть значимая разница')
    
else: 
    print(
          f'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли двух сценариев для конверсии целевого действия разными'
        )

p-значение для двух сценариев для конверсии целевого действия:  0.0
Отвергаем нулевую гипотезу: между долями двух сценариев для конверсии целевого действия есть значимая разница


<div class="alert alert-block alert-info"> Получается, что разница для конверсий целевых действий двух однотипных сценариев действительно есть, т.к. нулевая гипотеза была отвергнута.</div>

In [103]:
z_test(ztest, ztest_count, 'A', 'B', alpha=0.05)

p-значение для двух групп (A, B) на шаге воронки search:  0.1867
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки search разными


p-значение для двух групп (A, B) на шаге воронки tips_show:  0.533
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки tips_show разными


p-значение для двух групп (A, B) на шаге воронки photos_show:  0.4054
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли групп A, B на шаге воронки photos_show разными


p-значение для двух групп (A, B) на шаге воронки show_contacts:  0.0
Отвергаем нулевую гипотезу: между долями групп A, B на шаге воронки show_contacts есть значимая разница


p-значение для двух групп (A, B) на шаге воронки map:  0.0016
Отвергаем нулевую гипотезу: между долями групп A, B на шаге воронки map есть значимая разница


p-значение для двух групп (A, B) на шаге воронки advert_open:  0.0
Отвергаем нулевую гипотезу: между долями групп A

Из 9 проведенных экспериментов у 4 удалось отвергнуть нулевую гипотезу и сказать, что доли между группами не равны на действиях: клик по рекомендованному объявлению, открытие объявления, просмотр карты и открытие контактов. Если открытие контактов и открытие объявления еще можно объяснить тем, что эти действия являются целевыми в разных сценариев и различие в долях является закономерным, то открытие карты и клик по рекомендации - это неожиданная находка. Значит пользователи из одного сценария делают это чаще/меньше, чем из другого. 

# Вывод

Всего в датасете: общее кол-во пользователей: 74197
кол-во уникальных пользователей: 4293

Среднее кол-во действий на одного пользователя - 17.

Чаще всего пользователи совершают следующие действия: 

- увидел рекомендованное объявление (40к)
- просмотр фото (10к)
- открыл карточку объявления (6,1к)
- просмотр контактов (4,5-к)
- открыл карту объявление (3,8к)
- search_1 поиск по сайту (3,5к)

Реже всего выполняются альтернативные поиски по сайту, звонки по номеру из объявления, переход к рекомендованному объявлению и добавление в избранное. Однако, если посмотреть процентное соотношение кол-ва уникальных пользователей к частоте совершения этого действия, то видно, что выше всего процент у search_2-7 (от 40 до 74%), что может указывать на то, что данные поиски по сайту не особо удобны (если вообще возможны) для простого скроллинга. Либо просто неудобны для пользователей и поэтому попробовав единожды, они больше к ним не возвращались. А наименьший процент уникальных пользвателей (7%) у действия "просмотр рекомендованного объявления", что объясняется огромной частотой выполнения действия (40к) и не особо большим кол-вом уникальных пользователей (2800). Скорее всего это действие автоматическое, как, например, "просмотр главной страницы", "обязательная реклама для бесплатных приложений" и т.д. Около 65% уникальных пользователей из всего дф просматривают рекомендованные объявления, а 34% смотрят карту. Проценты для остальных действий находятся в пределах 8-26%. Если сравнить проценты уникальных пользователей для search_2, search_3, search_6 и search_7, то на них приходится менее 4-6%, на search_4 - 11%, а больше всего у search_1 (18%) и search_5 (15%). Поэтому далее все search были объединены. С учетом объединения поисков по сайту, суммарно на это действие стало приходиться около 6784 раз выполнений, сумма уникальных пользователей стала 1666, а процент усреднился и стал - 24,6%.

Прослеживается четкая зависимость от времени суток - в ночное время активность снижается, в дневное возрастает. Есть некоторая зависимость активности пользователей в зависимости от дня недели -  максимум приходится на понедельник (11,6к), потом в течении недели активность плавно снижается, но не критично и минимум достигается в субботу(9,1к). В воскресенье активность средняя, на уровне середины недели (10,5к). 

Больше всего пользователей пришло из яндекса (1934), потом из сторонних источников (1230), а на третьем месте гугл (1129).
Все источники пользователей распределены равномерно по действиям, нет аномалий по слишком большому или слишком малому соотношению. В целом доли распределены так же, как и общее число пользователей с источников. 

Все действия по времени распределены равномерно и нет никаких скачков, падений. Так же  и нет роста или уменьшения кол-ва пользователей с течением времени почти для всех действий, кроме просмотра фото - на начало дф и первые несколько дней это действие выполняли 36-47 пользователей, на конец ДФ их количество выросло до 70-85. 

Если проанализировать действия пользователей, которые хоть раз смотрели контакты, то видно, что помимо основного целевого действия, превалируют - просмотр рекомендованного объявления (12,7к всего и 516 уникальных пользователей), поиск (2084 и 377), просмотр фото (3828 и 339) и просмотр карты (1101 и 289). Наибольший процент уникальных пользователей относительно всего дф, приходится на: просмотр контактов (23%), просмотр рекомендованного объявления (12%). Все остальные действия занимают долю меньше 10%. 

Для дф для целевого действия с течением времени, кол-во уникальных пользователей, которые пользовались функциями "просмотр фото", "просмотр контактов", "поиск" только росло, зато для "просмотра карты" в последнии 5 дней резко упало. 

Было выделено несколько сценариев из них самым длинным является:

Поиск - просмотр фото - добавление в избранное - открытие объявления - просмотр контактов - звонок по телефону

А самым частым:

Поиск - открытие объявления - просмотр фото - просмотр контактов (134 полных выполнения)

Однако сессий, когда выполнялся бы длинный сценарий полностью, очень мало (3). Поэтому далее рассматривались сценарии из 3 действий: 

Поиск - просмотр фото - просмотр контактов

Поиск - просмотр фото - открытие объявления 

Первое с целевым действием, второе без.

<div class="alert alert-block alert-info"> Первый график - это абсолютные величины, второй - проценты тех, кто совершает какое-то действие и далее просмотр контактов в одной сессии. 

Нет переходов от звонков по объявлению к просмотру коттактов, что и понятно, он невозможен без просмотра контактов. 

Наибольший процент у просмотров фото (17%), потом идет просмотр рекомендованного объявления (15%), поиск (14,5%), добавление в избранное (14%).

В абсолютных величинах преобладают - просмотр рекомендованного объявления (431), поиск (242), просмотр фото (191), просмотр карты (181).

Если принять, что просмотр объявления - это автоматическое действие и не учитывать его влияние, то сильнее всего на целевое действие влияют - поиск и просмотр фото. </div>
 


В ходе работы были проверены гипотезы:

1. Первая - Одни пользователи совершают действия `tips_show` и `tips_click`, другие — только `tips_show`. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.

группа А - это те, кто совершают tips_show и tips_click

группа Б - это те, кто совершают только tips_show

Гипотезы: H-0: доли (пропорции) групп А и Б равны, Н-1: доли (пропорции) групп А и Б не равны.

Проверка проводилась односторонним z-тестом для долей/пропорций.

Пропорции будут считаться между группами А и Б на каждом виде действий (т.е. 9 экспериментов).

Критический уровень стат значимости = 0.05, ибо 0.1 слишком много для данного кол-ва экспериментов.

При проверки первой гипотезы было выявлено, что пропорции у двух групп равны. И только на этапе tips_show была отвергнута нулевая гипотеза о равенстве и доли оказались неравными. А если смотреть конверсию только для целевого действия, то она у них не различается, так как не удалось отвергнуть нулевую гипотезу.

2. Вторая - предположим, что у нас есть две группы подопытных. Одна группа идет по одному сценарию, вторая по другому. Помимо своего обязательного набора из сценариев, они могут совершать другие виды действий в приложении. Проверить равенство долей этих групп.

Возьму два однотипных сценария:

группа А: Поиск - просмотр фото - просмотр контактов

группа Б: Поиск  - просмотр фото - открытие объявления

Только одно заканчивается целевым действием, а второе нет.

Нулевая гипотеза - доли у данных сценариев равны.

Альтернативная гипотеза - доли сценариев разные. 

Проверка будет проводиться односторонним z-тестом для долей/пропорций.

Пропорции будут считаться между группами А и Б на каждом виде действий (т.е. 9 экспериментов).

Критический уровень стат значимости = 0.05.

Из 9 проведенных экспериментов у 4 удалось отвергнуть нулевую гипотезу и сказать, что доли между группами не равны на действиях: клик по рекомендованному объявлению, открытие объявления, просмотр карты и открытие контактов. Если открытие контактов и открытие объявления еще можно объяснить тем, что эти действия являются целевыми в разных сценариях и различие в долях является закономерным, то открытие карты и клик по рекомендации - это неожиданная находка. Значит пользователи из одного сценария делают это чаще/меньше, чем из другого. 

<div class="alert alert-block alert-info"> По итогу оказалось, что разница конверсии целевого действия в обоих гипотезах все же есть, так как H-0 о равенстве долей была отвергнута оба раза. 

Рекомендации:

Так как самыми влияющими на целевое действие (просмотр контактов) являются - поиск и просмотр фото, то всегда стоит делать упор на эти функции. Если с фото все понятно (за лайфтайм дф кол-во уникальных пользователей, которые пользуются этим дествием только выросло - с 36 до 85, то с поиском не все так однозначно. Так как в дф представлены разные виды поисков, и у большинства из них очень высокий процент уникальных пользователей, но низкая частота использования, что укаывает на то, что возврат к этим действиям очень низкий. А обусловленно это может быть - низким качеством исполнения, неудобством в использовании, сложностью поиска, неточностью алгоритнов поиска и т.д. Т.е. хорошо было бы поработать над search_2, search_3, search_6 и search_7. 

В данной работе целым действием является "просмотр контактов", но если принять за целевое действие "звонок по объявлнию", то окажется, что переходят на следующий шаг довольно маленькое кол-во пользователей, что тоже может говорить об неудобстве, нестабильности работы, сложности и т.д., и это мб тоже требует доработки. </div>

