# Подготовка данных

In [1]:
import plotly
import plotly.graph_objs as go
from plotly.subplots import make_subplots
import pandas as pd
import numpy as np

In [2]:
#Получаем количество по всем показателям по дням

query ="""select (date_trunc('day', visit_dttm))::date as day,
	     count(distinct client.client_rk) as total_visits,
       count(distinct account.client_rk) filter (where account.registration_dttm  > client.visit_dttm) as total_reg ,
       count(distinct application.account_rk) filter (where application.application_dttm  > account.registration_dttm) as total_application,
       count(distinct application.account_rk) filter (where game.game_dttm > application.application_dttm and game.game_flg = 1) as total_games 
from msu_analytics.client
left join msu_analytics.account
     on account.client_rk = client.client_rk 
left join msu_analytics.application
     on application.account_rk = account.account_rk 
left join msu_analytics.game
	 on game.game_rk = application.game_rk
where client.client_rk in(select distinct client_rk from msu_analytics.client) 
group by date_trunc('day', visit_dttm)
order by date_trunc('day', visit_dttm)"""

In [3]:
#Получаем и сохраняем данные в датафрейм

df = pd.read_sql(query, 'postgresql://student:JvLda93aA@158.160.52.106:5432/postgres', parse_dates=["day"])
df.head()

Unnamed: 0,day,total_visits,total_reg,total_application,total_games
0,2022-09-01,25,4,1,0
1,2022-09-02,25,6,0,0
2,2022-09-03,25,8,1,1
3,2022-09-04,36,14,5,4
4,2022-09-05,17,5,2,1


In [4]:
#проверяем полученные данные

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   day                155 non-null    datetime64[ns]
 1   total_visits       155 non-null    int64         
 2   total_reg          155 non-null    int64         
 3   total_application  155 non-null    int64         
 4   total_games        155 non-null    int64         
dtypes: datetime64[ns](1), int64(4)
memory usage: 6.2 KB


In [5]:
#группируем данные по неделям, переименовываем колонку с датой

df_res = df.groupby([pd.Grouper(key='day', freq='W')]).sum().reset_index()
df_res.rename(columns = {'day':'week'}, inplace = True)
df_res.head()

Unnamed: 0,week,total_visits,total_reg,total_application,total_games
0,2022-09-04,111,32,7,5
1,2022-09-11,184,31,6,5
2,2022-09-18,167,43,16,8
3,2022-09-25,181,45,12,11
4,2022-10-02,195,59,17,17


# Визуализация результатов и выводы

In [6]:
#Строим гистограмму визитов по неделям и линейные графики конверсий в регистрации, заявки и игры. Конверсия по каждому показателю считается от первого этапа (визиты на сайт)

fig = make_subplots(specs=[[{"secondary_y": True}]])
labels = df_res['week']

values = df_res['total_visits'] 
values2 = round((df_res['total_reg'] / df_res['total_visits']) * 100, 2)
values3 = round((df_res['total_application'] / df_res['total_visits']) * 100, 2)
values4 = round((df_res['total_games'] / df_res['total_visits']) * 100, 2)

customdata = np.stack((df_res['total_reg'], df_res['total_application'], df_res['total_games']), axis=-1)


fig.add_trace(go.Bar(x = labels, y = values, name='Визиты', opacity = 0.70, marker = {"color": "#8bc0f0"}, hovertemplate='Неделя: %{label}<br>Кол-во визитов: %{y}'), secondary_y=False)
fig.add_trace(go.Scatter(x = labels, y = values2, name='Конверсия в<br>регистрации', opacity = 0.70, marker = {"color": "#f58747"}, hovertemplate='Неделя: %{x}<br>Кол-во клиентов</b>: %{customdata[0]}<br>Конверсия: %{y}%<br>'), secondary_y=True)
fig.add_trace(go.Scatter(x = labels, y = values3, name='Конверсия в заявки', opacity = 0.70, marker = {"color": "#20bf04"}, hovertemplate='Неделя: %{x}<br>Кол-во клиентов</b>: %{customdata[1]}<br>Конверсия: %{y}%<br>'), secondary_y=True)
fig.add_trace(go.Scatter(x = labels, y = values4, name='Конверсия в игры', opacity = 0.70, marker = {"color": "#b436ff"}, hovertemplate='Неделя: %{x}<br>Кол-во игр</b>: %{customdata[2]}<br>Конверсия: %{y}%<br>'), secondary_y=True)

fig.update_traces(customdata=customdata)
# fig.update_layout(barmode='stack')
fig.update_layout(title='Динамика конверсии пользователей по неделям',
                   xaxis_title='Недели',
                   yaxis=dict(title='Количество уникальных клиентов'),
                   yaxis2=dict(title='Конверсия, %',
                               overlaying='y',
                               side='right'))
fig.write_html('fig.html')
fig.show()

На графике представления динамика изменения показателей конверсии по неделям и месяцам за период с 1 сенября 2022 года по 2 февраля 2023 года. Конверсия каждого этапа считается от предыдущего, так как важно увидеть, на каком из этапов происходит самая большая потеря клиентов. Данные представлены и в абсолютных значениях и в процентном (доля по отношению к предыдущему этапу). Данные за февраль являются не полными, поэтмоу мы не берем их в расчет при анализе.


Основываясь на полученных данных можно видеть, что конверсия из посещений сайта в регистрации на протяжении всего времени остается достаточно стабильной и держится на уровне 23-28%. При этом конверсия из регистраций в заявки так же держится на уровне 25-30%, помимо резкого снижения в период с 13 по 20 ноября 2022 года, и достигает максимальных значений в конце декабря 2022 года и в конце января 2023 года (34% и 31% соответственно).


Однако, при том что эти показатели остаются стабильно высокими, можно видеть, что конверсия из заявок в состоявшиеся игры падает, начиная с середины декабря 2022 года. Если до этого момента средняя конверсия составляла 83% на протяжении 15 недель, то начиная с 19 декабря видно резкое снижение почти в два раза и на протяжении следующих 7 недель средий показатель конверсии в состоявшиеся игры составляет только 38.4%.

Для того, чтобы понять причины падения количества состоявшися игр необходимо больше информации и дальнейший анализ ситуации. Можно предположить, что это связано с падением уровня клиентского сервиса, не доведением клиента до оплаты или, например, увольнением нескольких сотрудников из-за чего оставшиеся не справляются с объемом работы.

Так же можно проанализировать воронку за все время наблюдений, для того, чтобы посмотреть на общую картину. На графике ниже представлены показатели за весь период (абсолютные показатели, процент конверсии по отношению к первому этапу, процент конверсии по отношению к предыдущему этапу).

In [7]:
#Строим воронку за все время наблюдений

visits = df_res['total_visits'].sum()
registrations = df_res['total_reg'].sum()
applications = df_res['total_application'].sum()
games = df_res['total_games'].sum()

fig = go.Figure(go.Funnel(
    y = ['Визиты', 'Регистрации', 'Заявки', 'Игры'],
    x = [visits, registrations, applications, games],
    textposition = "inside",
    textinfo = "value+percent initial",
    opacity = 0.65, marker = {"color": ["#8bc0f0", "#f58747", "#62d1c4", "#b436ff"],
    "line": {"width": [3, 2, 2, 1], "color": ["wheat", "wheat", "wheat", "wheat"]}},
    connector = {"line": {"color": "#7a7c7d", "width": 3}}))

fig.update_layout(
    title="Воронка конверсии за весь период",
    autosize=False,
    width=1100,
    height=600)

fig.write_html('fig2.html')
fig.show()

Как видно из графика, конверсия из посещений сайта в регистрации составляет 25%, а доля оставивших заявки - всего 28.6% от зарегистрировавшихся, тогда как конверсия в состоявшиеся игры достаточно высокая - 67.6%. Можно предположить, что основное количество не дошедших до игры клиентов составляют те, кто не стал регистрироваться после посещения сайта и те из них, кто не оставил заявку на игру.

Из имеющихся данных нельзя однозначно сказать, с чем связаны большие потери клиентов на этом этапе. Возможно, причина в технических сбоях, непродуманном UI/UX сайта, невалидных лидах, которые приходят на сайт и т.д.

Исходя из представленных выше результатов, можно выделить 3 основные точки роста:

1.   Увеличение доли клиентов, регистрирующихся на сайте
2.   Увеличение доли заявок у зарегистрированных пользователей
3.   Увеличение доли состоявшихся игр

Для формулирования практических рекомендаций необходимо проанализировать ситуацию в целом, т.к. причины появления обозначенных "узких мест" могут быть очень разными.