<div style="border-radius: 15px; box-shadow: 2px 2px 4px; border: 1px solid; background:#bdc3c7; padding: 20px"> <h7 style="color:black; margin-bottom:20px"> Вадим, привет!) Это Михаил.

Мои комментарии и замечания далее по тексту помечены различными цветами:
    
---    
<div class="alert alert-block alert-danger">
❌ : Критическое замечание, которые следует исправить.
</div> 
    
---
    
<div class="alert alert-block alert-warning">
⚠️ : Замечание\совет на будущее.
</div>
    
---
    
<div class="alert alert-block alert-success">
✔️ : Когда всё сделано правильно.
</div>
    
---
    
p.s.: не удаляй мои замечания, если предстоит что то доработать в проекте.</h7>

## Задание

---

**Задача:**

**Выделите группы пользователей, которые различаются по метрикам:**

1. retention rate,
2. время, проведённое в приложении, 
3. частота действий, 
4. конверсия в целевое действие — просмотр контактов.
---

- Проведите исследовательский анализ данных
- Сегментируйте пользователей на основе действий
- Проверьте статистические гипотезы
    1. *Некоторые пользователи установили приложение по ссылке из `yandex`, другие — из `google`. Проверьте гипотезу: две эти группы демонстрируют разную конверсию в просмотры контактов.*
    2. *Сформулируйте собственную гипотезу. Дополните её нулевой и альтернативной гипотезами. Проведите статистический тест.*

**Декомпозиция задачи**

[Краткая презентация по проекту](https://disk.yandex.ru/i/Ew5760li81A49g)

<div class="alert alert-block alert-info">
<b>Комментарий от студента</b> <a class="tocSkip"></a>

Михаил, прошу прощения за то, что тяну резину: коллега на работе уходит - у меня завал. Дашборд в tableau смогу сегодня к концу вечера собрать и прислать ссылку на него?
</div>

# Загрузка данных и библиотек для их обработки.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from statsmodels.stats.proportion import proportions_ztest
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import KMeans

In [None]:
#! gdown --id 11Z8YQ7HUtpyOpywT4edBzAUVPk7-0sGL

In [None]:
#! gdown --id 1tZ9h9O9ajv0zMNZQUv7_WCnA64dGJ3UJ

In [None]:
df = pd.read_csv('/datasets/mobile_dataset.csv')

In [None]:
src = pd.read_csv('/datasets/mobile_soures.csv')

In [None]:
df.head()

In [None]:
src.head()

## Описание данных:

Датасет содержит данные о событиях, совершенных в мобильном приложении "Ненужные вещи". В нем пользователи продают свои ненужные вещи, размещая их на доске объявлений.

В датасете содержатся данные пользователей, впервые совершивших действия в приложении после 7 октября 2019 года.

Колонки в *mobile_sources.csv*: 

- `userId` — идентификатор пользователя,
- `source` — источник, с которого пользователь установил приложение.

Колонки в mobile_dataset.csv: **

- `event.time` — время совершения,
- `user.id` — идентификатор пользователя,
- `event.name` — действие пользователя.

Виды действий:

- `advert_open` — открыл карточки объявления,
- `photos_show` — просмотрел фотографий в объявлении,
- `tips_show` — увидел рекомендованные объявления,
- `tips_click` — кликнул по рекомендованному объявлению,
- `contacts_show` и `show_contacts` — посмотрел номер телефона,
- `contacts_call` — позвонил по номеру из объявления,
- `map` — открыл карту объявлений,
- `search_1`—`search_7` — разные действия, связанные с поиском по сайту,
- `favorites_add` — добавил объявление в избранное.

# Предобработка.

## Поменяю названия полей и присоединю информацию об источниках к основному датасету `df`

In [None]:
df.columns = ['event_time', 'event_name', 'user_id']

In [None]:
src.rename(columns={'userId': 'user_id'}, inplace=True)

In [None]:
df['user_id'].nunique()

In [None]:
src['user_id'].nunique()

In [None]:
df = df.merge(src, how='left', on='user_id')

In [None]:
df['user_id'].nunique()

- Все пользователи остались на месте
- Проверю пропуски, дубли, типы данных

## Проверить пропуски в данных

In [None]:
df.isna().mean()

- Такой вывод короче и наглядней, нежели `df.info()`, на мой взгляд 

## Проверить на дубли

In [None]:
df.duplicated().mean()

- Полных дублей нет и это хорошо

## Поверить типы данных
- соответствуют-ли поставленной задаче

In [None]:
df.info()

- `df.dtypes` мне знаком, но хотелось сразу увидеть размер датафрейма
- переведу `event_time` в тип `datetime`, поскольку с датой и временем надо будет проводить множество операций

In [None]:
df['event_time'] = pd.to_datetime(df['event_time'], format='%Y-%m-%d %H:%M:%S.%f')

In [None]:
df['event_time'].sample(3, random_state=0)

## Объединить однотипные события

In [None]:
df['event_name'].value_counts()

- в описании данных видно, что просмотру контактов соответствует два наименования событий `contacts_show` и `show_contacts`, поэтому объеденю их
- также есть 7 наименований для поисковых действий в приложении, разница между которыми не влияет на ответы на поставленные вопросы, поэтому объеденю их

In [None]:
df.replace(
    {
        'event_name': {
            'show_contacts': 'contacts_show', 
            'search_1': 'search_action',
            'search_2': 'search_action',
            'search_3': 'search_action',
            'search_4': 'search_action',
            'search_5': 'search_action',
            'search_6': 'search_action',
            'search_7': 'search_action',
        }
    }, inplace=True
)

In [None]:
df['event_name'].value_counts()

# Исследовательский анализ данных.

## Определить временной диапазон датасета.

In [None]:
df['event_time'].min()

In [None]:
df['event_time'].max()

- Данные охватывают период чуть менее месяца (с 7 октября по 3 ноября включительно, 28 дней), поэтому имеет смысл добавить столбец с днём. 

## Добавить временные поля на основе поля `event_time`
- Для последующих рассчётов dau,wau.

In [None]:
df['event_date'] = df['event_time'].astype('datetime64[D]')

In [None]:
df['event_week'] = df['event_time'].dt.isocalendar().week

In [None]:
df['event_week'].value_counts()

- C каждой следующей неделей в логе событий всё больше: маркетинг работает, активность пользователей растёт.
- Проверю, верно-ли прошло разделение по неделям: возьму точный срез по первой неделе и сравню число событий с значением числа строк в `value_counts()` в стороке по 41 неделе.

In [None]:
# 41-я неделя
df.query('event_time >= "2019-10-07 00:00:00.431357" &\
 event_time < "2019-10-14 00:00:00.000000"').shape[0]

In [None]:
# 42-я неделя
df.query('event_time >= "2019-10-14 00:00:00.000000" &\
 event_time < "2019-10-21 00:00:00.000000"').shape[0]

- Данные по неделям поделились правильно

## Проверить полноту данных: распределение количества событий по дням.

- Сделаю это, построив гистограмму по столбцу `event_time` с параметром `bins` равный числу дней 28 в исследуемом датасете.
- Это позволит наглядно увидеть относительный объём событий за каждый день.

In [None]:
df['event_time'].hist(figsize=(16, 5), bins=28)
plt.title('Распределение всех событий по дням')
plt.ylabel('Количество событий')
plt.xlabel('Дата')
plt.show()

- "пустых" дней нет. Данные получены без заметных потерь.
- также заметна тенденция роста числа событий, которая была заметна на группировке по неделям.
- рассмотрю данные поближе, увиличив `bins` до количества часов в исследуемом периоде 28 * 24 = 672

In [None]:
df['event_time'].hist(figsize=(16, 5), bins=672)
plt.title('Распределение всех событий по часам')
plt.ylabel('Количество событий')
plt.xlabel('Дата')
plt.show()

- наблюдается дневная активность, которая после полуночи сменяется затишьем.
- также как на распределении по дням видна тенденция к росту числа событий с каждой неделей с некоторым откатом на четвёртой неделе.
    - рассчитаю `dau` и `wau`, чтобы посмотреть как рост числа событий связан с числом уникальных пользователей в день и неделю

## Рассчитать `DAU`, `WAU`. Вычислить средние значения этих метрик за весь период. 

- Построить графики изменения метрик во времени.

In [None]:
dau = df.groupby('event_date', as_index=False).agg({'user_id': 'nunique'})

In [None]:
dau.rename(columns={'user_id': 'unique_day_users'}, inplace=True)

In [None]:
dau

- Рассчитаю средний `dau` за весь период.

In [None]:
dau_total = dau['unique_day_users'].mean()

In [None]:
round(dau_total, 2)

- Среднее число уникальных пользователей в приложении 279.
- Число событий в неделе и на графике распределения росло от начала записи лога.
- Вероятно, это связано с ростом числа уникальных пользователей.
- Проверю это на ежедневном графике изменения `dau`.

In [None]:
dau.plot(x='event_date',figsize=(14,6), ylim=0, grid=True)
plt.title('Число уникальных пользователей в день')
plt.ylabel('Количество пользователей')
plt.xlabel('Дата')
plt.show()

- Так и есть: ежедневное число уникальных пользователей колеблется, но проявляет тенденцию к росту.
- Есть небольшой спад к концу лога, который, очевидно, отразится на недельном графике.
- Рассчитаю и построю график `wau`.

In [None]:
wau = df.groupby('event_week', as_index=False).agg({'user_id': 'nunique'})

In [None]:
wau.rename(columns={'user_id': 'unique_week_users'}, inplace=True)

In [None]:
wau

- Рассчитаю средний `wau` за весь период.

In [None]:
wau_total = wau['unique_week_users'].mean()

In [None]:
wau_total

In [None]:
wau.plot(x='event_week', ylim=0, xlim=(41, 44), grid=True)
plt.title('Число уникальных пользователей в неделю')
plt.ylabel('Количество пользователей')
plt.xlabel('неделя года')
plt.show()

- Выведу распределение числа событий по неделям, чтобы отразить взаимосвязь числа событий с числом уникальных пользователей

In [None]:
df['event_week'].hist(bins=4)
plt.xlim(41, 44)
plt.show()

- Среднее число уникальных пользователей в неделю составляет `1385,5`.
- Со второй недели число уникальных пользователей превышает `1400`.
- Но после 3-й недели фиксирую спад.
- Вероятно, это связано с показателем `retention rate`, который рассчитаю далее.

## Выбор подхода разделения пользователей на группы

В задании требуется выделить группы пользователей на основе retention rate; времени, проведённого в приложении; частоты действий; конверсии в целевое действие — просмотр контактов.

И тут может быть два подхода:

1. Взять всех пользователей и посчитать метрики по ним. А потом на основании различий метрик выделить группы.
2. Разделить пользователей в зависимости от событий, которые они совершили в исследуемый период. И уже после этой группировки по событиям сравнивать интересующие нас метрики.

Я выберу второй подход, поскольку мне он кажется более честным (и в перспективе хочу его доработать [с учетом временного разброса событий](https://towardsdatascience.com/how-to-apply-k-means-clustering-to-time-series-data-28d04a8f7da3)): группы будут выделяться на основании событий, а не метрик, рассчитанных на основе тех же событий. Выделять группы буду с помощью алгоритма кластеризации `k-means`. 

Определять число групп для алгоритма `k-means` буду с помощью *агломеративной иерархической кластеризации* и дендрограммы, визуализирующей её.

Прежде чем проводить кластеризацию, выясню, каково распределение числа событий на пользователя за весь исследуемый период.
- При этом важно помнить, что некоторые пользователи будут совершать события с самого первого дня исследуемого периода, а некоторые впервые оказались в приложении в конце записанного лога.
- Поэтому буду осторожен с фильтрацией

In [None]:
event_per_usr = pd.DataFrame(df.groupby('user_id')['event_name'].count())

In [None]:
event_per_usr = event_per_usr.rename(columns={'event_name': 'event_cnt'})

In [None]:
event_per_usr['event_cnt'].hist(bins=100)
plt.title('Распределение количества событий на одного пользователя')
plt.xlabel('Число событий на пользователя')
plt.ylabel('Число пользователей')
plt.show()

- Имеем перекошенное распределение событий во времени (период записи лога), похожее на Пуассоновское. Лежащее в пределах от `0` до `500`
- Изучу его квартили, выбросы на диаграмме `boxplot`
- А, главное, решу - отбарсывать эти выбросы и нет.

In [None]:
plt.figure(figsize=(5, 8)) 
event_per_usr.boxplot(column='event_cnt')
plt.ylim(0,60)

In [None]:
event_per_usr.describe()

In [None]:
event_per_usr['event_cnt'].mode()

- По версии "ящика с усами" пользователи, совершившие более 35 событий, относятся к выбросам
- Мода составляет 5 событий на пользователя
- А максимум равен 478 событиям

Но если учесть, что в логе у нас события за 28 дней, то 478 событий - это не очень-то похоже на аномальное поведение. Это всего-лишь 17 событий в день в среднем, если вы являлилсь пользователем от начала до конца лога. В обычной жизни многие пользуются приложениями годами, а не один раз. И 17 тапов в приложении за день - это может быть весьма скромно.

Посмотрю, какова доля пользователей, совершивших более 35 событий за исследуемый период

In [None]:
len(event_per_usr.query('event_cnt <= 35')) / len(event_per_usr)

- Более 10% пользователей совершили более 35 событий за вермя исследования
- А может, это наши лучшие клиенты
- Проверю, когда они совершили свои первые действия 

In [None]:
event_per_usr_f = event_per_usr[event_per_usr['event_cnt'] <= 35]

In [None]:
# создам временный сводник по самым активным пользователям
t = (
    df[~df['user_id'].isin(event_per_usr_f.index)]
    .groupby('user_id').agg({'event_date': ['min', 'count']})

)

In [None]:
t

In [None]:
# сделаю индексы одноуровненвыми
t.columns = ['_'.join(col).strip() for col in t.columns.values]

In [None]:
t.sort_values(by='event_date_count', ascending=False)

- Самый активный пользователь впервые начал соввершать действия с первого дня записи лога. Поэтому не удивительно, что он за месяц смог совершить 478 событий. 
- Посмотрю на диаграмме рассеяния, как на временной оси лога расположены первые визиты пользователей с самым большим числом событий.

In [None]:
t.plot(
    x='event_date_min', 
    y='event_date_count', 
    kind='scatter', 
    alpha=0.3,
    figsize=(10, 6)
)
plt.title('Сумма событий и дата первого визита самых активных пользователей')
plt.ylabel('Сумма событий за весь период лога')
plt.xlabel('Дата первого события в логе')
plt.show()

Даже для отдельных, наиболее щедрых на события пользователей, актуально утверждение:
- кто раньше начал пользоваться приложеним, тот успел больше совершить событий
- поэтому считать таковых пользователей аномальными и исключать из кластеризации я не буду

# Кластеризация, изучение продуктовых метрик по кластерам.

## Создам по каждому виду события дополнительный столбец с флагами

- для каждого пользователя (1,0 - совершил,не совершил)

In [None]:
flag_t = pd.get_dummies(df['event_name'])

In [None]:
flag_t

- Получил датафрейм такой же длинны как исходный `df`и с тем же набором индексов
- Проверю, что все события остались на месте

In [None]:
flag_t.sum().sort_values(ascending=False)

In [None]:
df['event_name'].value_counts()

- Чтобы информация о событии в таблице `flag_t` соответствовала своему пользователю и времени объеденю `df` и `flag_t`
- Это же позволит проверить правильность сопоставления конкретного события флагу.

In [None]:
df = df.merge(flag_t, how='left', left_index=True, right_index=True)

- Проверю случайной выборкой, что флаги соответствуют событиям

In [None]:
df.sample(10, random_state=5)

In [None]:
df.isna().mean()

- События соответствуют, пропусков не получил после объединения
- Можно проводить кластеризацию

## Провести кластеризацию пользователей по матрице основных параметров

- Создам матрицу признаков для кластеризации:
    - оставлю от исходного датафрейма только столбцы с `user_id` и полями с флагами событий по каждому событию и пользователю
    - сгруппирую данные по `user_id` и вычислю среднее. В случае с флагами получу по каждому признаку для каждого пользователя долю всех совершённых им событий. То есть если пользователь всего совершил 100 событий в целом, 80 из них `tips_show`, то значения поля `tips_show` будет `0.8`
    - выбрано именно среднее а не сумма, потому что масштаб числовых значений будет меньше, что положительно скажется на стандартизации датасета

In [None]:
t = df[['user_id', 'advert_open', 'contacts_call', 'contacts_show',
       'favorites_add', 'map', 'photos_show', 'search_action', 'tips_click',
       'tips_show']].groupby('user_id').mean()

In [None]:
t

- Проведу обязательную для используемых алгоритмов стандартизацию данных

In [None]:
sc = StandardScaler()

In [None]:
t_sc = sc.fit_transform(t)

- Построю матрицу расстояний перед построением дендрограммы

In [None]:
linked = linkage(t_sc, method = 'ward')

- Строим дендрограмму 

<div class="alert alert-block alert-info">
<b>Комментарий от студента</b> <a class="tocSkip"></a>

Дендрограмма строится около 2х минут. С её помощью получаю число рекомендуемых кластеров. То, что будет здесь отрисовано также есть в презентации.
</div>

In [None]:
#plt.figure(figsize=(15, 10))  
#dendrogram(linked, orientation='top')
#plt.show()

- Результатом агломеративной иерархической кластеризации стали 5 сегментов пользователей
- Применю алгоритм k-means с числом кластеров 5, чтобы получить вектор кластеров

In [None]:
km = KMeans(n_clusters = 5, random_state=0)

In [None]:
labels = km.fit_predict(t_sc)

In [None]:
t['cluster_km'] = labels

In [None]:
t = t.reset_index()

In [None]:
t['cluster_km'].value_counts()

- Сегменты пользователей получились неодинаковыми по размеру, но этого никто и не обещал
- Более того, в реальной жизни чаще всё неоднородно
- В ходе сравнения метрик выясню, есть-ли различия именно между 5 сегментами или их может быть меньше

---

Оставлю от таблицы `t` только поля `user_id` и `cluster_km`, чтобы присоединить их к исходному датафрейму `df`

In [None]:
t = t[['user_id', 'cluster_km']]

In [None]:
# отброшу бинарные столбцы признаков за ненадобностью
df = df[['event_time', 'event_name', 'user_id', 'source', 'event_date',
       'event_week']]

In [None]:
df = df.merge(t, how='left', on='user_id')

In [None]:
# проверка после merge
df.isna().mean()

- Посмотрю распределение событий по новым категориям пользователей

In [None]:
df['cluster_km'].value_counts().plot(kind='bar', grid=True)
plt.title('Распределение числа событий по сегментам пользователей')
plt.xlabel('Сегмент пользоватлей')
plt.ylabel('Число событий в логе')
plt.show()

- Распределение числа событий по сегментам весьма неоднородно, поэтому узнаю как оно соотносится с числом пользователей в сегменте
- Создам временную переменную `t` с таблицей, содержащей число пользователей сегментов и количество совершённых ими событий

In [None]:
t = (
    pd.DataFrame(df['cluster_km'].value_counts().sort_index()) # число событий по сегментам
    .merge(
        df.groupby('cluster_km').agg({'user_id': 'nunique'}),  # число уникальных пользователей в сегментах
        how='left', left_index=True, right_index=True)
)

In [None]:
t = t.rename(columns={'cluster_km': 'events_cnt', 'user_id': 'user_cnt'})

In [None]:
t = t.sort_index()

In [None]:
t

- Зависимость между столбцами есть, но от близкой к линейной её отделяет 2-й сегмент:
    - пользователей меньше, чем в 0-м, но они активней
    - выведу простой график для наглядности

In [None]:
y = t['events_cnt']
x = t['user_cnt']
n = t.index

fig, ax = plt.subplots()
ax.scatter(x, y, marker='.')

for i, txt in enumerate(n):
    ax.annotate(txt, (x[i], y[i]))
plt.title('Соотношение числа пользователей в сегментах и числа их событий')
plt.grid(True)
plt.xlabel('Количество пользоватлей')
plt.ylabel('Число событий в логе')
plt.show()

- На графике видно, что чем больше пользоватлей сегмента, тем больше событий они совершают
- Но данное утверждение не однозначно
    - Например пользователи `0`-сегмента при меньшем своём количестве успели совершить больше событий, нежели пользователи `4`-сегмента
    - Есть две догадки на эту тему:
        1. Пользователи `0`-сегмента появились в логе раньше, поэтому успели больше
        2. Они более активны
- **На данный момент зафиксирую информацию о том, что независимо от времени в любом периоде исследования есть более активные сегменты, есть менее активные**
    - *Это похоже на записки капитана очевидность, но в данном случае мне об этом говорят не домыслы и опыт, а цифры сегментов, полученных алгоритмом кластеризации.*
    - Теперь проверю различие сегментов по их метрикам.

## Рассчитать `Retention rate` (с визуализацией) для полученных кластеров и сравнить между собой

- Получу дату первого визита для каждого пользователя и добавлю её к датафрейму

In [None]:
t_start = df.groupby('user_id')['event_date'].min()

In [None]:
t_start.name = 'first_start_date'

In [None]:
t_start

In [None]:
df = df.join(t_start, on='user_id')

- Получу неделю первого визита
    - брать меньший период считаю нецелесообразным, потому что считать ежедневный отток в нашем приложении беcсмысленно
    - большинство пользователей не покупают и не продают "ненужные вещи" каждый день

In [None]:
df['start_event_week'] = df['first_start_date'].dt.isocalendar().week

- Получу lifetime недельных когорт 

In [None]:
df['cohort_lifetime'] = df['event_week'] - df['start_event_week']

- Сгруппирую данные по сегменту и  `cohort_lifetime`, чтобы получить число пользоватлей каждого сегмента в первую и последующие недели

In [None]:
cohorts = df.groupby(['cluster_km', 'cohort_lifetime'], as_index=False).agg({'user_id': 'nunique'})

In [None]:
cohorts = cohorts.rename(columns={'user_id': 'user_cnt'})

In [None]:
cohorts.head()

- Получу число уникальных пользователей когорты на момент её формирования и добавлю к датафрейму `cohorts`

In [None]:
t = cohorts[cohorts['cohort_lifetime']==0][['cluster_km', 'user_cnt']]

In [None]:
t

In [None]:
cohorts = cohorts.merge(t, how='left', on='cluster_km', suffixes=('','_start'))

- Вычислю `retention rate` или долю пользователей когорты для каждой последующей недели относительно стартовой

In [None]:
cohorts['retention'] = cohorts['user_cnt'] / cohorts['user_cnt_start']

In [None]:
cohorts

In [None]:
retention_pivot = cohorts.pivot_table(
index='cluster_km',
columns='cohort_lifetime',
values='retention',
aggfunc='sum')

In [None]:
retention_pivot

In [None]:
plt.figure(figsize=(15,10))
plt.title('Удержание пользователей в когортах')
sns.heatmap(
    retention_pivot,
    annot=True,
    fmt='.2%',
    linewidths=0.5,
    linecolor='white',
    cmap='gist_heat_r'
)
plt.ylabel('Сегмент пользователей')
plt.show()

- На вторую неделю жизни разница в удержании пользователей между сегментами уже существенно отличается
- Самые "верные" пользователи `0`- сегмента на протяжении всех недель демонстрируют наибольшие показатели по удержанию
- Помню, что число событий у этого сегмента было больше, чем у более многочисленного `4`- сегмента
    - Теперь если взглянуть на `retention rate` становится ясно, что это связано с показателем удержания пользователей на протяжении всего исследуемого периода: `4` сегмент быстрее рассеялся, потому и событий не успел столько совершить, как более устойчивый `0`-й
- Быстрее всех со второй недели разбегаются пользователи `2`-сегмента
    - Этих ребят можно и нужно возвращать в приложение email рассылкой c лучшими подборками, сделанными на основе их поисковых действий. Тут также можно применить алгоритм машинного обучение по ретро-данным "кто что купил и что он перед этим смотрел и какие события совершал"

## Определю среднюю пользовательскую сессию (сеанса)
- Эта пользовательская сессия не будет ограничена одинаковым для всех временным интервалом, поскольку данный подход устарел. 
    - Он был актуален в прошлом для веб-сайтов. 
    - Но на сегодняшний день для приложений и современных веб сайтов он не подходит.
    - Более современный подход - учёт времени бездействия между событиями:
      - Длительность сессии при этом не ограничена
      - Такой подход сегодня используется например в новом поколении системы аналитики Google Analytics 4
      - Задача определения сеанса сводится к определению наиболее подходящего большинству пользователей времени бездействия.
      - При превышении этого времени бездействия с новым событием начинается новый сеанс.
- **Для применения этого подхода к моим данным введу такое допущение:**
    - в данном логе любое самое первое событие для каждого пользователя является началом сессии, то есть нет пользователей, которые уже находились в сессии в момент начала записи лога. 
---

Пересохраню датафрейм `df` отбросив уже ненужные данные о когортах 

In [None]:
df = df[['event_time', 'event_name', 'user_id', 'source', 'event_date',
       'cluster_km']]

- Вычислю дельту между событиями для каждого пользователя и переведу её в секунды

In [None]:
between_events = pd.DataFrame(df.groupby('user_id')['event_time'].diff().dt.seconds)

In [None]:
between_events = between_events.rename(columns={'event_time':'seconds_between'})

- Получил датафрейм с такими же индексами, как у основного `df` и значения временных дельт, соответствующих событиям
- Присоединю его к основному `df`

In [None]:
df = df.merge(between_events, how='left', left_index=True, right_index=True)

In [None]:
df

- Из первых строк стало понятно, что самому первому событию каждого пользователя значение временной дельты соответствует `nan`, потому что функция `diff` не считает разницу с предыдущим событием, его нет.
- Также видно, что когда разница между событиями меньше 1 секунды (быстрые пальцы) значение дельты при переводе в секунды равно `0`
---
Заменю значения дельты `nan` на `0`, а `0`(где на самом деле просто чуть меньше секунды) на 1

In [None]:
df = df.replace({'seconds_between':{0:1, np.nan:0}})

- Посмотрю на распределение значений временных дельт между событиями, опущу нулевые значения для первых сеансов пользователей

In [None]:
df[df['seconds_between'] != 0]['seconds_between'].describe()

- Получу самое частое значение дельты

In [None]:
# беру моду именно по дельтам, поэтому отбрасываю первое событие с условной нулевой дельтой 
df[df['seconds_between'] != 0]['seconds_between'].mode()

- Распределение сильно смещено вправо:
    - Мода 1
    - Медиана 70
    - Среднее 2928
---
- Очевидно, что среднее значение временной дельты между событиями сильно оттянуто периодами бездействия между сессиями
- А вот медиана не будет этому подвержена.
- Но значение в 70 секунд (по опыту использования подобных приложений) мало, чтобы определить его как типичное для пользователей максимальное время бездействия, после которого можно начинать отсчитывать следующую сессию:
    1. В нашем приложении есть события результат которых требует большего вермени на изучение (чтение описания, просмотр фото, изучение карты, переходы в браузер вне приложения для поиска дополнительной информации по объекту объявления).
    2. Также что половина событий в логе происходит с большим временем бездействия.
    3. А между сессиями время бездействия должно быть существенно больше и число таких интервалов должно быть заметно меньше, чем между событиями проходящими в сессиях.
    4. Поэтому я предполагаю, что на диаграмме `boxplot` межсессионные дельты находятся в области выбросов.
    5. Поэтому рассмотрю в качестве верхней границы времени бездействия (в рамках текущего сеанса) верхний предел статистически значимой выборки значений `seconds_between` на диаграмме `boxplot`.
- Верхний предел статистически значимой выборки значений `seconds_between` будет равен сумме полутора межквартильных размахов и значения 3-го квартиля: `1.5 * (180 - 23) + 180 = 415.5`
- Это почти 7 минут и гораздо больше похоже на то время, за которое даже не самый активный пользователь прочтёт, посмотрит что нужно и перейдёт к следующему действию (событию)

In [None]:
df[df['seconds_between'] != 0].boxplot('seconds_between', figsize=(5, 7))
plt.ylim(0, 1000)
plt.title('Распределение временных дельт между событиями по каждому пользователю')
plt.show()

---
Длительность времени бездействия до начала следующей пользовательской сессии определю как 420 секунд (округлю до 7 полных минут 415,5 секунд). Для сравнения, в Google Analytics 4 оно составляет 30 минут, после чего очередное событие уже означает начало нового сеанса для пользователя. Это также обусловленно количеством контента, которое может изучать средний пользователь до совершения следующего события.

---

- Теперь промаркирую события, чтобы выделить начало каждой новой сессии

- Присвою каждому первому событию каждого пользователя в логе маркер `start_new_session`, как условился в **допущении** выше

In [None]:
df['session_status'] = np.where(df['seconds_between'] == 0, 'start_new_session', np.nan)

- Из следующей операции исключю все первые `start_new_session`
- Все последующие события пользователей с временной дельтой **(к предыдущему событию этого пользователя)** меньше 420 секунд, промаркирую как `session_continues`
- если дельта больше 420 - `start_new_session`.

In [None]:
df.loc[df['session_status'] != 'start_new_session', 'session_status'] = (
    df['seconds_between'].apply(lambda x : 'session_continues' if x <= 420 else 'start_new_session')
)

In [None]:
df

- Замечательно, но теперь бы пронумеровать каждую сессию для каждого пользователя своим номером, чтобы группировкой по этому номеру можно было получить первое и последнее событие в конкретной сессии.
- Это нужно для того, чтобы посчитать длительность каждой отдельной сессии для каждого пользователя.
- Создам новый столбец `session_number` и заполню его пропусками.

In [None]:
df['session_number'] = np.nan

In [None]:
df

- Теперь выберу строки стартовых событий в сессиях и с помощью группировки по пользователям пронумерую для каждого пользователя его стартовые события.
- Пронумерую = заменю NaN в столбце `session_number` на порядковый номер сессии от `0` до последней сессии.

In [None]:
df.loc[df['session_status'] == 'start_new_session', 'session_number'] = (
    df[df['session_status'] == 'start_new_session'].groupby(['user_id']).cumcount()
)

- Проверю корректность заполнения на примере двух пользователей.

In [None]:
(
    df[
        (df['user_id'] == '20850c8f-4135-4059-b13b-198d3ac59902') | 
        (df['user_id'] == 'd9b06b47-0f36-419b-bbb0-3533e582a6cb')
    ]
)

- Сгруппирую `df` по пользователям и заполню пропуски в событиях с маркером `session_continues` методом `ffill`
- Таким образом пропуски в строках событий `session_continues` заполнятся тем же номером сессии, что и у стартового события этой сессии.

In [None]:
df['session_number'] = df.groupby('user_id')['session_number'].fillna(method='ffill')

In [None]:
(
    df[
        (df['user_id'] == '20850c8f-4135-4059-b13b-198d3ac59902') | 
        (df['user_id'] == 'd9b06b47-0f36-419b-bbb0-3533e582a6cb')
    ]
)

- Теперь каждое событие каждой сессии для каждого пользователя имеет свой порядковый номер (общий для событий одной сессии)

In [None]:
# прорка на пропуски
df.isna().mean()

- Получу временные дельты по каждой сессии для каждого пользователя и сохраню номер сегмента для дальнейших сравнений.
- Для этого сгруппирую `df` по `cluster_km`, `user_id`, `session_number`.

In [None]:
# u_s - users sessions
u_s = (
    df.groupby(['cluster_km', 'user_id', 'session_number'], as_index=False)
    .agg({'event_time': ['count', 'min', 'max']})
)

In [None]:
# сделаю индексы плоскими
u_s.columns = ['_'.join(col).strip() for col in u_s.columns.values]

In [None]:
u_s

In [None]:
u_s.columns = ['cluster_km', 'user_id', 'session_number', 'event_in_session_count',
       'event_time_min', 'event_time_max']

- Получу длительность каждой сессии 

In [None]:
u_s['session_duration'] = (
    u_s['event_time_max'] - u_s['event_time_min']
).dt.seconds

In [None]:
u_s

- Есть сессии продолжительность которых получилась нулевой - это сессии состоящие из одного события
- Если увеличить длительность предельного времени бездействия, то их число несколько снижается, но не сильно (если увеличить время бездействия с 7 минут до 15, то вместо 28,6% нулевых сессий получим 22%)
- Поэтому в рамках данного решения я останусь на определённом ранее максимальном времени бездействия в 7 минут.

---

In [None]:
len(u_s[u_s['session_duration'] == 0]) / len(u_s)

- Посмотрю на распределения длительности сессий среди всех пользователей без учёта нулевых длятельностей, когда было только одно событие и после длительное бездействие
- Сохраню в отдельную переменную датафрейм с пользовательскими сессиями без нулевых сессий.

In [None]:
u_s1 = u_s[u_s['session_duration'] != 0].copy()

In [None]:
u_s1['session_duration'].hist(bins=100)
plt.title('Распределение значений длительности ненулевых сессий')
plt.show()

In [None]:
u_s1['session_duration'].mode()

In [None]:
u_s1['session_duration'].describe()

- Чаще всего если в сессии больше одного события длительность её составляет 4 секунды.
    - Это похоже на тот случай, когда тебе прилетает пуш-уведомление и ты заходишь в него на несколько секунд, чтобы открыть сообщение и маркер непрочитанного уведомления снять.
    - Кажется, ну и зачем оно нужно?
    - Но иногда заходя по такому пушу, чтобы снять маркер снять, видишь интересующие тебя предложение и остаёшся из-за него.
-  Поэтому от пушей не отказываемся, а вот от количества таких коротких сессий стараемся избавляться, улучшая качество `tips_show`
- Средняя общая продолжительность сессии при этом составляет 492 секунды (чуть более 8 минут), что достаточно много, чтобы успеть наделать дел (заказать, сохранить в избранное и т.д.). Данная метрика выглядит реалистично.
- Медиана также вполне реалистина: она чуть более 6 минут.

- Общее распределение длительности сессий оценил
- Теперь посмотрю на распределения по кластерам
- Выведу все распределения в одних осях координат, чтобы оценить различия в форме распределения
- Графики отрисую с помощью цикла.

In [None]:
colors = ['red', 'green', 'blue', 'yellow', 'black']
clusters = u_s1['cluster_km'].unique()
plt.figure(figsize=(12,8))
for _,i in zip(clusters, colors):
    fig = sns.histplot(
        x=u_s1[u_s1['cluster_km'] == _]['session_duration'], 
        data=u_s1[u_s1['cluster_km'] == _], 
        element='step', 
        color=i, 
        alpha=0.1
    )
fig.legend(
    labels=['cluster_0','cluster_1','cluster_2','cluster_3','cluster_4']
    )
plt.title('Распределения длительности сеанса в разных кластерах')
plt.xlim(0, 3000)
plt.show()

- Для проверки корректности вывода кластеров и их маркировки выведу число зафиксированных ненулевых сессий по каждому кластеру

In [None]:
u_s1['cluster_km'].value_counts().sort_index(ascending=True)

- При взгляде на распределения сегментов можно сказать, что они пропорционально соответствуют общему распределению длительностей сессии.
- Но чтобы не быть голословным, применю `describe` к каждому сегменту.

In [None]:
u_s1.boxplot('session_duration', by='cluster_km', figsize=(6,8))
plt.show()

- Медианы не идентичны, есть различия
- Вероятно в средних они тоже будут
- Хоть формы распределений и были похожи, но были смещены.
    - Сделаю сводник по кластерам, со средним и медианой и выведу их в столбчатых графиках

In [None]:
u_s1.columns

In [None]:
# duration_pc = duration_per_clasters
duration_pc = (
    u_s1.pivot_table(
        index='cluster_km', 
        values='session_duration', 
        aggfunc=['count','mean', 'median']
    )
)

In [None]:
duration_pc.columns = ['_'.join(col).strip() for col in duration_pc.columns.values]

In [None]:
duration_pc

---
- Цикл для вывода значений столбцов позаимствовал [здесь]('https://datavizpyr.com/how-to-annotate-bars-in-barplot-with-matplotlib-in-python/')
---

In [None]:
plt.figure(figsize=(12,8))
fig = sns.barplot(x=duration_pc.index, y="mean_session_duration", data=duration_pc, alpha=0.5)
fig = sns.barplot(x=duration_pc.index, y="median_session_duration", data=duration_pc)
for p in fig.patches:
    fig.annotate(format(p.get_height(), '.1f'), 
                   (p.get_x() + p.get_width() / 2., p.get_height()), 
                   ha = 'center', va = 'center', 
                   xytext = (0, 9), 
                   textcoords = 'offset points')
plt.ylabel('Длительность сеанса, сек.')
plt.xlabel('Сегмент пользователей')
plt.title('Средние (светлые) и медианные значения длительности сессии по сегментам')
plt.show()

- У самого многочисленного 1-го сегмента самые большие серднее и медианное значение длительности сеанса.
- Также у этого сегмента наибольшее количество выбросов (судя по выводу `boxplot` выше)
    - Хотя отбрасывать их безусловно не стоит, потому что максимальное значение в этих выбросах соответствует 2,14 часа
    - Кто-то просто долго искал необходимую вещь
    - Быть может, подержанный макбук. Или что-то ещё, что может требует внимания и сравнения.
- Также возвращаясь к `retention rate`, у этого сегмента он тоже самый низкий (рисунок)
- Начинает закрадываться мысль, что чем дольше средняя продолжительность сеанса в сегменте, тем лучше его пользователи находят то, что им нужно, получают контакты продавца и товар. После этого они выпадают из ближайших `cohort_lifetime`
- В таком случе вполне может быть, что конверсия в целевое действие `contacts_show` у этого сегмента будет выше:
    -  Долго посидели-повыбирали-лучше сконверстировались и быстрее ушли в отток.
    - Это выясню после рассчёта средней частоты совершения событий в сессии по сегментам


## Рассчитать и сравнить между кластерами частоту совершения событий

- Частота относительно пользовательской сессии
- этот пункт также поможет определить, как по кластерам различается время между основными событиями пользовательских сессий

- Получу частоту как количество событий в минуту, как количество событий в сессию - уже есть `event_in_session_count`

In [None]:
u_s1['event_freq_per_minute'] = u_s1['event_in_session_count'] / (u_s1['session_duration'] / 60)

In [None]:
u_s1.head()

- Теперь можно взглянуть на распределения этих частот среди разных кластеров
- Посмотрю на вывод `describe`

In [None]:
u_s1['event_freq_per_minute'].describe()

- Интересно, кто совершает 360 событий в минуту, и что это за события

In [None]:
u_s1[u_s1['event_freq_per_minute'] == u_s1['event_freq_per_minute'].max()]['user_id']

In [None]:
df[df['user_id'] == '4c38c011-e7d4-47a2-9da3-35888e0606b8']

- Интересно, много ли пользователей совершает так много событий в секунду
- Или же это редкий баг, когда пользователю так быстро (за десятые доли секунды пронеслись 6 фото) показываются фотографии
- Выведу диаграммы `boxplot`, чтобы посмотреть на масштабы и количество выбросов

In [None]:
u_s1.boxplot('event_freq_per_minute', by='cluster_km', figsize=(6,8))
plt.show()

- Выбросов немного, частот больше 60 можно по пальцам посчитать
- Но есть pandas, поэтому пальцы для счёта не нужны

In [None]:
len(u_s1[u_s1['event_freq_per_minute'] >= 60]) / len(u_s1)

- `1.17%` сеансов происходят с частотой событий быстрее, чем одно в секунду. 
- Самое быстрая сессия с самой высокой частотой 360 событий в минуту (6 за секунду). Просмотр 6 фото подряд (быстрый скролл)
- Узнаю, сколько событий чаще оказывается в таких высокочастотных сеансах.

In [None]:
u_s1[u_s1['event_freq_per_minute'] >= 60]['event_in_session_count'].value_counts()

- Большинство сессий, в которых частота событий равна или выше 1-го события в секунду (60 в минуту)
    - Содержат в себе лишь 2 события
    - Лишь в 5 сессиях с такой высокой частотой было совершено от 6 до 15 событий
    - Подавляющее большинство, это всё-таки 2-3 события
    - Вероятно это по большей части автоматические события, на которые могли наложиться пользовательские тапы с минимальной задержкой
- Посмотрю на распределение типов событий среди тех сессий, для которых свойственна очень высокая частота

In [None]:
high_freq_usr = pd.Series(u_s1[u_s1['event_freq_per_minute'] >= 60]['user_id'].unique())

In [None]:
df[df['user_id'].isin(high_freq_usr)]['event_name'].value_counts(normalize=True)

- Распределение событий среди пользователей для которых сессии проходят с высокой частотой
    - 43% событий совершаемых с высокой частотой (больше одного события в секунду) - это показ рекомендованных объявлений
    - 19% - просмотр фото, похоже на быстро пролистанную карусель с фотографиями
    - Что примечательно 9.1% быстрых событий - это инетерсующее нас конверсионное действие.
    - Учитывя тот факт, что большинство высокочатотных сессий состоят из 2-3 событий, считаю эти данные правдоподобными
- Для следующего A/B - теста можно сравнить два варианта скорости прокрутки фотографий в карусели (если она там вообще есть) и посмотреть как это сказывается на частоте событий в сессии.

- Поскольку величина `event_freq_per_minute` связана с вычисленными до неё числом событий в сессии `event_in_session_count` и длительностью сессии `session_duration`.
- То буду использовать её как общую меру частоты действий пользоватлея при сравнении сегментов.
    - Сперва оценю распределения `event_freq_per_minute` на общих осях координат, чтобы оценить разброс частот по сегментам и в каких пределах расположилось большиство сессий

In [None]:
colors = ['red', 'green', 'blue', 'yellow', 'black']
clusters = u_s1['cluster_km'].unique()
plt.figure(figsize=(12,8))
for _,i in zip(clusters, colors):
    fig = sns.histplot(
        x=u_s1[u_s1['cluster_km'] == _]['event_freq_per_minute'], 
        data=u_s1[u_s1['cluster_km'] == _], 
        element='poly', 
        color=i, 
        alpha=0.1
    )
fig.legend(
    labels=['cluster_0','cluster_1','cluster_2','cluster_3','cluster_4']
    )
plt.title('Распределение частоты событий в минуту по сегментам')
plt.xlim(0, 10)
plt.show()

- Большинство сессий проходит с частотой событий до 7.5 соб/мин
- Посчитаю среднее и медиану частоты событий по сегментам
     - Среднее будет однозначно оттянуто самыми резкими пользователями: вот заодно и посомтрю, где их больше

In [None]:
# fpc = frequency_per_clasters
fpc = (
    u_s1.pivot_table(
        index='cluster_km', 
        values='event_freq_per_minute', 
        aggfunc=['count','mean', 'median']
    )
)

In [None]:
fpc.columns = ['_'.join(col).strip() for col in fpc.columns.values]

In [None]:
fpc

In [None]:
plt.figure(figsize=(12,8))
fig = sns.barplot(x=fpc.index, y="mean_event_freq_per_minute", data=fpc, alpha=0.5)
fig = sns.barplot(x=fpc.index, y="median_event_freq_per_minute", data=fpc)
for p in fig.patches:
    fig.annotate(format(p.get_height(), '.1f'), 
                   (p.get_x() + p.get_width() / 2., p.get_height()), 
                   ha = 'center', va = 'center', 
                   xytext = (0, 9), 
                   textcoords = 'offset points')
plt.ylabel('Частота, соб/мин.')
plt.xlabel('Сегмент пользователей')
plt.title('Средние (светлые) и медианные значения частоты событий в минуту по сегментам')
plt.show()

- Примечательно, что пользователи с самой длинной в среднем сессией обладают самыми низкими частотами событий в минуту
    - Ребята просто медленнее думают, поэтому в среднем больше сидят
- Выделяется 2-й сегмент, у которого и сессия достаточно длинная и частота событий в минуту одна из самых высоких (и медиана и среднее)
    - Одни из самых активных пользоватлей по частоте событий и длительности сессии пока получаются в сегменте 2
    - Посмотрю на их конверсию и конверсию остальных сегментов в целевое цействие `contacts_show`

## Рассчитать и сравнить между кластерами конверсию в целевое действие `contacts_show`

- Для начала определю, что именно я понимаю под конверсией в целевое действие в данной задаче
    - Поскольку мы обладаем ретроспективными данными почти за месяц, многие пользователи возвращались неоднократно
    - События, которые они совершали повторялись
    - Поэтому конверсию по сегментам получу следующим образом
        - Выясню, сколько сессий было совершено в каждом сегменте
        - Узнаю, сколько было совершено `contacts_show` в каждом сегменте
        - Расчитаю их отношение и увижу в каком сегменте пользователи более склонны к совершению покупки

- Получу максимальный порядковый номер сессиии для каждого пользователя. Сохраню при этом сегмент даннго пользователя

In [None]:
session_cnt = df.groupby(['cluster_km', 'user_id'], as_index=False)['session_number'].max()

In [None]:
session_cnt = session_cnt.rename(columns={'session_number':'session_cnt'})

- Поскольку нумерация всех сессий для всех пользователей начиналась с нуля, прибавлю `1` ко всем значениям `session_cnt` и получу точное количество сессий каждого пользователя, и каждого сегмента

In [None]:
session_cnt['session_cnt'] = session_cnt['session_cnt'] + 1

- Сгруппирую по сегментам и сложу получившееся у каждого пользователя число сессий в рамках сегмента
    - так получу число сессий в каждом сегменте за период записи лога

In [None]:
session_clusters_cnt = session_cnt.groupby('cluster_km',as_index=False).agg({'session_cnt': 'sum'})

In [None]:
session_clusters_cnt

- Теперь найду, сколько было именно событий `contacts_show` за весь исследуемый период по сегментам.
    - Потому что даже если просмотров контактов в одной сессии было несколько, важно учесть их все

In [None]:
contacts_show = (
    df[df['event_name'] == 'contacts_show']
    .groupby('cluster_km',as_index=False)
    .agg({'user_id': 'count'})
)

In [None]:
contacts_show = contacts_show.rename(columns={'user_id':'contacts_show'})

- Получу число всех событий по кластерам

In [None]:
event_cluster_cnt = df.groupby('cluster_km', as_index=False)['user_id'].count()

In [None]:
event_cluster_cnt = event_cluster_cnt.rename(columns={'user_id':'event_cnt'})

In [None]:
cluster_cr = (
    contacts_show.merge(session_clusters_cnt, how='left', on='cluster_km')
    .merge(event_cluster_cnt, how='left', on='cluster_km')
)

In [None]:
cluster_cr 

1. Посчитаю отношение числа просмотров контактов к числу сессий по кластерам `cr_session`
    - Это поможет понять в каком из кластеров потенциально больше порцент сделок после сессий
2. Следом посчитаю отношение числа просмотров контактов к числу всех событий по кластерам `cr_events`
    - Первая версия показывает конверсию по сеансам, но также должна и учитывать и количество конверсионных событий
    - Вторая просто отражает связь конверсионных событий с общим числом пользоватльских событий.

In [None]:
cluster_cr['cr_session'] = cluster_cr['contacts_show'] / cluster_cr['session_cnt']

In [None]:
cluster_cr['cr_events'] = cluster_cr['contacts_show'] / cluster_cr['event_cnt']

In [None]:
cluster_cr

In [None]:
plt.figure(figsize=(12,8))
fig = sns.barplot(x=cluster_cr.index, y="cr_session", data=cluster_cr)
for p in fig.patches:
    fig.annotate(format(p.get_height(), '.2f'), 
                   (p.get_x() + p.get_width() / 2., p.get_height()), 
                   ha = 'center', va = 'center', 
                   xytext = (0, 9), 
                   textcoords = 'offset points')
plt.ylabel('Конверсия в целевое действие/сессия')
plt.xlabel('Сегмент пользователей')
plt.title('Конверсия в целевое действие/сессия по сегментам')
plt.show()

- Теперь выведу график с конверсией из любого события в целевое событие по сегментам.
- Соотношения чисел похожи по масштабам, поэтому график будет примерно тот-же.

In [None]:
plt.figure(figsize=(12,8))
fig = sns.barplot(x=cluster_cr.index, y="cr_events", data=cluster_cr)
for p in fig.patches:
    fig.annotate(format(p.get_height(), '.2%'), 
                   (p.get_x() + p.get_width() / 2., p.get_height()), 
                   ha = 'center', va = 'center', 
                   xytext = (0, 9), 
                   textcoords = 'offset points')
plt.ylabel('Конверсия в целевое действие/все события')
plt.xlabel('Сегмент пользователей')
plt.title('Конверсия в целевое действие/все события по сегментам')
plt.show()

- Лидирует 4-й сегмент с наибольшей долей целевых событий на сессию и на общее число событий этого сегмента
- В прошлом пункте при рассчёте средней частоты событий в минуту по сегментам, у 4-го эта частота была наибольшей:
    - Вырисовывается сценнарий использоватния:
        - Пользователи приходят в приложение ненадолго, в среднем 283 секунды
        - Совершают события с самой высокой средней частотой 9 с/мин
        - Совершают пропорционально большинство целевых действий и относительно сеансов и относительно всех событий этих пользователей.
- 4-й сегмент самый малочисленный, но самый активный с позиции совершения `contacts_show`
    - Вероятно, в этом сегменте оказались те пользователи, для которых покупка товаров через приложение - обычное рутинное дело.
    - Для них стоит проводить отдельные тесты по эффективности подбора `tips_show`, с целью выявления лучшего алгоритма рекомендаций, который положительно влияет на рост коверсии (как относительно сессии, так и относительно всех совершённых событий).
- Также неплохой конверсией обладает самый многочисленный сегмент 1-ый:

    - 5,74% всех их событий - просмотр контактов.
    - 33% их сессий включает просмотр контактов.
    - Тест алгоритма подбора `tips_show` (и его влияния на `cr`) для этого сегмента - также необходим, поскольку суммарное количество целевых действий этого сегмента наибольшее во всей выборке. И даже при меньшем измененеии `cr` в эторм сегменте относительно `cr` 4-го сегмента мы можем получить бОльший прирост событий `contacts_show` в абсолютном выражении.
- Вышесказанное не означает, что остальные определённые сегменты надо оставить в стороне, это вопрос определения первоочередных приоритетов.

## Сегментировать пользователей по событиям (без кластеризации) и оценить конверсию в целевое событие по этим сегментам.

- Получу список всех пользовательских событий в порядке убывания их количества

In [None]:
df['event_name'].value_counts()

- Самое распространённое действие - `tips_show`. Оно вероятно было в логе у каждого пользователя (проверю)
- Следом идёт событие `photos_show`. Которое  могло быть не у всех пользователей (проверю)
- Далее событие `search_action`. Оно вероятно было в логе у каждого пользователя (проверю), потому что прежде чем открыть объявление, его надо сперва найти.
- Далее событие `advert_open`. Оно вероятно было в логе у каждого пользователя (проверю). Ведь чтобы посмотреть контакты продавца - делать это надо после открытия объявления этого продавца.
- Следом по популярности идёт целевое событие `contacts_show`, по которому я буду проверять конверсию в новых сегментах (сегментация по событиям без ML)
- События `map`, `favorites_add` и `tips_click` также использую для выбора сегментов.
---

**Сегментировать пользователей буду по принципу "никогда не совершали это действие" и применю его для следующих действий:**
- `photos_show`
- `map`              
- `favorites_add`
- `tips_click`

В качестве итога сравнения посмотрю по новым сегментам на конверсию относительно всех событий в `contacts_show`. И посмотрю, какие из сегментов, полученных с помощью алгоритма `k-means`входят в состав новых "сегментов по событиям" и в каких долях.

### Получу конверсию по событиям `cr_events` для пользователей, которые не смотрели фото и посмотрю в этом полученном сегменте доли кластеров от алгоритма `k-means`

- Получу `user_id` всех пользователей, кто смотрел фотографии в объявлениях.

In [None]:
photos_show_usr = df[df['event_name'] == 'photos_show'].groupby('user_id').agg({'user_id': 'first'})

- Теперь получу подмножество событий из датафрейма `df` для тех пользователей, кто не смотрел фото в течение записи лога

In [None]:
no_photo_show_df = df[~df['user_id'].isin(photos_show_usr.index)]

In [None]:
no_photo_show_df['event_name'].value_counts()

In [None]:
len(no_photo_show_df)

- Пользователи, которые не смотрят фото совершили большую часть событий
- Посчитаю их конверсию (все события - в целевое дейстие)

In [None]:
no_photo_cr = len(no_photo_show_df[no_photo_show_df['event_name'] == 'contacts_show']) / len(no_photo_show_df)

In [None]:
no_photo_cr

- Процент конверсии событий в `contacts_show` ближе всего к 1-му сегменту (`cr_events = 5.74%`) опредённому по алгоритму `k-means`.
- Проверю доли сегментов в выборке `no_photo_show_df`.

In [None]:
no_photo_show_df['cluster_km'].value_counts(normalize=True)

- И сразу бинго! Один из сегментов по `k-means` отсутствует полностью, вероятно из-за отсутствия события `photos_show`, что алгоритм кластеризации тоже учёл.
- Самая большая доля (71%) принадлежит 1-му сегменту, с подобной конверсией (5,74% по `k-means` группировке и 5,88% по группировке с исключением событий).
---

### Получу конверсию по событиям `cr_events` для пользователей, которые не смотрели карту и проверю в этом полученном сегменте доли кластеров от алгоритма `k-means`

- Получу `user_id` всех пользователей, кто смотрел карту в объявлениях.

In [None]:
map_usr = df[df['event_name'] == 'map'].groupby('user_id').agg({'user_id': 'first'})

- Теперь получу подмножество событий из датафрейма `df` для тех пользователей, кто не смотрел карту в течение записи лога

In [None]:
no_map_usr_df = df[~df['user_id'].isin(map_usr.index)]

In [None]:
no_map_usr_df['event_name'].value_counts()

In [None]:
len(no_map_usr_df)

- Пользователи, которые не смотрят карту совершили около половины всех событий
- Посчитаю их конверсию (все события - в целевое дейстие)

In [None]:
no_map_cr = len(no_map_usr_df[no_map_usr_df['event_name'] == 'contacts_show']) / len(no_map_usr_df)

In [None]:
no_map_cr

- Процент конверсии событий в `contacts_show` не является близким к какому-либо сегменту, опредённому по алгоритму `k-means`.
- Проверю доли сегментов в выборке `no_map_usr_df`.

In [None]:
no_map_usr_df['cluster_km'].value_counts(normalize=True)

- Тут заметные совпадения алгоритма `k-means` и сегментации по несовершённому событию закончились.
- Да видно, что преобладает 1-ый сегмент `k-means`, что не удивительно, потому что этот сегмент самый многочисленный - практически половина всех пользователей. 
---

In [None]:
df[df['cluster_km'] == 1]['user_id'].nunique() / df['user_id'].nunique()

### Получу конверсию по событиям `cr_events` для пользователей, которые не добавляли в избранное и посмотрю в этом полученном сегменте доли кластеров от алгоритма `k-means`

- Получу `user_id` всех пользователей, кто добавлял в избранное.

In [None]:
favorites_add_usr = df[df['event_name'] == 'favorites_add'].groupby('user_id').agg({'user_id': 'first'})

- Теперь получу подмножество событий из датафрейма `df` для тех пользователей, кто не добавлял в избранное в течение записи лога

In [None]:
no_favorites_add_df = df[~df['user_id'].isin(favorites_add_usr.index)]

In [None]:
no_favorites_add_df['event_name'].value_counts()

In [None]:
len(no_favorites_add_df) / len(df)

- Пользователи, которые не добавляют в избранное совершили большую часть событий (84% от общего числа)
- Посчитаю их конверсию (все события - в целевое дейстие)

In [None]:
no_favorites_add_cr = len(no_favorites_add_df[no_favorites_add_df['event_name'] == 'contacts_show']) / len(no_favorites_add_df)

In [None]:
no_favorites_add_cr

- Процент конверсии событий в `contacts_show` ближе всего к 1-му сегменту (`cr_events = 5.74%`) опредённому по алгоритму `k-means`.
- Проверю доли сегментов в выборке `no_favorites_add_df`.

In [None]:
no_favorites_add_df['cluster_km'].value_counts(normalize=True)

### Получу конверсию по событиям `cr_events` для пользователей, которые не кликали на рекомендации и посмотрю в этом полученном сегменте доли кластеров от алгоритма `k-means`

- Получу `user_id` всех пользователей, кто кликал на рекомендации.

In [None]:
tips_click_usr = df[df['event_name'] == 'tips_click'].groupby('user_id').agg({'user_id': 'first'})

- Теперь получу подмножество событий из датафрейма `df` для тех пользователей, кто не добавлял в избранное в течение записи лога

In [None]:
no_tips_click_df = df[~df['user_id'].isin(tips_click_usr.index)]

In [None]:
no_tips_click_df['event_name'].value_counts()

In [None]:
len(no_tips_click_df) / len(df)

- Пользователи, которые не добавляют в избранное совершили большую часть событий (83% от общего числа)
- Посчитаю их конверсию (все события - в целевое дейстие)

In [None]:
no_tips_click_cr = len(no_tips_click_df[no_tips_click_df['event_name'] == 'contacts_show']) / len(no_tips_click_df)

In [None]:
no_tips_click_cr

- Процент конверсии событий в `contacts_show` ближе всего к 1-му сегменту (`cr_events = 5.74%`) опредённому по алгоритму `k-means`.
- Проверю доли сегментов в выборке `no_tips_click_df`.

In [None]:
no_tips_click_df['cluster_km'].value_counts(normalize=True)

- Из анализа конверсии по событиям `cr_events` в сегментах по несовершённым действиям (их пользователям) прихожу к выводу: 
  - что отбрасывая одно несовершённое событие, я не учитываю какие именно наборы других событий остались у пользователей в сегменте.
  - таким образом мой "ручной алгоритм" основан на одном признаке - несовершённом событии.
  - а в матрице расстояний (для дендрограммы) и алгоритме `k-means` эти события связанны (отсутствие или наличие по всем событиям и формирует матрицу признаков)
  - к тому же существенные различия конверсии по событиям `cr_events` в сегментах полученных алгоритмом `k-means` говорят мне о разнице, между пользователями этих сегментов. Чего не наблюдается в сегментах по несовершённому событию, чья конверсия по событиям относительно близка к общей конверсии по всем пользователям в логе.

In [None]:
all_cr = len(df[df['event_name'] == 'contacts_show']) / len(df)

In [None]:
all_cr

In [None]:
print('Конверсия пользователей не смотревших фото:',round(no_photo_cr,3))
print('Конверсия пользователей не смотревших карту:',round(no_map_cr,3))
print('Конверсия пользователей не добавлявших в избранное:',round(no_favorites_add_cr,3))
print('Конверсия пользователей игнорирующих рекомендации:',round(no_tips_click_cr,3))
print('Конверсия в contacts_show всех пользователей:',round(all_cr,3))

- Не очень сильно отличается конверсия по сегментам собранным по принципу "не совершали событие"
    - Поэтому данный подход считаю менее удачным в сравнении с результатами алгоритма `k-means`
    - Конверсия по сегментам `k-means` выглядит вот так.

In [None]:
round(cluster_cr['cr_events'],3)

**Больший разброс значений конверсии более удобен для оценки и сравнения сегментов пользователей, поэтому алгоритм `k-means` предпочтительней в решении моей задачи**

## Вывод о пользователях (на основании их метрик):
- их ключевых характеристиках в рамках групп и возможных подходах к улучшению пользовательского опыта
- сравнить качество объединения пользователей с помощью кластеризации и обычной сегментации по наиболее распростарнённым событиям.
- **Выведу количество пользователей определённых алгоритмом `k-means` к каждому сегменту**

In [None]:
df.groupby('cluster_km', as_index=False)['user_id'].nunique()

- С точки зрения **`retention rate`** 
    - 0-й сегмент показывает наибольший процент удержания на все 3 последующие недели
    - 1-й и 2-й сегменты показывают наименьшие проценты удержания. Причём у 2-го сегмента ещё самая низкая конверсия в целевое действие.
    - На таких пользователях как раз стоит в первую очередь тестировать гипотезы по возвращению пользователей и повышению конверсии
        - Как вариант, собрать ретроспективные данные по тем, кто всё-таки сконвертировался или более похож на тех, кто сконвертировался (если не хватает данных по конверсии), и посмотреть категории объявлений, которые они смотрели и сопоставить с теми объявлениями, на которых они(или пользователи, на которых они похожи) сконвертировались.
        - На основе этих собранных данных тестировать систему рекомендаций, формирующую `tips_show` 
        - Усиливать (после согласования с маркетологами) рекомендации push-сообщениями и email-рассылкой.
---
- С точки зрения средней **длительности пользователской сессии**
    - Пользователи 3-го и 4-го сегментов обладают наименьшей средней длительностью сессии (до 300 секунд)
    - Но при этом они обладают далеко не самой низкой конверсей (4-го сегмент обладает самой высокой конверсией)
        - На данном этапе исследования я бы отнёс длительность сессии к сигнальной метрике, обозначающей некую ватерлинию. Если показатели по сегментам падают ниже средних 300 секунд и при этом в целевом действии тоже просадка - тогда пользователи менее заинтересованы и не находят нужного в приложении - надо их возвращать и корректировать предложение для них.
---
- **Частота совершения событий** отличает пользователей сегментов практически зеркально длительности сессии
    - Те пользователи, чьи сессии короче, совершают события с большей частотой
    - Самая высокая частота у 4-го сегмента.
        - В силу их самой высокой конверсии  (и по событиям и в перерасчёте на сессию), короткой сессии и высокой частоты, складывается предположение: это "перекупщики", которые уже приловчились к интерфейсу, и при небольшой своей численности совершают весомую долю сделок. Следует внимательно изучить этот сегмент пользователей и направить их деятельность не во вред сервису. Возможно, сделать специальные платные доп.опции мониторинга с оповещением.
---
- Средняя конверсия в целевое действие ` contacts_show` и выявила важнейшие различия между определёнными в `k-means` сегментами
    - Самый конверсионный сегмент 4-й я уже обвинил в корыстном умысле и предложил их платные доп.опции
    - Самый многочисленный сегмнет 1-й показывает вторую по порядку конверсию, которую можно и нужно растить
        - Учитывая тот факт, что это самый большой сегмент - в нём наибольший простор для A/B-тестов по части рекомендаций в `tips_show`
        - Также для самых медлительных участников 1-го сегмента (тех, чья частота - событие в минуту и больше) добавил бы в интерфейс подсветку наиболее оптимальных следующих нажатий на экране: мол, завис, друг? - жми сюда. Но естесственно в формате A/B теста 
     

# Проверить статистические гипотезы

## Проверить гипотезу о неравенстве  конверсий в `contacts_show` для пользователей, установивших приложение из разных истоников

-  Нулевая гипотеза Н0: конверсии равны для установивших по ссылкам yandex и google
-  Альтернативная гипотеза Н1 (двухсторонняя): конверсии не равны для установивших по ссылкам yandex и google
-  Оценка гипотез будет проводиться с помощью `proportions_ztest`
-  Уровень статистической значимости `alpha` задам равным `0.01`

-  Посмотрю, какие источники есть и каковы масштабы выборок по источникам `yandex` и `google`

In [None]:
# все события по источникам
source_events = df.groupby('source', as_index=False)['event_name'].count()

In [None]:
source_events

In [None]:
# просмотры контактов по источникам
source_conversions = (
    df[df['event_name'] == 'contacts_show']
    .groupby('source', as_index=False)['event_name'].count()
)

In [None]:
source_conversions

- Выборки по интересующим нас источникам отличаются менее чем в 2 раза. Считаю их соизмеримыми для сравнения пропорций.
- Поскольку сравнивать буду пропорции в z-test, подготовлю выборки для пропорций, а именно:
    - количества конверсионных событий в выборках `yandex` и `google`
    - количество всех событий в выборках `yandex` и `google`.
    - в данном случае я оцениваю именно по событиям, а не по пользователям и конверсионным действиям, потому что большинство пользователей за период записи лога заходили неоднократно и конверсионные действия некоторые пользователи тоже совершали не раз.

In [None]:
# количество конверсионных действий в группе google
google_cr = source_conversions.iloc[0][1]

In [None]:
# количество конверсионных действий в группе yandex
yandex_cr = source_conversions.iloc[2][1]

In [None]:
# количество всех событий в группе google
google_events = source_events.iloc[0][1]

In [None]:
# количество всех событий в группе yandex
yandex_events = source_events.iloc[2][1]

In [None]:
zstat, pval = proportions_ztest([google_cr, yandex_cr],[google_events, yandex_events])

In [None]:
alpha = 0.01

In [None]:
print('p-значение: ', pval)
if pval < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница.')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными.')

In [None]:
round(google_cr/google_events, 4)

In [None]:
round(yandex_cr/yandex_events, 4)

- Проверю ту же самую нулевую гипотезу, только альтернативная будет уже односторонней: конверсия (пропорция) в целевое событие в сегменте `google` больше.

In [None]:
zstat, pval = (
    proportions_ztest(
        [google_cr, yandex_cr],
        [google_events, yandex_events], 
        alternative='larger')
)

In [None]:
print('p-значение: ', pval)
if pval < alpha:
    print('Отвергаем нулевую гипотезу: у скачавших приложение из google доля целевых действий выше.')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными.')

- Доля конверсионных действий больше в сегменте пользователей, скачавших приложение с `google` для данных из нашего лога
- Для более серьёзных оценок стоит на более продолжительном отрезке времени проводить это исследование и с разными методиками

## Проверить гипотезу о неравенстве  конверсий в `contacts_show` для пользователей, которые смотрели фотографии в объявлении и не смотрели

-  Нулевая гипотеза Н0: конверсии равны для тех, кто совершал `photos_show` и не совершал.
-  Альтернативная гипотеза Н1 (двухсторонняя): конверсии не равны для тех, кто совершал `photos_show` и не совершал.
-  Оценка гипотез будет проводиться с помощью `proportions_ztest`
-  Уровень статистической значимости `alpha` задам равным `0.01`

- Возьму выборку событий пользователей, которые совершали просмотры фото и тех, кто не просматривал фото в объявлениях
    - Формировал их ранее, когда проверял сегментацию без алгоритмов кластеризации.

In [None]:
# количество всех событий в группе не смотрящих на фото
no_photo_events = df[~df['user_id'].isin(photos_show_usr.index)].shape[0]

In [None]:
# количество всех событий в группе смотрящих на фото
photos_show_events = df[df['user_id'].isin(photos_show_usr.index)].shape[0]

In [None]:
# количество конверсионных действий в группе не смотрящих на фото
no_photo_cr = df[(~df['user_id'].isin(photos_show_usr.index)) & (df['event_name']=='contacts_show')].shape[0]

In [None]:
# количество конверсионных действий в группе смотрящих на фото
photo_cr = df[(df['user_id'].isin(photos_show_usr.index)) & (df['event_name']=='contacts_show')].shape[0]

In [None]:
zstat, pval = proportions_ztest([no_photo_cr, photo_cr],[no_photo_events, photos_show_events])

In [None]:
print('p-значение: ', pval)
if pval < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница.')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными.')

In [None]:
round(no_photo_cr/no_photo_events, 4)

In [None]:
round(photo_cr/photos_show_events, 4)

- Проверю ту же самую нулевую гипотезу, только альтернативная будет уже односторонней: конверсия (пропорция) в целевое событие среди тех, кто просматривает фото, больше.

In [None]:
zstat, pval = (
    proportions_ztest(
        [no_photo_cr, photo_cr],
        [no_photo_events, photos_show_events], 
        alternative='smaller')
)

In [None]:
print('p-значение: ', pval)
if pval < alpha:
    print('Отвергаем нулевую гипотезу: среди тех, кто смотрит фото, доля целевых действий выше.')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными.')

- Доля конверсионных действий больше в сегменте пользователей, просматривающих фото (для данных из нашего лога)
- Поэтому стоит следить за качеством загружаемых фотографий, а в перспективе, возможно разработать алгоритм для автоматической модерации изображений (как есть в рекламных сервисах)

# Общий вывод по исследованию с описанием аудиторий и возможными подходами работы с ними.



- Среднее `DAU` в приложении 279.
- Среднее `WAU` составляет 1385,5
- Со второй недели число уникальных пользователей превышает 1400.
- Но после 3-й недели фиксирую спад.
- Это связано с показателем `retention rate`.

- За период записи лога:
    - Мода составляет 5 событий на пользователя
    - А максимум равен 478 событиям, что нельзя назвать аномалией на мой взгляд: это в среднем 17 событий в день. В обычной жизни многие пользуются приложениями годами на ежедневной основе, а не один раз.
    - Даже для отдельных, наиболее щедрых на события пользователей, актуально утверждение:
        - кто раньше начал пользоваться приложеним, тот успел больше совершить событий
        - поэтому считать таковых пользователей аномальными и исключать из кластеризации я не буду
---
- В качестве алгоритма для определения числа сегмнетов пользователей в выборке избрал агломеративную иерархическую кластеризацию
    - Результатом а стали 5 сегментов пользователей
    - Применил алгоритм k-means с числом кластеров 5, чтобы получить вектор сегментов (присоединил его к основному датафрейму)
---
- При изучении соотношения числа пользователей в сегменте и количества событий ими совершёнными выяснил:
    - Что есть сегменты с меньшим числом пользователей, но большим числом событий. Так пользователи 2-го сегмента при количестве почти равном 3-му совершили более чем в два раза больше событий. Активность полученных сегментов существенно различается.
---
- Коэффициент удержания `retention rate` по сегментам.    
    - На вторую неделю жизни разница в удержании пользователей между сегментами уже существенно отличается
    - Самые "верные" пользователи `0`- сегмента на протяжении всех недель демонстрируют наибольшие показатели по удержанию
    - У самого многочисленного `1`- сегмента коэффициент удержания один из худших, особенно после третьей недели жизни когорты 
    - С этим связано падение `WAU`, замеченное после третьей недели
    - Быстрее всех со второй недели разбегаются пользователи `2`- сегмента
    
         Этих ребят можно и нужно возвращать в приложение email рассылкой c лучшими подборками, сделанными на основе их поисковых действий. Тут также можно применить алгоритм машинного обучения по ретро-данным "кто что купил и что он перед этим смотрел и какие события совершал"
    
---

- Пользовательские сессии определил в привязке ко времени бездействия между событиями:
    - Если пользователь не был активен 7 и более минут - следующее за бездействием событие стартует следующую сессию
    - Это также обусловленно количеством контента (описание, фото, карты), которое может изучать средний пользователь до совершения следующего события.
    - Длительность сессии при этом не ограничена
    - **Для применения этого подхода к моим данным ввёл такое допущение:**
        - в данном логе любое самое первое событие для каждого пользователя является началом сессии, то есть нет пользователей, которые уже находились в сессии в момент начала записи лога. 
    
---
- Средний и медианный размеры пользовательских сессий:
    - У самого многочисленного 1-го сегмента самые большие серднее и медианное значение длительности сеанса: 593.2с ;378с соответственно 
    - Также у этого сегмента наибольшее количество выбросов (судя по выводу `boxplot`)
    - Хотя отбрасывать их безусловно не стоит, потому что максимальное значение в этих выбросах соответствует 2.14 часа
    - Кто-то? может, долго искал необходимую вещь. Быть может, подержанный макбук или что-то ещё, что может требует внимания и сравнения.
    - Также возвращаясь к `retention rate`, у этого сегмента он тоже самый низкий к 3-й неделе:
        - Начинает закрадываться мысль, что чем дольше средняя продолжительность сеанса в сегменте, тем лучше его пользователи находят то, что им нужно, получают контакты продавца и товар. После этого они выпадают из ближайших по неделям когорт.
    - В этой связи стоит работать над увеличением качества поиска как мотивации для увеличения средней пользовательской сессии.    


- Большинство сессий, в которых частота событий равна или выше 1-го события в секунду (60 в минуту)
    - Содержат в себе лишь 2 события
    - Лишь в 5 сессиях с такой высокой частотой было совершено от 6 до 15 событий
    - Подавляющее большинство, это всё-таки 2-3 события
    - Это по большей части автоматические события `tips_show`, на которые могли наложиться пользовательские тапы с минимальной задержкой. Или же быстрое пролистывание фото.
---

- Частота событий в минуту (потому что сессии не имеют одинаковой размерности)
    - Примечательно, что пользователи с самой длинной в среднем сессией (`1`-сегмент) обладают самыми низкими частотами событий в минуту (медиана на 0.9)
    - Ребята просто медленнее выбирают, поэтому в среднем больше сидят
    - Выделяется `2`-сегмент, у которого и сессия достаточно длинная (466.4-средняя; 289-медианна) и частота событий в минуту одна из самых высоких (и медиана 1.4 и среднее 4.6)
    - Одни из самых активных пользоватлей по частоте событий и длительности сессии пока получаются в сегменте 2
    
---

- Конверсия сегментов в целевое цействие `contacts_show`
    
    - Лидирует 4-й сегмент с наибольшей долей целевых событий на сессию и на общее число событий этого сегмента (тут показатели сногсшибательные 55.14%)
  - В прошлом пункте при рассчёте средней частоты событий в минуту по сегментам, у 4-го эта частота была наибольшей:
  - Вырисовывается сценнарий использоватния:
        - Пользователи приходят в приложение ненадолго: среднее 283с, медианна 168.5с
        - Совершают события с самой высокой частотой: среднее 9 соб/мин, медиана 1.5 соб/мин 
        - Совершают пропорционально большинство целевых действий и относительно сеансов и относительно всех событий этих пользователей.
        - 4-й сегмент самый малочисленный, но самый активный с позиции совершения `contacts_show`
        - Вероятно, в этом сегменте оказались те пользователи, для которых покупка товаров через приложение - обычное рутинное дело.
        - Для них стоит проводить отдельные тесты по эффективности подбора `tips_show`, с целью выявления лучшего алгоритма рекомендаций, который положительно влияет на рост коверсии (как относительно сессии, так и относительно всех совершённых событий).
    - Также неплохой конверсией обладает самый многочисленный сегмент 1-ый:
        - 5,74% всех их событий - просмотр контактов.
        - 33% их сессий включает просмотр контактов.
        - Тест алгоритма подбора `tips_show` (и его влияния на `cr`) для этого сегмента - также необходим, поскольку суммарное количество целевых действий этого сегмента наибольшее во всей выборке. И даже при меньшем измененеии `cr` в эторм сегменте относительно `cr` 4-го сегмента мы можем получить бОльший прирост событий `contacts_show` в абсолютном выражении.
- Вышесказанное не означает, что остальные определённые сегменты надо оставить в стороне, это вопрос определения первоочередных приоритетов.

---
- **Рекомендации для сегментов пользователей**
    - 1-й и 2-й сегменты показывают наименьшие проценты удержания. Причём у 2-го сегмента ещё самая низкая конверсия в целевое действие.
    - На таких пользователях как раз стоит в первую очередь тестировать гипотезы по возвращению пользователей и повышению конверсии
    - Как вариант, собрать ретроспективные данные по тем, кто всё-таки сконвертировался или более похож на тех, кто сконвертировался (если не хватает данных по конверсии), и посмотреть категории объявлений, которые они смотрели и сопоставить с теми объявлениями, на которых они(или пользователи, на которых они похожи) сконвертировались.
    - На основе этих собранных данных тестировать систему рекомендаций, формирующую `tips_show` 
    - Усиливать (после согласования с маркетологами) рекомендации push-сообщениями и email-рассылкой.
---
- С точки зрения средней **длительности пользователской сессии**
    - Пользователи 3-го и 4-го сегментов обладают наименьшей средней длительностью сессии (до 300 секунд)
    - Но при этом они обладают далеко не самой низкой конверсей (4-го сегмент обладает самой высокой конверсией)
    - На данном этапе исследования я бы отнёс длительность сессии к сигнальной метрике, обозначающей некую ватерлинию. Если показатели по сегментам падают ниже средних 300 секунд и при этом в целевом действии тоже просадка - тогда пользователи менее заинтересованы и не находят нужного в приложении - надо их возвращать и корректировать предложение для них. ВОзможные подходы описал в абзаце выше.
---
- **Частота совершения событий** отличает пользователей сегментов практически зеркально длительности сессии
    - Те пользователи, чьи сессии короче, совершают события с большей частотой
    - Самая высокая частота у 4-го сегмента.
    - В силу их самой высокой конверсии  (и по событиям и в перерасчёте на сессию), короткой сессии и высокой частоты, складывается предположение: это "перекупщики", которые уже приловчились к интерфейсу, и при небольшой своей численности совершают весомую долю сделок.
    - Следует внимательно изучить этот сегмент пользователей и направить их деятельность не во вред сервису. Возможно, сделать специальные платные доп.опции мониторинга с оповещением.
---
- **Средняя конверсия в целевое действие** ` contacts_show` и выявила важнейшие различия между определёнными в `k-means` сегментами
    - Самый конверсионный сегмент 4-й я уже обвинил в корыстном умысле и предложил их платные доп.опции
    - Самый многочисленный сегмнет 1-й показывает вторую по порядку конверсию, которую можно и нужно наращивать.
        - Учитывая тот факт, что это самый большой сегмент - в нём наибольший простор для A/B-тестов по части рекомендаций в `tips_show`
        - Также для самых медлительных участников 1-го сегмента (тех, чья частота - событие в минуту и больше) добавил бы в интерфейс подсветку наиболее оптимальных следующих нажатий на экране: мол, завис, друг? - жми сюда. Но естесственно в формате A/B теста 
     
---
- **Результаты проверок статистических гипотез**
  - Доля конверсионных действий больше в сегменте пользователей, скачавших приложение с `google` для данных из нашего лога
  - `google_cr = 0.0704` против `yandex_cr = 0.0594`


  - Доля конверсионных действий больше в сегменте пользователей, просматривающих фото (для данных из нашего лога)
  - `no_photo_cr = 0.0588` против `photo_cr = 0.0694`
  - Поэтому стоит следить за качеством загружаемых фотографий, а в перспективе, возможно разработать алгоритм для автоматической модерации изображений (как есть в рекламных сервисах)
    







<div class="alert alert-success" style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid " > <b>Комментарии от тимлида ✔️ : </b> 
    
Спасибо за декомпозицию! По общей структуре всё отлично и все подпункты расписаны подробно. Ты хорошо постарался)
    
Единственное, DAU\WAU логичнее отнести к исследовательскому этапу, а не кластеризации.
    
А в целом, получилась достаточно грамотная декомпозиция.
    
Собственная гипотеза рабочая. Данные результаты будут полезны для отдела менеджмента, чтобы оценить добавление этого функционала
    
Можно приступать к выполнения проекта.
</div>