# Проект "Мобильное приложение — Анализ поведения пользователей в мобильном приложении «Ненужные вещи»"

## Декомпозиция
Для выполнения проекта потребуется декомпозировать глобальные цели проекта в отдельные последовательные задачи, выполнение которых приведет к поставленной и уже проясненной цели.  
Для начала ознакомимся с ТЗ.

### Цели и задачи (формулировка заказчика)

**Цели**:
1. управление вовлеченностью клиента, путем адаптации приложения по целевой и смежной аудитории.
2. выявить гипотезы, на основе которых будут выявлены пути улучшения пользовательского опыта.

**Задача**:
1. Проанализируйте связь целевого события — просмотра контактов — и других действий пользователей.
2. Оцените, какие действия чаще совершают те пользователи, которые просматривают контакты.
    - Проведите исследовательский анализ данных
    - Проанализируйте влияние событий на совершение целевого события
    - Проверьте статистические гипотезы:
        - Одни пользователи совершают действия `tips_show` и `tips_click` , другие — только `tips_show`. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.
        - Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.
        
### Описание данных
Для реализации проекта мы располагаем 2 датасетами: `mobile_dataset.csv` и `mobile_sources.csv`.  

Датасет `mobile_sources.csv` содержит следующие поля:
- `userId` — идентификатор пользователя,
- `source`— источник, с которого пользователь установил приложение.

Датасет `mobile_dataset.csv` содержит следующие поля:
- `event.time` — время совершения,
- `user.id` — идентификатор пользователя,
- `event.name` — действие пользователя.

Также заказчик уточняет виды действий, атрибуцированных в системе сбора данных. Заказчик определяет следующие виды действий:
- `advert_open` — открытие карточки объявления,
- `photos_show` — просмотр фотографий в объявлении,
- `tips_show` — просмотр рекомендованных объявлений,
- `tips_click` — клик по рекомендованному объявлению,
- `contacts_show` и `show_contacts` — посмотр номер телефона,
- `contacts_call` — звонок по номеру из объявления,
- `map` — открытие карты объявлений,
- `search_1` — `search_7` — разные действия, связанные с поиском по сайту,
- `favorites_add` — добавдение объявлений в избранное.

### Предварительные вопросы
1. Почему действие `просмотр контактов` формулируется как целевое событие? Оно важно для бизнес-модели (за это действие пользователи платят)?
2. Мы видим разные атрибуцированные действия в данных приложения, но какова пользовательская воронка? Или предполагается, что проект прояснит воронку?
3. Проверка гипотезы о равенстве/различии конверсии в просмотр контактов опять-таки выделяет действие `просмотр контактов`, поэтому требуется уточнение по бизнес-модели и роли этого действия в ней.
4. Где планируется использовать результаты статистических проверок?

#### Уточнения заказчика (01.07)
1. Действие `просмотр контактов` непосредственно связано с бизнес-моделью продукта, т.к. за реализацию продажи взымается процент за услуги платформы.
2. Предполагется, что воронка будет воссоздана в процессе анализа. Причем для разных категорий пользователей воронка может отличаться, для визуализации чего потребуется диаграмма Санкея.
3. Гипотеза о равенстве/различии конверсии в просмотр контактов сформулирована относительно полезных для продукта действий пользователей.
4. Результаты статистических проверок гипотез будут использованы продуктовой командой в лице продукт-менеджера для дальнейшего формирования стратегии маркетинга и прочих решений по улучшению пользовательского опыта.

### План декомпозиции
Теперь, когда исходные данные получены, а первичный запрос заказчика проартикулирован, мы можем наметить план по декомпозиции выполнения проекта. Каждый этап мы прокоментируем и подсветим неявные или плохо проартикулированные моменты для точной постановки задач как отдельных шагов для реализации целей проекта. Будем работать по такому плану:   
1. Ознакомимся с данными (загрузка базовых библиотек, вывод первых строк датафрейма, сводка по располагаемым данным).
2. Выявим потребность в исследовательском анализе данных.
3. На основе основных вопросов исследования обозначим методологию поиска ответа на эти вопросы.
4. Сформулируем статистические гипотезы для дальнейшие их проверки в проекте.
5. Наметим предполагаемые выводы.

## Первый взгляд на данные
На данном этапе мы ознакомимся с располагаемыми данными, а также выявим необходимые процедуры для данных в проекте и формулируем уточняющие вопросы.

In [1]:
# импортируем библиотеки
import pandas as pd
import datetime as dt

In [2]:
# загружаем датасеты в датафреймы
mobile = pd.read_csv('https://drive.google.com/uc?id=1gqRSe_Vs6z605PNy1cHl54n8mm_e8w9t')
mobile_sources = pd.read_csv('https://drive.google.com/uc?id=18MMR4jowSWnBuqfzzRAg2WQpBQ6XIDt9')

In [3]:
# ознакомимся с полученными датафреймами
display(mobile.head())
display(mobile_sources.head())

Unnamed: 0,event.time,event.name,user.id
0,2019-10-07 00:00:00.431357,advert_open,020292ab-89bc-4156-9acf-68bc2783f894
1,2019-10-07 00:00:01.236320,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
2,2019-10-07 00:00:02.245341,tips_show,cf7eda61-9349-469f-ac27-e5b6f5ec475c
3,2019-10-07 00:00:07.039334,tips_show,020292ab-89bc-4156-9acf-68bc2783f894
4,2019-10-07 00:00:56.319813,advert_open,cf7eda61-9349-469f-ac27-e5b6f5ec475c


Unnamed: 0,userId,source
0,020292ab-89bc-4156-9acf-68bc2783f894,other
1,cf7eda61-9349-469f-ac27-e5b6f5ec475c,yandex
2,8c356c42-3ba9-4cb6-80b8-3f868d0192c3,yandex
3,d9b06b47-0f36-419b-bbb0-3533e582a6cb,other
4,f32e1e2a-3027-4693-b793-b7b3ff274439,google


Как мы видим, датафреймы соответствуют описанию, представленному заказчиком. Посмотрим общие структурные особенности представленных датафреймов.

In [4]:
# выведем информационную сводку по структуре и типам датафреймов
display(mobile.info())
display(mobile_sources.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74197 entries, 0 to 74196
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   event.time  74197 non-null  object
 1   event.name  74197 non-null  object
 2   user.id     74197 non-null  object
dtypes: object(3)
memory usage: 1.7+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4293 entries, 0 to 4292
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userId  4293 non-null   object
 1   source  4293 non-null   object
dtypes: object(2)
memory usage: 67.2+ KB


None

Как мы видим, названия столбцов не соответствуют общей практике наименования (либо через точку, либо т.н. camelCase). Также столбец с датой `event.time` числится как `object`, хотя предполагается `datetime`. Явных пропусков нет, однако это не значит, что нет неявных. То же касается и как явных, так и неявных дубликатов.  
Дополнительно стоит отметит, что действия `contacts_show` и `show_contacts` (посмотр номер телефона) представлены двумя строками, хотя действие одно, поэтому на этапе предобработки потребуется свести их к одной строке. Это же справедливо и для `search_1` — `search_7` (разные действия, связанные с поиском по сайту) при условии, что детализация таковых действий не несет необходимого разграничения. Если все-таки такая детализация необходима, требуется уточнить, какое действие поиска скрыто под каждым номером.  
Таким образом, исследование потребует этапа предобработки данных с изменением типа данных и наименований столбцов у датафреймов. Дополнительно потребуется привести к одному значению разные наименования событий.  
Рассмотрим, какие аспекты потребуется подсветить на этапе исследовательского анализа данных.

## Исследовательский анализ данных
Для начала необходимо выяснить, за какой период представлены данные. Для этого приведем поля с датами к типу `datetime`.

In [5]:
# приводим временные метки в виде строк к типу datetime
mobile['event.time'] = pd.to_datetime(mobile['event.time'])

# проверим результат, отобразив типы данных датафрейма
mobile.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74197 entries, 0 to 74196
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   event.time  74197 non-null  datetime64[ns]
 1   event.name  74197 non-null  object        
 2   user.id     74197 non-null  object        
dtypes: datetime64[ns](1), object(2)
memory usage: 1.7+ MB


In [6]:
# выведем минимальное и максимальное значения в столбце с временными метками
f'Данные представлены за период: {mobile["event.time"].min()} — {mobile["event.time"].max()}'

'Данные представлены за период: 2019-10-07 00:00:00.431357 — 2019-11-03 23:58:12.532487'

Мы располагаем данными примерно за 1 месяц: с 7 октября по 3 ноября 2019 года. Такой период ограничивает рассчет некоторых метрик ввиду огрниченного лайфтайма.  
Также в ходе исследовательского анализа нам потребуется рассчитать следующие показатели:
- число пользователей, пришедших из каждого источника,
- число уникальных пользователей за рассматриваемый период,
- число пользователей, совершивших действия на каждом этапе воронки,
- конверсию для каждого действия, включая целевое,
- тайм-аут сессии пользователя.

## Основные вопросы исследования
В проекте заказчик уточнил основные вопросы исследования, на которых в проекте ожидаются ответы:  
1. анализ связей целевого события (просмотр контактов) и других действий пользователей:
    - отобрать среди сессий сценарии, приводящие к просмотру контактов,
    - рассчитать воронки по основным сценариям в разрезе уникальных пользователей.
2. оценка самых частотных действий пользователей, которые просматривают контакты:
    - рассчитать относительную частоту событий в разрезе 2 групп пользователей:
        - пользователи, просматривавшие контакты (`contacts_show`),
        - пользователи, не просматривавшие контакты.
        
Для ответа на вопросы исследования потребуется совершить следующие шаги:
- выявить количество и состав сессий за располагаемый период на каждого пользователя,
- ограничить анализ сессиями, включающими просмотр контактов,
- по ограниченным сессиям выявить наиболее частотные паттерны, складывающиеся в сценарии,
- по выявленным сценариям рассчитать конверсию на каждом этапе, включая целевое действие,
- выявить узкие места для дальнейшей корректировки стратегии улучшения пользовательского опыта продуктовой командой,
- по событиям, входящим в выявленные сценарии, рассчитать относительную частотность у пользователей с целевым действием и без него,
- выявить похожие паттерны у целевых и нецелевых пользователей для перенаправления нецелевой группы по сценарию целевой.

## Проверка гипотез
В результате исследования потребуется проверить следующие продуктовые гипотезы:  

1. Одни пользователи совершают действия `tips_show` и `tips_click`, другие — только `tips_show`. Проверьте гипотезу: конверсия в просмотры контактов различается у этих двух групп.
2. Пользователи из `yandex` и `google` имеют большую конверсию в просмотр контактов, чем пользователи из прочих источников.  

Вторая гипотеза будет особенно полезна для маркетинга в контексте дальнейшего продвижения и привлечения качественных пользователей.  

Перед проверкой гипотез потребуется проверка распределений на нормальность.

### Формулировка 1-ой статистической гипотезы
Если мы сравниваем конверсии двух групп пользователей, то нулевая и алтернативная гипотезы будут следующими:
- $ H_0 = $ **доли конверсии в просмотр контактов у групп с действиями `tips_show` и `tips_click` и только `tips_show` равны**
- $ H_1 = $ **доли конверсии в просмотр контактов у групп с действиями `tips_show` и `tips_click` и только `tips_show` не равны**

Поскольку мы проверяем доли, то в качестве стат. критерия будем использовать Z-критерий, который высчитывается по следующей формуле:  

$\LARGE Z \approx \frac{(P_1-P_2)-(\pi_1-\pi_2)}{\sqrt{P(1-P)(1/n_1+1/n_2)}}$

Поскольку множественная проверка гипотез не предполагается, то использование поправок для нивелирования $FWER$ не потребуется.

### Формулировка 2-ой статистической гипотезы
Если мы сравниваем конверсии двух групп пользователей, то нулевая и алтернативная гипотезы будут следующими:
- $ H_0 = $ **доли конверсии в просмотр контактов у пользователей, пришедших из источников `yandex` и `google`, и у пользователей, пришедших из прочих источников, равны**
- $ H_1 = $ **доли конверсии в просмотр контактов у пользователей, пришедших из источников `yandex` и `google`, и у пользователей, пришедших из прочих источников, не равны**

В этом случае мы также проверяем доли, поэтому в качестве критерия будем использовать тот же Z-критерий. Множественная проверка гипотез также не предполагается.

## Предполагаемые выводы
В качестве выводов ожидаются не только непосредственные результаты каждого этапа, но и конкретные ответы на вопросы и рекомендации для продуктовой команды, а именно:
- наиболее частотные сценарии пользовательского поведения, приводящие к просмотру контактов;
- воронка и конверсия в целевое действие у каждого сценария с фокусом на узкие места;
- самые частотные действия как у пользователей с целевым дейтсвием, так и у пользователей без него с фокусом на расхождения нецелевых пользователей от целевых;
- точки перенаправления нецелевых пользователей по сценарию с целевым действием;
- помогают ли рекомендации приложения совершить пользователю целевое действие;
- на каких источниках продвижения следует сфокусироваться маркетингу, если конверсии у пользователей с разными источниками не равны.