## Проект: Анализ бизнес-показателей

### Описание проекта
 Вы — маркетинговый аналитик развлекательного приложения Procrastinate Pro+. Несмотря на огромные вложения в рекламу, последние несколько месяцев компания терпит убытки. 
#### Задача — разобраться в причинах и помочь компании выйти в плюс.

##### Предстоит изучить:
* откуда приходят пользователи и какими устройствами они пользуются,
* сколько стоит привлечение пользователей из различных рекламных каналов;
* сколько денег приносит каждый клиент,
* когда расходы на привлечение клиента окупаются,
* какие факторы мешают привлечению клиентов.

#### Описание данных
 В вашем распоряжении три датасета. Файл visits_info_short.csv хранит лог сервера с информацией о посещениях сайта, orders_info_short.csv — информацию о заказах, а costs_info_short.csv — информацию о расходах на рекламу.
 
##### Структура visits_info_short.csv:
* User Id — уникальный идентификатор пользователя,
* Region — страна пользователя,
* Device — тип устройства пользователя,
* Channel — идентификатор источника перехода,
* Session Start — дата и время начала сессии,
* Session End — дата и время окончания сессии.
##### Структура orders_info_short.csv:
* User Id — уникальный идентификатор пользователя,
* Event Dt — дата и время покупки,
* Revenue — сумма заказа.
##### Структура costs_info_short.csv:
* dt — дата проведения рекламной кампании,
* Channel — идентификатор рекламного источника,
* costs — расходы на эту кампанию.

### План работы выполнения работы
#### Шаг 1. Загрузка данных и подготовка их к анализу
- Загрузка данных о визитах, заказах и рекламных расходах из CSV-файлов в переменные.
- Изучение данные и выполние предобработки. 
- Проверка на наличие в данных пропусков и дубликатов? 
- Приведение типов данных во всех колонках к соответствующим сохранённым в них значениям. 

#### Шаг 2. Задание функций для расчёта и анализа LTV, ROI, удержания и конверсии.
- Задание функций  для формирования профилей, для расчета LTV, CAC и ROI:
get_profiles() — для создания профилей пользователей,
get_retention() — для подсчёта Retention Rate,
get_conversion() — для подсчёта конверсии,
get_ltv() — для подсчёта LTV.
- Задание функций для построения графиков:
filter_data() — для сглаживания данных,
plot_retention() — для построения графика Retention Rate,
plot_conversion() — для построения графика конверсии,
plot_ltv_roi — для визуализации LTV и ROI.

#### Шаг 3. Исследовательский анализ данных
- Составление профилей пользователей. 
- Определение минимальной и максимальной даты привлечения пользователей.
- Определение стран из которых пользователи приходят в приложение и на какую страну приходится больше всего платящих пользователей. 
- Построение таблицы, отражающей количество пользователей и долю платящих из каждой страны.
- Опереление устройств, которыми пользуются клиенты и какие устройства предпочитают платящие пользователи. 
- Построение таблицы, отражающей количество пользователей и долю платящих для каждого устройства.
- Изучение рекламных источников привлечения и определение каналов, из которых пришло больше всего платящих пользователей. - - Построение таблицы, отражающей количество пользователей и долю платящих для каждого канала привлечения.
- Формирование выводов.

#### Шаг 4. Маркетинг
- Определение суммы расходов на маркетинг.
- Опереление, как траты распределены по рекламным источникам, то есть сколько денег потратили на каждый источник.
- Построение визуализации динамики изменения расходов во времени (по неделям и месяцам) по каждому источнику. 
- Опереление, сколько в среднем стоило привлечение одного пользователя (CAC) из каждого источника. 
- Формирование промежуточных выводов.

#### Шаг 5. Оценка окупаемости рекламы
- Используя графики LTV, ROI и CAC, анализ окупаемости рекламы. 
- Анализ окупаемости рекламы c помощью графиков LTV и ROI, а также графики динамики LTV, CAC и ROI.
- Проверка конверсии пользователей и динамики её изменения. Проверка удержания пользователей. Построение графиков конверсии и удержания.
- Анализ окупаемости рекламы с разбивкой по устройствам. Построение графиков LTV и ROI, а также графиков динамики LTV, CAC и ROI.
- Анализ окупаемости рекламы с разбивкой по странам. Построение графиков LTV и ROI, а также графиков динамики LTV, CAC и ROI.
- Анализ окупаемости рекламы с разбивкой по рекламным каналам. Построение графиков LTV и ROI, а также графиков динамики LTV, CAC и ROI.
Ответ на вопросы:
- Окупается ли реклама, направленная на привлечение пользователей в целом?
- Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы?
- Чем могут быть вызваны проблемы окупаемости?
- Вывод, опредение возможных причин обнаруженных проблем и  определение промежуточных рекомендаций для рекламного отдела.

#### Шаг 6. Выводы
- Выделение причин неэффективности привлечения пользователей.
- Формулирование рекомендаций для отдела маркетинга.

In [None]:
# импортирую библиотеки
import pandas as pd #импортировал библиотеку pandas
import matplotlib.pyplot as plt #импортировал библиотеку mathplotlib
import seaborn as sns #импортировал библиотеку seaborn
import numpy as np #импортировал библиотеку numpy
from scipy import stats as st # из библиотеки scipy импортировал модуль stats
from datetime import date, datetime, timedelta  # из библиотеки datetime импортировал модули datetime, timedelta

### Шаг 1. Загрузка данных и подготовка к анализу

In [None]:
# загружаю данные о посещения сайта
try:
    visits = pd.read_csv(r"D:\DOCS\datasets\Проект аналитика бизнес показателей/visits_info_short.csv")
except FileNotFoundError:
    visits = pd.read_csv('/datasets/visits_info_short.csv')

# загружаю информацию о заказах 
try:
    orders = pd.read_csv(r"D:\DOCS\datasets\Проект аналитика бизнес показателей/orders_info_short.csv")
except FileNotFoundError:
    orders = pd.read_csv('/datasets/orders_info_short.csv')

# загружаю информацию о расходах на рекламу
try:
    costs = pd.read_csv(r"D:\DOCS\datasets\Проект аналитика бизнес показателей/costs_info_short.csv")
except FileNotFoundError:
    costs = pd.read_csv('/datasets/costs_info_short.csv')

In [None]:
visits.head(10) # Вывел первые 10 строчек датафрейма visits на экран с целью изучения данных

In [None]:
visits.info(); #получил основную информацию о датафрейме visits

In [None]:
visits.nunique() # получил количество уникальных значений в столбцах датафрейма visits. 
# данные в столбце user_id могут дублироваться в связи с тем, что пользованиель с уникальным id 
# может заходить на сайт несколько раз

In [None]:
visits.isna().sum() #получил количество пропусков в каждом столбце

In [None]:
# выполнил проверку на дубликаты
visits.duplicated().sum()

In [None]:
orders.head(10) # вывел первые 10 строчек датафрейма orders на экран с целью изучения данных

In [None]:
orders.info(); # получил основную информацию о датафрейме visits

In [None]:
orders.nunique() # получил количество уникальных значений в столбцах датафрейма orders

In [None]:
orders.isna().sum() # получил количество пропусков в каждом столбце

In [None]:
# выполнил проверку на дубликаты
orders.duplicated().sum()

In [None]:
costs.head(10) # вывел первые 10 строчек датафрейма costs на экран с целью изучения данных

In [None]:
costs.info(); #получил основную информацию о датафрейме costs

In [None]:
costs.nunique() # получил количество уникальных значений в столбцах датафрейма costs

In [None]:
costs.isna().sum() # получил количество пропусков в каждом столбце

In [None]:
# выполнил проверку на дубликаты
costs.duplicated().sum()

In [None]:
visits.columns = visits.columns.str.lower() # привел названия столбцов датафрейма visits  к нижнему регистру

In [None]:
# заменил пробелы в названиях столбцов датафрейма visits на нижнее подчеркивание
visits = visits.rename(
    columns = {'session start' : 'session_start',
               'session end' : 'session_end',
               'user id' : 'user_id'}
)

In [None]:
# Check
visits.head(5)

In [None]:
# привел данные в столбцах session_start и session_end датафрейма visits  к типу datetime
visits['session_start'] = pd.to_datetime(visits['session_start'])
visits['session_end'] = pd.to_datetime(visits['session_end'])

In [None]:
# Check
visits.info();

In [None]:
orders.columns = orders.columns.str.lower() # привел названия столбцов датафрейма orders к нижнему регистру

In [None]:
# заменил пробелы в названиях столбцов датафрейма orders на нижнее подчеркивание
orders = orders.rename(
    columns = {'user id' : 'user_id' ,
               'event dt' : 'event_dt'}
)

In [None]:
# Check
orders.head(5)

In [None]:
# привел данные в столбце event_dt датафрейма orders к типу datetime
orders['event_dt'] = pd.to_datetime(orders['event_dt'])

In [None]:
# Check
orders.info();

In [None]:
costs.columns = costs.columns.str.lower() # привел названия столбцов датафрейма costs к нижнему регистру

In [None]:
# Check
costs.head(5)

In [None]:
# привел данные в столбце dt датафрейма costs к типу datetime
costs['dt'] = pd.to_datetime(costs['dt'])

In [None]:
# Check
costs.info();

* В датафрейме visits выполнено приведение названий столбцов к нижнему регистру, переименование столбцов. Столбцы ['session_start'] и ['session_end'] приведены к формату datetime. Пропусков и дубликатов в датафрейме не обнаружено.
* В датафрейме orders выполнено приведение названий столбцов к нижнему регистру, переименование столбцов. Столбец ['event_dt'] приведен к формату datetime. Пропусков и дубликатов в датафрейме не обнаружено.
* В датафрейме costs выполнено приведение названий столбцов к нижнему регистру. Столбец ['dt'] приведен к формату datetime. Пропусков и дубликатов в датафрейме не обнаружено.
#### Данные готовы к анализу

### Шаг 2.1 Функции для расчёта и анализа LTV, ROI, удержания и конверсии. Получения профилей пользователей

In [None]:
# функция для расчета LTV, CAC и ROI
def get_ltv(
    profiles,
    orders,
    observation_date,
    horizon_days,
    dimensions=[],
    ignore_horizon=False,
):

    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')
    # добавляем данные о покупках в профили
    result_raw = result_raw.merge(
        orders[['user_id', 'event_dt', 'revenue']], on='user_id', how='left'
    )
    # рассчитываем лайфтайм пользователя для каждой покупки
    result_raw['lifetime'] = (
        result_raw['event_dt'] - result_raw['first_ts']
    ).dt.days
    # группируем по cohort, если в dimensions ничего нет
    if len(dimensions) == 0:
        result_raw['cohort'] = 'All users'
        dimensions = dimensions + ['cohort']

    # функция группировки по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        # строим «треугольную» таблицу выручки
        result = df.pivot_table(
            index=dims, columns='lifetime', values='revenue', aggfunc='sum'
        )
        # находим сумму выручки с накоплением
        result = result.fillna(0).cumsum(axis=1)
        # вычисляем размеры когорт
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        # объединяем размеры когорт и таблицу выручки
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        # считаем LTV: делим каждую «ячейку» в строке на размер когорты
        result = result.div(result['cohort_size'], axis=0)
        # исключаем все лайфтаймы, превышающие горизонт анализа
        result = result[['cohort_size'] + list(range(horizon_days))]
        # восстанавливаем размеры когорт
        result['cohort_size'] = cohort_sizes

        # собираем датафрейм с данными пользователей и значениями CAC, 
        # добавляя параметры из dimensions
        cac = df[['user_id', 'acquisition_cost'] + dims].drop_duplicates()

        # считаем средний CAC по параметрам из dimensions
        cac = (
            cac.groupby(dims)
            .agg({'acquisition_cost': 'mean'})
            .rename(columns={'acquisition_cost': 'cac'})
        )

        # считаем ROI: делим LTV на CAC
        roi = result.div(cac['cac'], axis=0)

        # удаляем строки с бесконечным ROI
        roi = roi[~roi['cohort_size'].isin([np.inf])]

        # восстанавливаем размеры когорт в таблице ROI
        roi['cohort_size'] = cohort_sizes

        # добавляем CAC в таблицу ROI
        roi['cac'] = cac['cac']

        # в финальной таблице оставляем размеры когорт, CAC
        # и ROI в лайфтаймы, не превышающие горизонт анализа
        roi = roi[['cohort_size', 'cac'] + list(range(horizon_days))]

        # возвращаем таблицы LTV и ROI
        return result, roi

    # получаем таблицы LTV и ROI
    result_grouped, roi_grouped = group_by_dimensions(
        result_raw, dimensions, horizon_days
    )

    # для таблиц динамики убираем 'cohort' из dimensions
    if 'cohort' in dimensions:
        dimensions = []

    # получаем таблицы динамики LTV и ROI
    result_in_time, roi_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    return (
        result_raw,  # сырые данные
        result_grouped,  # таблица LTV
        result_in_time,  # таблица динамики LTV
        roi_grouped,  # таблица ROI
        roi_in_time,  # таблица динамики ROI
    ) 

In [None]:
# функция для расчета коэффициента удержания (Retention)
def get_retention(
    profiles,
    sessions,
    observation_date,
    horizon_days,
    dimensions=[],
    ignore_horizon=False,
):

    # добавляем столбец payer в передаваемый dimensions список
    dimensions = ['payer'] + dimensions

    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')

    # собираем «сырые» данные для расчёта удержания
    result_raw = result_raw.merge(
        sessions[['user_id', 'session_start']], on='user_id', how='left'
    )
    result_raw['lifetime'] = (
        result_raw['session_start'] - result_raw['first_ts']
    ).dt.days

    # функция для группировки таблицы по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        result = df.pivot_table(
            index=dims, columns='lifetime', values='user_id', aggfunc='nunique'
        )
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        result = result.div(result['cohort_size'], axis=0)
        result = result[['cohort_size'] + list(range(horizon_days))]
        result['cohort_size'] = cohort_sizes
        return result

    # получаем таблицу удержания
    result_grouped = group_by_dimensions(result_raw, dimensions, horizon_days)

    # получаем таблицу динамики удержания
    result_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    # возвращаем обе таблицы и сырые данные
    return result_raw, result_grouped, result_in_time 

In [None]:
# функция для расчета конверсии (Conversion)
def get_conversion(profiles, 
                   orders, 
                   observation_date, 
                   harizom_days, 
                   dimensions = [], 
                   ignore_horizon = False
):
    
    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')
    
    # определяем дату и время первой покупки для каждого пользователя
    first_purchases = (
        orders.sort_values(by=['user_id', 'event_dt'])
        .groupby('user_id')
        .agg({'event_dt': 'first'})
        .reset_index()
    )

    # добавляем данные о покупках в профили
    result_raw = result_raw.merge(
        first_purchases[['user_id', 'event_dt']], on='user_id', how='left'
    )

    # рассчитываем лайфтайм для каждой покупки
    result_raw['lifetime'] = (
        result_raw['event_dt'] - result_raw['first_ts']
    ).dt.days
    
    # группируем по cohort, если в dimensions ничего нет
    if len(dimensions) == 0:
        result_raw['cohort'] = 'All users' 
        dimensions = dimensions + ['cohort']

    # функция для группировки таблицы по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        result = df.pivot_table(
            index=dims, columns='lifetime', values='user_id', aggfunc='nunique'
        )
        result = result.fillna(0).cumsum(axis = 1)
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        # делим каждую «ячейку» в строке на размер когорты
        # и получаем conversion rate
        result = result.div(result['cohort_size'], axis=0)
        result = result[['cohort_size'] + list(range(horizon_days))]
        result['cohort_size'] = cohort_sizes
        return result

    # получаем таблицу конверсии
    result_grouped = group_by_dimensions(result_raw, dimensions, horizon_days)

    # для таблицы динамики конверсии убираем 'cohort' из dimensions
    if 'cohort' in dimensions: 
        dimensions = []

    # получаем таблицу динамики конверсии
    result_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    # возвращаем обе таблицы и сырые данные
    return result_raw, result_grouped, result_in_time 

In [None]:
# функция для создания пользовательских профилей
def get_profiles(sessions, orders, ad_costs):

    # находим параметры первых посещений
    profiles = (
        sessions.sort_values(by=['user_id', 'session_start'])
        .groupby('user_id')
        .agg(
            {
                'session_start': 'first',
                'channel': 'first',
                'device': 'first',
                'region': 'first',
            }
        )
        .rename(columns={'session_start': 'first_ts'})
        .reset_index()
    )

    # для когортного анализа определяем дату первого посещения
    # и первый день месяца, в который это посещение произошло
    profiles['dt'] = pd.to_datetime(profiles['first_ts']).dt.date
    profiles['dt'] = pd.to_datetime(profiles['dt'], format="%Y-%m-%d")
    profiles['month'] = profiles['first_ts'].astype('datetime64[M]')

    # добавляем признак платящих пользователей
    profiles['payer'] = profiles['user_id'].isin(orders['user_id'].unique())


    # считаем количество уникальных пользователей
    # с одинаковыми источником и датой привлечения
    new_users = (
        profiles.groupby(['dt', 'channel'])
        .agg({'user_id': 'nunique'})
        .rename(columns={'user_id': 'unique_users'})
        .reset_index()
    )

    # объединяем траты на рекламу и число привлечённых пользователей
    ad_costs = ad_costs.merge(new_users, on=['dt', 'channel'], how='left')

    # делим рекламные расходы на число привлечённых пользователей
    # результаты сохраним в столбец acquisition_cost (CAC)
    ad_costs['acquisition_cost'] = ad_costs['costs'] / ad_costs['unique_users']

    # добавляем стоимость привлечения в профили
    profiles = profiles.merge(
        ad_costs[['dt', 'channel', 'acquisition_cost']],
        on=['dt', 'channel'],
        how='left',
    )

    # стоимость привлечения органических пользователей равна нулю
    profiles['acquisition_cost'] = profiles['acquisition_cost'].fillna(0)

    return profiles

### Шаг 2.2 Функции для расчёта сглаживания графиков. Визуализации LTV, CAC и ROI, конверсии и удержания пользователей.

In [None]:
# функция для сглаживания графиков
def filter_data(df, window):
    # для каждого столбца применяем скользящее среднее
    for column in df.columns.values:
        df[column] = df[column].rolling(window).mean() 
    return df 

In [None]:
# функция для визуализации LTV, CAC и ROI
def plot_ltv_roi(ltv, ltv_history, roi, roi_history, horizon, window=7):

    # задаём сетку отрисовки графиков
    plt.figure(figsize=(15, 25))

    # из таблицы ltv исключаем размеры когорт
    ltv = ltv.drop(columns=['cohort_size'])
    # в таблице динамики ltv оставляем только нужный лайфтайм
    ltv_history = ltv_history.drop(columns=['cohort_size'])[[horizon - 1]]

    # стоимость привлечения запишем в отдельный фрейм
    cac_history = roi_history[['cac']]

    # из таблицы roi исключаем размеры когорт и cac
    roi = roi.drop(columns=['cohort_size', 'cac'])
    # в таблице динамики roi оставляем только нужный лайфтайм
    roi_history = roi_history.drop(columns=['cohort_size', 'cac'])[
        [horizon - 1]
    ]

    # первый график — кривые ltv
    ax1 = plt.subplot(5, 1, 1)
    ltv.T.plot(grid=True, ax=ax1)
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('LTV')

    # второй график — динамика ltv
    ax2 = plt.subplot(5, 1, 2, sharey=ax1)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in ltv_history.index.names if name not in ['dt']]
    filtered_data = ltv_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax2)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика LTV пользователей на {}-й день'.format(horizon))

    # третий график — динамика cac
    ax3 = plt.subplot(5, 1, 3, sharey=ax1)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in cac_history.index.names if name not in ['dt']]
    filtered_data = cac_history.pivot_table(
        index='dt', columns=columns, values='cac', aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax3)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика стоимости привлечения пользователей')

    # четвёртый график — кривые roi
    ax4 = plt.subplot(5, 1, 4)
    roi.T.plot(grid=True, ax=ax4)
    plt.axhline(y=1, color='red', linestyle='--', label='Уровень окупаемости')
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('ROI')

    # пятый график — динамика roi
    ax5 = plt.subplot(5, 1, 5, sharey=ax4)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in roi_history.index.names if name not in ['dt']]
    filtered_data = roi_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax5)
    plt.axhline(y=1, color='red', linestyle='--', label='Уровень окупаемости')
    plt.xlabel('Дата привлечения')
    plt.title('Динамика ROI пользователей на {}-й день'.format(horizon))

    plt.tight_layout()
    plt.show() 

In [None]:
# функция для визуализации конверсии
def plot_conversion(conversion, conversion_history, horizon, window=7, dimensions=[]):

    # задаём размер сетки для графиков
    plt.figure(figsize=(15, 10))

    # исключаем размеры когорт
    conversion = conversion.drop(columns=['cohort_size'])
    # в таблице динамики оставляем только нужный лайфтайм
    conversion_history = conversion_history.drop(columns=['cohort_size'])[
        [horizon - 1]
    ]

    # первый график — кривые конверсии
    ax1 = plt.subplot(2, 1, 1)
    conversion.T.plot(grid=True, ax=ax1)
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Конверсия пользователей')

    # второй график — динамика конверсии
    ax2 = plt.subplot(2, 1, 2, sharey=ax1)
    columns = [
        # столбцами сводной таблицы станут все столбцы индекса, кроме даты
        name for name in conversion_history.index.names if name not in ['dt']
    ]
    filtered_data = conversion_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax2)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика конверсии пользователей на {}-й день'.format(horizon))

    plt.tight_layout()
    plt.show() 

In [None]:
# функция для визуализации удержания
def plot_retention(retention, retention_history, horizon, window=7):

    # задаём размер сетки для графиков
    plt.figure(figsize=(15, 25))

    # исключаем размеры когорт и удержание первого дня
    retention = retention.drop(columns=['cohort_size', 0])
    # в таблице динамики оставляем только нужный лайфтайм
    retention_history = retention_history.drop(columns=['cohort_size'])[
        [horizon - 1]
    ]

    # если в индексах таблицы удержания только payer,
    # добавляем второй признак — cohort
    if retention.index.nlevels == 1:
        retention['cohort'] = 'All users'
        retention = retention.reset_index().set_index(['cohort', 'payer'])

    # в таблице графиков — два столбца и две строки, четыре ячейки
    # в первой строим кривые удержания платящих пользователей
    ax1 = plt.subplot(4, 1, 1)
    retention.query('payer == True').droplevel('payer').T.plot(
        grid=True, ax=ax1
    )
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Удержание платящих пользователей')

    # во второй ячейке строим кривые удержания неплатящих
    # вертикальная ось — от графика из первой ячейки
    ax2 = plt.subplot(4, 1, 2, sharey=ax1)
    retention.query('payer == False').droplevel('payer').T.plot(
        grid=True, ax=ax2
    )
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Удержание неплатящих пользователей')

    # в третьей ячейке — динамика удержания платящих
    ax3 = plt.subplot(4, 1, 3)
    # получаем названия столбцов для сводной таблицы
    columns = [
        name
        for name in retention_history.index.names
        if name not in ['dt', 'payer']
    ]
    # фильтруем данные и строим график
    filtered_data = retention_history.query('payer == True').pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax3)
    plt.xlabel('Дата привлечения')
    plt.title(
        'Динамика удержания платящих пользователей'.format(
            horizon
        )
    )

    # в чётвертой ячейке — динамика удержания неплатящих
    ax4 = plt.subplot(4, 1, 4, sharey=ax3)
    # фильтруем данные и строим график
    filtered_data = retention_history.query('payer == False').pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax4)
    plt.xlabel('Дата привлечения')
    plt.title(
        'Динамика удержания неплатящих пользователей'.format(
            horizon
        )
    )
    
    plt.tight_layout()
    plt.show() 

### Шаг 3. Исследовательский анализ данных

In [None]:
# составляю профили пользователей
profiles = get_profiles(visits, orders, costs)

In [None]:
# в столбце dt хранится дата первого посещения пользователя
profiles.head()

In [None]:
# находим минимальную и максимальную дату привлечения пользователей, 
# она будет соответствовать минимальному и максимальному значению в столбце dt
profiles['dt'].agg(['min','max'])

#### Минимальная дата привлечения пользователей 01.05.2019 максимальная 27.10.2019

In [None]:
# добавляем в датафрейм profiles столбец payer, который отражает про True- пользоаватель является платящим, при False - нет
profiles['payer'] =  profiles['user_id'].isin(orders['user_id'].unique())

In [None]:
profiles.head()

In [None]:
# создаем новый датафрейм
users = pd.DataFrame()
# в столбце count_of_user сгруппировал количестово пользователей по регионам
users['count_of_user'] = profiles.groupby('region')['user_id'].count()
# в столбце count _of_payer сделал сорез платящих пользоватлей из датафрейма profiles и сгруппировал их число по регионам
users['count_of_payer'] = profiles.query('payer == True').groupby('region')['user_id'].count()
# в столбце procent_of_payer получил процент платящих полтьзователей от общего числа пользователей
users['procent_of_payer'] = (users['count_of_payer'] / users['count_of_user'])
# отсортировал полученную таблицу по проценту платящих пользователей от большего к меньшему
users.sort_values(by='procent_of_payer', ascending=False).style.format({'procent_of_payer':'{:.2%}'})

#### Наибольшее количество пользователей в США, также среди них самое большое количество и процент платящих пользователей. Наименьшее количество пользователей в Германии, но среди исследованых регионов процент платящих в Германии находится на втором месте после США.

In [None]:
# создаю новый датафрейм в котором будет храниться группировка мользователей по платформам
platform = pd.DataFrame()
# группирую пользователей по платформам
platform['count_of_user'] = profiles.groupby('device')['user_id'].count()
# создаю срез датафреймва profiles  в котором сохраняются только платящие пользователи
platform['count_of_payer'] = profiles.query('payer == True').groupby('device')['user_id'].count()
# создаю столбец procent_of_payer который отражает процент платящих пользователей от всех пользователей
platform['procent_of_payer'] = (platform['count_of_payer'] / platform['count_of_user'])
# сортирую датафрейм platform по проценту платящих пользователей по убыванию
platform.sort_values(by='procent_of_payer', ascending=False).style.format({'procent_of_payer':'{:.2%}'})

#### Наибольшее число пользователей на платформе iPhone, однако, по проценту платящих эта платформа на втором месте. Наименьшее число пользователей на платформе Mac, однако, процент платящих среди них наивысший. В целом число пользователей, пользующихся экосистемой apple - больше в сравнении с числом пользователей, пользующихся Android и PC, и процент платящих пользователей среди них также более высокий.

In [None]:
# создаю новый датафрейм channel в котором будет храниться число пользователей, 
# пришедших в продукт с разных рекламных платформ
channel = pd.DataFrame()
# группируем общее число пришедших пользователей в разбивке на платформы
channel['count_of_user'] = profiles.groupby('channel')['user_id'].count()
# делаю срез датафрейма profiles, чтобы в нем остались только платящие пользователи
channel['count_of_payer'] = profiles.query('payer == True').groupby('channel')['user_id'].count()
# выявляю процент платящих пользователей от общего числа пользователей, пришедших с разных платформ
channel['procent_of_payer'] = (channel['count_of_payer'] / channel['count_of_user'])
# сортирую датафрейм chfnnel по проценту платящих пользователей, в разбивке по рекламным платформам 
channel.sort_values(by='procent_of_payer', ascending=False).style.format({'procent_of_payer':'{:.2%}'})

#### Больше всего пользователей пришли в продукт с платформы FaceBoom, среди них также наблюдается самый высокий процент платящих пользователей

### Шаг 4. Маркетинг

In [None]:
# определяю сумму трат на рекламу
print('Общая сумма трат на рекламу составила:', costs['costs'].sum())

In [None]:
# создаю датафрейм advertising_costs в котором будут храниться траты на рекламу в разбивке по источникам, 
# а также какой процент от трат на рекламу составил каждый источник
advertising_costs = pd.DataFrame()
# группирую сумму трат на рекламу в разбивке по рекламным платформам
advertising_costs['cost'] = costs.groupby('channel')['costs'].sum()
# определяю какой процент от суммы трат на рекламу составляет каждая платформа
advertising_costs['percent'] = (advertising_costs['cost'] / costs['costs'].sum()) * 100
advertising_costs.sort_values(by='cost', ascending=False)

#### Наибольшие траты на рекламу наблюдаются на платформах TipTop и FaceBoom. Процент трат на эти платформы составляет 82-83% от суммы трат на рекламу.

In [None]:
#создаем сводную таблицу, где столбцы со значениями недели и рекламной платформы являются теми, по которому группируем данные, 
# а столбец стоимости рекламы, является тем, по которому мы хотим получить группировку
costs_pt = costs.pivot_table(
    index=costs['dt'].dt.isocalendar().week, 
    columns='channel', 
    values = 'costs',
    aggfunc = 'sum')
#создаем сводную таблицу, где столбцы со значениями месяца и рекламной платформы являются теми, по которому группируем данные, 
# а столбец стоимости рекламы, является тем, по которому мы хотим получить группировку
costs_pt_1 = costs.pivot_table(
    index= costs['dt'].dt.month,
    columns='channel',
    values = 'costs',
    aggfunc = 'sum')

# первый график отражает динамику еженедельных затрат на рекламу в разбивке по каналам
plt.figure(figsize=(15, 10))
ax1 = plt.subplot(2, 1, 1)
costs_pt.plot(grid=True, ax=ax1)
plt.title('Динамика еженедельных затрат на рекламу в разбивке по каналам ')
plt.ylabel('Сумма')
plt.xlabel('Неделя')

# второй график отражает динамику ежемесячных затрат на рекламу в разбивке по каналам
ax2 = plt.subplot(2, 1, 2, sharey=ax1)
costs_pt_1.plot(grid=True, ax=ax2)
plt.title('Динамика ежемесячных затрат на рекламу в разбивке по каналам')
plt.ylabel('Сумма')
plt.xlabel('Месяц')
  
plt.tight_layout()
plt.show() 

#### Результаты подтверждают полученные ранее. Наибольшие расходы на рекламу приходятся на платформы TipTop и FaceBoom, и с течением времени они продолжали расти.

In [None]:
# создаю датафрейм attracted_users в котором будут храниться число привлеченных пользователей, платящих пользователей, 
# процента платящих пользователей, стоимости рекламы и стоимости привлечения одного пользователя в разбивке по рекламным платформам
attracted_users = pd.DataFrame()
# число пользователей в разбивке по рекламным платформам
attracted_users['count_of_users'] = profiles.query('channel != "organic"').groupby('channel')['user_id'].count()
# число платящих пользователей в разбивке по реклмным платформам
attracted_users['count_of_payer'] = profiles.query('payer == True and channel != "organic"').groupby('channel')['user_id'].count()
# процент платящих пользователей от общеко числа пользователей
attracted_users['procent_of_payer'] = (attracted_users['count_of_payer'] / attracted_users['count_of_users']) * 100
# затраты на рекламу
attracted_users['advertising_costs'] = costs.groupby('channel')['costs'].sum()
# стоимость привлечения одного пользователя
attracted_users['price_per_one_user'] = attracted_users['advertising_costs'] / attracted_users['count_of_users']
attracted_users.sort_values(by='price_per_one_user', ascending=False)

In [None]:
print('Затраты на привлечение одного пользователя в среднем равны :', attracted_users['advertising_costs'].sum() /
      attracted_users['count_of_users'].sum())

#### Согласно полученным данным, самые большие затраты приходятся на рекламную платформу TipTop, однако она не демонстрирует большое количество привлеченных пользователей, а также не самую лучшую конверсию привлеченных пользователей в платящих. Платформа FaceBoom показывает лучшее число привлечений новых пользователей в сравнении с TipTop, а также лучшую конверсию прользователей, при более чем вдвое низких затратах на привлечение одного пользователя. Стоит обратить внимание на платформы lambdaMediaAds, WahooNetBanner, RocketSuperAds они при значительно более низкой стоимости привлечения одного пользователя показывают от 5 до 10 процентов  конверсии привлеченных пользователей в платящих.

### Шаг 5. Оценка окупаемости рекламы

In [None]:
# Задаю момент и горизонт анализа
observation_date = datetime(2019, 11, 1).date()  # момент анализа 
horizon_days = 14  # горизонт анализа 

In [None]:
# считаю LTV, CAC и ROI всех пользователей
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history = get_ltv(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days
)

# строю графики
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

#### Сгогласно полученным данным:
* LTV с течением времени не поменялся в значительной степени
* Cтоимость привлечения новых пользователей неуклонно растет.
* Показатель ROI не вышел на уровень окупаемости рекламных компаний.
* Динамика ROI в течением времени ухудшается. Привлечение новых пользователей перестает окупаться в мае.

In [None]:
# считаю конверсию всех пользователей
conversion_raw, conversion_grouped, conversion_history = get_conversion(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days
)

# строю графики
plot_conversion(conversion_grouped, conversion_history, horizon_days) 

#### Общий уровень конверсии пользователей перестал существенно расти в июне.

In [None]:
# расчитываю удержание с учётом совершения покупки
retention_raw, retention_grouped, retention_history  = get_retention(
    profiles[profiles['channel'] != 'organic'], visits, observation_date, horizon_days, dimensions=[]
)  

# стрю график
report = retention_grouped.drop(columns=['cohort_size', 0])
report.T.plot(grid=True, xticks=list(report.columns.values), figsize=(15, 5))
plt.xlabel('Лайфтайм')
plt.title('Кривые удержания с разбивкой по совершению покупок')
plt.show()

#### Удержание платящих пользователей находится на более высоком уровне.

In [None]:
# рассчитываю LTV, CAC, ROI в разбивке по платформам
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history  = get_ltv(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions=['device']
)

# строю графики
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

#### LTV  пользователей PC несколько ниже, в сравнении с другими платформами. Пользователей PC отличает самая низкая стоимость привлечения. Привлечение пользователей PC окупилось в сентябре
#### LTV  пользователей Android незначительно ниже пользователей Mac и iPhone, однако выше,чем у пользователей PC. Стоимость привлечения новых пользователей Android также ниже, чем для пользователей Mac и iPhone, однако выше, чем на PC. Привлечение пользователей Android не окупилось.
#### LTV  пользователей Mac и iPhone значительно не отличаются друг от друга, и превосходят все остальные платформы. Однако также их отличает самая высокая стоимость привлечения новых пользователей. Рекламные компании на данных платформах также не окупились.

In [None]:
# расчитываю конверсию в разбивке по платформам
conversion_raw, conversion_grouped, conversion_history = get_conversion(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions = ['device']
)

# строю графики
plot_conversion(conversion_grouped, conversion_history, horizon_days) 

#### По платформам конверсия распределена так: самый высокий показатель у пользователей Mac. На втором месте по показателю консерсии пользователи iPhone. На третьем месте пользователь Android. Конверсия пользователей PC имеет самый низкий показатель в сравнении с остальными платформами.

In [None]:
# расчитываю удержание в разбивке по платформам
retention_raw, retention_grouped, retention_history = get_retention(
    profiles[profiles['channel'] != 'organic'], visits, observation_date, horizon_days, dimensions=['device']
)

# строю графики
plot_retention(retention_grouped, retention_history, horizon_days) 

#### Удержание платящих пользователей в разбивке по платформам распределилось следующим образом: наиболее сильное удержание демонстрируют пользователи PC. До августа на втором месте по удержанию находились пользователи Android, за ними пользователи iPhone, самое низкое удержание демонстрировали пользователи Mac. Однако с августа и в последующем пользователи Android, iPhone и Mac начали демонстрировать одинаковый уровень удержания.

In [None]:
# расчитываю LTV, CAC и ROI с разбивкой по регионам
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history  = get_ltv(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions=['region']
)

# строю графики
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

#### Лучший показатель LTV демонстрируют пользователи из США. На втором месте по показателям LTV пользователи Великобритании, на тетьем пользователи Германии, на четвертом - Франции.
#### Самый высокий показатель стоимости привлечения новый пользователей наблюдается в США. В течением времени с мая по октябрь данный показатель вырос в три раза. Показатели стоимости привлечения новых пользователей в Германии, Великобритании и Франции находятся на одинаково низком уровне в стравнении с данным показателем для пользователей США и с течением времени практически не изменяются.
#### Рекламные компании для пользователей США не окупились. Для пользователей Германии, Великобритании и Франции окупились уже в июне.

In [None]:
# Делаю срез привлеченных пользователей из США
profiles_usa = profiles.query('channel != "organic" and region == "United States"')

In [None]:
# расчитываю LTV, CAC и ROI с разбивкой по каналам привлечения пользователей США
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history  = get_ltv(
    profiles_usa, orders, observation_date, horizon_days, dimensions=['channel']
)

# строю графики
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

#### Самыми затратными каналами с точки зрения привлечения новых пользователей являются каналы TipTop и Face Boom. Затраты на оба этих канала не окупились.

In [None]:
# считаю конверсию в разбивке по регионам
conversion_raw, conversion_grouped, conversion_history = get_conversion(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions = ['region']
)

# строю графики
plot_conversion(conversion_grouped, conversion_history, horizon_days) 

#### Наилучший показатель конверсии наблюдается у пользователей США. В других регионах данный показатель не отличается.

In [None]:
# считаю удержание в разбивке по регионам
retention_raw, retention_grouped, retention_history = get_retention(
    profiles[profiles['channel'] != 'organic'], visits, observation_date, horizon_days, dimensions=['region']
)

# строю графики
plot_retention(retention_grouped, retention_history, horizon_days) 

#### Германия, Великобритания и Франция имеют схожие показатели удержания. Самый низкий показатель удержания демонстрируют пользователи из США.

In [None]:
# расчитываю LTV, CAC и ROI с разбивкой по каналам привлечения
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history  = get_ltv(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions=['channel']
)

# строим графики
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

#### Наилучшие показатели LTV демонстрируют рекламные платформы lambdaMediaAds, TipTop.
#### Самая высокая стоимость привлечения новых пользователей наблюдается для рекламной платформы TipTop.
#### Затраты на рекламные компании не окупились на рекламных платформах AdNonSense, FaceBoom, Tiptop.

In [None]:
# расчитываю конверсию с разбивкой по каналам привлечения
conversion_raw, conversion_grouped, conversion_history = get_conversion(
    profiles[profiles['channel'] != 'organic'], orders, observation_date, horizon_days, dimensions = ['channel']
)

# Строю графики
plot_conversion(conversion_grouped, conversion_history, horizon_days) 

#### Самые высокие показатели коныерсии наблюдаются на рекламных платформах FaceBoom, AdNonSense, lambdaMediaAds, Tiptop.

In [None]:
# расчитываю удержание с разбивкой по каналам привлечения
retention_raw, retention_grouped, retention_history = get_retention(
    profiles[profiles['channel'] != 'organic'], visits, observation_date, horizon_days, dimensions=['channel']
)

# строю графики
plot_retention(retention_grouped, retention_history, horizon_days) 

#### Самые низкие показатели удержания платящих пользователей с платформ AdNonSense, FaceBoom.

#### Окупается ли реклама, направленная на привлечение пользователей в целом? - Рекламные компании к концу второй недели не окупаются.
#### Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы? - На отсутвтвие окупаемости рекламных компаний повлияло привлечение пользователей iPhone и Mac из США, так как они имели самую высокую стоимость привлечения новых пользователей и низкий показатель удержания, а также реклама на платформах AdNonSense, FaceBoom, Tiptop.
#### Чем могут быть вызваны проблемы окупаемости? - Проблемы вызваны большими тратами на каналы с не выдающимся значением LTV или низким показателем удержания пользователей.
#### Промежуточные рекомендации для рекламного отдела. - Рекомендовано обратить внимание на платформу lambdaMediaAds, так как она имеет достаточно назкий показатель стоимости привлечения новых пользователей, с этого канала у пользователей наблюдается хорошие показатели конверсии и удержания. Самым невыгодным с точки затраченных стредств, показателей удержания и окупаемости вложений оказалась рекламная платформа TipTop и пллатформа FaceBoom. Следует увеличить финансирование рекламных полатформ привлекающий новых пользователей с платформы PС, так как пользователи этой платформ имеют хороший показатель удержания.

### Шаг 6. Выводы

#### Выделите причины неэффективности привлечения пользователей. -  Наибольшие рекламные затраты приходились  на каналы AdNonSense, FaceBoom, Tiptop и они, к сожалению, не окупились. Также большие затраты пришлись на пользователей из США, но они продемонстрировали низкий уровень удержания. Данные расходы также не окупились.

#### Была проведена дорогостоящая рекламная компания в США. Привлечение новых пользователей в этом регионе отличается повышенной ценой, но пользователи имеют низкий показатель удержания. В связи с чем наиболее затратные рекламные компании на сервисаз TipTop и FaceBoom не окупились.

#### В рекламном канале TipTop в течение всего времени, ежемесячно наблюдается увеличение стоимости привлечения новых пользователей. Данная платформа широко применалась для рекламы в США. Пользователи из данного региона имеют низкий показатель удержания. В связи с этим реклама на канале TipTop не окупилась.

####  Пользователи, пришедшие с каналов FaceBoom, AdNonSense также имеют низкий показатель удержания, что послужило причиной не окупаемости рекламы на данных платформах.

#### Сформулируйте рекомендации для отдела маркетинга. - Необходимо  обратить внимание на платформы lambdaMediaAds, WahooNetBanner, RocketSuperAds, данные платформы имеют хорошие показатели конверсии и удержания. Рекламные компании на них окупились в июне. Заняться привлечением пользователей PC, в связи с высоким показателем удержания на данной платформе. А также более активно привлекать пользователей из Германии и Великобритании.