Мы выступаем в качестве маркетингового аналитика развлекательного приложения Procrastinate Pro+. Несколько прошлых месяцев этот бизнес постоянно нес убытки - в привлечение пользователей была вложена куча денег, а толку никакого. Нам нужно разобраться в причинах этой ситуации.

У нас в распоряжении есть лог сервера с данными о посещениях приложения новыми пользователями, зарегистрировавшимися в период с 2019-05-01 по 2019-10-27, выгрузка их покупок за этот период, а также статистика рекламных расходов. Нам предстоит изучить, как люди пользуются продуктом, когда они начинают покупать, сколько денег приносит каждый клиент, когда он окупается и какие факторы отрицательно влияют на привлечение пользователей.

#### Шаг 1. Загрузите данные и подготовьте их к анализу
Загрузим данные о визитах, заказах и расходах в переменные. Оптимизируем данные для анализа. Убедимся, что тип данных в каждой колонке — правильный.
 
#### Шаг 2. Задайте функции для расчета и анализа LTV, ROI, удержания и конверсии

#### Шаг 3. Проведите исследовательский анализ данных

Построим профили пользователей. Определим минимальную и максимальную дату привлечения пользователей.

Выясним:
- Из каких стран приходят посетители? Какие страны дают больше всего платящих пользователей?
- Какими устройствами они пользуются? С каких устройств чаще всего заходят платящие пользователи?
- По каким рекламным каналам шло привлечение пользователей? Какие каналы приносят больше всего платящих пользователей?.

#### Шаг 4. Маркетинг
Выясним:

- Сколько денег потратили? Всего / на каждый источник / по времени
- Сколько в среднем стоило привлечение одного покупателя из каждого источника?

#### Шаг 5. Оцените окупаемость рекламы для привлечения пользователей

С помощью LTV и ROI:
- Проанализируем общую окупаемость рекламы;
- Проанализируем окупаемость рекламы с разбивкой по устройствам;
- Проанализируем окупаемость рекламы с разбивкой по странам;
- Проанализируем окупаемость рекламы с разбивкой по рекламным каналам.

Опишем проблемы, которые мы обнаружили. Ответим на вопросы:
- Окупается ли реклама, направленная на привлечение пользователей в целом? 
- Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы?
- Чем могут быть вызваны проблемы окупаемости? Изучите конверсию и удержание с разбивкой по устройствам, странам, рекламным каналам.

Опишем возможные причины обнаруженных проблем и сформируйте рекомендации для рекламного отдела. При решении этого шага будем считать, что мы смотрим данные 1-го ноября 2019 года и что в нашей организации принято считать, что окупаемость должна наступать не позднее, чем через 2 недели после привлечения пользователей.

Подумаем, нужно ли включать в анализ органических пользователей?

#### Шаг 6. Напишем выводы
- Выделим причины неэффективности привлечения пользователей;
- Сформируем рекомендации для отдела маркетинга для повышения эффективности.


#### Описание данных
Таблица visits_log_short (лог сервера с информацией о посещениях сайта):

    User Id — уникальный идентификатор пользователя
    Device — категория устройства пользователя
    Session start — дата и время начала сессии
    Session End — дата и время окончания сессии
    Channel — идентификатор рекламного источника, из которого пришел пользователь
    Region - страна пользователя

Таблица orders_log_short (информация о заказах):

    User Id — уникальный id пользователя, который сделал заказ
    Event Dt — дата и время покупки
    Revenue — выручка

Таблица costs_short (информация о затратах на маркетинг):

    Channel — идентификатор рекламного источника
    Dt — дата
    Costs — затраты на этот рекламный источник в этот день

# Шаг 1. Загрузите данные и подготовьте их к анализу
Загрузите данные о визитах, заказах и расходах в переменные. Оптимизируйте данные для анализа. Убедитесь, что тип данных в каждой колонке — правильный. Путь к файлам:

 -   /datasets/visits_info_short.csv. 
 -   /datasets/orders_info_short.csv. 
 -   /datasets/costs_info_short.csv.

## Загрузка и проверка данных

**Для начала загрузим необходимые для работы библиотеки**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from datetime import datetime, timedelta

**Теперь загрузим сами датасеты**

In [None]:
visits = pd.read_csv('/datasets/visits_info_short.csv')
orders = pd.read_csv('/datasets/orders_info_short.csv')
costs = pd.read_csv('/datasets/costs_info_short.csv')

### Просмотрим основную информацию по имеющимся датасетам

**Датасет с визитами пользователей**

In [None]:
visits.info()

In [None]:
visits.head()

Пропусков нет. А вот дату нужно привести к типу *datetime*

**Датасет с покупками пользователей**

In [None]:
orders.info()

In [None]:
orders.head()

Так же нету пропусков. Так же нужно привести в порядок дату

**Датасет с рекламными расходами**

In [None]:
costs.info()

In [None]:
costs.head()

Без пропусков, но с теме же проблемами в формате даты

**Общий вывод**

У всех 3 пациентов примерно те же диагнозы. Значит и курсы лечения назначим похожие, а именно:

- Привести все колонки к змеиному регистру(нижние подчёркивания вместо пробелов)

- А также переименовать столбцы в соотвествии с каноном(все наименования с маленькой буквы)

- Привести даты в соответсвующий формат

### Проведём предобработку: приведём столбцы к змеиному регистру, приведём даты в ооствествующий формат и проверим наличие дубликатов

**Начнём в регистра**

*Было*

In [None]:
visits.columns

In [None]:
orders.columns

In [None]:
costs.columns

*Сделали*

In [None]:
visits = visits.rename(columns={'User Id': 'user_id', 'Region': 'region', 
                                          'Device': 'device', 'Channel': 'channel', 
                                          'Session Start': 'session_start', 'Session End': 'session_end'})


orders = orders.rename(columns={'User Id': 'user_id', 'Event Dt': 'event_dt', 
                                         'Revenue': 'revenue'})


costs = costs.rename(columns={'Channel': 'channel'})

*Стало*

In [None]:
visits.columns

In [None]:
orders.columns

In [None]:
costs.columns

**Теперь меняем форматы дат**

In [None]:
visits['session_start'] = pd.to_datetime(visits['session_start'])
visits['session_end'] = pd.to_datetime(visits['session_end'])
orders['event_dt'] = pd.to_datetime(orders['event_dt'])
costs['dt'] = pd.to_datetime(costs['dt']).dt.date

**Ищем дубликаты**

In [None]:
visits.duplicated().sum()

In [None]:
orders.duplicated().sum()

In [None]:
costs.duplicated().sum()

**Итог**

Имеем 3 датасета:
1. С информацией о посещениях сайта
2. С информацией о заказах
3. С информацией о затратах на маркетинг

Проделали ряд операций по предобработке, чтобы в дальнейшем при расчётах не возникло проблем:
Везде привели наименования столбцов к змеиному регистру. Там где необходимо, привели даты к нужному формату. Проверили наличие дубликатов.

Можно приступать к дальнейшей работе

# Шаг 2. Задайте функции для расчета и анализа LTV, ROI, удержания и конверсии

Разрешается использовать функции, с которыми вы познакомились в теоретических уроках.

## Задаём функции для создания профилей, расчёта удержания, конверсии, LTV и ROI, а так же функции для визуализации этих метрик

### Функция для создания пользовательских профилей get_profiles

In [None]:
def get_profiles(sessions, orders, ad_costs):

    # находим параметры первых посещений
    profiles = (
        sessions.sort_values(by=['user_id', 'session_start'])
        .groupby('user_id')
        .agg(
            {
                'session_start': 'first',
                'channel': 'first',
                'device': 'first',
                'region': 'first',
            }
        )
        .rename(columns={'session_start': 'first_ts'})
        .reset_index()
    )

    # для когортного анализа определяем дату первого посещения
    # и первый день месяца, в который это посещение произошло
    profiles['dt'] = profiles['first_ts'].dt.date
    profiles['month'] = profiles['first_ts'].astype('datetime64[M]')

    # добавляем признак платящих пользователей
    profiles['payer'] = profiles['user_id'].isin(orders['user_id'].unique())

    
    # считаем количество уникальных пользователей
    # с одинаковыми источником и датой привлечения
    new_users = (
        profiles.groupby(['dt', 'channel'])
        .agg({'user_id': 'nunique'})
        .rename(columns={'user_id': 'unique_users'})
        .reset_index()
    )

    # объединяем траты на рекламу и число привлечённых пользователей
    ad_costs = ad_costs.merge(new_users, on=['dt', 'channel'], how='left')

    # делим рекламные расходы на число привлечённых пользователей
    ad_costs['acquisition_cost'] = ad_costs['costs'] / ad_costs['unique_users']

    # добавляем стоимость привлечения в профили
    profiles = profiles.merge(
        ad_costs[['dt', 'channel', 'acquisition_cost']],
        on=['dt', 'channel'],
        how='left',
    )

    # стоимость привлечения органических пользователей равна нулю
    profiles['acquisition_cost'] = profiles['acquisition_cost'].fillna(0)

    return profiles

### Функция для расчёта удержания get_retention

In [None]:
def get_retention(
    profiles,
    sessions,
    observation_date,
    horizon_days,
    dimensions=[],
    ignore_horizon=False,
):

    # добавляем столбец payer в передаваемый dimensions список
    dimensions = ['payer'] + dimensions

    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')

    # собираем «сырые» данные для расчёта удержания
    result_raw = result_raw.merge(
        sessions[['user_id', 'session_start']], on='user_id', how='left'
    )
    result_raw['lifetime'] = (
        result_raw['session_start'] - result_raw['first_ts']
    ).dt.days

    # функция для группировки таблицы по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        result = df.pivot_table(
            index=dims, columns='lifetime', values='user_id', aggfunc='nunique'
        )
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        result = result.div(result['cohort_size'], axis=0)
        result = result[['cohort_size'] + list(range(horizon_days))]
        result['cohort_size'] = cohort_sizes
        return result

    # получаем таблицу удержания
    result_grouped = group_by_dimensions(result_raw, dimensions, horizon_days)

    # получаем таблицу динамики удержания
    result_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    # возвращаем обе таблицы и сырые данные
    return result_raw, result_grouped, result_in_time

### Функция для расчёта конверсии get_conversion

In [None]:
def get_conversion(
    profiles,
    purchases,
    observation_date,
    horizon_days,
    dimensions=[],
    ignore_horizon=False,
):

    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')

    # определяем дату и время первой покупки для каждого пользователя
    first_purchases = (
        purchases.sort_values(by=['user_id', 'event_dt'])
        .groupby('user_id')
        .agg({'event_dt': 'first'})
        .reset_index()
    )

    # добавляем данные о покупках в профили
    result_raw = result_raw.merge(
        first_purchases[['user_id', 'event_dt']], on='user_id', how='left'
    )

    # рассчитываем лайфтайм для каждой покупки
    result_raw['lifetime'] = (
        result_raw['event_dt'] - result_raw['first_ts']
    ).dt.days

    # группируем по cohort, если в dimensions ничего нет
    if len(dimensions) == 0:
        result_raw['cohort'] = 'All users' 
        dimensions = dimensions + ['cohort']

    # функция для группировки таблицы по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        result = df.pivot_table(
            index=dims, columns='lifetime', values='user_id', aggfunc='nunique'
        )
        result = result.fillna(0).cumsum(axis = 1)
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        # делим каждую «ячейку» в строке на размер когорты
        # и получаем conversion rate
        result = result.div(result['cohort_size'], axis=0)
        result = result[['cohort_size'] + list(range(horizon_days))]
        result['cohort_size'] = cohort_sizes
        return result

    # получаем таблицу конверсии
    result_grouped = group_by_dimensions(result_raw, dimensions, horizon_days)

    # для таблицы динамики конверсии убираем 'cohort' из dimensions
    if 'cohort' in dimensions: 
        dimensions = []

    # получаем таблицу динамики конверсии
    result_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    # возвращаем обе таблицы и сырые данные
    return result_raw, result_grouped, result_in_time

### Функция для расчёта LTV и ROI get_ltv

In [None]:
def get_ltv(
    profiles,
    purchases,
    observation_date,
    horizon_days,
    dimensions=[],
    ignore_horizon=False,
):

    # исключаем пользователей, не «доживших» до горизонта анализа
    last_suitable_acquisition_date = observation_date
    if not ignore_horizon:
        last_suitable_acquisition_date = observation_date - timedelta(
            days=horizon_days - 1
        )
    result_raw = profiles.query('dt <= @last_suitable_acquisition_date')
    # добавляем данные о покупках в профили
    result_raw = result_raw.merge(
        purchases[['user_id', 'event_dt', 'revenue']], on='user_id', how='left'
    )
    # рассчитываем лайфтайм пользователя для каждой покупки
    result_raw['lifetime'] = (
        result_raw['event_dt'] - result_raw['first_ts']
    ).dt.days
    # группируем по cohort, если в dimensions ничего нет
    if len(dimensions) == 0:
        result_raw['cohort'] = 'All users'
        dimensions = dimensions + ['cohort']

    # функция группировки по желаемым признакам
    def group_by_dimensions(df, dims, horizon_days):
        # строим «треугольную» таблицу выручки
        result = df.pivot_table(
            index=dims, columns='lifetime', values='revenue', aggfunc='sum'
        )
        # находим сумму выручки с накоплением
        result = result.fillna(0).cumsum(axis=1)
        # вычисляем размеры когорт
        cohort_sizes = (
            df.groupby(dims)
            .agg({'user_id': 'nunique'})
            .rename(columns={'user_id': 'cohort_size'})
        )
        # объединяем размеры когорт и таблицу выручки
        result = cohort_sizes.merge(result, on=dims, how='left').fillna(0)
        # считаем LTV: делим каждую «ячейку» в строке на размер когорты
        result = result.div(result['cohort_size'], axis=0)
        # исключаем все лайфтаймы, превышающие горизонт анализа
        result = result[['cohort_size'] + list(range(horizon_days))]
        # восстанавливаем размеры когорт
        result['cohort_size'] = cohort_sizes

        # собираем датафрейм с данными пользователей и значениями CAC, 
        # добавляя параметры из dimensions
        cac = df[['user_id', 'acquisition_cost'] + dims].drop_duplicates()

        # считаем средний CAC по параметрам из dimensions
        cac = (
            cac.groupby(dims)
            .agg({'acquisition_cost': 'mean'})
            .rename(columns={'acquisition_cost': 'cac'})
        )

        # считаем ROI: делим LTV на CAC
        roi = result.div(cac['cac'], axis=0)

        # удаляем строки с бесконечным ROI
        roi = roi[~roi['cohort_size'].isin([np.inf])]

        # восстанавливаем размеры когорт в таблице ROI
        roi['cohort_size'] = cohort_sizes

        # добавляем CAC в таблицу ROI
        roi['cac'] = cac['cac']

        # в финальной таблице оставляем размеры когорт, CAC
        # и ROI в лайфтаймы, не превышающие горизонт анализа
        roi = roi[['cohort_size', 'cac'] + list(range(horizon_days))]

        # возвращаем таблицы LTV и ROI
        return result, roi

    # получаем таблицы LTV и ROI
    result_grouped, roi_grouped = group_by_dimensions(
        result_raw, dimensions, horizon_days
    )

    # для таблиц динамики убираем 'cohort' из dimensions
    if 'cohort' in dimensions:
        dimensions = []

    # получаем таблицы динамики LTV и ROI
    result_in_time, roi_in_time = group_by_dimensions(
        result_raw, dimensions + ['dt'], horizon_days
    )

    return (
        result_raw,  # сырые данные
        result_grouped,  # таблица LTV
        result_in_time,  # таблица динамики LTV
        roi_grouped,  # таблица ROI
        roi_in_time,  # таблица динамики ROI
    )

### Функция для сглаживания фрейма filter_data

In [None]:
def filter_data(df, window):
    # для каждого столбца применяем скользящее среднее
    for column in df.columns.values:
        df[column] = df[column].rolling(window).mean() 
    return df

### Функция для визуализации удержания plot_retention

In [None]:
def plot_retention(retention, retention_history, horizon, window=7):

    # задаём размер сетки для графиков
    plt.figure(figsize=(15, 10))

    # исключаем размеры когорт и удержание первого дня
    retention = retention.drop(columns=['cohort_size', 0])
    # в таблице динамики оставляем только нужный лайфтайм
    retention_history = retention_history.drop(columns=['cohort_size'])[
        [horizon - 1]
    ]

    # если в индексах таблицы удержания только payer,
    # добавляем второй признак — cohort
    if retention.index.nlevels == 1:
        retention['cohort'] = 'All users'
        retention = retention.reset_index().set_index(['cohort', 'payer'])

    # в таблице графиков — два столбца и две строки, четыре ячейки
    # в первой строим кривые удержания платящих пользователей
    ax1 = plt.subplot(2, 2, 1)
    retention.query('payer == True').droplevel('payer').T.plot(
        grid=True, ax=ax1
    )
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Удержание платящих пользователей')

    # во второй ячейке строим кривые удержания неплатящих
    # вертикальная ось — от графика из первой ячейки
    ax2 = plt.subplot(2, 2, 2, sharey=ax1)
    retention.query('payer == False').droplevel('payer').T.plot(
        grid=True, ax=ax2
    )
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Удержание неплатящих пользователей')

    # в третьей ячейке — динамика удержания платящих
    ax3 = plt.subplot(2, 2, 3)
    # получаем названия столбцов для сводной таблицы
    columns = [
        name
        for name in retention_history.index.names
        if name not in ['dt', 'payer']
    ]
    # фильтруем данные и строим график
    filtered_data = retention_history.query('payer == True').pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax3)
    plt.xlabel('Дата привлечения')
    plt.title(
        'Динамика удержания платящих пользователей на {}-й день'.format(
            horizon
        )
    )

    # в чётвертой ячейке — динамика удержания неплатящих
    ax4 = plt.subplot(2, 2, 4, sharey=ax3)
    # фильтруем данные и строим график
    filtered_data = retention_history.query('payer == False').pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax4)
    plt.xlabel('Дата привлечения')
    plt.title(
        'Динамика удержания неплатящих пользователей на {}-й день'.format(
            horizon
        )
    )
    
    plt.tight_layout()
    plt.show()

### Функция для визуализации конверсии plot_conversion

In [None]:
def plot_conversion(conversion, conversion_history, horizon, window=7):

    # задаём размер сетки для графиков
    plt.figure(figsize=(15, 5))

    # исключаем размеры когорт
    conversion = conversion.drop(columns=['cohort_size'])
    # в таблице динамики оставляем только нужный лайфтайм
    conversion_history = conversion_history.drop(columns=['cohort_size'])[
        [horizon - 1]
    ]

    # первый график — кривые конверсии
    ax1 = plt.subplot(1, 2, 1)
    conversion.T.plot(grid=True, ax=ax1)
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('Конверсия пользователей')

    # второй график — динамика конверсии
    ax2 = plt.subplot(1, 2, 2, sharey=ax1)
    columns = [
        # столбцами сводной таблицы станут все столбцы индекса, кроме даты
        name for name in conversion_history.index.names if name not in ['dt']
    ]
    filtered_data = conversion_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax2)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика конверсии пользователей на {}-й день'.format(horizon))

    plt.tight_layout()
    plt.show()

### Функция для визуализации LTV и ROI plot_ltv_roi

In [None]:
def plot_ltv_roi(ltv, ltv_history, roi, roi_history, horizon, window=7):

    # задаём сетку отрисовки графиков
    plt.figure(figsize=(20, 10))

    # из таблицы ltv исключаем размеры когорт
    ltv = ltv.drop(columns=['cohort_size'])
    # в таблице динамики ltv оставляем только нужный лайфтайм
    ltv_history = ltv_history.drop(columns=['cohort_size'])[[horizon - 1]]

    # стоимость привлечения запишем в отдельный фрейм
    cac_history = roi_history[['cac']]

    # из таблицы roi исключаем размеры когорт и cac
    roi = roi.drop(columns=['cohort_size', 'cac'])
    # в таблице динамики roi оставляем только нужный лайфтайм
    roi_history = roi_history.drop(columns=['cohort_size', 'cac'])[
        [horizon - 1]
    ]

    # первый график — кривые ltv
    ax1 = plt.subplot(2, 3, 1)
    ltv.T.plot(grid=True, ax=ax1)
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('LTV')

    # второй график — динамика ltv
    ax2 = plt.subplot(2, 3, 2, sharey=ax1)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in ltv_history.index.names if name not in ['dt']]
    filtered_data = ltv_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax2)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика LTV пользователей на {}-й день'.format(horizon))

    # третий график — динамика cac
    ax3 = plt.subplot(2, 3, 3, sharey=ax1)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in cac_history.index.names if name not in ['dt']]
    filtered_data = cac_history.pivot_table(
        index='dt', columns=columns, values='cac', aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax3)
    plt.xlabel('Дата привлечения')
    plt.title('Динамика стоимости привлечения пользователей')

    # четвёртый график — кривые roi
    ax4 = plt.subplot(2, 3, 4)
    roi.T.plot(grid=True, ax=ax4)
    plt.axhline(y=1, color='red', linestyle='--', label='Уровень окупаемости')
    plt.legend()
    plt.xlabel('Лайфтайм')
    plt.title('ROI')

    # пятый график — динамика roi
    ax5 = plt.subplot(2, 3, 5, sharey=ax4)
    # столбцами сводной таблицы станут все столбцы индекса, кроме даты
    columns = [name for name in roi_history.index.names if name not in ['dt']]
    filtered_data = roi_history.pivot_table(
        index='dt', columns=columns, values=horizon - 1, aggfunc='mean'
    )
    filter_data(filtered_data, window).plot(grid=True, ax=ax5)
    plt.axhline(y=1, color='red', linestyle='--', label='Уровень окупаемости')
    plt.xlabel('Дата привлечения')
    plt.title('Динамика ROI пользователей на {}-й день'.format(horizon))

    plt.tight_layout()
    plt.show()

# Шаг 3. Проведите исследовательский анализ данных

Постройте профили пользователей. Определите минимальную и максимальную дату привлечения пользователей.

Выясните:
- Из каких стран приходят посетители? Какие страны дают больше всего платящих пользователей?
- Какими устройствами они пользуются? С каких устройств чаще всего заходят платящие пользователи?
- По каким рекламным каналам шло привлечение пользователей? Какие каналы приносят больше всего платящих пользователей?

## Проводим исследовательский анализ данных

**Создаём пользовательские профили**

In [None]:
profiles = get_profiles(visits, orders, costs)
display(profiles.head(5))

**Определяем минимальную и максимальную даты привлечения пользователей**

In [None]:
min_analysis_date = profiles['dt'].min()
min_analysis_date

In [None]:
observation_date = profiles['dt'].max()
observation_date

### Определяем из каких стран приходят посетители? Какие страны дают больше всего платящих пользователей?

In [None]:
profiles.groupby('region').agg({'user_id': 'nunique', 'payer': ['sum','mean']}).sort_values(by='region', ascending=False).rename(columns={'nunique': 'all_user', 'sum': 'paying_user', 'mean': '% paying'})

**Вывод:**

Посетители приходят из 4 стран: США, Великобритания, Франция и Германия

Наибольшая часть платящих пользователей приходит из США. Их доля платящих пользователей составляет около 6,9 %.

Остальные страны приносят около 4% платящих пользователей. 

Наименьшее количество пользователей приходят из Германии.

### Какими устройствами они пользуются? С каких устройств чаще всего заходят платящие пользователи?

In [None]:
profiles.groupby('device').agg({'user_id': 'nunique', 'payer': ['sum', 'mean']}).sort_values(by='device', ascending=False).rename(columns={'nunique': 'all_user', 'sum': 'paying_user', 'mean': '% paying'})

**Вывод:**

Пользователи с техникой Apple самые платящие.

Большая часть пользователей используют iPhone (доля платящих примерно 6,2%);

Меньше пользователей у собрата по цеху - Mac, но при этом доля платящих там немного больше (примерно 6,3%)

Меньше всего доля платящих пользователей с PC

### По каким рекламным каналам шло привлечение пользователей? Какие каналы приносят больше всего платящих пользователей?

In [None]:
profiles.groupby('channel').agg({'user_id': 'nunique', 'payer': ['sum', 'mean']}).sort_values(by='channel', ascending=False).rename(columns={'nunique': 'all_user', 'sum': 'paying_user', 'mean': '% paying'})

**Вывод:**


По количеству привлеченных платящих пользователей топ-3 занимают следующие каналы:

1. FaceBoom
2. TipTop
3. organic

# Шаг 4. Маркетинг

Выясните:
- Сколько денег потратили? Всего / на каждый источник / по времени
- Сколько в среднем стоило привлечение одного покупателя из каждого источника?

## Посмотрим как много мы потратили на маркетинг

### Для начала посчитаем общую сумму расходов на маркетинг и выясним как траты распределены по источникам и времени

In [None]:
print('Общая сумма расходов на маркетинг:', round(costs['costs'].sum(), 2))

In [None]:
costs.groupby('channel')['costs'].sum().reset_index().sort_values(by='costs', ascending=False)

Построим график изменения трат на маркетинг по времени и каналам

In [None]:
filtered_data = costs.pivot_table(
        index='dt', columns='channel', values='costs', aggfunc='sum'
    )
filtered_data.plot(                                             
           figsize=(12, 10),
           grid=True,
           rot=45,        
           label='Каналы',                     
           legend=True,
) 

plt.title('График изменения затрат на маркетинг в разбивке по каналам')
plt.xlabel('Дата')
plt.ylabel('Затраты')
plt.show()

**Вывод:**

Видим, что самые высокие траты на маркетинг приходятся на период с сентября по ноябрь (пик в октябре).

При чём больше всего потрачено на 2 источника: 
TipTop (в пике больше 600 единиц валюты) и FaceBoom (в пике около 300 единиц валюты). 

По сравнению с двумя лидерами, остальные каналы привлечения обходятся довольно дешево и траты на привлечение через них не сильно меняются во времени. 

### Теперь посмотрим сколько в среднем стоило привлечение одного покупателя из каждого источника

In [None]:
print('Средняя стоимость привлечения одного пользователя:', round(profiles['acquisition_cost'].mean(), 3))

In [None]:
cac_for_channel = (profiles.groupby('channel')
                   .agg({'user_id': 'nunique', 'acquisition_cost': 'sum'})
                   .sort_values(by='acquisition_cost', ascending=False))
cac_for_channel['cac'] = cac_for_channel['acquisition_cost'] / cac_for_channel['user_id']
cac_for_channel

**Вывод:**

Самый дорогой наш клиент пришёл из источника TipTop - в среднем около 2,8 единиц валюты на человека.

Дальше по дороговизне идут клиенты из источников FaceBoom и AdNonSense - их привлечение обошлось нам в сумму около 1 валютной единицы.

Во всех остальных источниках стоимость привлечения не превышает 1 валютной единицы.

# Шаг 5. Оцените окупаемость рекламы для привлечения пользователей

С помощью LTV и ROI:
- Проанализируйте общую окупаемость рекламы;
- Проанализируйте окупаемость рекламы с разбивкой по устройствам;
- Проанализируйте окупаемость рекламы с разбивкой по странам;
- Проанализируйте окупаемость рекламы с разбивкой по рекламным каналам.

Опишите проблемы, которые вы обнаружили. Ответьте на вопросы:
- Окупается ли реклама, направленная на привлечение пользователей в целом? 
- Какие устройства, страны и рекламные каналы могут оказывать негативное влияние на окупаемость рекламы?
- Чем могут быть вызваны проблемы окупаемости? Изучите конверсию и удержание с разбивкой по устройствам, странам, рекламным каналам.

Опишите возможные причины обнаруженных проблем и сформируйте рекомендации для рекламного отдела. При решении этого шага считайте, что вы смотрите данные 1-го ноября 2019 года и что в вашей организации принято считать, что окупаемость должна наступать не позднее, чем через 2 недели после привлечения пользователей.

## Посмотрим как много из того что мы потратили окупилось и ответим на сопутствующие вопросы

Заданим момент и горизонт анализа

In [None]:
observation_date = datetime(2019, 11, 1).date()

In [None]:
horizon_days = 14  

### Проанализируйте общую окупаемость рекламы

Удаляем пользователей, которые пришли в приложение из канала привлечения: organic. Компания не платила за их привлечение, значит и в анализе рекламы они излишне

In [None]:
profiles = profiles.query('channel != "organic"')

#### считаем LTV и ROI

In [None]:
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history = get_ltv(
    profiles, orders, observation_date, horizon_days
)

#### строим графики

In [None]:
plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days) 

**Выводы:**

1. LTV достаточно стабилен и в целом плавно растёт. Это хорошо. Значит качество пользователей не ухудшается;
2. CAC (стоимость привлечения пользователя) не очень стабилен и растёт во времени. Это не хорошо;
3. ROI пользователей падает. До июля показатель выходил выше уровня окупаемости, однако уже после середины лета стал падать;
4. Более того, реклама не окупается к концу 2й недели. ROI на отметке в районе 80%.

### Проанализируйте окупаемость рекламы с разбивкой по устройствам

In [None]:
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history = get_ltv(
    profiles, orders, observation_date, horizon_days, dimensions = ['device']
)

plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days, window = 14) 

**Выводы**

1. Стоимость привлечения пользователей использующих iPhone и Mac самая высокая. При этом стоимость привлечения пользователей на всех устройствах растет во времени;

2. Пользователи на устройствах iPhone, Mac и Android не окупаются:

- У Android на 14 день ROI находится в районе 90%;

- У iPhone и Mac на 14 день ROI достигает примерно 70-75%;

3. А вот пользователи устройств PC окупаются после 11 дней лайфтайма.

### Проанализируйте окупаемость рекламы с разбивкой по странам

In [None]:
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history = get_ltv(
    profiles, orders, observation_date, horizon_days, dimensions = ['region']
)

plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days, window = 14) 

**Выводы:**

1. Стоимость привлечения клиента из США растет, а у других стран падает;
2. При этом клиенты привлечённые из США не окупаются. И это не смотря на то, что из США наибольший поток клиентов и там же наибольший процент платящих пользователей;
3. А вот клиенты из других стран окупаются уже на 4-5 день лайфтайма.

### Проанализируйте окупаемость рекламы с разбивкой по рекламным каналам

In [None]:
ltv_raw, ltv_grouped, ltv_history, roi_grouped, roi_history = get_ltv(
    profiles, orders, observation_date, horizon_days, dimensions = ['channel']
)

plot_ltv_roi(ltv_grouped, ltv_history, roi_grouped, roi_history, horizon_days, window = 14) 

**Выводы:**

1. LTV у рекламного канала TipTop стабильно высокое, но вот стоимость привлечения только и делает что растёт, а с окупаемостью большие проблемы(её нет).
2. AdNonSense и FaceBoom так же не окупаются при высокой дороговизне привлечения клиента
3. Хорошо показала себя рекламная сеть YRabbit, ROI пользователей на 14 день которой в июле был на высоте

### Постройте и изучите графики конверсии и удержания с разбивкой по устройствам, странам, рекламным каналам

Для начала создадим список с названиями столбцов датасета, разбивку по которым мы будем делать при построении графиков

In [None]:
data_1 = [['device'], ['region'], ['channel']]

А теперь напишем цикл, который берёт названия столбцов датасета из списка data_1 и передает их в качестве аргумента функциям get_conversion и get_retention

In [None]:
for d1 in data_1:
  print(f'Графики конверсии с разбивкой по {d1}')
  print()
  conversion_raw, conversion_grouped, conversion_history = get_conversion(
      profiles, orders, observation_date, horizon_days, dimensions = d1
  )
  plot_conversion(conversion_grouped, conversion_history, horizon_days)
  print()

  print(f'Графики удержания с разбивкой по {d1}')
  print()
  retention_raw, retention_grouped, retention_history = get_retention(
      profiles, visits, observation_date, horizon_days, dimensions = d1
  )
  plot_retention(retention_grouped, retention_history, horizon_days)
  print()

**Вывод:**

1. Конверсия пользователей использующих продукцию компании Apple (устройства iPhone и MAC) выше, чем у пользователей Android и PC. Неплатящие пользователи плохо удерживаются. А из платящих лучше всего удерживаются пользователи PC.

2. Слабая конверсия демонстрируют пользователи из Англии, Франции и Германии. При этом, их доля относительно всех пользователей не очень большая. Хуже всего удерживаются пользователи из США.

3. Пользователи привлёчённых AdNonSense и FaceBoom показывают не плохую конверсию, но испытывают проблемы с удержанием.

***Общий вывод:***

Видим, что в целом окупаемость рекламы со временем падает, а стоимость привлечения пользователей растет. В нашем случае, по итогам 2 недель реклама так и не окупилась.

Учитывая общее число клиентов привлёчённых из США, довольно печально видеть, что именно США оказались единственной страной, которая продемонстрировала убытки по ROI. Возрастающие расходы на привлечение клиентов не оправдались.

Если смотреть по устройствам, отчётливо видно снижение динамики окупаемости к 14 дню у всех девайсов. И это при росте стоимости привлечения пользователей. Mac и iPhone, а также Android показали результаты ниже уровня окупаемости, при этом у них же выявлены наибольшие расходы на привлечение.

Мы потратили огромные деньги на канал привлечения TipTop, который продемонстрировал только бОльший рост затрат на одного клиента, в результате не показав положительных результатов по ROI.

# Шаг 6. Напишите выводы
- Выделите причины неэффективности привлечения пользователей;
- Сформируйте рекомендации для отдела маркетинга для повышения эффективности.

## Попробуем выделить причины неэффективности привлечения пользователей и сформировать рекомендации для повышения эффективности рекламы

***Причины неэффективности могу быть заключены в следующем:***

С мая 2019 идёт рост затрат на рекламу в источниках TipTop, FaceBoom. Эти источники затрачивали много средств, но не были эффективными.

Удержание пользователей из рекламных источников AdNonSense и FaceBoom к 14 дню лайфтайма почти достигает 0.

Клиенты из США стоят очень дорого и при этом очень плохо удерживаются. Но именно там находится большая часть нашей аудитории.

LTV достаточно стабилен, но прослеживается сезонность.

Окупаемость пользователей (особенно из США) начала падать с конца июня 2019 года. Стоит повнимательнее посмотреть почему именно в этот временной период сервис стал менее привлекательным для пользователей.

***Что касается рекомендаций:***

Стоит обратить внимание на владельцев Mac и iPhone - стоимость их привлечения высока (и растет от месяца к месяцу), а окупаемость страдает. Возможно, стоит разработать какое-то маркетинговое решение именно для владельцев этих устройств.

Основная аудитория - из США. Самые дорогие и не окупаемые пользователи из США. Возможно стоит внести изменения в затраты на рекламу по странам. Лучше всего окупается Англия и Германия. Возможно, стоит попробовать закупить больше трафика, целясь на эту аудиторию.

Виден большой рост стоимости привлечения пользователей из рекламного каналов TipTop и FaceBoom. А вот результаты от этих каналов привлечения не очень то радуют. Возможно, стоит уменьшить бюджет, выделяемый на эти каналы и перенаправить его в более эффективное русло.