# Финальный проект - Космические братья

## Введение

**Описание проекта**

Мы занимаемся аналитикой для проекта Космические братья. Это новая игра, в которой пользователи могут строить разные здания и сражаться с другими пользователями.

Отдел маркетинга попросил нас разобраться в источниках, которые мы используем для привлечения пользователей. В долгосрочном периоде мы хотим оптимизировать расходы на рекламу, поэтому нам необходимо определить какие источники работают хорошо, а какие источники - плохо.

Пока что в игре еще не реализована монетизация, но мы планируем зарабатывать на пользователях, показывая рекламу во время стороительства зданий. Для определения эффективных каналов мы можем использовать промежуточные метрики, например: время в игре, количество построенных зданий, факт завершения первого уровня, и пр.

**Описание данных**

Датасет `game_actions.csv` - в нем представлены данные по игре пользователей на первом уровне. Завершение первого уровня требует от игрока выполнения одного из двух условий: 1) победа над первым врагом (PvP) 2) реализация проекта - разработка орбитальной сборки спутников (PvE).

В датасете содержатся данные первых пользователей приложения — когорты пользователей, которые начали пользоваться приложением в период с 4 по 10 мая включительно. Можем предположить, что день, когда пользователь открыл приложение - это день, когда он увидел рекламу.

1. `event_datetime` — время события
2. `event` — одно из трёх событий
3. `building_type` — один из трёх типов здания
4. `user_id` — идентификатор пользователя
5. `project_type` — тип реализованного проекта

Помимо основного датасета есть два датасета с информацией о рекламных активностях. Они также помогут в решении задачи.

Датасет `ad_costs.csv` - в нем представлены затраты на привлечения пользователей по дням и источникам. Чтобы привлечь пользователей 4 мая, реклама была оплачена 3 мая и т.д.

1. `day` - день, в который был совершен клик по объявлению
2. `source` - источник трафика
3. `cost` - стоимость кликов

Датасет `user_source.csv` содержит колонки:

1. `user_id` - идентификатор пользователя
2. `source` - источников, с которого пришёл пользователь, установивший приложение

**План работы**

1. Загрузить и подготовить данные
   1. Почистить колонки, задать типы данных
   2. Обработать пропуски и дубликаты
   3. Найти и исправить ошибки (если есть) 
2. Провести исследовательский анализ и рассчитать
   1. Количество (и доли) пользователей за весь период, тех кто прошел игру, по источникам трафика
   2. Количество (и доли на пользователя) событий за весь период, реализованных проектов, построенных зданий
   3. Количество (и доли) использованных источников трафика, стоимость клика по источникам
   4. Время прохождения уровня
3. Рассчитать метрики
   1. DAU, WAU и Sticky Factor (SF)
   2. LTV (с предположениями), CAC
4. Проверить гипотезы
   1. Время завершения уровня различается в зависимости от способа прохождения
   2. Количество построек зависит от канала привлечения
5. Сделать выводы и рекомендации


In [68]:
import pandas as pd
import numpy as np
import plotly.express as px
from scipy import stats as st
from IPython.display import display

# Save raw datasets in case we need them
try:
    raw_actions = pd.read_csv('game_actions.csv')
    raw_costs = pd.read_csv('ad_costs.csv')
    raw_sources = pd.read_csv('user_source.csv')
except:
    raw_actions = pd.read_csv('/datasets/game_actions.csv')
    raw_costs = pd.read_csv('/datasets/ad_costs.csv')
    raw_sources = pd.read_csv('/datasets/user_source.csv')

# Constants, which we will need later
FIG_WIDTH = 8
FIG_HEIGHT = 5


## Предобработка данных

Для начала проверим какие данные нам достались. Нас интересуют:

1. Названия колонок.
2. Неподходящие под тип данных значения в колонках.
3. Артефакты в данных и повторяющиеся строки.
4. Пропущенные значения.
5. Дополнительные колонки и типы данных.

Пойдем по порядку.

In [69]:
# Check columns
for dataset in [raw_actions, raw_costs, raw_sources]:
    print('-' * 50)
    dataset.info()


--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 135640 entries, 0 to 135639
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   event_datetime  135640 non-null  object
 1   event           135640 non-null  object
 2   building_type   127957 non-null  object
 3   user_id         135640 non-null  object
 4   project_type    1866 non-null    object
dtypes: object(5)
memory usage: 5.2+ MB
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 0 to 27
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   source  28 non-null     object 
 1   day     28 non-null     object 
 2   cost    28 non-null     float64
dtypes: float64(1), object(2)
memory usage: 800.0+ bytes
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>


Название колонок уже заданы нормально. У нас есть много пропущенных занчений в датасете `raw_actions`, но это может быть связано с тем, как были собраны данные. Мы на это посмотрим в следующих секциях. Наконец, надо будет проверить типы данных.

In [70]:
for column in ['event', 'building_type', 'project_type']:
    print(
        '-' * 50, '\n',
        raw_actions[column].value_counts(),
        sep=''
    )


--------------------------------------------------
building            127957
finished_stage_1      5817
project               1866
Name: event, dtype: int64
--------------------------------------------------
spaceport          59325
assembly_shop      54494
research_center    14138
Name: building_type, dtype: int64
--------------------------------------------------
satellite_orbital_assembly    1866
Name: project_type, dtype: int64


In [71]:
print(
    '-' * 50, '\n',
    raw_costs.source.value_counts(), '\n',
    '-' * 50, '\n',
    raw_sources.source.value_counts(),
    sep=''
)


--------------------------------------------------
facebook_ads               7
instagram_new_adverts      7
yandex_direct              7
youtube_channel_reklama    7
Name: source, dtype: int64
--------------------------------------------------
yandex_direct              4817
instagram_new_adverts      3347
facebook_ads               2726
youtube_channel_reklama    2686
Name: source, dtype: int64


У нас нету странных значений в записях: каналы в затратах совпадают с каналами в источниках, а события в `row_actions` адекватны.

Следующим шагом, проверим дубликаты.

In [72]:
for dataset in [raw_actions, raw_sources]:
    display(dataset[dataset.duplicated()])

Unnamed: 0,event_datetime,event,building_type,user_id,project_type
74891,2020-05-10 18:41:56,building,research_center,c9af55d2-b0ae-4bb4-b3d5-f32aa9ac03af,


Unnamed: 0,user_id,source


У нас есть одинокая строка с полным дубликатом в `raw_actions`. Убьем ее: явно один и тот же пользватель не мог совершить одно и то же действия в одно и то же время.

Причешем наши датасеты.

In [73]:
# Win classifier function
def fun_get_win_type(event_column):
    """
    Classifier function to fill-in the blanks in the df_actions.
    If a player completed a stage without constructing orbital assembly - it is a PvP win.
    If they constructed orbital assembly - it is a PvE win. Otherwise, player has not completed the stage.

    Args:
        event_column: event column from df_actions

    Returns:
        classification: a text-based classification of how the player won (if they completed the stage at all) 
    """
    if event_column == 'finished_stage_1':
        return 'win_by_pvp'
    elif event_column == 'project':
        return 'satellite_orbital_assembly'
    else:
        return 'stage_not_finished'


In [80]:
# No changes to the raw datasets
df_sources = raw_sources.copy()

# Changes in the raw datasets
df_costs = (
    raw_costs
    .copy()
    .astype({
        'day': 'datetime64[D]'
    })
)

df_actions = (
    raw_actions
    .copy()
    .drop_duplicates()
    .assign(
        event = lambda df: df.event.replace({
            'building': 'building_completed',
            'finished_stage_1': 'won_by_pvp',
            'project': 'won_by_completing_project',
        }),
        building_type = lambda df: df.building_type.fillna('no_building'),
        project_type = lambda df: df.event.apply(fun_get_win_type),
    )
    .astype({
        'event_datetime': 'datetime64[s]'
    })
)


## Исследовательский анализ данных

Посмотрим, какие основные зависимости в данных мы можем найти: сколько у нас пользователей, откуда они приходят, как себя ведут в игре и прочее.

In [85]:
df_temp = (
    pd.pivot_table(
        data=df_actions.astype({'event_datetime': 'datetime64[D]'}),
        index=['event_datetime', 'event'],
        values='user_id',
        aggfunc='count'
    )
    .reset_index()
    .set_axis(['day_event', 'event', 'event_count'], axis=1)
    .rename_axis('index', axis=1)
)

print(
    'Total number of unique users: ', df_actions.user_id.nunique(), '\n',
    'Total number of events: ', df_actions.event.count(), '\n',
    'Average number of events per unique user: ', round(
        df_actions.event.count() / df_actions.user_id.nunique(), 2
    ),
    sep=''
)

fig = px.bar(
    df_temp,
    x='day_event',
    y='event_count',
    color='event',
    title='Total number of events by type per day',
    labels=dict(
        event_count='Number of events',
        day_event='Date'
    ),
    width=FIG_WIDTH*100,
    height=FIG_HEIGHT*100,
    template='plotly_white'
)
fig.update_layout(
    legend=dict(
        orientation="h",
        yanchor='top', y=1.1, x=0
    )
)
fig.show()


Total number of unique users: 13576
Total number of events: 135639
Average number of events per unique user: 9.99


В нашей игре уже достаточно приличное количество пользователей, которые, видимо, довольно много кликают - в среднем на пользователя приходится по 10 событий. Видимо, многие из них строят несколько космопортов или сборочных цехов за раз.

Другое интересное наблюдение - количество событий в день. У нас в начале периода явно есть много активности - игроки строят здания. Потом что-то происходит с 10 на 11 мая и количество построек в день резко падает, но у нас начинают появляться участники, которые завершили уровень.

Посмотрим, какое у нас количество уникальных пользователей в день.

In [86]:
df_temp = (
    pd.pivot_table(
        data=df_actions.astype({'event_datetime': 'datetime64[D]'}),
        index='event_datetime',
        values='user_id',
        aggfunc='nunique'
    )
    .reset_index()
    .set_axis(['day_event', 'user_id_count'], axis=1)
    .rename_axis('index', axis=1)
)

fig = px.bar(
    df_temp,
    x='day_event',
    y='user_id_count',
    title='Total number of unique users per day',
    labels=dict(
        event_count='Number of unique users',
        day_event='Date'
    ),
    width=FIG_WIDTH*100,
    height=FIG_HEIGHT*100,
    template='plotly_white'
)
fig.update_layout(
    legend=dict(
        orientation="h",
        yanchor='top', y=1.1, x=0
    )
)
fig.show()


А вот, похоже, и ответ на наш вопрос: после 10 мая количество уникальных пользователей падает с 9К до 6К. Вероятно, это связано с тем, что мы рассматриваем игроков, привлеченных рекламой с 3 по 9 мая.

Посмотрим, какие постройки делают игроки до завершения уровня.

In [83]:
df_temp = (
    pd.pivot_table(
        data=df_actions[df_actions.building_type != 'no_building'],
        index='building_type',
        values='user_id',
        aggfunc='count',
        margins=True
    )
    .reset_index()
    .set_axis(['event', 'event_count'], axis=1)
    .rename_axis('index', axis=1)
    .assign(
        event_per = lambda df: round(100 * df.event_count / df.event_count.iloc[-1], 1),
        sort_key = lambda df: df.event == 'All'
    )
    .sort_values(['sort_key', 'event_per'], ascending=[True, False])
    .drop('sort_key', axis=1)
)

fig = px.bar(
    df_temp[df_temp.event != 'All'],
    x='event_count',
    y='event',
    text_auto=True,
    title='Total number of events by buidling type',
    labels=dict(
        event_count='Number of events',
        event='Building type'
    ),
    width=FIG_WIDTH*100,
    height=FIG_HEIGHT*100,
    template='plotly_white'
)
fig.update_xaxes(showticklabels=False)
fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()

display(df_temp)

index,event,event_count,event_per
2,spaceport,59325,46.4
0,assembly_shop,54494,42.6
1,research_center,14137,11.0
3,All,127956,100.0
