# Настройки для подключения
- пользователь: tuser
- пароль: faexoh9A
- хост: htstmysql35.plg.dev
- база: test
- порт: 5432

# Описание полей таблиц:
- events_data csv
    - event_id — id игрового события, пришедшего от игрока
    - user_id — id игрока
    - event_timestamp — unixtimestamp когда произошло событие
    - event_name — название события
- parameters_data csv
    - event_id — id игрового события, пришедшего от игрока
    - param_key — ключ параметр игрового события
    - param_value_int, param_value_float, param_value_double, param_value_string — значение параметра в соответствующем формате
- ab_data csv
    - user_id — id игрока
    - ab_group — номер группы АБ-теста, в которую попал игрок (0 — контрольная, 1 — тестовая)
    - joined — unixtimestamp присоединения игрока к АБ-тесту
- prices_data csv
    - product_id — id предложения в магазине игры
    - price — цена предложения в USD
    

# Задания
Для успешного прохождения тестового задания необходимо выполнить минимум 3 любых задания из перечисленных ниже. Будет плюсом если
вы найдете какие-то интересные закономерности в данных, сформулируете гипотезы по улучшению игры, основанные на изученных данных, выполните все задания.
1. Посчитайте различные KPI метрики игры: DAU, ARPU, ARPPU, Conversion.
2. В нашей игре есть большое разнообразие оружия. Составьте рейтинг популярности оружия среди игроков. Аргументируйте критерии, по которым вы оцениваете популярность. Чем эти данные могут помочь гейм-дизайнеру для развития игры.
3. Хорошая практика разделять пользователей игры по группам лояльности. Предложите свои критерии лояльности, разделите игроков по группам.
4. В нашей игре проводился АБ-тест. Каждый игрок был распределен в одну из групп (контрольная или тестовая) и получил идентификатор 0 или 1 соответственно. В тесте мы хотели проверить гипотезу о том, что изменения в тестовой группе положительно повлияют на денежные показатели: ARPU и конверсию. Проведите анализ АБ-теста: подтвердилась ли наша гипотеза, какая группа победила в тесте?


[Более продробное описание событий](https://docs.google.com/spreadsheets/d/1L4vD7rFP7VTSqVJrPdeSRML1v3Lzf0Xyifm_oKgbjmw/edit?usp=sharing)

In [399]:
import psycopg2
import numpy as np
import pandas as pd
from sqlalchemy import create_engine
%matplotlib inline
from matplotlib import pyplot as plt
import seaborn as sns

from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly
import plotly.graph_objs as go

init_notebook_mode(connected=True)

from scipy import stats

#dialect+driver://username:password@host:port/database

alchemyEngine = create_engine('postgresql+psycopg2://tuser:faexoh9A@htstmysql35.plg.dev:5432/test', pool_recycle=3600);

# Задание 1

DAU - Daily Active Users (Ежедневные Активные Пользователи) — количество уникальных пользователей, которые зашли в приложение в течение суток.

ARPPU - Average Revenue Per Paying User (Средний Счет На Платящего Пользователя) — средний доход с одного платящего пользователя. Рассчитывается по формуле: Выручка приложения / Количество пользователей, совершивших платеж.

ARPU - Average Revenue Per User (Средний Счет На Пользователя) — средних доход с пользователя. Рассчитывается по формуле: Выручка приложения / Количество всех пользователей, посетивших приложение за период полученной выручки.

Conversion - конверсия в платеж – это процент пользователей, совершивших покупку из тех, кто установил приложение.
Конверсия в платеж = Платящие пользователи / Новые пользователи

In [400]:
dbConnection = alchemyEngine.connect();

dau_sql = """
    SELECT DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0)) AS DAY,
    COUNT(distinct user_id) AS DAU
    FROM events_data ed 
    GROUP BY DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0));
    """
dau = pd.read_sql(dau_sql, dbConnection);
pd.set_option('display.expand_frame_repr', False);

dbConnection.close();

In [401]:
# plt.figure(figsize=(18,6))
# sns.lineplot(data=dau, x="day", y="dau", color='orange', markers=".");
# for x, y in zip(dau['day'], dau['dau']):
#     plt.text(x, y, f'{y:.2f}',color='blue', fontsize=8)

In [402]:
trace0 = go.Scatter(
    x=dau["day"], y=dau["dau"],
    name='DAU', line=dict(color="green"))

data = [trace0]
layout = {'title': 'Значение DAU'}

fig = go.Figure(data=data, layout=layout)
iplot(fig, show_link=False)

In [403]:
revenue_sql = """
    select sum(price)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    join prices_data pd2 on pd.param_value_string = pd2.product_id 
    where ed.event_name = 'in_app_purchase' and pd.param_key = 'product_id'
    """
number_of_unique_sql = """
    select count(distinct user_id)
    from events_data ed 
    """

number_of_paid_sql = """
    select count(distinct user_id)
    from events_data ed 
    where event_name = 'in_app_purchase'
    """

dbConnection = alchemyEngine.connect();

revenue = pd.read_sql(revenue_sql, dbConnection).iloc[0, 0];
number_of_unique = pd.read_sql(number_of_unique_sql, dbConnection).iloc[0, 0];
number_of_paid = pd.read_sql(number_of_paid_sql, dbConnection).iloc[0, 0];

dbConnection.close();

In [404]:
ARPU = revenue / number_of_unique
ARPPU = revenue / number_of_paid
conversion = number_of_paid / number_of_unique

In [405]:
print("Выручка - {} $ ".format(round(revenue, 2)))
print("Количество уникальных пользователей за наблюдаемый период -  {}".format(number_of_unique))
print("Количество уникальных пользователей, которые совершили покупки -  {}".format(number_of_paid))
print("Показатель ARPU составляет {} $".format(round(ARPU, 2)))
print("Показатель ARPPU составляет {} $".format(round(ARPPU, 2)))
print("Показатель Conversion составляет {} %".format(round(conversion * 100, 2)))

Выручка - 37584.47 $ 
Количество уникальных пользовательей за наблюдаемый период -  505034
Количество уникальных пользовательей, которые совершили покупки -  1808
Показатель ARPU составляет 0.07 $
Показатель ARPPU составляет 20.79 $
Показатель Conversion составляет 0.36 %


# Задание 2

Взглянем, с каким оружием начинают матч игроки и с каким заканчивают. Интересно, что рейтинг для первых 10 позиций совпадает. Можно предположить, что игроки не склонны к смене оружия и играют матч с одним, заранее выбранным, оружием.

In [406]:
weapons_start_sql = """
    select param_value_string, count(param_value_string)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id and pd.param_key = 'content_type'
    where ed.event_name  = 'match_start'
    group by param_value_string
    order by 2 desc"""

weapons_finish_sql = """
    select param_value_string, count(param_value_string)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id and pd.param_key = 'content_type'
    where ed.event_name  = 'match_finish'
    group by param_value_string
    order by 2 desc"""

dbConnection = alchemyEngine.connect();

weapons_start = pd.read_sql(weapons_start_sql, dbConnection);
weapons_finish = pd.read_sql(weapons_finish_sql, dbConnection);

dbConnection.close();

In [407]:
weapons_start.head(10)

Unnamed: 0,param_value_string,count
0,Magnum44,2133206
1,Glock,748766
2,Thompson,498919
3,AK47,452304
4,Uzi,311802
5,Airhorn,286738
6,Bizon,187973
7,NarfGun,179495
8,Musket,174793
9,Colt,77608


In [408]:
weapons_finish.head(10)

Unnamed: 0,param_value_string,count
0,Magnum44,2122216
1,Glock,763954
2,Thompson,499562
3,AK47,448931
4,Uzi,316630
5,Airhorn,289385
6,Bizon,178770
7,NarfGun,169507
8,Musket,167871
9,Colt,78412


Рассмотрим, какое оружие было разблокировано, а какое куплено за внутриигровую валюту

In [409]:
weapons_unblock_sql = """
    select param_value_string, count(param_value_string)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    where ed.event_name  = 'unlock_content' and pd.param_key = 'content_type'
    group by param_value_string
    order by 2 desc"""

weapon_spend_currency_sql = """
    select param_value_string, count(param_value_string)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    where ed.event_name = 'spend_ingame_currency' and pd.param_key = 'content_type'
    group by param_value_string
    order by 2 desc"""

dbConnection = alchemyEngine.connect();

weapons_unblock = pd.read_sql(weapons_unblock_sql, dbConnection);
weapon_spend_currency = pd.read_sql(weapon_spend_currency_sql, dbConnection);

dbConnection.close();

In [410]:
weapons_unblock.head(10)

Unnamed: 0,param_value_string,count
0,Magnum44,209589
1,Glock,133634
2,Uzi,107394
3,AK47,77686
4,Thompson,71654
5,Airhorn,51385
6,NarfGun,36616
7,Bizon,32327
8,Colt,20967
9,Musket,20572


In [411]:
weapon_spend_currency.head(10)

Unnamed: 0,param_value_string,count
0,Airhorn,51368
1,Glock,39704
2,Bizon,32318
3,Thompson,21910
4,WaterGun,14146
5,JokerGun,12571
6,NarfGun,12215
7,Musket,11850
8,SupremeGun,10871
9,NailGun,9922


Соберем все вместе. Отсортируем датаферймы по убыванию, начислим очки популярности каждому оружию; чем выше позиция, тем больше очков. Общий рейтинг представлен в виде барплота

In [412]:
weapons_start['Ranking'] = weapons_start['count'].rank(ascending=True)
weapons_finish['Ranking'] = weapons_finish['count'].rank(ascending=True)
weapons_unblock['Ranking'] = weapons_unblock['count'].rank(ascending=True)
weapon_spend_currency['Ranking'] = weapon_spend_currency['count'].rank(ascending=True)
result = pd.concat([weapons_start, weapons_finish, weapons_unblock, weapon_spend_currency] ,axis=0)
result = result.groupby('param_value_string').sum().\
                sort_values(by='Ranking', ascending=False)

In [413]:
# plt.figure(figsize=(12, 24))
# sns.barplot(data = result, x='Ranking', y = result.index);

In [414]:
fig = go.Figure(layout = {'title': 'Рейтинг оружия'})
fig.add_trace(go.Bar(
    y = result.index,
    x = result['Ranking'],
    name='Рейтинг оружия',
    orientation='h',
    marker=dict(color="orange")))
fig.update_layout(barmode='stack', yaxis={'categoryorder':'total ascending'})

Гейм-дизайнеру это график может помочь понять, какое оружие не пользуется популярностью, проработке какого оружия можно уделить меньше времени, или наооборот  - больше, чтобы сделать его более интересным для игроков.

# Задание 3

Определимся с критериями лояльности. Лояльным клиентом будем считать такого, который играет много дней в течении месяца, играет часто и совершает внутриигровые покупки. Попытаемся понять, сколько игрок играл дней и какое количество игр закончил (`event_name = 'match_finish'`). Результаты соберем в датафрейм и посмотрим основные описательные статистики. Так же посмотрим на поведение игроков, которые не только играли, но и совершали покупки (`event_name = 'in_app_purchase'`)

In [415]:
loyal_gamer_sql = """
    select distinct user_id, count(date_of_game) as num_of_days, SUM(number_of_games) as num_of_played_games
    from (select distinct user_id, DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0)) as date_of_game, count(event_name) as number_of_games
    from events_data ed 
    where event_name = 'match_finish'
    group by user_id, DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0))) as foo
    group by user_id """

dbConnection = alchemyEngine.connect();

loyal_gamer = pd.read_sql(loyal_gamer_sql, dbConnection);

dbConnection.close();

In [416]:
loyal_gamer.describe(percentiles=[0.05, 0.25, 0.5, 0.75, 0.95])

Unnamed: 0,num_of_days,num_of_played_games
count,442751.0,442751.0
mean,2.117644,12.611549
std,1.965934,24.665742
min,1.0,1.0
5%,1.0,1.0
25%,1.0,2.0
50%,1.0,5.0
75%,2.0,12.0
95%,6.0,53.0
max,31.0,1114.0


In [417]:
loyal_paying_gamer_sql = """
    select distinct user_id, count(date_of_game) as num_of_days, SUM(number_of_games) as num_of_played_games
    from (select distinct user_id, DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0)) as date_of_game, count(event_name) as number_of_games
    from events_data ed 
    where event_name = 'match_finish' and user_id in (select distinct user_id from events_data ed where event_name = 'in_app_purchase')
    group by user_id, DATE(to_timestamp(CAST (event_timestamp as BIGINT)/ 1000000.0))) as foo
    group by user_id"""

dbConnection = alchemyEngine.connect();

loyal_paying_gamer = pd.read_sql(loyal_paying_gamer_sql, dbConnection);

dbConnection.close();

In [418]:
loyal_paying_gamer.describe(percentiles=[0.05, 0.25, 0.5, 0.75, 0.95])

Unnamed: 0,num_of_days,num_of_played_games
count,1736.0,1736.0
mean,3.529378,34.108871
std,3.017003,45.99974
min,1.0,1.0
5%,1.0,2.0
25%,1.0,7.0
50%,3.0,19.0
75%,5.0,44.0
95%,10.0,112.25
max,25.0,506.0


Интересная особенность: уникальных пользователей  - *505034*, но закончило хотя бы один матч только *442751* (87.6%). Количество уникальных пользовательей, которые совершили покупки -  *1808*, но закончило хотя бы один матч - *1736*. Также заметно, что игроки, которые сделали покупки, играют чаще: 50% играло хотя бы 3 дня, в то время как в целом этот показатель составляет 1 день.

Оценим, сколько игрок тратит денег на внутриигровые покупки. Разница в 11 пользователей объясняется судя по всему тем, что в базе есть некоторые неточности, требуется более глубокий анализ. Учитывая незначительность (11 человек на 1797 - погрешность ~0.6% пренебрежем величиной как крайне малой).

Средний платеж - 20.92 доллара, в то время как медианное значение всего 7.49 доллара.

In [419]:
payments_per_user_sql = """
    select user_id, sum(price)
    from (select *
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    join prices_data pd2 on pd.param_value_string = pd2.product_id 
    where ed.event_name = 'in_app_purchase' and pd.param_key = 'product_id') as foo
    group by user_id
    """

dbConnection = alchemyEngine.connect();

payments_per_user = pd.read_sql(payments_per_user_sql, dbConnection);

dbConnection.close();

In [420]:
payments_per_user.describe(percentiles=[0.05, 0.25, 0.5, 0.75, 0.95])

Unnamed: 0,sum
count,1797.0
mean,20.91512
std,53.441281
min,0.99
5%,2.49
25%,5.99
50%,7.49
75%,8.48
95%,82.39
max,569.24


Cоберем все вместе. Выделим три группы:
- тех, кто играл 6 дня и более (95ый процентиль - 6 дней) и ничего не платил - `слаболояльные`
- тех, кто играл более 3 дней (медиана среди плативших) и платил хоть какую-то сумму  - `среднелояльные`
- тех, кто играл более 3 дней и заплатил 7.49 доллара и более (медиана среди плативших) - `сильнолояльные`
- остальные будут `нелояльные`

Можно сделать *упор* на среднелояльных пользователях,чтобы сделать их сильнолояльными

In [421]:
res = loyal_gamer.merge(payments_per_user, on='user_id', how='left')
res = res.fillna(0)

In [422]:
conditions = [
    (res['num_of_days'] >= 3) & (res['sum'] >= 7.49),
    (res['num_of_days'] >= 3) & (res['sum'] > 0),
    (res['num_of_days'] >= 6),
    (res['num_of_days'] < 6)
    ]

values = ['сильнолояльный', 'среднелояльный', 'слаболояльный', 'нелояльный']

res['loyalty'] = np.select(conditions, values)

In [423]:
res.loyalty.value_counts()

нелояльный        415046
слаболояльный      26825
сильнолояльный       581
среднелояльный       299
Name: loyalty, dtype: int64

# Задание 4

Нужно определить две гипотезы, которые помогут понять, является ли наблюдаемая разница между версией A (изначальной) и версией B (новой, которую нужно проверить) случайностью или результатом изменений, которые были произведены.

- H0: результаты для версий А и В на самом деле не отличаются, наблюдаемые различия случайны, изменения в версии B не влияют на метрики; 
- H1: B отличается от A, улучшения от внедерения изменений B влияют на метрики.

Группы A и B неодинаковые (252242 и 252792 пользователей соответственно, разница 0.22 %). 

Уровень статистической значимости примем равным $\alpha = 0.05$. В 5% случаев мы будем обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью.  Параметры ARPU и Conversion расчитаем для каждого дня. 

In [424]:
number_of_unique_A_sql = """
    select DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0)), count(user_id)
    from ab_data ad
    where ab_group = '0'
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""

number_of_unique_B_sql = """
    select DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0)), count(user_id)
    from ab_data ad
    where ab_group = '1'
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""


revenue_A_sql = """
    select sum(price)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    join prices_data pd2 on pd.param_value_string = pd2.product_id
    join ab_data ad on ed.user_id = ad.user_id 
    where ed.event_name = 'in_app_purchase' and pd.param_key = 'product_id' and ad.ab_group = 0
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""

revenue_B_sql = """
    select sum(price)
    from events_data ed 
    join parameters_data pd on ed.event_id = pd.event_id 
    join prices_data pd2 on pd.param_value_string = pd2.product_id
    join ab_data ad on ed.user_id = ad.user_id 
    where ed.event_name = 'in_app_purchase' and pd.param_key = 'product_id' and ad.ab_group = 1
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""

number_of_paid_A_sql = """
    select count(distinct ed.user_id)
    from events_data ed 
    join ab_data ad on ed.user_id = ad.user_id 
    where ed.event_name = 'in_app_purchase' and ad.ab_group = 0
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""

number_of_paid_B_sql = """
    select count(distinct ed.user_id)
    from events_data ed 
    join ab_data ad on ed.user_id = ad.user_id 
    where ed.event_name = 'in_app_purchase' and ad.ab_group = 1
    group by DATE(to_timestamp(CAST (joined as BIGINT)/ 1000000.0))"""

dbConnection = alchemyEngine.connect();

number_of_unique_A = pd.read_sql(number_of_unique_A_sql, dbConnection);
number_of_unique_B = pd.read_sql(number_of_unique_B_sql, dbConnection);
revenue_A = pd.read_sql(revenue_A_sql, dbConnection);
revenue_B = pd.read_sql(revenue_B_sql, dbConnection);
number_of_paid_A = pd.read_sql(number_of_paid_A_sql, dbConnection);
number_of_paid_B = pd.read_sql(number_of_paid_B_sql, dbConnection);

dbConnection.close();

In [425]:
number_of_unique_A['sum'] = revenue_A['sum']
number_of_unique_B['sum'] = revenue_B['sum']

In [426]:
number_of_unique_A['ARPU'] = number_of_unique_A['sum']/number_of_unique_A['count']
number_of_unique_B['ARPU'] = number_of_unique_B['sum']/number_of_unique_B['count']

In [427]:
number_of_unique_A['number_of_paid'] = number_of_paid_A['count']
number_of_unique_B['number_of_paid'] = number_of_paid_B['count']

In [428]:
number_of_unique_A['conversion'] = number_of_unique_A['number_of_paid'] / number_of_unique_A['count'] * 100
number_of_unique_B['conversion'] = number_of_unique_B['number_of_paid'] / number_of_unique_B['count'] * 100

Сначала проверим, имееют ли данные нормальное распределение. Для этого првоедем тест Шапиро-Уилка.

In [429]:
stats.shapiro(number_of_unique_A['ARPU']), stats.shapiro(number_of_unique_B['ARPU'])

(ShapiroResult(statistic=0.3793298602104187, pvalue=2.342911142871884e-10),
 ShapiroResult(statistic=0.7599578499794006, pvalue=1.0176290743402205e-05))

In [430]:
stats.shapiro(number_of_unique_A['conversion']), stats.shapiro(number_of_unique_B['conversion'])

(ShapiroResult(statistic=0.8764192461967468, pvalue=0.001954588806256652),
 ShapiroResult(statistic=0.8225856423377991, pvalue=0.00013921092613600194))

P-value в обоих случаях очень маленькие (<< 0.05), соотвественно отвергаем нулевую гипотезу теста Шапиро-Уилка о том, что данные нормально распределены. Данные имеют ненормальное распределние. Для проверки нашей нулевой гипотезы будем применять непараметрические тесты - Критерий Уилкоксона и U-критерий Манна — Уитни.

In [431]:
stats.wilcoxon(number_of_unique_A['ARPU'], number_of_unique_B['ARPU'])

WilcoxonResult(statistic=238.0, pvalue=0.8446372082208967)

In [432]:
stats.wilcoxon(number_of_unique_A['conversion'], number_of_unique_B['conversion'])

WilcoxonResult(statistic=178.0, pvalue=0.17013873841797622)

In [433]:
stats.mannwhitneyu(number_of_unique_A['ARPU'], number_of_unique_B['ARPU'])

MannwhitneyuResult(statistic=453.0, pvalue=0.3519276185357917)

In [434]:
stats.mannwhitneyu(number_of_unique_A['conversion'], number_of_unique_B['conversion'])

MannwhitneyuResult(statistic=445.0, pvalue=0.31109459547384455)

Значения всех тестов > 0.05. Основания для того, чтобы отвергнуть нулевую гипотезу, отсутсвуют. Результаты для версий А и В на самом деле не отличаются, наблюдаемые различия случайны, изменения в версии B не влияют на метрики.