Задание 1
Retention – один из самых важных показателей в компании.
Ваша задача – написать функцию, которая будет считать retention игроков (по дням от даты регистрации игрока).

In [7]:
import pandas as pd

def g_retention(reg_path, auth_path):

    reg_df = pd.read_csv(reg_path, sep=';', encoding='utf-8-sig')
    auth_df = pd.read_csv(auth_path, sep=';', encoding='utf-8-sig')

    # Преобразуем в datetime
    reg_df['reg_ts'] = pd.to_datetime(reg_df['reg_ts'], unit='s')
    auth_df['auth_ts'] = pd.to_datetime(auth_df['auth_ts'], unit='s')

    # Объединяем по uid
    merged = auth_df.merge(reg_df, on='uid', how='left')

    # Считаем количество дней между регистрацией и авторизацией
    merged['day'] = (merged['auth_ts'] - merged['reg_ts']).dt.days

    # Оставим только положительные дни
    merged = merged[merged['day'] >= 0]

    # Считаем retention
    retention = (
        merged.groupby(['reg_ts', 'day'])['uid']
        .nunique()
        .reset_index()
        .rename(columns={'uid': 'retained_users'})
    )

    # Считаем, сколько было регистраций в каждый день
    reg_counts = reg_df.groupby('reg_ts')['uid'].nunique().reset_index()
    reg_counts = reg_counts.rename(columns={'uid': 'registered_users'})

    # Объединяем с retention
    retention = retention.merge(reg_counts, on='reg_ts')

    # Добавим колонку retention rate
    retention['retention'] = retention['retained_users'] / retention['registered_users']

    return retention



In [9]:
result_df = g_retention('~/shared/problem1-reg_data.csv', '~/shared/problem1-auth_data.csv')
print(result_df)

                     reg_ts  day  retained_users  registered_users  retention
0       1998-11-18 09:43:43    0               1                 1        1.0
1       1999-07-22 22:38:09    0               1                 1        1.0
2       1999-07-22 22:38:09    2               1                 1        1.0
3       1999-07-22 22:38:09    8               1                 1        1.0
4       1999-07-22 22:38:09   13               1                 1        1.0
...                     ...  ...             ...               ...        ...
9601008 2020-09-23 15:13:54    0               1                 1        1.0
9601009 2020-09-23 15:14:46    0               1                 1        1.0
9601010 2020-09-23 15:15:39    0               1                 1        1.0
9601011 2020-09-23 15:16:31    0               1                 1        1.0
9601012 2020-09-23 15:17:24    0               1                 1        1.0

[9601013 rows x 5 columns]


Задание 2
Имеются результаты A/B теста,
в котором двум группам пользователей предлагались различные наборы акционных предложений.
Известно, что ARPU в тестовой группе выше на 5%, чем в контрольной. 
При этом в контрольной группе 1928 игроков из 202103 оказались платящими, а в тестовой – 1805 из 202667.

Какой набор предложений можно считать лучшим? 
Какие метрики стоит проанализировать для принятия правильного решения и как?

In [11]:
newdf = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-ro-a/Last_rarce/Проект_1_Задание_2.csv', sep=';')

In [12]:
newdf.head()

Unnamed: 0,user_id,revenue,testgroup
0,1,0,b
1,2,0,a
2,3,0,a
3,4,0,b
4,5,0,b


In [13]:
# Группируем по 2 группам
board = newdf.groupby('testgroup', as_index=False).agg({'user_id':'count', 'revenue':'sum'})

In [14]:
board.head()

Unnamed: 0,testgroup,user_id,revenue
0,a,202103,5136189
1,b,202667,5421603


In [16]:
# Добавляем платящих пользователей 
board['pay_users'] = [1928, 1805]

In [17]:
# Добавим колонку CR
board['CR'] = round((board.pay_users/board.user_id).mul(100),2)

In [18]:
# Добавим колонку ARPU - средний доход от одного пользователя
board['ARPU'] = round(board.revenue/board.user_id,2)

In [19]:
# Добавим колонку ARPPU (ARPU/ CR, то есть сколько тратит один платящий пользователь)
board['ARPPU'] = round(board.ARPU/board.CR,2)

In [20]:
board

Unnamed: 0,testgroup,user_id,revenue,pay_users,CR,ARPU,ARPPU
0,a,202103,5136189,1928,0.95,25.41,26.75
1,b,202667,5421603,1805,0.89,26.75,30.06


In [21]:
arppu = round((board.ARPPU[1]-board.ARPPU[0])/board.ARPPU[0]*(100),2)
arpu = round(((board.ARPU[1]-board.ARPU[0])/board.ARPU[0]*100),2)
cr = round((board.CR[1]-board.CR[0])/board.CR[0]*(-100),2)

print(f'ARPPU в тесте выше на {arppu}% — пользователи, которые платят, платят больше')
print(f'ARPU в тесте выше на {arpu}%')
print(f'CR в тесте ниже на {cr}%')

ARPPU в тесте выше на 12.37% — пользователи, которые платят, платят больше
ARPU в тесте выше на 5.27%
CR в тесте ниже на 6.32%


-------

Проверка ARPPU

Для ARPPU применён t-тест, но только среди платящих пользователей, так как:
1. Мы анализируем средние значения выручки среди платящих (то есть отфильтрованы 'revenue > 0').
2. Выборки по-прежнему независимы.
3. Переменная остаётся числовой и непрерывной.
4. Проверяется, есть ли разница в среднем чеке платящего пользователя.

Гипотезы для ARPPU (доход на одного платящего)

H0 - ARPPU в группах равны

H1 - ARPPU в группах различаются

In [95]:
import pingouin as pg

# Платящие пользователи
revenue_a_pay = newdf[(newdf["testgroup"] == "a") & (newdf["revenue"] > 0)]["revenue"]
revenue_b_pay = newdf[(newdf["testgroup"] == "b") & (newdf["revenue"] > 0)]["revenue"]

# T-тест для ARPPU
ttest_arppu = pg.ttest(revenue_a_pay, revenue_b_pay)
ttest_arppu

Unnamed: 0,T,dof,alternative,p-val,CI95%,cohen-d,BF10,power
T-test,-1.64463,1943.481522,two-sided,0.100208,"[-744.7, 65.38]",0.052132,0.142,0.356381


Хотя ARPPU в тестовой группе визуально выше (30.06 против 26.75), мы не отвергаем нулевую гипотезу Н0, разница не является статистически значимой (p = 0.10)

----


Проверка ARPU
Для сравнения ARPU между двумя группами был применён t-тест для независимых выборок, потому что:
- Переменная "выручка на пользователя" является непрерывной
- Группы независимы (разные пользователи).
- Мы хотим проверить различие средних значений

Формулировка гипотез ARPU (доход на пользователя)

H0 - ARPU в группах равны

H1 - ARPU в группах различаются

In [89]:
# T-тест для ARPU
revenue_a = newdf[newdf["testgroup"] == "a"]["revenue"]
revenue_b = newdf[newdf["testgroup"] == "b"]["revenue"]
pg.ttest(revenue_a, revenue_b, correction=False)

Unnamed: 0,T,dof,alternative,p-val,CI95%,cohen-d,BF10,power
T-test,-0.624203,404768,two-sided,0.532495,"[-5.54, 2.86]",0.001962,0.004,0.095694


ARPU в тестовой группе выше на 5%, но p-value слишком высокое (0.53) — мы не можем с уверенностью сказать, что эта разница не случайна, то есть статистически значимой разницы в ARPU нет, а значит не отвергаем H0

---

Проверка CR

Для проверки разницы в долях платящих пользователей между группами был выбран Z-тест для пропорций ('proportions_ztest'), так как:
1. Исходные данные — это доли успехов (платящих пользователей) в двух независимых группах.
2. Размеры выборок достаточно большие (>200 000), что удовлетворяет требованиям нормального распределения.
3. Метод позволяет проверить, есть ли статистически значимая разница в конверсии между группами.

Формулировка гипотез CR (конверсия в покупку)

H0 - Конверсия в группах равна

H1 - Конверсии различаются

In [94]:
paying_a = int(board[board['testgroup'] == 'a']['pay_users'])
paying_b = int(board[board['testgroup'] == 'b']['pay_users'])
total_a = int(board[board["testgroup"] == "a"]["user_id"])
total_b = int(board[board["testgroup"] == "b"]["user_id"])

from statsmodels.stats.proportion import proportions_ztest

successes = [paying_a, paying_b]
totals = [total_a, total_b]

z_stat, p_val = proportions_ztest(successes, totals)
print("z-stat:", z_stat)
print("p-value:", p_val)

z-stat: 2.108028495889841
p-value: 0.035028524642854865


Результат: p = 0.035 - отвергаем H0 - тестовая группа показывает статистически хуже CR.

---

**Вывод по результатам A/B-теста**


Метрика ARPPU (доход от платящего пользователя)

1. ARPPU в тестовой группе визуально выше (30.06 против 26.75) 
2. Разница не является статистически значимой (p = 0.10)
3. То есть мы не можем утверждать, что тест влияет на ARPPU

Метрика ARPU (доход от пользователя):
1. ARPU в тестовой группе выше на 5% по сравнению с контрольной
2. Однако, по результатам t-теста (p-value = 0.53), эта разница не является статистически значимой
3. Следовательно, рост ARPU мог возникнуть случайно

Метрика CR (конверсия в покупку):
1. CR в тестовой группе ниже (0.89% против 0.95%)
2. Z-тест показал, что разница статистически значимая (p-value = 0.035)
3. Это значит, что тестовый набор акций снижает конверсию


Рекомендация:

1. Оставить текущие (контрольные) акционные предложения — они дают стабильный результат по ARPU и не ухудшают конверсию.

2. Тестовый вариант не стоит внедрять, так как он не даёт значимого роста дохода и снижает CR.

---

---

---

**Задание 3**

**В игре Plants & Gardens каждый месяц проводятся тематические события, ограниченные по времени. В них игроки могут получить уникальные предметы для сада и персонажей, дополнительные монеты или бонусы. Для получения награды требуется пройти ряд уровней за определенное время. С помощью каких метрик можно оценить результаты последнего прошедшего события?**

**Предположим, в другом событии мы усложнили механику событий так, что при каждой неудачной попытке выполнения уровня игрок будет откатываться на несколько уровней назад. Изменится ли набор метрик оценки результата? Если да, то как?**



--------------


**С помощью каких метрик можно оценить результаты последнего прошедшего события?**

Метрики вовлечённости игроков
1. Количество участников события
2. Процент активных игроков
3. Среднее количество пройденных уровней в событии
4. Процент игроков, успешно завершивших все уровни события
5. Среднее время прохождения события

Метрики удержания и повторного вовлечения
1. Retention после события
2. Процент игроков, вернувшихся ради события

Метрики экономики и монетизации
1. Среднее количество заработанных монет/бонусов за событие
2. Влияние события на внутриигровую экономику
3. Процент игроков, совершивших внутриигровые покупки в период события

Метрики пользовательского опыта
1. Среднее количество попыток на уровне события
2. Отказы от участия в событии (drop-off points)
3. Отзывы и оценки игроков

Технические метрики
1. Количество багов/сбоев, связанных с событием
2. Среднее время отклика/загрузки уровней события



------------------

---

**Предположим, в другом событии мы усложнили механику событий так, что при каждой неудачной попытке выполнения уровня игрок будет откатываться на несколько уровней назад. Изменится ли набор метрик оценки результата? Если да, то как?**

Да, набор метрик оценки результата в этом случае стоит дополнить, потому что усложнённая механика (откат назад при неудаче) будет влиять на поведение игроков, их мотивацию, удержание и эмоциональную реакцию.

Новые/дополнительные метрики
1. Cложность


- Среднее количество откатов на игрока


- Максимальный откат
(Сколько уровней игроки в среднем теряли за неудачную попытку)


- Процент игроков, бросивших событие после отката


- Частота выхода из игры после отката



2. Прохождение и прогресс


- Средний прогресс по уровням с учётом откатов


- Среднее число попыток на один и тот же уровень


- Процент игроков, вернувшихся после отката



3. Метрики монетизации


- Рост трат на бустеры/попытки


- Платежеспособность игроков после откатов
(нужно ли платить чтобы не откатываться назад)

Пересмотр старых метрик


- "Среднее количество пройденных уровней" больше не говорит напрямую о прогрессе, нужно дополнительно учитывать, сколько раз их переигрывали.


- "Среднее время прохождения события" возрастёт — но теперь это не всегда плохо, а может быть признаком вызова

 Вывод
 
 
Да, набор метрик должен меняться, потому что:


- Изменилась динамика прохождения и восприятия сложности.


- Появились новые точки оттока.


- Поведение игроков стало более волатильным: откаты могут или мотивировать, или отталкивать.