## 3 кейс
В этом кейсе вы будете рассчитывать:

- retention
- rolling retention
- lifetime
- churn rate
- mau
- wau

**Важно**

Перед началом решения задачи выполните следующую ячейку - в ней скачиваются нужные файлы

In [None]:
!wget https://gist.github.com/Vs8th/739269a03f2f4a7396d04d6739da3771/raw/registrations.csv
!wget https://gist.github.com/Vs8th/aacb80595d1d6aaa2e31eb735f8bc644/raw/entries.csv
!wget https://gist.github.com/Vs8th/0e827e9a608117345dd6585ab81e8c86/raw/metrics.txt

Файлами для работы являются `registrations.csv` и `entries.csv`. В них хранятся данные о регистрациях пользователей и входа на платформу соответственно.

In [None]:
#@title ✏️ Проверка: чтобы проверить свое решение запустите код в этой ячейке
# Открываем файл с правильными ответами
with open('metrics.txt', 'r') as f:
    answers = f.read().split('\n')

correct_answer = float(answers[0])

try:
    assert retention_15_day == correct_answer
except AssertionError:
    print('Ответы не совпадают')
else:
    print('Поздравляем, Вы справились!')

### 1. Посчитайте Retention 15 дня (в процентах) для пользователей, зарегистрированных в январе
Cохраните результат в переменную `retention_15_day`

Примечание: результат округлите до 5 знаков после запятой

In [None]:
import csv
from datetime import datetime, timedelta, date
from dateutil import relativedelta, rrule
from statistics import mean

In [None]:
# предобработка данных

def get_data(file):
    with open(file, 'r') as f:
        f.readline()
        result = f.read().split('\n')
    # разделить каждую строку по разделителю ';'
    result = [result[i].split(';') for i in range(len(result))]
    # преобразовать строковую дату в date (можно оставить и datetime)
    result = [[result[i][0], datetime.strptime(result[i][1], '%Y-%m-%d').date()] for i in range(len(result))]
    return result

registrations = get_data('registrations.csv')
entries = get_data('entries.csv')

# сформировать список с элементами ('user_id', 'entry_date', 'date_diff')
entries_proc = []
while entries:
    # изъять последний элемент ('user_id', 'entry_date')
    last = entries.pop()
    # найти user_id
    used_id = last[0]
    for r in registrations:
        # ищем в регистрациях элемент с выбранным user_id
        if r[0] == used_id:
            # рассчитать разницу в днях между датой регистрации и датой захода
            day_diff = (last[1] - r[1]).days
            # добавить разницу в днях в элемент => ('user_id', 'entry_date', 'date_diff')
            last.append(day_diff)
            # преобразовать элемент в кортеж (чтобы потом оставить только уникальные элементы) и добавить в новый список
            entries_proc.append(tuple(last))
            break

# прогнать через set, чтобы оставить только уникальные заходы
entries_proc = list(set(entries_proc))
entries_proc[:5]

In [None]:
# вариант получения данных с помощью csv
def get_data(file):
    with open(file, 'r') as f:
        reader = csv.reader(f, delimiter =';')
        reader.__next__()
        result = [[row[0], datetime.strptime(row[1], '%Y-%m-%d').date()] for row in reader]
        return result

In [None]:
# вариант цикла обогащения entries
for e in entries:
    for r in registrations:
        if e[0] == r[0]:
            day_diff = (e[1] - r[1]).days
            e.append(day_diff)
            break

In [None]:
# расчитать количество заходов в заданный день 'day'
# отбираем user_id, у которых разница в днях между регистрацией и заходом равна 'day' и которые зарегистрировались в январе
# считаем количество (len) user_id

# количество заходов в день 0
entries_0_day = len([d[0] for d in entries_proc if d[2] == 0 and d[1] <= date(2021, 1, 31) and d[1] >= date(2021, 1, 1)])
# количество заходов в день 15
entries_15_day = len([d[0] for d in entries_proc if d[2] == 15 and d[1] <= date(2021, 1, 31) and d[1] >= date(2021, 1, 1)])

retention_15_day = round(entries_15_day * 100.0 / entries_0_day, 5)
retention_15_day

### 2. Посчитайте Rolling-retention 30 дня (в процентах) для пользователей из той же когорты
Сохраните результат в переменную `rolling_retention`

Примечание: результат округлите до 5 знаков после запятой

In [None]:
# количество заходов в день 0 или позже (применить отбор уникальных user_id через set)
entries_0_day_and_later = len({d[0] for d in entries_proc if d[2] >= 0 and d[1] <= date(2021, 1, 31) and d[1] >= date(2021, 1, 1)})
# количество заходов в день 30 или позже
entries_30_day_and_later = len({d[0] for d in entries_proc if d[2] >= 30 and d[1] <= date(2021, 1, 31) and d[1] >= date(2021, 1, 1)})

rolling_retention = round(entries_30_day_and_later * 100.0 / entries_0_day_and_later, 5)
rolling_retention

### 3. Посчитайте Lifetime по всем пользователям, посчитанный как интеграл от n-day retention
Сохраните результат в переменную `lifetime`

Примечание: результат округлите до 5 знаков после запятой

In [None]:
date_diff_set = {el[2] for el in entries_proc} # отобрать уникальные 'date_diff' через множество
users = len(registrations) # рассчитать количество пользователей

entries_all = 0

# пройтись по всем датам
for day in date_diff_set:
    # суммировать количество заходов в каждый 'date_diff' = интеграл по n-day retention
    entries_all += len({d[0] for d in entries_proc if d[2] == day})

lifetime = round(entries_all / users, 5)
lifetime

### 4. Посчитайте Churn rate 29 дня (в долях), посчитанный по всем пользователям
Сохраните результат в переменную `churn_29`

In [None]:
# отобрать уникальные user_id (через set), у которых разница в днях между регистрацией и заходом больше или равна 'day'
# то есть, эти пользователи заходили в 29 день и после = оставшиеся пользователи
user_29 = len({d[0] for d in entries_proc if d[2] >= 29})

churn_29 = (users - user_29) / users
churn_29

### 5. Посчитайте Mau, Wau, Dau за последний месяц/неделю/день записей
Сохраните результат в переменные `dec_mau`, `dec_wau`, `dec_dau` соответственно

Примечание: последний месяц записей - декабрь. Поэтому `mau` рассчитываем для декабря (2021 года), для `wau` берем последнюю неделю - с 25 по 31 декабря, и для `dau` соответственно последний день - 31 декабря.

In [None]:
dec_mau = len({el[0] for el in entries_proc if el[1].year == 2021 and el[1].month == 12})
dec_wau = len({el[0] for el in entries_proc if el[1] >= date(2021, 12, 25) and el[1] <= date(2021, 12, 31)})
dec_dau = len({el[0] for el in entries_proc if el[1] == date(2021, 12, 31)})

dec_mau, dec_wau, dec_dau

### 5. Посчитайте Mau, Wau, Dau усредненные
Сохраните результат в переменные `avg_mau`, `avg_wau`, `avg_dau` соответственно

Примечание: результаты округлите до 5 знаков после запятой

In [None]:
years = {el[1].year for el in entries_proc} # получить множество всех годов из дат entries
months = {el[1].month for el in entries_proc} # получить множество всех месяцув из дат entries
pre_mau = 0
# для каждого года и месяца расчитать количество уникальных пользователей накопительным итогом
for year in years:
    for month in months:
        pre_mau += len({el[0] for el in entries_proc if el[1].year == year and el[1].month == month})

avg_mau = round(pre_mau / 12, 5)
avg_mau

In [None]:
# avg_wau вариант 1, считаем номера недель по ISO 8601

pre_wau = 0
for i in range(1, 54):
    pre_wau += len({el[0] for el in entries_proc if el[1].isocalendar().week == i})

avg_wau = round(pre_wau / 53, 5) # здесь 53 части
avg_wau

In [None]:
# avg_wau вариант 2, делим весь период на части по 7 дней, не учитывается остаток года (в данном случае дата 2021-12-31)

# получить даты с периодом 7 дней = 'неделя'
weeks = [sorted(list(dates))[i] for i in range(0, 365, 7)]

# альтернативный вариант расчета
# weeks = list(rrule.rrule(rrule.WEEKLY, dtstart=datetime(2021, 1, 1), until=datetime(2021, 12, 31)))

pre_wau = 0
for i in range(len(weeks) - 1):
    pre_wau += len({el[0] for el in entries_proc if el[1] >= weeks[i] and el[1] < weeks[i+1]})

avg_wau = round(pre_wau / 52, 5) # здесь 52 части по 7 дней
avg_wau

In [None]:
dates = {el[1] for el in entries_proc} # получить множество всех дат из дат entries
pre_dau = 0
for date in dates:
    # для каждой даты расчитать количество уникальных пользователей накопительным итогом
    pre_dau += len({el[0] for el in entries_proc if el[1] == date})

avg_dau = round(pre_dau / len(dates), 5)
avg_dau