In [13]:
import pandas as pd
from datetime import datetime, timedelta

# подготовим сэмпл данных на которых, будем тестировать функцию
# загрузка данных из файлов
reg_data = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-a-30/shared/problem1-reg_data.csv', sep=';')
auth_data = pd.read_csv('/mnt/HC_Volume_18315164/home-jupyter/jupyter-a-a-30/shared/problem1-auth_data.csv', sep=';')

# удаление дубликатов
reg_data.drop_duplicates(inplace=True)
auth_data.drop_duplicates(inplace=True)

# удаление строк с недопустимыми значениями
reg_data.dropna(subset=['uid', 'reg_ts'], inplace=True)
auth_data.dropna(subset=['uid', 'auth_ts'], inplace=True)

# приведение полей времени к формату datetime
reg_data['reg_ts'] = pd.to_datetime(reg_data['reg_ts'], unit='s').dt.date
auth_data['auth_ts'] = pd.to_datetime(auth_data['auth_ts'], unit='s').dt.date

# объединим данные по полю uid
merged_data = pd.merge(reg_data, auth_data, on='uid')

# возьмем сэмпл из 10 строк в качестве данных, на которых будем тестировать функцию
merged_data = merged_data.sample(n=10)
merged_data

Unnamed: 0,reg_ts,uid,auth_ts
9141513,2020-05-27,913581,2020-07-05
6284733,2019-01-16,403268,2020-04-25
1471492,2015-07-18,49256,2019-02-06
3168458,2017-04-09,139183,2018-08-22
1366137,2015-05-17,44436,2019-03-11
2720907,2016-12-06,113557,2020-01-16
4143088,2017-12-01,205206,2019-04-14
512843,2013-06-27,14320,2014-01-31
1067873,2014-11-27,33605,2019-06-09
2485700,2016-09-24,100734,2016-10-10


In [14]:
# напишем функцию
def calculate_retention(df):
    """
    Рассчитаем удержание игроков (в днях) на основе времени регистрации и авторизации.

    Параметры:
    Сэмпл датафрейма, содержащий время регистрации, идентификатор игрока и время авторизации.

    Возвращает:
    Датафрейм, в котором посчитан retention для каждого идентификатора игрока (в днях).
    """
    # создание нового столбца с количеством дней между временем регистрации и авторизации
    df['retention'] = (df['auth_ts'] - df['reg_ts']).dt.days
    
    # группировка по идентификатору игрока и возврат максимального удержания для каждого игрока
    retention_df = df.groupby('uid')['retention'].max().reset_index()
    
    return retention_df



In [15]:
# тестируем функцию
calculate_retention(merged_data)

Unnamed: 0,uid,retention
0,14320,218
1,33605,1655
2,44436,1394
3,49256,1299
4,100734,16
5,113557,1136
6,139183,500
7,205206,499
8,403268,465
9,913581,39
