In [1]:
import numpy as np
import pandas as pd


def calculate_linearized_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name, kappa=None
):
    """Вычисляет значение линеаризованной метрики для списка пользователей в определённый период.
    
    df - pd.DataFrame, датафрейм с данными
    value_name - str, название столбца со значениями для вычисления целевой метрики
    user_id_name - str, название столбца с идентификаторами пользователей
    list_user_id - List[int], список идентификаторов пользователей, для которых нужно посчитать метрики
    date_name - str, название столбца с датами
    period - dict, словарь с датами начала и конца периода, за который нужно посчитать метрики.
        Пример, {'begin': '2020-01-01', 'end': '2020-01-08'}. Дата начала периода входит в
        полуинтервал, а дата окончания нет, то есть '2020-01-01' <= date < '2020-01-08'.
    metric_name - str, название полученной метрики
    kappa - float, коэффициент в функции линеаризации.
        Если None, то посчитать как ratio метрику по имеющимся данным.

    return - pd.DataFrame, со столбцами [user_id_name, metric_name], кол-во строк должно быть равно
        кол-ву элементов в списке list_user_id.
    """
    # YOUR_CODE_HERE
    date_filter = (period['begin'] <= df[date_name]) & (df[date_name] < period['end'])
    sub_df = df[date_filter]
    
    sub_df = sub_df.query(f"{user_id_name} in @list_user_id")
    
    aggregation = sub_df.groupby(user_id_name).agg(x = (value_name, 'sum'),
                                                   y = (value_name, 'count'))
    if kappa is None:
        kappa = aggregation.sum().x / aggregation.sum().y
    
    linearized = aggregation.x - kappa * aggregation.y
    
    ans = pd.DataFrame({user_id_name: aggregation.index, metric_name: linearized})
    
    remaining_user_ids = np.array(list_user_id)[np.isin(list_user_id, ans[user_id_name], invert=True)]
    ans = pd.concat((ans, pd.DataFrame({user_id_name: remaining_user_ids, metric_name: 0.})))
    
    return ans.reset_index(drop=True)

In [2]:
size = 20
value_name2 = 'value_name2'
user_id_name2 = 'user_id_name2'
date_name2 = 'date_name2'
period2 = {'begin': pd.to_datetime('2017-05-05'), 'end': pd.to_datetime('2019-09-09')}

df = pd.DataFrame({value_name2: np.random.randint(1,20,size=size),
                   user_id_name2: np.random.choice(np.unique(np.random.randint(5000,5010, size**2)), 
                                                    replace=True, size=size),
                   date_name2: np.random.choice([x.date() for x in pd.date_range('2019-01-01', '2020-01-01')], 
                                                 replace=True, size=size)})
df

Unnamed: 0,value_name2,user_id_name2,date_name2
0,17,5002,2019-03-16
1,18,5003,2019-04-30
2,7,5001,2019-06-16
3,19,5000,2019-12-25
4,18,5002,2019-08-12
5,4,5009,2019-09-08
6,3,5006,2019-09-30
7,14,5007,2019-09-04
8,8,5000,2019-08-08
9,17,5009,2019-09-25


In [3]:
list_user_id2 = np.random.choice(df[user_id_name2].unique(), replace=False, size=3)
list_user_id2

array([5009, 5001, 5005])

In [4]:
ans = calculate_linearized_metric(df, value_name2, user_id_name2, list_user_id2, 
                                  date_name2, period2, 'metric_name2', None)
ans

Unnamed: 0,user_id_name2,metric_name2
0,5001,1.5
1,5009,-1.5
2,5005,0.0


In [5]:
d1 = period2['begin']
d2 = period2['end']
q = df.query("(user_id_name2 in [5003, 5009]) and (date_name2 >= @d1) and (date_name2 < @d2)")
q

Unnamed: 0,value_name2,user_id_name2,date_name2
1,18,5003,2019-04-30
5,4,5009,2019-09-08
18,4,5003,2019-05-22


In [6]:
aggregation = q.groupby(user_id_name2).agg(x = (value_name2, 'sum'),
                                                    y = (value_name2, 'count'))
aggregation

Unnamed: 0_level_0,x,y
user_id_name2,Unnamed: 1_level_1,Unnamed: 2_level_1
5003,22,2
5009,4,1


In [7]:
kappa = aggregation.sum().x / aggregation.sum().y
kappa

8.666666666666666

In [8]:
qwerty

NameError: name 'qwerty' is not defined