In [1]:
import numpy as np
import pandas as pd
import datetime

In [None]:
"""Вычисляет значение линеаризованной метрики для списка пользователей в определённый период.
    
    df - pd.DataFrame, датафрейм с данными
    value_name - str, название столбца со значениями для вычисления целевой метрики
    user_id_name - str, название столбца с идентификаторами пользователей
    list_user_id - List[int], список идентификаторов пользователей, для которых нужно посчитать метрики
    date_name - str, название столбца с датами
    period - dict, словарь с датами начала и конца периода, за который нужно посчитать метрики.
        Пример, {'begin': '2020-01-01', 'end': '2020-01-08'}. Дата начала периода входит в
        полуинтервал, а дата окончания нет, то есть '2020-01-01' <= date < '2020-01-08'.
    metric_name - str, название полученной метрики
    kappa - float, коэффициент в функции линеаризации.
        Если None, то посчитать как ratio метрику по имеющимся данным.

    return - pd.DataFrame, со столбцами [user_id_name, metric_name], кол-во строк должно быть равно
        кол-ву элементов в списке list_user_id.
    """

In [50]:
df = pd.DataFrame([[1,4,3, '2020-01-01'],[2,2,3,'2020-01-01'],[2,2,3,'2020-01-08'],
                   [1,3,3, '2020-01-10'],[2,1,3,'2020-01-10'],[2,2,3,'2020-01-10']], columns=['a','b','c','d'])
value_name = 'b'
user_id_name = 'a'
list_user_id = [1,2,3,4]
date_name = 'd'
period = {'begin': '2020-01-01', 'end': '2020-01-09'}
metric_name = 'metric_name_example'
kappa = None
df

Unnamed: 0,a,b,c,d
0,1,4,3,2020-01-01
1,2,2,3,2020-01-01
2,2,2,3,2020-01-08
3,1,3,3,2020-01-10
4,2,1,3,2020-01-10
5,2,2,3,2020-01-10


In [51]:
def calculate_linearized_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name, kappa=None
):
    
    df_filtered = (
        df[
            df[user_id_name].isin(list_user_id)
            & (df[date_name] >= period['begin'])
            & (df[date_name] < period['end'])
        ]
        
    )
    df_full = pd.DataFrame({user_id_name: list_user_id})
    
    df_agg = (
        df_filtered
        .groupby(user_id_name)[[value_name]].agg(['sum', 'count'])
    )
    df_agg.columns = df_agg.columns.get_level_values(1)
    
    if kappa is None:
        kappa = df_agg['sum'].sum() / df_agg['count'].sum()
    df_agg[metric_name] = df_agg['sum'] - kappa * df_agg['count']
    
    result = pd.merge(
        df_full,
        df_agg[[metric_name]].reset_index(),
        on=user_id_name,
        how='outer'
    ).fillna(0)
    return result

In [52]:
df_filtered = (
        df[
            df[user_id_name].isin(list_user_id)
            & (df[date_name] >= period['begin'])
            & (df[date_name] < period['end'])
        ]
        
    )
df_full = pd.DataFrame({user_id_name: list_user_id})

In [53]:
df_agg = (
        df_filtered
        .groupby(user_id_name)[[value_name]].agg(['sum', 'count'])
    )
df_agg.columns = df_agg.columns.get_level_values(1)
df_agg

Unnamed: 0_level_0,sum,count
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,1
2,4,2


In [54]:
if kappa is None:
    kappa = df_agg['sum'].sum() / df_agg['count'].sum()
    df_agg[metric_name] = df_agg['sum'] - kappa * df_agg['count']

In [55]:
kappa

2.6666666666666665

In [56]:
df_agg

Unnamed: 0_level_0,sum,count,metric_name_example
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,4,1,1.333333
2,4,2,-1.333333


In [57]:
pd.merge(
        df_full,
        df_agg[[metric_name]].reset_index(),
        on=user_id_name,
        how='outer'
    ).fillna(0)

Unnamed: 0,a,metric_name_example
0,1,1.333333
1,2,-1.333333
2,3,0.0
3,4,0.0


In [58]:
def filter_df( df, value_name, user_id_name, list_user_id, date_name, period, metric_name):
    df_filtered = (
        df[df[user_id_name].isin(list_user_id)
            & (df[date_name] >= period['begin'])
            & (df[date_name] < period['end'])])
    return df_filtered



def calculate_linearized_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name, kappa=None
):
    df_filtered = filter_df( df, value_name, user_id_name, list_user_id, date_name, period, metric_name)
    
    df_full = pd.DataFrame({user_id_name: list_user_id})
    
    df_agg = (
        df_filtered
        .groupby(user_id_name)[[value_name]].agg(['sum', 'count'])
    )
    df_agg.columns = ['sum', 'count']
    
    if kappa is None:
        kappa = df_agg['sum'].sum() / df_agg['count'].sum()
    df_agg[metric_name] = df_agg['sum'] - kappa * df_agg['count']
    
    result = pd.merge(
        df_full,
        df_agg[[metric_name]].reset_index(),
        on=user_id_name,
        how='outer'
    ).fillna(0)
    return result

In [59]:
calculate_linearized_metric(
    df, value_name, user_id_name, list_user_id, date_name, period, metric_name, kappa=None
)

Unnamed: 0,a,metric_name_example
0,1,1.333333
1,2,-1.333333
2,3,0.0
3,4,0.0
