In [111]:
import pandas as pd
from pathlib import Path

In [112]:
data_path = Path("../data")

In [113]:
df_withdrawals = pd.read_parquet(data_path / "zrive_advertiser_withdrawals.parquet")
df_advertiser = pd.read_parquet(data_path / "zrive_dim_advertiser.parquet")
df_monthly = pd.read_parquet(data_path / "zrive_fct_monthly_snapshot_advertiser.parquet")

In [40]:
# Withdrawals 
def add_churn(df: pd.DataFrame):
    CHURN_REASONS_EXCLUDED = [
        'Upselling-cambio de contrato',
        'Cambio a Bundle Online',
        'Cambio de Contrato/propuesta/producto'
    ]
    df["churn"] = (
        (df["withdrawal_type"] == "TOTAL") &
        (df["withdrawal_status"] != "Denegada") &
        (~df["withdrawal_reason"].isin(CHURN_REASONS_EXCLUDED))
    ).astype(int)
    return df

def convert_datetime_to_month_period(df, datetime_col, new_col, drop_original=True):
    df[new_col] = pd.to_datetime(df[datetime_col]).dt.to_period('M')
    if drop_original:
        df = df.drop(columns=[datetime_col])
    return df

def add_predict_month(df: pd.DataFrame, predict_col = "predict_month", withdrawal_col="withdrawal_month", n: int = 1):
    df[predict_col] = df[withdrawal_col] - n
    return df


In [41]:
WITHDRAWAL_COLS_TO_DROP = ["withdrawal_id", "withdrawal_status", "withdrawal_type", "withdrawal_reason", "withdrawal_month"]

df_withdrawals = convert_datetime_to_month_period(
    df_withdrawals, 
    datetime_col='withdrawal_creation_date',
    new_col='withdrawal_month',
    drop_original=True
)
df_withdrawals = add_predict_month(df_withdrawals, n=1)
df_withdrawals = add_churn(df_withdrawals)
df_withdrawals.drop(columns=WITHDRAWAL_COLS_TO_DROP, inplace=True)

In [42]:
df_withdrawals

Unnamed: 0,advertiser_zrive_id,predict_month,churn
0,257,2012-05,1
1,219,2012-05,1
2,487,2012-05,1
3,476,2012-05,1
4,452,2012-05,1
...,...,...,...
20674,5441,2024-11,1
20675,5439,2024-11,1
20676,154,2024-11,1
20677,1352,2024-11,1


### df_monthly --> como definir churn

In [43]:
df_monthly[df_monthly['advertiser_zrive_id'] == 1]

Unnamed: 0,advertiser_zrive_id,period_int,monthly_published_ads,monthly_unique_published_ads,monthly_contracted_ads,monthly_leads,monthly_visits,monthly_oro_ads,monthly_plata_ads,monthly_destacados_ads,...,monthly_total_phone_views,monthly_total_calls,monthly_total_emails,monthly_total_invoice,monthly_unique_calls,monthly_unique_emails,monthly_unique_leads,monthly_avg_ad_price,monthly_distinct_ads,has_active_contract
0,1,202301,47,47,75,18,40890.0,6,6,6,...,14,15,0,440.8,12,3,15,,,True
3542,1,202302,44,44,50,10,34740.0,3,3,1,...,18,6,3,464.8,5,4,9,,,True
6905,1,202303,39,39,50,7,11850.0,3,3,1,...,5,4,2,464.8,3,3,6,,,True
10328,1,202304,39,39,50,6,15930.0,3,3,1,...,7,3,2,464.8,3,3,6,,,True
13747,1,202305,0,0,150,8,19140.0,0,3,1,...,13,4,2,464.8,4,4,8,,,True


In [44]:
def convert_period_int_to_month_period(df, period_col='period_int', new_col='month_period'):
    """Convierte el formato YYYYMM a un período mensual de pandas"""
    df[new_col] = pd.to_datetime(df[period_col].astype(str) + '01', format='%Y%m%d').dt.to_period('M')
    return df

In [45]:
df_monthly = convert_period_int_to_month_period(df_monthly)

In [46]:
df_monthly.head()

Unnamed: 0,advertiser_zrive_id,period_int,monthly_published_ads,monthly_unique_published_ads,monthly_contracted_ads,monthly_leads,monthly_visits,monthly_oro_ads,monthly_plata_ads,monthly_destacados_ads,...,monthly_total_calls,monthly_total_emails,monthly_total_invoice,monthly_unique_calls,monthly_unique_emails,monthly_unique_leads,monthly_avg_ad_price,monthly_distinct_ads,has_active_contract,month_period
0,1,202301,47,47,75,18,40890.0,6,6,6,...,15,0,440.8,12,3,15,,,True,2023-01
1,2,202301,31,31,150,4,17970.0,10,10,4,...,2,2,75.4,2,2,4,,,True,2023-01
2,3,202301,0,0,0,0,0.0,0,0,0,...,0,0,0.0,0,0,0,,,False,2023-01
3,4,202301,79,79,85,14,27157.5,3,3,1,...,8,2,299.6,6,6,12,,,True,2023-01
4,6,202301,20,20,20,16,79492.5,0,0,1,...,4,3,86.5,4,11,15,,,True,2023-01


In [47]:
def add_churn_target(df_monthly, df_withdrawals):
    """
    Añade el target de churn a df_monthly, usando lo calculado en df_withdrawals

    Args:
        df_monthly: DataFrame con datos mensuales de anunciantes
        df_withdrawals: DataFrame procesado con información de churn
        
    Returns:
        DataFrame con columna 'churn' añadida
    """
    # Realizar la unión basada en advertiser_id y el período mensual
    df_target = df_monthly.merge(
        df_withdrawals[['advertiser_zrive_id', 'predict_month', 'churn']],
        left_on=['advertiser_zrive_id', 'month_period'],
        right_on=['advertiser_zrive_id', 'predict_month'],
        how='left'
    )

    # Rellenar los valores NaN en churn con 0 (no hubo churn)
    df_target['churn'] = df_target['churn'].fillna(0)

    # Eliminar la columna redundante predict_month
    if 'predict_month' in df_target.columns:
        df_target = df_target.drop(columns=['predict_month'])

    return df_target

In [48]:
df_target = add_churn_target(df_monthly, df_withdrawals)

In [49]:
df_target[df_target['advertiser_zrive_id'] == 1]

Unnamed: 0,advertiser_zrive_id,period_int,monthly_published_ads,monthly_unique_published_ads,monthly_contracted_ads,monthly_leads,monthly_visits,monthly_oro_ads,monthly_plata_ads,monthly_destacados_ads,...,monthly_total_emails,monthly_total_invoice,monthly_unique_calls,monthly_unique_emails,monthly_unique_leads,monthly_avg_ad_price,monthly_distinct_ads,has_active_contract,month_period,churn
0,1,202301,47,47,75,18,40890.0,6,6,6,...,0,440.8,12,3,15,,,True,2023-01,0.0
3553,1,202302,44,44,50,10,34740.0,3,3,1,...,3,464.8,5,4,9,,,True,2023-02,1.0
6948,1,202303,39,39,50,7,11850.0,3,3,1,...,2,464.8,3,3,6,,,True,2023-03,0.0
10383,1,202304,39,39,50,6,15930.0,3,3,1,...,2,464.8,3,3,6,,,True,2023-04,0.0
13816,1,202305,0,0,150,8,19140.0,0,3,1,...,2,464.8,4,4,8,,,True,2023-05,0.0


In [50]:
def reduce_columns(df):
    """
    Selecciona solo ciertas columnas para el análisis inicial
    """
    essential_columns = [
        'advertiser_zrive_id',
        'period_int',
        'month_period',
        'monthly_published_ads',
        'monthly_contracted_ads',
        'has_active_contract',
        'churn'
    ]

    # Asegurarse de que todas las columnas existen
    existing_columns = [col for col in essential_columns if col in df.columns]

    return df[existing_columns]

In [51]:
df_target = reduce_columns(df_target)

In [68]:
df_target[df_target['advertiser_zrive_id'] == 1]

Unnamed: 0,advertiser_zrive_id,period_int,month_period,monthly_published_ads,monthly_contracted_ads,has_active_contract,churn
0,1,202301,2023-01,47,75,True,0.0
3553,1,202302,2023-02,44,50,True,1.0
6948,1,202303,2023-03,39,50,True,0.0
10383,1,202304,2023-04,39,50,True,0.0
13816,1,202305,2023-05,0,150,True,0.0


Creo que es un buen punto de partida. 

- Creo que deberiamos eliminar las filas que hay despues de la fila con churn=1

- Hay varios casos que veo que pueden darnos problemas

    - Caso 1: Las filas que tienen has_active_contract en False que significan? Yo entiendo que no tienen contrato y que por tanto no pueden tener interacciones ese mes pero si que tienen, que hacemos con estas filas las dejamos o las quitamos?


    - Caso 2: Usuarios que dejan de tener actividad pero no tienen churn confirmada en df_withdrawals entre 2023 y 2024

    - Caso 3: Usuarios con multiples churn

### Caso 1: has_active_contract en False 

In [None]:
#Caso 1: Ejemplo

df_target[df_target['advertiser_zrive_id'] == 76]

Unnamed: 0,advertiser_zrive_id,period_int,month_period,monthly_published_ads,monthly_contracted_ads,has_active_contract,churn
55,76,202301,2023-01,20,75,False,0.0
3605,76,202302,2023-02,29,75,False,0.0
7002,76,202303,2023-03,25,75,False,0.0
10433,76,202304,2023-04,14,75,True,1.0
13866,76,202305,2023-05,29,150,True,0.0


No me cuadra que tenga el contrato en False y tenga actividad

In [71]:
df_target['has_active_contract'].value_counts()

has_active_contract
True     78452
False     2112
Name: count, dtype: int64

Aunque ocurre en un 2.5% de los datos, puede que sea un error?

### Caso 2: Usuarios que dejan de tener actividad pero no tienen churn confirmada en df_withdrawals entre 2023 y 2024

In [101]:
#Caso 2: Ejemplo

df_target[df_target['advertiser_zrive_id'] == 17]

Unnamed: 0,advertiser_zrive_id,period_int,month_period,monthly_published_ads,monthly_contracted_ads,has_active_contract,churn
11,17,202301,2023-01,15,35,True,0.0
3563,17,202302,2023-02,14,35,True,0.0
6958,17,202303,2023-03,0,35,True,0.0


In [102]:
df_withdrawals[df_withdrawals['advertiser_zrive_id'] == 17]

Unnamed: 0,advertiser_zrive_id,predict_month,churn
11367,17,2022-11,1


En este caso intuyo que el churn es en 2022-11 (fila que tendria churn=1, pero que como es de 2022 no la tenemos) y el resto de filas son la actividad del contrato que ya tenia pagado, pero que eliminamos con el enfoque de "eliminar las filas que hay despues de la fila con churn=1"

In [91]:
df_target[df_target['advertiser_zrive_id'] == 19]

Unnamed: 0,advertiser_zrive_id,period_int,month_period,monthly_published_ads,monthly_contracted_ads,has_active_contract,churn
13827,19,202305,2023-05,10,50,True,0.0
17230,19,202306,2023-06,15,50,True,0.0
20602,19,202307,2023-07,15,50,True,0.0


In [92]:
df_withdrawals[df_withdrawals['advertiser_zrive_id'] == 19]

Unnamed: 0,advertiser_zrive_id,predict_month,churn
1354,19,2015-09,1
3068,19,2018-04,1


Pero hay otros casos que no son asi, realmente son churn, pero no queda registrada, entiendo que es a lo que nos referimos en el doc de google de " Deja de haber actividad a partir de cierto momento". Aqui el problema es que sabemos cuando se le acabo el contrato pero no cuando fue el churn, el enfoque que hagamos va a ser una aproximacion.  Ver a cuantos usuarios afecta este problema

In [108]:
user_churn_status = df_target.groupby('advertiser_zrive_id')['churn'].max().reset_index()
# 1. Identificar usuarios sin churn
users_without_churn_ids = user_churn_status[user_churn_status['churn'] == 0]['advertiser_zrive_id'].tolist()

# 2. Analizar el último período registrado para cada usuario sin churn
last_period_by_user = df_target.groupby('advertiser_zrive_id')['period_int'].max().reset_index()
last_period_no_churn = last_period_by_user[last_period_by_user['advertiser_zrive_id'].isin(users_without_churn_ids)]

# 3. Distribución resumida de los últimos períodos para usuarios sin churn
latest_period = df_target['period_int'].max()
users_active_until_end = last_period_no_churn[last_period_no_churn['period_int'] == latest_period].shape[0]
early_ending_users = last_period_no_churn[last_period_no_churn['period_int'] < latest_period].shape[0]

print(f"Usuarios sin churn activos hasta el último período ({latest_period}): {users_active_until_end}")
print(f"Usuarios sin churn que terminaron antes del último período: {early_ending_users}")

# 4. Verificar el estado del contrato en el último registro para algunos usuarios que terminaron antes
early_ending_sample = last_period_no_churn[last_period_no_churn['period_int'] < latest_period]['advertiser_zrive_id'].head(5).tolist()
early_ending_details = []

for user_id in early_ending_sample:
    last_record = df_target[df_target['advertiser_zrive_id'] == user_id].sort_values('period_int').iloc[-1]
    early_ending_details.append({
        'advertiser_zrive_id': user_id,
        'last_period': last_record['period_int'],
        'has_active_contract': last_record['has_active_contract']
    })

#print("\nEjemplos de usuarios sin churn que terminaron antes:")
#print(pd.DataFrame(early_ending_details))

# 3. Distribución de los últimos períodos para usuarios sin churn
print("\n\n")
last_period_distribution = last_period_no_churn['period_int'].value_counts().sort_index()

print("Distribución de últimos períodos para usuarios sin churn:")
print(last_period_distribution)

Usuarios sin churn activos hasta el último período (202412): 2109
Usuarios sin churn que terminaron antes del último período: 563



Distribución de últimos períodos para usuarios sin churn:
period_int
202301     237
202302      85
202303      61
202304      20
202305      20
202306      11
202307      19
202308      10
202309       5
202310       7
202311      10
202312       7
202401      11
202402       5
202403       3
202404       2
202405       8
202406       8
202407       4
202408       7
202409      11
202410       8
202411       4
202412    2109
Name: count, dtype: int64


Tiene sentido que en los meses que mas ocurra esto sea en los de inicio de 2023, ya que seran casos similares al id 17 que veiamos arriba. Sin embargo hay casos como el del id 19 que no tienen esa logica

Opciones:
- Eliminar estos casos ya que al no saber la fecha del churn no podemos aprender bien de esos datos ?

### Caso 3: Usuarios con multiples churn

In [76]:
# Número usuarios únicos
total_users = df_target['advertiser_zrive_id'].nunique()
print(f"Total de usuarios únicos: {total_users}")

# Usuarios sin churn y con churn
user_churn_status = df_target.groupby('advertiser_zrive_id')['churn'].max().reset_index()
users_without_churn = user_churn_status[user_churn_status['churn'] == 0].shape[0]
users_with_churn = user_churn_status[user_churn_status['churn'] == 1].shape[0]
print(f"Usuarios sin churn: {users_without_churn}")
print(f"Usuarios con al menos un churn: {users_with_churn}")

# Usuarios con uno o múltiples churns
churn_counts = df_target[df_target['churn'] == 1].groupby('advertiser_zrive_id').size()
users_with_one_churn = (churn_counts == 1).sum()
users_with_multiple_churn = (churn_counts > 1).sum()
print(f"Usuarios con exactamente un churn: {users_with_one_churn}")
print(f"Usuarios con múltiples churns: {users_with_multiple_churn}")

Total de usuarios únicos: 6534
Usuarios sin churn: 2672
Usuarios con al menos un churn: 3862
Usuarios con exactamente un churn: 2548
Usuarios con múltiples churns: 1314


In [87]:
df_target[df_target['advertiser_zrive_id'] == 14]

Unnamed: 0,advertiser_zrive_id,period_int,month_period,monthly_published_ads,monthly_contracted_ads,has_active_contract,churn
36892,14,202312,2023-12,50,50,True,0.0
40124,14,202401,2024-01,50,50,True,1.0
43341,14,202402,2024-02,50,70,True,0.0
46603,14,202403,2024-03,45,70,True,1.0
49929,14,202404,2024-04,0,70,True,0.0


El enfoque de "eliminar las filas que hay despues de la fila con churn=1" no serviria para estos casos. 
Quizas se pueda seguir con ese enfoque, pero  añadiendo una columna que sea "numero de churns historicas" y capturar esa info de esta forma (?), habria que tener cuidado y ver que no hacemos data leakage si entrenamos por execution_month