# Preprocesado de Datos

Para este proyecto usar Polars, es una libreria similar a Pandas, pero optimizada para grandes volumenes de datos

Primero cargare cada uno de mis datasets y comprobare como unirlos.

In [1]:
import polars as pl
from pathlib import Path

In [2]:
BASE_DIR = Path.cwd().parent
DATA_DIR = (BASE_DIR / 'data').resolve()
RAW_DIR = (DATA_DIR / 'raw').resolve()
PROCESSED_DIR = (DATA_DIR / 'processed').resolve()

Primero quiero ver una pequena representacion del dataset, para tener contexto de los datos

In [3]:
df_members = pl.scan_csv(RAW_DIR/'members_v3.csv')
df_train = pl.scan_csv(RAW_DIR/'train.csv')
df_transactions = pl.scan_csv(RAW_DIR/'transactions.csv')
df_user_logs = pl.scan_csv(RAW_DIR/'user_logs.csv')

print(df_members.fetch(5))
print(df_train.fetch(5))
print(df_transactions.fetch(5))

shape: (5, 6)
┌─────────────────────────────────┬──────┬─────┬────────┬────────────────┬────────────────────────┐
│ msno                            ┆ city ┆ bd  ┆ gender ┆ registered_via ┆ registration_init_time │
│ ---                             ┆ ---  ┆ --- ┆ ---    ┆ ---            ┆ ---                    │
│ str                             ┆ i64  ┆ i64 ┆ str    ┆ i64            ┆ i64                    │
╞═════════════════════════════════╪══════╪═════╪════════╪════════════════╪════════════════════════╡
│ Rb9UwLQTrxzBVwCB6+bCcSQWZ9JiNL… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110911               │
│ +tJonkh+O1CA796Fm5X60UMOtB6POH… ┆ 1    ┆ 0   ┆ null   ┆ 7              ┆ 20110914               │
│ cV358ssn7a0f7jZOwGNWS07wCKVqxy… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110915               │
│ 9bzDeJP6sQodK73K5CBlJ6fgIQzPeL… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110915               │
│ WFLY3s7z4EZsieHCt63XrsdtfTEmJ+… ┆ 6    ┆ 32  ┆ female ┆ 9              ┆ 20110915   

  print(df_members.fetch(5))
  print(df_train.fetch(5))
  print(df_transactions.fetch(5))


In [4]:
df_transactions.head().collect()

msno,payment_method_id,payment_plan_days,plan_list_price,actual_amount_paid,is_auto_renew,transaction_date,membership_expire_date,is_cancel
str,i64,i64,i64,i64,i64,i64,i64,i64
"""YyO+tlZtAXYXoZhNr3Vg3+dfVQvrBV…",41,30,129,129,1,20150930,20151101,0
"""AZtu6Wl0gPojrEQYB8Q3vBSmE2wnZ3…",41,30,149,149,1,20150930,20151031,0
"""UkDFI97Qb6+s2LWcijVVv4rMAsORbV…",41,30,129,129,1,20150930,20160427,0
"""M1C56ijxozNaGD0t2h68PnH2xtx5iO…",39,30,149,149,1,20150930,20151128,0
"""yvj6zyBUaqdbUQSrKsrZ+xNDVM62kn…",39,30,149,149,1,20150930,20151121,0


Con esta observacion parcial de mis datasets, puedo ver que tengo una columna llamada *'msno'* que esta formada por strings y es la columna comun en los tres datasets y por donde tendre que hacer el join.

In [5]:
def df_info(df):
    print(f'Shape:\n', (df.select(pl.len()).collect().item(), df.collect_schema().len()))
    print('=' * 20)
    print(f'\nNombre de columna y su tipo de dato: \n', df.collect_schema())
    print('=' * 20)
    print(f'\nNumero de valores nulos:\n', df.null_count().collect())

Con esta funcion, el siguiente paso sera extraer datos de las columnas y el tipo de datos, los valores nulos y las dimensiones totales de mis datasets

In [6]:
lista_df = [df_members, df_train, df_transactions]

for df in lista_df:
    df_info(df)

Shape:
 (6769473, 6)

Nombre de columna y su tipo de dato: 
 Schema({'msno': String, 'city': Int64, 'bd': Int64, 'gender': String, 'registered_via': Int64, 'registration_init_time': Int64})

Numero de valores nulos:
 shape: (1, 6)
┌──────┬──────┬─────┬─────────┬────────────────┬────────────────────────┐
│ msno ┆ city ┆ bd  ┆ gender  ┆ registered_via ┆ registration_init_time │
│ ---  ┆ ---  ┆ --- ┆ ---     ┆ ---            ┆ ---                    │
│ u32  ┆ u32  ┆ u32 ┆ u32     ┆ u32            ┆ u32                    │
╞══════╪══════╪═════╪═════════╪════════════════╪════════════════════════╡
│ 0    ┆ 0    ┆ 0   ┆ 4429505 ┆ 0              ┆ 0                      │
└──────┴──────┴─────┴─────────┴────────────────┴────────────────────────┘
Shape:
 (992931, 2)

Nombre de columna y su tipo de dato: 
 Schema({'msno': String, 'is_churn': Int64})

Numero de valores nulos:
 shape: (1, 2)
┌──────┬──────────┐
│ msno ┆ is_churn │
│ ---  ┆ ---      │
│ u32  ┆ u32      │
╞══════╪══════════╡
│ 0   

Tras analizar, puedo ver que cada uno tiene dimensiones distintas, por lo que tendre que comprobar si la key de union se repite, y en caso de que lo haga, valorar como escojo los datos resultantes.

Ademas, todas mis columnas son numericas excepto 'gender', que es ademas la unica columna con valores NA.

In [7]:
# Contar registros totales vs registros únicos
total_records = df_members.select(pl.len()).collect().item()
unique_records = df_members.select(pl.col("msno").n_unique()).collect().item()

print(f"Total: {total_records:,}")
print(f"Únicos: {unique_records:,}")
print(f"¿Hay duplicados? {'SÍ' if total_records > unique_records else 'NO'}")

Total: 6,769,473
Únicos: 6,769,473
¿Hay duplicados? NO


En mi dataset members, no hay valores repetidos, esto es clave, ya que no puedo tener un usuario varias veces, el siguiente paso sera unir los datasets por la clave *'msno'*


Cambio el tipo de variable de las columans que contienen fechas para poder trabajar con ellas y ademas selecciono las columnas que quiero mantener

In [8]:
df_members = df_members.with_columns([
    pl.col("registration_init_time")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True)
      .alias("registration_date")
]).select(["msno","gender","city","bd","registration_init_time"])

In [9]:
df_transactions = df_transactions.with_columns([
    pl.col("transaction_date")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True),
    pl.col("membership_expire_date")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True)
])

Creo mi cutoff, a partir del cual descartare transacciones. Esto es para evitar Data Leakage que pueda tener con clientes que tienen no tienen fechas de transaccion, es decir, el modelo podria aprender que no tener transacciones implica que el cliente esta desuscrito, por eso escojo como fecha de corte la ultima transaccion y un plazo de 5 dias como margen de proteccion

In [10]:
last_transaction = df_transactions.group_by('msno').agg(pl.col("transaction_date").max().alias("last_transaction"))

df_cutoff = df_train.join(last_transaction, on='msno', how='inner')

df_cutoff = df_cutoff.sort('last_transaction')

df_p95 = df_cutoff.group_by('is_churn').agg(
    pl.col('last_transaction').quantile(0.95)
    .alias('p95_last_transaction')
    )

df_p95.head().collect()

is_churn,p95_last_transaction
i64,date
0,2017-02-28
1,2017-02-23


En este caso, las fechas son iguales, para simular un entorno real, le voy a restar 5 dias, de esta manera proporciono un margen de proteccion fentre a data leakage

In [11]:
cutoff_date = df_p95.select(
    pl.col('p95_last_transaction').min().dt.offset_by('-5d')
).collect().item()

cutoff_date

datetime.date(2017, 2, 18)

Ahora aplico este cutoff al dataset de transactions

In [12]:
df_transactions = df_transactions.filter(
    pl.col('transaction_date') <= pl.lit(cutoff_date)
)

El dataset de transactions tiene varias transacciones por cliente, para no perder estos datos en la unión, crearé nuevas columnas que me den nueva información.

In [13]:
df_transactions = df_transactions.group_by('msno').agg(
    pl.len().alias('num_transactions'),
    pl.col('payment_plan_days').mode().alias('moda_plan_days'),
    pl.col('plan_list_price').mode().alias('moda_plan_price'),
    pl.col('actual_amount_paid').sum().alias('total_amount_paid'),
    pl.col("is_auto_renew").mean().alias("autorenew_rate"),
    pl.col("is_cancel").mean().alias("cancel_rate"),
    (pl.max("membership_expire_date") - pl.max("transaction_date"))
    .clip(pl.duration(days=0).alias("days_until_expire"))
)

In [14]:
df_transactions.head().collect()

msno,num_transactions,moda_plan_days,moda_plan_price,total_amount_paid,autorenew_rate,cancel_rate,membership_expire_date
str,u32,list[i64],list[i64],i64,f64,f64,duration[ms]
"""CN3iRDMTumdfnLVkCXl7QfR+d5iQ5e…",10,[0],[0],1490,1.0,0.1,24d
"""afGZN3etJGUpIWzVva54Sr1wTGXzEu…",1,[30],[149],149,1.0,0.0,27d
"""k2b13rZQXxlX25WuPY1Qgnk/BnWlfK…",19,[30],[99],1881,1.0,0.0,28d
"""ZvGUnYmPSjdB8Lq+P1Bzod0DJ5vEsv…",2,[7],[0],0,0.0,0.0,7d
"""vpxiKJ5FrH1V0cEmLlXg1BKoYZBgcF…",1,[7],[0],0,0.0,0.0,7d


*moda_plan_days* y *moda_plan_price* han quedado como listas, voy a extraer el numero de la lista.

In [15]:
df_transactions = df_transactions.with_columns([
    pl.col('moda_plan_days').list.get(0),
    pl.col('moda_plan_price').list.get(0)
])

df_transactions.head().collect()

msno,num_transactions,moda_plan_days,moda_plan_price,total_amount_paid,autorenew_rate,cancel_rate,membership_expire_date
str,u32,i64,i64,i64,f64,f64,duration[ms]
"""wudC0EqEvhQCkseHwWpRLHBVyZTcVj…",1,7,0,0,0.0,0.0,3d
"""4r+EDALUDfQ62Lo6QviTR4WLl/y7pq…",4,30,149,596,0.0,0.0,30d
"""MetSf2pHI5vZRSVNdHSxLTJ+H08Md2…",2,30,149,0,1.0,0.5,2d
"""Z+81gFYzETfs3qYE4a6rqJH3AOOl9d…",19,30,149,2831,1.0,0.052632,34d
"""p5JhJfKDGLm+AVpcPCWGRNKZ7zIhDH…",14,30,149,2086,1.0,0.071429,16d


In [16]:
df_test = df_transactions.collect()

In [17]:
df_test.describe()

statistic,msno,num_transactions,moda_plan_days,moda_plan_price,total_amount_paid,autorenew_rate,cancel_rate,membership_expire_date
str,str,f64,f64,f64,f64,f64,f64,str
"""count""","""2352052""",2352052.0,2352052.0,2352052.0,2352052.0,2352052.0,2352052.0,"""2352052"""
"""null_count""","""0""",0.0,0.0,0.0,0.0,0.0,0.0,"""0"""
"""mean""",,9.001041,40.945982,175.282611,1280.408755,0.60543,0.081863,"""41 days, 15:49:29.401000"""
"""std""",,8.767828,68.903841,295.419297,1286.975523,0.477834,0.173027,
"""min""","""+++FOrTS7ab3tIgIh8eWwX4FqRv8w/…",1.0,0.0,0.0,0.0,0.0,0.0,"""0:00:00"""
"""25%""",,1.0,30.0,99.0,0.0,0.0,0.0,"""7 days, 0:00:00"""
"""50%""",,5.0,30.0,149.0,894.0,1.0,0.0,"""28 days, 0:00:00"""
"""75%""",,16.0,30.0,149.0,2086.0,1.0,0.0625,"""30 days, 0:00:00"""
"""max""","""zzzyOgMk9MljCerbCCYrVtvu85aSCi…",71.0,450.0,2000.0,8138.0,1.0,1.0,"""814 days, 0:00:00"""


In [18]:
df_test.filter(pl.col("num_transactions") == 1).select(pl.len())

len
u32
591771


Observando esto, veo que la mayoria de clientes tienen una unica transaccion(~55%), por lo tanto estos 3 datasets no son suficientes para poder comprobar y calcular Churn. Tendre que utilizar user_logs, que tiene un peso total de 30 Gb. 

Con este dataset es donde es mas importante utilizar LazyFrame de Polars, los 30GB no caben en RAM

In [19]:
#df_user_logs.collect_schema()

In [20]:
#df.select(pl.len()).collect().item(), df.collect_schema().len()

In [21]:
#df_user_logs.fetch(5)

Con esto tengo algo de contexto del dataset, ahora convertire la variable date a fecha y le aplicare el cutoff.

Despues creare el resto de variables agrupando por msno, asi consigo reducir las dimensiones de mi dataset, manteniendo toda la informacion importante

In [None]:
df_logs = (
    df_user_logs
    .with_columns(
        pl.col("date").cast(pl.Utf8).str.strptime(pl.Date, "%Y%m%d", strict=True)
    )
    .filter(pl.col("date") <= pl.lit(cutoff_date))
    .group_by('msno')
    .agg([
        pl.col('date').n_unique().alias('active_days'),
        pl.col('num_25').sum().alias('total_25'),
        pl.col('num_50').sum().alias('total_50'),
        pl.col('num_75').sum().alias('total_75'),
        pl.col('num_985').sum().alias('total_985'),
        pl.col('num_100').sum().alias('total_100'),
        pl.col('num_unq').sum().alias('unique_song_listened'),
        pl.col('num_unq').max().alias('max_unique_per_day'),
        pl.col('total_secs').sum().alias('total_sec_listened'),
        pl.col('date').min().alias('first_activity'),
        pl.col('date').max().alias('last_activity')
    ])
    .with_columns([
        (pl.col('last_activity') - pl.col('first_activity')).dt.total_days().alias('lifetime_days'),
        (pl.col('total_sec_listened')/ pl.col('active_days') + 1e-9).alias('avg_sec_active_day')
    ])
    .collect(engine='streaming')  
)

  .collect(streaming=True)


Ahora unire mis 4 datasets usando *msno* como clave

In [None]:
df_processed = (
    pl.scan_parquet(df_train)  # Asume que df_train ya está en Parquet
    .join(pl.scan_parquet(df_members), on='msno', how='left')
    .join(df_logs.lazy(), on='msno', how='left')  # Convierte df_logs a lazy
    .join(pl.scan_parquet(df_transactions), on='msno', how='left')
    .collect(streaming=True)  # Streaming también aquí
)

print(df_processed.explain(engine='streaming'))

#df_processed.sink_parquet((PROCESSED_DIR/'data_processed.parquet'))
#print('DataFrame procesado correctamente para EDA.')

Por falta de RAM, voy a utilizar pyspark para el preprocesado, utilizando lo mismo que en este notebook
