# Preprocesado de Datos

Para este proyecto usar Polars, es una libreria similar a Pandas, pero optimizada para grandes volumenes de datos

Primero cargare cada uno de mis datasets y comprobare como unirlos.

In [1]:
import polars as pl
from pathlib import Path

In [2]:
BASE_DIR = Path.cwd().parent
DATA_DIR = (BASE_DIR / 'data').resolve()
RAW_DIR = (DATA_DIR / 'raw').resolve()
PROCESSED_DIR = (DATA_DIR / 'processed').resolve()

Primero quiero ver una pequena representacion del dataset, para tener contexto de los datos

In [3]:
df_members = pl.scan_csv(RAW_DIR/'members_v3.csv')
df_train = pl.scan_csv(RAW_DIR/'train_v2.csv')
df_transactions = pl.scan_csv(RAW_DIR/'transactions_v2.csv')
#df_user_logs = pl.scan_csv(RAW_DIR/'user_logs.csv')

print(df_members.head().collect())
print(df_train.head().collect())
print(df_transactions.head().collect())

shape: (5, 6)
┌─────────────────────────────────┬──────┬─────┬────────┬────────────────┬────────────────────────┐
│ msno                            ┆ city ┆ bd  ┆ gender ┆ registered_via ┆ registration_init_time │
│ ---                             ┆ ---  ┆ --- ┆ ---    ┆ ---            ┆ ---                    │
│ str                             ┆ i64  ┆ i64 ┆ str    ┆ i64            ┆ i64                    │
╞═════════════════════════════════╪══════╪═════╪════════╪════════════════╪════════════════════════╡
│ Rb9UwLQTrxzBVwCB6+bCcSQWZ9JiNL… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110911               │
│ +tJonkh+O1CA796Fm5X60UMOtB6POH… ┆ 1    ┆ 0   ┆ null   ┆ 7              ┆ 20110914               │
│ cV358ssn7a0f7jZOwGNWS07wCKVqxy… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110915               │
│ 9bzDeJP6sQodK73K5CBlJ6fgIQzPeL… ┆ 1    ┆ 0   ┆ null   ┆ 11             ┆ 20110915               │
│ WFLY3s7z4EZsieHCt63XrsdtfTEmJ+… ┆ 6    ┆ 32  ┆ female ┆ 9              ┆ 20110915   

Con esta observacion parcial de mis datasets, puedo ver que tengo una columna llamada *'msno'* que esta formada por strings y es la columna comun en los tres datasets y por donde tendre que hacer el join.

In [4]:
def lazy_info(df):
    print(f'Shape:\n', (df.select(pl.len()).collect().item(), df.collect_schema().len()))
    print('=' * 20)
    print(f'\nNombre de columna y su tipo de dato: \n', df.collect_schema())
    print('=' * 20)
    print(f'\nNumero de valores nulos:\n', df.null_count().collect())

Con esta funcion, el siguiente paso sera extraer datos de las columnas y el tipo de datos, los valores nulos y las dimensiones totales de mis datasets

In [5]:
lista_df = [df_members, df_train, df_transactions]

for df in lista_df:
    lazy_info(df)

Shape:
 (6769473, 6)

Nombre de columna y su tipo de dato: 
 Schema({'msno': String, 'city': Int64, 'bd': Int64, 'gender': String, 'registered_via': Int64, 'registration_init_time': Int64})

Numero de valores nulos:
 shape: (1, 6)
┌──────┬──────┬─────┬─────────┬────────────────┬────────────────────────┐
│ msno ┆ city ┆ bd  ┆ gender  ┆ registered_via ┆ registration_init_time │
│ ---  ┆ ---  ┆ --- ┆ ---     ┆ ---            ┆ ---                    │
│ u32  ┆ u32  ┆ u32 ┆ u32     ┆ u32            ┆ u32                    │
╞══════╪══════╪═════╪═════════╪════════════════╪════════════════════════╡
│ 0    ┆ 0    ┆ 0   ┆ 4429505 ┆ 0              ┆ 0                      │
└──────┴──────┴─────┴─────────┴────────────────┴────────────────────────┘
Shape:
 (970960, 2)

Nombre de columna y su tipo de dato: 
 Schema({'msno': String, 'is_churn': Int64})

Numero de valores nulos:
 shape: (1, 2)
┌──────┬──────────┐
│ msno ┆ is_churn │
│ ---  ┆ ---      │
│ u32  ┆ u32      │
╞══════╪══════════╡
│ 0   

Tras analizar, puedo ver que cada uno tiene dimensiones distintas, por lo que tendre que comprobar si la key de union se repite, y en caso de que lo haga, valorar como escojo los datos resultantes.

Ademas, todas mis columnas son numericas excepto 'gender', que es ademas la unica columna con valores NA.

In [6]:
# Contar registros totales vs registros únicos
total_records = df_members.select(pl.len()).collect().item()
unique_records = df_members.select(pl.col("msno").n_unique()).collect().item()

print(f"Total: {total_records:,}")
print(f"Únicos: {unique_records:,}")
print(f"¿Hay duplicados? {'SÍ' if total_records > unique_records else 'NO'}")

Total: 6,769,473
Únicos: 6,769,473
¿Hay duplicados? NO


En mi dataset members, no hay valores repetidos, esto es clave, ya que no puedo tener un usuario varias veces, el siguiente paso sera unir los datasets por la clave *'msno'*


Cambio el tipo de variable de las columans que contienen fechas para poder trabajar con ellas

In [7]:
df_members = df_members.with_columns([
    pl.col("registration_init_time")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True)
      .alias("registration_date")
])

In [8]:
df_transactions = df_transactions.with_columns([
    pl.col("transaction_date")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True),
    pl.col("membership_expire_date")
      .cast(pl.Utf8)
      .str.strptime(pl.Date, "%Y%m%d", strict=True)
])

Creo mi cutoff, a partir del cual descartare transacciones. Esto es para evitar Data Leakage que pueda tener con clientes que tienen no tienen fechas de transaccion, es decir, el modelo podria aprender que no tener transacciones implica que el cliente esta desuscrito, por eso escojo como fecha de corte la ultima transaccion y un plazo de 5 dias como margen de proteccion

In [9]:
last_transaction = df_transactions.group_by('msno').agg(pl.col("transaction_date").max().alias("last_transaction"))

df_cutoff = df_train.join(last_transaction, on='msno', how='inner')

df_cutoff = df_cutoff.sort('last_transaction')

df_p95 = df_cutoff.group_by('is_churn').agg(
    pl.col('last_transaction').quantile(0.95)
    .alias('p95_last_transaction')
    )

df_p95.head().collect()

is_churn,p95_last_transaction
i64,date
0,2017-03-31
1,2017-03-31


En este caso, las fechas son iguales, para simular un entorno real, le voy a restar 5 dias, de esta manera proporciono un margen de proteccion fentre a data leakage

In [None]:
cutoff_date = df_p95.select(
    pl.col('p95_last_transaction').first().dt.offset_by('-5d')
).collect().item()

cutoff_date

datetime.date(2017, 3, 26)

Ahora aplico este cutoff al dataset de transactions

In [None]:
df_transactions = df_transactions.filter(
    pl.col('transaction_date') <= pl.lit(cutoff_date)
)

El dataset de transactions tiene varias transacciones por cliente, para no perder estos datos en la unión, crearé nuevas columnas que me den nueva información.

In [None]:
df_transactions = df_transactions.group_by('msno').agg(
    pl.count().alias('num_transactions'),
    pl.col('payment_plan_days').mode().alias('moda_plan_days'),
    pl.col('plan_list_price').mode().alias('moda_plan_price'),
    pl.col('actual_amount_paid').mean().alias('avg_amount_paid'),
    pl.col("is_auto_renew").mean().alias("autorenew_rate"),
    pl.col("is_cancel").mean().alias("cancel_rate"),
    (pl.max("membership_expire_date") - pl.max("transaction_date"))
    .alias("days_until_expire")
)