## 1 Dataset

### 1.1 Feature Engineering

### 1.1.1 Generacion de la clase_ternaria

Esta parte se debe correr con el runtime en lenguaje **R** Ir al menu, Runtime -> Change Runtime Tipe -> Runtime type -> R

In [None]:
require( "data.table" )

# leo el dataset
dataset <- fread("/content/datasets/competencia_01_crudo.csv" )

# calculo el periodo0 consecutivo
dsimple <- dataset[, list(
    "pos" = .I,
    numero_de_cliente,
    periodo0 = as.integer(foto_mes/100)*12 +  foto_mes%%100 ) ]


# ordeno
setorder( dsimple, numero_de_cliente, periodo0 )

# calculo topes
periodo_ultimo <- dsimple[, max(periodo0) ]
periodo_anteultimo <- periodo_ultimo - 1


# calculo los leads de orden 1 y 2
dsimple[, c("periodo1", "periodo2") :=
    shift(periodo0, n=1:2, fill=NA, type="lead"),  numero_de_cliente ]

# assign most common class values = "CONTINUA"
dsimple[ periodo0 < periodo_anteultimo, clase_ternaria := "CONTINUA" ]

# calculo BAJA+1
dsimple[ periodo0 < periodo_ultimo &
    ( is.na(periodo1) | periodo0 + 1 < periodo1 ),
    clase_ternaria := "BAJA+1" ]

# calculo BAJA+2
dsimple[ periodo0 < periodo_anteultimo & (periodo0+1 == periodo1 )
    & ( is.na(periodo2) | periodo0 + 2 < periodo2 ),
    clase_ternaria := "BAJA+2" ]


# pego el resultado en el dataset original y grabo
setorder( dsimple, pos )
dataset[, clase_ternaria := dsimple$clase_ternaria ]

fwrite( dataset,
    file =  "/content/datasets/competencia_01.csv.gz",
    sep = ","
)

Loading required package: data.table



In [None]:
setorder( dataset, foto_mes, clase_ternaria, numero_de_cliente)
dataset[, .N, list(foto_mes, clase_ternaria)]

foto_mes,clase_ternaria,N
<int>,<chr>,<int>
202101,BAJA+1,622
202101,BAJA+2,825
202101,CONTINUA,160080
202102,BAJA+1,831
202102,BAJA+2,1032
202102,CONTINUA,160292
202103,BAJA+1,1039
202103,BAJA+2,951
202103,CONTINUA,161119
202104,BAJA+1,955


### 1.1.2 Datadrifting

#### 1.1.2.1 Tratamiento Aguinaldo

In [None]:
# Crear una columna temporal con el payroll TOTAL
dataset[, mpayroll_total := fcoalesce(mpayroll, 0) + fcoalesce(mpayroll2, 0)]


# Calcular meses con sueldo total en el semestre
conteo_meses_payroll <- dataset[foto_mes >= 202101 & foto_mes <= 202106,
                                .(meses_trabajados_semestre = sum(mpayroll_total > 0)),
                                by = numero_de_cliente]

# Calcular el sueldo MÁXIMO TOTAL de Enero a Mayo
max_payroll_previo <- dataset[foto_mes >= 202101 & foto_mes <= 202105,
                              .(max_payroll_previo = max(mpayroll_total)),
                              by = numero_de_cliente]
max_payroll_previo[is.infinite(max_payroll_previo), max_payroll_previo := 0]


# Actualizamos las columnas en 'dataset'
dataset[conteo_meses_payroll, on = .(numero_de_cliente), meses_trabajados_semestre := i.meses_trabajados_semestre]
dataset[max_payroll_previo, on = .(numero_de_cliente), max_payroll_previo := i.max_payroll_previo]


dataset[is.na(meses_trabajados_semestre), meses_trabajados_semestre := 0]
dataset[is.na(max_payroll_previo), max_payroll_previo := 0]


# columnas a corregir
cols_a_corregir <- c("mpayroll",
                     "mpayroll2",
                     "mtarjeta_visa_consumo",
                     "mtarjeta_master_consumo",
                     "Visa_mconsumototal",
                     "mcaja_ahorro",
                     "mcuentas_saldo",
                     "mpagodeservicios")



# Usamos el umbral de 1.08
dataset[foto_mes == 202106 &
        meses_trabajados_semestre > 0 &
        mpayroll_total > 1.08 * max_payroll_previo,
        (cols_a_corregir) := {
          factor_ajuste <- 1 + (meses_trabajados_semestre / 12)
          lapply(.SD, function(columna) columna / factor_ajuste)
        },
        .SDcols = cols_a_corregir]

dataset[, `:=`(mpayroll_total = NULL,
               meses_trabajados_semestre = NULL,
               max_payroll_previo = NULL)]

cat("Proceso de corrección finalizado correctamente (considerando mpayroll + mpayroll2).")

Proceso de corrección finalizado correctamente (considerando mpayroll + mpayroll2).

#### 1.1.2.2 Features

In [None]:

dataset[, `:=`(

  # Suma de los payroll
  ingresos_totales = fcoalesce(mpayroll, 0) + fcoalesce(mpayroll2, 0),

  # Suma de los consumos de las dos tarjetas de crédito (incluye pesos y dólares).
  mconsumo_tarjetas_totales = fcoalesce(Visa_mconsumototal, 0) + fcoalesce(Master_mconsumototal, 0),

  # Suma completa de gastos por pagos y débitos.
  mgastos_totales = fcoalesce(Visa_mconsumototal, 0) + fcoalesce(Master_mconsumototal, 0) +
                    fcoalesce(mpagodeservicios, 0) +
                    fcoalesce(mcuenta_debitos_automaticos, 0),

  # Suma de todos los montos de inversión (pesos y dólares).
  minversiones_totales = fcoalesce(mplazo_fijo_pesos, 0) + fcoalesce(mplazo_fijo_dolares, 0) +
                         fcoalesce(minversion1_pesos, 0) + fcoalesce(minversion1_dolares, 0) +
                         fcoalesce(minversion2, 0)
)]


# ratios
dataset[, `:=`(
  presion_consumo = ifelse(ingresos_totales > 0, mconsumo_tarjetas_totales / ingresos_totales, 0),
  ratio_uso_limite_visa = ifelse(Visa_mlimitecompra > 0, fcoalesce(Visa_mconsumototal, 0) / Visa_mlimitecompra, 0), #mtarjeta_visa_consumo
  ratio_uso_limite_master = ifelse(Master_mlimitecompra > 0, fcoalesce(Master_mconsumototal, 0) / Master_mlimitecompra, 0), #mtarjeta_master_consumo
  ratio_uso_limite_total = ifelse((fcoalesce(Visa_mlimitecompra, 0) + fcoalesce(Master_mlimitecompra, 0)) > 0,
                                  mconsumo_tarjetas_totales /
                                  (fcoalesce(Visa_mlimitecompra, 0) + fcoalesce(Master_mlimitecompra, 0)), 0),
  ratio_inversion_saldo = ifelse(mcuentas_saldo > 0, minversiones_totales / mcuentas_saldo, 0)
)]

# conteos
dataset[, `:=`(
  total_productos = (fcoalesce(cprestamos_personales, 0L) > 0) + (fcoalesce(cprestamos_prendarios, 0L) > 0) +
                    (fcoalesce(cprestamos_hipotecarios, 0L) > 0) + (fcoalesce(cplazo_fijo, 0L) > 0) +
                    (fcoalesce(cinversion1, 0L) > 0) + (fcoalesce(cinversion2, 0L) > 0) +
                    (fcoalesce(cseguro_vida, 0L) > 0) + (fcoalesce(cseguro_auto, 0L) > 0),

  total_transacciones = fcoalesce(ctarjeta_debito_transacciones, 0L) + fcoalesce(ctarjeta_visa_transacciones, 0L) +
                        fcoalesce(ctarjeta_master_transacciones, 0L) + fcoalesce(ctransferencias_recibidas, 0L) +
                        fcoalesce(ctransferencias_emitidas, 0L) + fcoalesce(chomebanking_transacciones, 0L),

  consumo_div_edad = ifelse(cliente_edad > 0, mconsumo_tarjetas_totales / cliente_edad, 0)
)]

cat("\nFeature Engineering completo. Todas las nuevas variables han sido creadas.\n")


Feature Engineering completo. Todas las nuevas variables han sido creadas.


#### 1.1.2.3 Ranking

In [None]:
rank_normalizar_por_mes_monetarias <- function(p_dataset,
                                               p_eliminar_originales = FALSE) {
  require(data.table)

  columnas_monetarias <- c(
    "mrentabilidad", "mrentabilidad_annual", "mcomisiones", "mactivos_margen",
    "mpasivos_margen", "mcuenta_corriente_adicional", "mcuenta_corriente",
    "mcaja_ahorro", "mcaja_ahorro_adicional", "mcaja_ahorro_dolares",
    "mcuentas_saldo", "mautoservicio", "mtarjeta_visa_consumo",
    "mtarjeta_master_consumo", "mprestamos_personales", "mprestamos_prendarios",
    "mprestamos_hipotecarios", "mplazo_fijo_dolares", "mplazo_fijo_pesos",
    "minversion1_pesos", "minversion1_dolares", "minversion2", "mpayroll",
    "mpayroll2", "mcuenta_debitos_automaticos", "mtarjeta_visa_debitos_automaticos",
    "mttarjeta_master_debitos_automaticos", "mpagodeservicios", "mpagomiscuentas",
    "mcajeros_propios_descuentos", "mtarjeta_visa_descuentos",
    "mtarjeta_master_descuentos", "mcomisiones_mantenimiento", "mcomisiones_otras",
    "mforex_buy", "mforex_sell", "mtransferencias_recibidas", "mtransferencias_emitidas",
    "mextraccion_autoservicio", "mcheques_depositados", "mcheques_emitidos",
    "mcheques_depositados_rechazados", "mcheques_emitidos_rechazados", "matm",
    "matm_other", "Master_mfinanciacion_limite", "Master_msaldototal",
    "Master_msaldopesos", "Master_msaldodolares", "Master_mconsumospesos",
    "Master_mconsumosdolares", "Master_mlimitecompra", "Master_madelantopesos",
    "Master_madelantodolares", "Master_mpagado", "Master_mpagospesos",
    "Master_mpagosdolares", "Master_mconsumototal", "Master_mpagominimo",
    "Visa_mfinanciacion_limite", "Visa_msaldototal", "Visa_msaldopesos",
    "Visa_msaldodolares", "Visa_mconsumospesos", "Visa_mconsumosdolares",
    "Visa_mlimitecompra", "Visa_madelantopesos", "Visa_madelantodolares",
    "Visa_mpagado", "Visa_mpagospesos", "Visa_mpagosdolares", "Visa_mconsumototal",
    "Visa_mpagominimo"
  )

  columnas_a_rankear <- intersect(columnas_monetarias, names(p_dataset))


  cat("Columnas a rankear por mes:", length(columnas_a_rankear), "\n")
  if (length(columnas_a_rankear) == 0) {
    cat("Advertencia: Ninguna de las columnas monetarias especificadas se encontró en el dataset.\n")
    return(invisible(p_dataset))
  }

  for (col in columnas_a_rankear) {
    nuevo_nombre <- paste0("rank_mes_", col)

    p_dataset[, (nuevo_nombre) := {
      v <- .SD[[1]]
      r <- numeric(length(v))

      pos_idx <- which(v > 0)
      neg_idx <- which(v < 0)

      if (length(pos_idx) > 0) {
        r[pos_idx] <- frank(v[pos_idx], ties.method = "average") / length(pos_idx)
      }
      if (length(neg_idx) > 0) {
        r[neg_idx] <- -frank(-v[neg_idx], ties.method = "average") / length(neg_idx)
      }

      r[v == 0] <- 0

      max_r_pos <- max(r[pos_idx], 0, na.rm = TRUE)
      min_r_neg <- min(r[neg_idx], 0, na.rm = TRUE)

      if (max_r_pos > 0) r[pos_idx] <- r[pos_idx] / max_r_pos
      if (min_r_neg < 0) r[neg_idx] <- r[neg_idx] / abs(min_r_neg)

      .(r)
    }, by = foto_mes, .SDcols = col]
  }

  if (p_eliminar_originales) {
    p_dataset[, (columnas_a_rankear) := NULL]
  }

  invisible(p_dataset)
}

In [None]:

dataset <- rank_normalizar_por_mes_monetarias(
  dataset,
  p_eliminar_originales = TRUE  # o FALSE según prefieras
)

Columnas a rankear por mes: 72 


### 1.1.3 Creación de lags y delta lags

In [None]:
max_lag <- 1

# selecciono automáticamente todas las columnas numéricas, excepto id y fecha
campos_laguear <- setdiff(
  names(dataset)[sapply(dataset, is.numeric)],
  c("numero_de_cliente", "foto_mes")
)

cat("Máximo lag posible:", max_lag, "\n")
cat("Campos a laggear:", paste(campos_laguear, collapse=", "), "\n")

# genero los lags
dataset[, paste0(rep(campos_laguear, each = max_lag), "_lag", 1:max_lag) :=
          shift(.SD, n = 1:max_lag, type = "lag"),
        by = numero_de_cliente,
        .SDcols = campos_laguear]

# genero los delta lags como var - lagX
for (campo in campos_laguear) {
  for (k in 1:max_lag) {
    dataset[, (paste0(campo, "_delta", k)) :=
              get(campo) - get(paste0(campo, "_lag", k))]
  }
}

Máximo lag posible: 1 
Campos a laggear: active_quarter, cliente_vip, internet, cliente_edad, cliente_antiguedad, cproductos, tcuentas, ccuenta_corriente, ccaja_ahorro, cdescubierto_preacordado, ctarjeta_debito, ctarjeta_debito_transacciones, ctarjeta_visa, ctarjeta_visa_transacciones, ctarjeta_master, ctarjeta_master_transacciones, cprestamos_personales, cprestamos_prendarios, cprestamos_hipotecarios, cplazo_fijo, cinversion1, cinversion2, cseguro_vida, cseguro_auto, cseguro_vivienda, cseguro_accidentes_personales, ccaja_seguridad, cpayroll_trx, cpayroll2_trx, ccuenta_debitos_automaticos, ctarjeta_visa_debitos_automaticos, mttarjeta_visa_debitos_automaticos, ctarjeta_master_debitos_automaticos, cpagodeservicios, cpagomiscuentas, ccajeros_propios_descuentos, ctarjeta_visa_descuentos, ctarjeta_master_descuentos, ccomisiones_mantenimiento, ccomisiones_otras, cforex, cforex_buy, cforex_sell, ctransferencias_recibidas, ctransferencias_emitidas, cextraccion_autoservicio, ccheques_depositado

In [None]:
fwrite( dataset,
    file =  "/content/datasets/competencia_01.csv.gz",
    sep = ","
)

### 2.2 Optimizacion Hiperparámetros

Esta parte se debe correr con el runtime en lenguaje R Ir al menu, Runtime -> Change Runtime Type -> Runtime type -> R

### 2.2.1 Inicio

limpio el ambiente de R

In [None]:
format(Sys.time(), "%a %b %d %X %Y")

In [None]:
# limpio la memoria
rm(list=ls(all.names=TRUE)) # remove all objects
gc(full=TRUE, verbose=FALSE) # garbage collection

Unnamed: 0,used,(Mb),gc trigger,(Mb).1,max used,(Mb).2
Ncells,735183,39.3,1454708,77.7,1454708,77.7
Vcells,1397451,10.7,422281817,3221.8,371711929,2836.0


### 2.2.2 Carga de Librerias

Esta parte lleva varios minutos la primera vez en Google Colab

In [None]:
# cargo las librerias que necesito
require("data.table")
require("parallel")

if(!require("R.utils")) install.packages("R.utils")
require("R.utils")

if( !require("primes") ) install.packages("primes")
require("primes")

if( !require("utils") ) install.packages("utils")
require("utils")

if( !require("rlist") ) install.packages("rlist")
require("rlist")

if( !require("yaml")) install.packages("yaml")
require("yaml")

if( !require("lightgbm") ) install.packages("lightgbm")
require("lightgbm")

if( !require("DiceKriging") ) install.packages("DiceKriging")
require("DiceKriging")

if( !require("mlrMBO") ) install.packages("mlrMBO")
require("mlrMBO")

Loading required package: parallel

Loading required package: R.utils

Loading required package: R.oo

Loading required package: R.methodsS3

R.methodsS3 v1.8.2 (2022-06-13 22:00:14 UTC) successfully loaded. See ?R.methodsS3 for help.

R.oo v1.27.1 (2025-05-02 21:00:05 UTC) successfully loaded. See ?R.oo for help.


Attaching package: ‘R.oo’


The following object is masked from ‘package:R.methodsS3’:

    throw


The following objects are masked from ‘package:methods’:

    getClasses, getMethods


The following objects are masked from ‘package:base’:

    attach, detach, load, save


R.utils v2.13.0 (2025-02-24 21:20:02 UTC) successfully loaded. See ?R.utils for help.


Attaching package: ‘R.utils’


The following object is masked from ‘package:utils’:

    timestamp


The following objects are masked from ‘package:base’:



Loading required package: primes

Loading required package: rlist

Loading required package: yaml

Loading required package: lightgbm

Loading required package: 

### 2.2.3 Definicion de Parametros

aqui debe cargar SU semilla primigenia
<br>recuerde cambiar el numero de experimento en cada corrida nueva

#### Nombre experimento y semilla

In [None]:
PARAM <- list()
PARAM$experimento <- 'C01-41-g-seed'
PARAM$semilla_primigenia <- 170029


#### Seteo meses

In [None]:
# training y future
PARAM$train <- c(202101, 202102)  # Para BO
PARAM$train_final <- c(202101, 202102, 202103, 202104)  # Para modelo final
PARAM$future <- c(202106)  # CAMBIO PRINCIPAL
PARAM$test <- c(202104)  # Nuevo: para validar hiperparámetros
PARAM$semilla_kaggle <- 314159
PARAM$cortes <- seq(6000, 19000, by= 500)

#### Undersampling

In [None]:
# un undersampling de 0.1  toma solo el 10% de los CONTINUA
# undersampling de 1.0  implica tomar TODOS los datos

PARAM$trainingstrategy$undersampling <- 0.1

In [None]:
# Parametros LightGBM

PARAM$hyperparametertuning$xval_folds <- 5

# parametros fijos del LightGBM que se pisaran con la parte variable de la BO
PARAM$lgbm$param_fijos <-  list(
  boosting= "gbdt", # puede ir  dart  , ni pruebe random_forest
  objective= "binary",
  metric= "auc",
  first_metric_only= FALSE,
  boost_from_average= TRUE,
  feature_pre_filter= FALSE,
  force_row_wise= TRUE, # para reducir warnings
  verbosity= -100,

  seed= PARAM$semilla_primigenia,

  max_depth= -1L, # -1 significa no limitar,  por ahora lo dejo fijo
  min_gain_to_split= 0, # min_gain_to_split >= 0
  min_sum_hessian_in_leaf= 0.001, #  min_sum_hessian_in_leaf >= 0.0
  lambda_l1= 0.0, # lambda_l1 >= 0.0
  lambda_l2= 0.0, # lambda_l2 >= 0.0
  max_bin= 31L, # lo debo dejar fijo, no participa de la BO

  bagging_fraction= 1.0, # 0.0 < bagging_fraction <= 1.0
  pos_bagging_fraction= 1.0, # 0.0 < pos_bagging_fraction <= 1.0
  neg_bagging_fraction= 1.0, # 0.0 < neg_bagging_fraction <= 1.0
  is_unbalance= FALSE, #
  scale_pos_weight= 1.0, # scale_pos_weight > 0.0

  drop_rate= 0.1, # 0.0 < neg_bagging_fraction <= 1.0
  max_drop= 50, # <=0 means no limit
  skip_drop= 0.5, # 0.0 <= skip_drop <= 1.0

  extra_trees= FALSE,

  num_iterations= 1200,
  learning_rate= 0.02,
  feature_fraction= 0.5,
  num_leaves= 750,
  min_data_in_leaf= 5000
)


Aqui se definen los hiperparámetros de LightGBM que participan de la Bayesian Optimization
<br> si es un numero entero debe ir  makeIntegerParam
<br> si es un numero real (con decimales) debe ir  makeNumericParam
<br> es muy importante leer cuales son un lower y upper  permitidos y ademas razonables

In [None]:
# Aqui se cargan los bordes de los hiperparametros de la BO
PARAM$hypeparametertuning$hs <- makeParamSet(
  # Iteraciones / tasa de aprendizaje
  makeIntegerParam("num_iterations", lower = 400L, upper = 2448L),
  makeNumericParam("learning_rate", lower = 0.005, upper = 0.3),

  # Complejidad del árbol
  makeIntegerParam("num_leaves", lower = 8L, upper = 2048L),
  makeIntegerParam("max_depth", lower = -1L, upper = 30L),
  makeIntegerParam("min_data_in_leaf", lower = 1L, upper = 6000L),
  makeNumericParam("min_split_gain", lower = 0.0, upper = 0.3),

  # Submuestreo de features y filas
  makeNumericParam("feature_fraction", lower = 0.1, upper = 1.0),
  makeNumericParam("bagging_fraction", lower = 0.5, upper = 1.0),
  makeIntegerParam("bagging_freq", lower = 1L, upper = 10L),

  # Regularización L1/L2
  makeNumericParam("lambda_l1", lower = 0.0, upper = 7.0),
  makeNumericParam("lambda_l2", lower = 0.0, upper = 5.0)


)


A mayor cantidad de hiperparámetros, se debe aumentar las iteraciones de la Bayesian Optimization
<br> 30 es un valor muy tacaño, pero corre rápido
<br> deberia partir de 50, alcanzando los 100 si se dispone de tiempo

In [None]:
PARAM$hyperparametertuning$iteraciones <- 100 # iteraciones bayesianas

In [None]:
# particionar agrega una columna llamada fold a un dataset
#   que consiste en una particion estratificada segun agrupa
# particionar( data=dataset, division=c(70,30),
#  agrupa=clase_ternaria, seed=semilla)   crea una particion 70, 30

particionar <- function(data, division, agrupa= "", campo= "fold", start= 1, seed= NA) {
  if (!is.na(seed)) set.seed(seed, "L'Ecuyer-CMRG")

  bloque <- unlist(mapply(
    function(x, y) {rep(y, x)},division, seq(from= start, length.out= length(division))))

  data[, (campo) := sample(rep(bloque,ceiling(.N / length(bloque))))[1:.N],by= agrupa]
}

In [None]:
# iniciliazo el dataset de realidad, para medir ganancia
realidad_inicializar <- function( pfuture, pparam) {

  # datos para verificar la ganancia
  drealidad <- pfuture[, list(numero_de_cliente, foto_mes, clase_ternaria)]

  particionar(drealidad,
    division= c(3, 7),
    agrupa= "clase_ternaria",
    seed= PARAM$semilla_kaggle
  )

  return( drealidad )
}

In [None]:
# evaluo ganancia en los datos de la realidad

realidad_evaluar <- function( prealidad, pprediccion) {

  prealidad[ pprediccion,
    on= c("numero_de_cliente", "foto_mes"),
    predicted:= i.Predicted
  ]

  tbl <- prealidad[, list("qty"=.N), list(fold, predicted, clase_ternaria)]

  res <- list()
  res$public  <- tbl[fold==1 & predicted==1L, sum(qty*ifelse(clase_ternaria=="BAJA+2", 780000, -20000))]/0.3
  res$private <- tbl[fold==2 & predicted==1L, sum(qty*ifelse(clase_ternaria=="BAJA+2", 780000, -20000))]/0.7
  res$total <- tbl[predicted==1L, sum(qty*ifelse(clase_ternaria=="BAJA+2", 780000, -20000))]

  prealidad[, predicted:=NULL]
  return( res )
}

### 2.2.4  Preprocesamiento

In [None]:
# carpeta de trabajo

setwd("/content/buckets/b1/exp")
experimento_folder <- paste0("HT", PARAM$experimento)
dir.create(experimento_folder, showWarnings=FALSE)
setwd( paste0("/content/buckets/b1/exp/", experimento_folder ))

In [None]:
# lectura del dataset
dataset <- fread("/content/datasets/competencia_01.csv.gz", stringsAsFactors= TRUE)

In [None]:
dataset_train <- dataset[foto_mes %in% PARAM$train]

In [None]:
# paso la clase a binaria que tome valores {0,1}  enteros
#  BAJA+1 y BAJA+2  son  1,   CONTINUA es 0
#  a partir de ahora ya NO puedo cortar  por prob(BAJA+2) > 1/40

dataset_train[,
  clase01 := ifelse(clase_ternaria %in% c("BAJA+2","BAJA+1"), 1L, 0L)
]

In [None]:
# defino los datos que forma parte del training
# aqui se hace el undersampling de los CONTINUA
# notar que para esto utilizo la SEGUNDA semilla

set.seed(PARAM$semilla_primigenia, kind = "L'Ecuyer-CMRG")
dataset_train[, azar := runif(nrow(dataset_train))]
dataset_train[, training := 0L]

dataset_train[
  foto_mes %in%  PARAM$train &
    (azar <= PARAM$trainingstrategy$undersampling | clase_ternaria %in% c("BAJA+1", "BAJA+2")),
  training := 1L
]

In [None]:
# los campos que se van a utilizar

campos_buenos <- setdiff(
  colnames(dataset_train),
  c("clase_ternaria", "clase01", "azar", "training")
)

In [None]:
# dejo los datos en el formato que necesita LightGBM

dtrain <- lgb.Dataset(
  data= data.matrix(dataset_train[training == 1L, campos_buenos, with= FALSE]),
  label= dataset_train[training == 1L, clase01],
  free_raw_data= FALSE
)

nrow(dtrain)
ncol(dtrain)

### 2.2.5 Configuracion Bayesian Optimization

In [None]:
# En el argumento x llegan los parmaetros de la bayesiana
#  devuelve la AUC en cross validation del modelo entrenado

EstimarGanancia_AUC_lightgbm <- function(x) {

  # x pisa (o agrega) a param_fijos
  param_completo <- modifyList(PARAM$lgbm$param_fijos, x)

  # entreno LightGBM
  modelocv <- lgb.cv(
    data= dtrain,
    nfold= PARAM$hyperparametertuning$xval_folds,
    stratified= TRUE,
    param= param_completo
  )

  # obtengo la ganancia
  AUC <- modelocv$best_score

  # hago espacio en la memoria
  rm(modelocv)
  gc(full= TRUE, verbose= FALSE)

  message(format(Sys.time(), "%a %b %d %X %Y"), " AUC ", AUC)

  return(AUC)
}

In [None]:
# Aqui comienza la configuracion de la Bayesian Optimization

# en este archivo quedan la evolucion binaria de la BO
kbayesiana <- "bayesiana.RDATA"

funcion_optimizar <- EstimarGanancia_AUC_lightgbm # la funcion que voy a maximizar

configureMlr(show.learner.output= FALSE)

# configuro la busqueda bayesiana,  los hiperparametros que se van a optimizar
# por favor, no desesperarse por lo complejo

obj.fun <- makeSingleObjectiveFunction(
  fn= funcion_optimizar, # la funcion que voy a maximizar
  minimize= FALSE, # estoy Maximizando la ganancia
  noisy= TRUE,
  par.set= PARAM$hypeparametertuning$hs, # definido al comienzo del programa
  has.simple.signature= FALSE # paso los parametros en una lista
)

# cada 600 segundos guardo el resultado intermedio
ctrl <- makeMBOControl(
  save.on.disk.at.time= 600, # se graba cada 600 segundos
  save.file.path= kbayesiana
) # se graba cada 600 segundos

# indico la cantidad de iteraciones que va a tener la Bayesian Optimization
ctrl <- setMBOControlTermination(
  ctrl,
  iters= PARAM$hyperparametertuning$iteraciones
) # cantidad de iteraciones

# defino el método estandar para la creacion de los puntos iniciales,
# los "No Inteligentes"
ctrl <- setMBOControlInfill(ctrl, crit= makeMBOInfillCritEI())

# establezco la funcion que busca el maximo
surr.km <- makeLearner(
  "regr.km",
  predict.type= "se",
  covtype= "matern3_2",
  control= list(trace= TRUE)
)


### 2.2.6 Corrida Bayesian Optimization

In [None]:
set.seed(PARAM$semilla_primigenia)
# inicio la optimizacion bayesiana, retomando si ya existe
# es la celda mas lenta de todo el notebook

if (!file.exists(kbayesiana)) {
  bayesiana_salida <- mbo(obj.fun, learner= surr.km, control= ctrl)
} else {
  bayesiana_salida <- mboContinue(kbayesiana) # retomo en caso que ya exista
}

“Tuning ended with term.iter. No need to continue. Simply returning stored result.”


In [None]:

tb_bayesiana <- as.data.table(bayesiana_salida$opt.path)
colnames( tb_bayesiana)

In [None]:
# almaceno los resultados de la Bayesian Optimization
# y capturo los mejores hiperparametros encontrados

tb_bayesiana <- as.data.table(bayesiana_salida$opt.path)

tb_bayesiana[, iter := .I]

# ordeno en forma descendente por AUC = y
setorder(tb_bayesiana, -y)

# grabo para eventualmente poder utilizarlos en OTRA corrida
fwrite( tb_bayesiana,
  file= "BO_log.txt",
  sep= "\t"
)

# los mejores hiperparámetros son los que quedaron en el registro 1 de la tabla
PARAM$out$lgbm$mejores_hiperparametros <- tb_bayesiana[
  1, # el primero es el de mejor AUC
  setdiff(colnames(tb_bayesiana),
    c("y","dob","eol","error.message","exec.time","ei","error.model",
      "train.time","prop.type","propose.time","se","mean","iter")),
  with= FALSE
]


PARAM$out$lgbm$y <- tb_bayesiana[1, y]


In [None]:
write_yaml( PARAM, file="PARAM.yml")

In [None]:
print(PARAM$out$lgbm$mejores_hiperparametros)
print(PARAM$out$lgbm$y)

   num_iterations learning_rate num_leaves max_depth min_data_in_leaf
            <int>         <num>      <int>     <int>            <int>
1:            741    0.02012014        833        16               12
   min_split_gain feature_fraction bagging_fraction bagging_freq  lambda_l1
            <num>            <num>            <num>        <int>      <num>
1:      0.1432114        0.9975067        0.8820523           10 0.08981756
   lambda_l2
       <num>
1:   0.25669
[1] 0.9388418


### 2.2.7 Testing

In [None]:
# Definir las 10 semillas a utilizar
semillas <- c(170029, 202519, 509137, 703217, 923233,
              200017, 300017, 500107, 700001, 800011)

predicciones_lista <- list()

for(semilla in semillas) {

  cat("\nEntrenando con semilla:", semilla, "\n")

  # Modificar los parámetros para incluir la semilla actual
  param_test <- modifyList(PARAM$lgbm$param_fijos,
                           PARAM$out$lgbm$mejores_hiperparametros)
  param_test$seed <- semilla #

  # Entrenar el modelo con la semilla actual
  modelo_test <- lgb.train(
    data = dtrain,
    param = param_test
  )

  # Preparar el dataset de predicción
  dataset_test <- dataset[foto_mes == 202104]

  # Predecir sobre el dataset de test
  prediccion_actual <- predict(
    modelo_test,
    data.matrix(dataset_test[, campos_buenos, with = FALSE])
  )

  # Guardar la predicción en la lista
  predicciones_lista[[as.character(semilla)]] <- prediccion_actual
}


# calculamos el promedio por fila (cliente)
predicciones_promedio <- rowMeans(as.data.table(predicciones_lista))


tb_test <- dataset_test[, .(numero_de_cliente, foto_mes)]
tb_test[, prob := predicciones_promedio] # <-- Usamos el promedio

# Inicializar realidad para test
drealidad_test <- realidad_inicializar(dataset_test, PARAM)

# Calcular ganancias usando realidad_evaluar
resultados_cortes <- data.table()
setorder(tb_test, -prob)

for(envios in PARAM$cortes) {

  tb_test[, Predicted := 0L]
  tb_test[1:envios, Predicted := 1L]

  res <- realidad_evaluar(drealidad_test, tb_test)

  resultados_cortes <- rbind(resultados_cortes,
                             data.table(
                               envios = envios,
                               ganancia_total = res$total,
                               ganancia_public = res$public,
                               ganancia_private = res$private,
                               ganancia_por_envio = res$total / envios
                             ))

  options(scipen = 999)
  cat("Envios=", envios, "\t",
      " TOTAL=", res$total,
      "  Public=", res$public,
      " Private=", res$private,
      "\n",
      sep = "")
}

cat("\nProceso finalizado. Las ganancias mostradas corresponden al promedio de 10 semillas.\n")




Entrenando con semilla: 170029 

Entrenando con semilla: 202519 

Entrenando con semilla: 509137 

Entrenando con semilla: 703217 

Entrenando con semilla: 923233 

Entrenando con semilla: 200017 

Entrenando con semilla: 300017 

Entrenando con semilla: 500107 

Entrenando con semilla: 700001 

Entrenando con semilla: 800011 
Envios=6000	 TOTAL=336000000  Public=304000000 Private=349714286
Envios=6500	 TOTAL=350000000  Public=310266667 Private=367028571
Envios=7000	 TOTAL=355200000  Public=305066667 Private=376685714
Envios=7500	 TOTAL=357200000  Public=306666667 Private=378857143
Envios=8000	 TOTAL=365600000  Public=306800000 Private=390800000
Envios=8500	 TOTAL=370800000  Public=307066667 Private=398114286
Envios=9000	 TOTAL=376800000  Public=314000000 Private=403714286
Envios=9500	 TOTAL=376400000  Public=309866667 Private=404914286
Envios=10000	 TOTAL=377600000  Public=318333333 Private=403000000
Envios=10500	 TOTAL=374800000  Public=313266667 Private=401171429
Envios=11000	 TOTA

In [None]:
setorder(resultados_cortes, -ganancia_total)
optimo <- resultados_cortes[1]

cat("\n================================================\n")
cat("MEJOR PUNTO DE CORTE EN TEST (202104):\n")
cat("Envíos óptimos:", optimo$envios, "\n")
cat("Ganancia TOTAL:", optimo$ganancia_total, "\n")
cat("Ganancia PUBLIC:", optimo$ganancia_public, "\n")
cat("Ganancia PRIVATE:", optimo$ganancia_private, "\n")
cat("Ganancia por envío:", round(optimo$ganancia_por_envio, 2), "\n")
cat("================================================\n\n")


MEJOR PUNTO DE CORTE EN TEST (202104):
Envíos óptimos: 10000 
Ganancia TOTAL: 377600000 
Ganancia PUBLIC: 318333333 
Ganancia PRIVATE: 403000000 
Ganancia por envío: 37760 



## 2.3  Produccion

### Final Training
Construyo el modelo final, que es uno solo, no hace ningun tipo de particion < training, validation, testing>]

In [None]:
setwd("/content/buckets/b1/exp")
experimento <- paste0("exp", PARAM$experimento)
dir.create(experimento, showWarnings= FALSE)
setwd( paste0("/content/buckets/b1/exp/", experimento ))

#### Final Training Dataset

Aqui esta la gran decision de en qué meses hago el Final Training
<br> debo utilizar los mejores hiperparámetros que encontré en la  optimización bayesiana

In [None]:
# clase01
dataset[, clase01 := ifelse(clase_ternaria %in% c("BAJA+1", "BAJA+2"), 1L, 0L)]

In [None]:
dataset_train <- dataset[foto_mes %in% PARAM$train_final]
dataset_train[,.N,clase_ternaria]

clase_ternaria,N
<fct>,<int>
BAJA+1,3447
BAJA+2,3938
CONTINUA,642824


In [None]:
# dejo los datos en el formato que necesita LightGBM

dtrain_final <- lgb.Dataset(
  data= data.matrix(dataset_train[, campos_buenos, with= FALSE]),
  label= dataset_train[, clase01]
)

#### Final Training Hyperparameters

In [None]:
param_final <- modifyList(PARAM$lgbm$param_fijos,
  PARAM$out$lgbm$mejores_hiperparametros)

param_final

#### Training
Genero el modelo final, siempre sobre TODOS los datos de  final_train, sin hacer ningun tipo de undersampling de la clase mayoritaria y mucho menos cross validation.

In [None]:
# este punto es muy SUTIL  y será revisado en la Clase 05

param_normalizado <- copy(param_final)
param_normalizado$min_data_in_leaf <-  round(param_final$min_data_in_leaf / PARAM$trainingstrategy$undersampling)

In [None]:
# entreno los lightgbm

semillas <- c(170029, 202519, 509137, 703217, 923233,
              200017, 300017, 500107, 700001, 800011)

# Lista para guardar modelos
modelos_finales <- list()

# Entrenar un modelo por cada semilla
for(i in seq_along(semillas)) {

  semilla <- semillas[i]
  cat(sprintf("[%d/%d] Entrenando modelo con semilla: %d\n",
              i, length(semillas), semilla))

  # Modificar parámetros con la semilla actual
  param_actual <- param_normalizado
  param_actual$seed <- semilla

  # Entrenar el modelo
  modelo <- lgb.train(
    data = dtrain_final,
    param = param_actual
  )

  # Guardar en la lista
  modelos_finales[[as.character(semilla)]] <- modelo
}

cat("\n✓ Entrenamiento completado: 10 modelos entrenados\n")

[1/10] Entrenando modelo con semilla: 170029
[2/10] Entrenando modelo con semilla: 202519
[3/10] Entrenando modelo con semilla: 509137
[4/10] Entrenando modelo con semilla: 703217
[5/10] Entrenando modelo con semilla: 923233
[6/10] Entrenando modelo con semilla: 200017
[7/10] Entrenando modelo con semilla: 300017
[8/10] Entrenando modelo con semilla: 500107
[9/10] Entrenando modelo con semilla: 700001
[10/10] Entrenando modelo con semilla: 800011

✓ Entrenamiento completado: 10 modelos entrenados


In [None]:
# ahora imprimo la importancia de variables
tb_importancia <- as.data.table(lgb.importance(modelos_finales[[1]]))
archivo_importancia <- "impo.txt"

fwrite(tb_importancia,
  file= archivo_importancia,
  sep= "\t"
)

In [None]:
# grabo a disco el modelo en un formato para seres humanos ... ponele ...
lgb.save(modelos_finales[[1]], "modelo.txt" )

### Scoring

Aplico el modelo final a los datos del futuro

In [None]:
# aplico el modelo a los datos sin clase
dfuture <- dataset[foto_mes %in% PARAM$future]

# Matriz de datos para predicción
datos_future <- data.matrix(dfuture[, campos_buenos, with = FALSE])

# Lista para guardar predicciones
predicciones_lista <- list()

# Predecir con cada modelo
for(i in seq_along(semillas)) {
  semilla <- semillas[i]

  prediccion <- predict(
    modelos_finales[[as.character(semilla)]],
    datos_future
  )

  predicciones_lista[[as.character(semilla)]] <- prediccion
}

# PROMEDIO DE LAS 10 PREDICCIONES
prediccion <- rowMeans(as.data.table(predicciones_lista))

In [None]:
# inicilizo el dataset  drealidad
drealidad <- realidad_inicializar( dfuture, PARAM)

#### Tabla Prediccion

In [None]:
# tabla de prediccion

tb_prediccion <- dfuture[, list(numero_de_cliente, foto_mes)]
tb_prediccion[, prob := prediccion ]

# grabo las probabilidad del modelo
fwrite(tb_prediccion,
  file= "prediccion.txt",
  sep= "\t"
)

Kaggle Competition Submit

In [None]:
PARAM$cortes

In [None]:
# genero archivos con los  "envios" mejores
# suba TODOS los archivos a Kaggle

# ordeno por probabilidad descendente
setorder(tb_prediccion, -prob)

dir.create("kaggle")

for (envios in PARAM$cortes) {

  tb_prediccion[, Predicted := 0L] # seteo inicial a 0
  tb_prediccion[1:envios, Predicted := 1L] # marco los primeros

  archivo_kaggle <- paste0("./kaggle/KA", PARAM$experimento, "_", envios, ".csv")

  # grabo el archivo
  fwrite(tb_prediccion[, list(numero_de_cliente, Predicted)],
    file= archivo_kaggle,
    sep= ","
  )

  res <- realidad_evaluar( drealidad, tb_prediccion)

  options(scipen = 999)
  cat( "Envios=", envios, "\t",
    " TOTAL=", res$total,
    "  Public=", res$public,
    " Private=", res$private,
    "\n",
    sep= ""
  )

}

Envios=6000	 TOTAL=-120000000  Public=-123666667 Private=-118428571
Envios=6500	 TOTAL=-130000000  Public=-132800000 Private=-128800000
Envios=7000	 TOTAL=-140000000  Public=-142066667 Private=-139114286
Envios=7500	 TOTAL=-150000000  Public=-152733333 Private=-148828571
Envios=8000	 TOTAL=-160000000  Public=-162600000 Private=-158885714
Envios=8500	 TOTAL=-170000000  Public=-174200000 Private=-168200000
Envios=9000	 TOTAL=-180000000  Public=-184533333 Private=-178057143
Envios=9500	 TOTAL=-190000000  Public=-194266667 Private=-188171429
Envios=10000	 TOTAL=-200000000  Public=-203866667 Private=-198342857
Envios=10500	 TOTAL=-210000000  Public=-213733333 Private=-208400000
Envios=11000	 TOTAL=-220000000  Public=-224000000 Private=-218285714
Envios=11500	 TOTAL=-230000000  Public=-233733333 Private=-228400000
Envios=12000	 TOTAL=-240000000  Public=-243533333 Private=-238485714
Envios=12500	 TOTAL=-250000000  Public=-252800000 Private=-248800000
Envios=13000	 TOTAL=-260000000  Public=-26

In [None]:
write_yaml( PARAM, file="PARAM.yml")

In [None]:
format(Sys.time(), "%a %b %d %X %Y")

Finalmente usted deberá cargar el resultado de su corrida en la Google Sheet Colaborativa,  hoja **TareaHogar04**
<br> Siéntase libre de agregar las columnas que hagan falta a la planilla