In [36]:
rm( list=ls() )  #Borro todos los objetos
gc()   #Garbage Collection

library("data.table")
library("rpart")
library("parallel")

Unnamed: 0,used,(Mb),gc trigger,(Mb).1,max used,(Mb).2
Ncells,710298,38.0,1321401,70.6,1321401,70.6
Vcells,1386509,10.6,89979595,686.5,126785534,967.3


In [37]:
#ksemillas  <- c(262139, 394943, 638819, 819031, 902761) #reemplazar por las propias semillas

ksemillas  <- c( 162896, 298841, 198981, 269607, 312548, 487610, 482911, 687314, 742337, 382084
                ,232222, 503457, 391252, 466578, 669404, 137551, 147833, 235500, 341086, 643133)

In [38]:
# particionar agrega una columna llamada fold a un dataset que consiste en una particion estratificada segun agrupa
# particionar( data=dataset, division=c(70,30), agrupa=clase_ternaria, seed=semilla)   crea una particion 70, 30 

particionar  <- function( data,  division, agrupa="",  campo="fold", start=1, seed=NA )
{
  if( !is.na(seed) )   set.seed( seed )

  bloque  <- unlist( mapply(  function(x,y) { rep( y, x )} ,   division,  seq( from=start, length.out=length(division) )  ) )  

  data[ , (campo) :=  sample( rep( bloque, ceiling(.N/length(bloque))) )[1:.N],
          by= agrupa ]
}

In [39]:
ArbolEstimarGanancia  <- function( semilla, param_basicos )
{
  #particiono estratificadamente el dataset
  particionar( dataset, division=c(7,3), agrupa="clase_ternaria", seed= semilla )  #Cambiar por la primer semilla de cada uno !

  #genero el modelo
  modelo  <- rpart("clase_ternaria ~ .",     #quiero predecir clase_ternaria a partir del resto
                   data= dataset[ fold==1],  #fold==1  es training,  el 70% de los datos
                   xval= 0,
                   control= param_basicos )  #aqui van los parametros del arbol

  #aplico el modelo a los datos de testing
  prediccion  <- predict( modelo,   #el modelo que genere recien
                          dataset[ fold==2],  #fold==2  es testing, el 30% de los datos
                          type= "prob") #type= "prob"  es que devuelva la probabilidad

  #prediccion es una matriz con TRES columnas, llamadas "BAJA+1", "BAJA+2"  y "CONTINUA"
  #cada columna es el vector de probabilidades 

  #calculo la ganancia en testing  qu es fold==2
  ganancia_test  <- dataset[ fold==2, 
                             sum( ifelse( prediccion[, "BAJA+2"]  >  0.025,
                                         ifelse( clase_ternaria=="BAJA+2", 117000, -3000 ),
                                         0 ) )]
                                         
  #escalo la ganancia como si fuera todo el dataset
  ganancia_test_normalizada  <-  ganancia_test / 0.3

  return( list( "testing"=       dataset[ fold==2, .N],
                "testing_pos"=   dataset[ fold==2 & clase_ternaria=="BAJA+2", .N],
                "envios"=        dataset[ fold==2 , sum( prediccion[ , "BAJA+2"] > 0.025)],
                "aciertos"=      dataset[ fold==2, sum( prediccion[ , "BAJA+2"] > 0.025 & clase_ternaria=="BAJA+2" )],
                "ganancia_test"= ganancia_test_normalizada ))
}

In [40]:
#apunto el working directory al directorio donde esta ubicado el script
setwd(".\\") 
getwd() #solo para validar


In [41]:
#cargo los datos
dataset  <- fread("./datasets/dataset_pequeno.csv")
#trabajo solo con los datos con clase, es decir 202107
dataset  <- dataset[ clase_ternaria!= "" ]

In [42]:
param_basicos_ext  <- list( "cp"=          -1,  #complejidad minima
                        "minsplit"=   900,  #minima cantidad de registros en un nodo para hacer el split
                        "minbucket"=  440,  #minima cantidad de registros en una hoja
                        "maxdepth"=     5 ) #profundidad máxima del arbol
param_basicos_ext       

In [43]:
#Un solo llamado, con la semilla 17
ArbolEstimarGanancia( 17, param_basicos_ext )   

In [44]:
#la funcion mcmapply  llama a la funcion ArbolEstimarGanancia  tantas veces como valores tenga el vector  ksemillas
salidas  <- mcmapply( ArbolEstimarGanancia, 
                      ksemillas,   #paso el vector de semillas, que debe ser el primer parametro de la funcion ArbolEstimarGanancia
                      MoreArgs= list( param_basicos_ext),  #aqui paso el segundo parametro
                      SIMPLIFY= FALSE,
                      mc.cores= 1 )  #se puede subir a 5 si posee Linux o Mac OS

In [45]:
#muestro la lista de las salidas en testing para la particion realizada con cada semilla
salidas

In [46]:
#paso la lista a vector
tb_salida  <- rbindlist(salidas)
tb_salida

testing,testing_pos,envios,aciertos,ganancia_test
<int>,<int>,<int>,<int>,<dbl>
49406,381,4102,247,57780000
49403,380,3875,232,54050000
49406,380,3524,216,51160000
49402,379,3275,210,51250000
49404,381,3650,235,57500000
49405,380,3511,211,49290000
49402,381,3340,216,53000000
49405,380,3820,222,50600000
49404,379,4107,231,51330000
49405,380,3538,221,53020000


In [48]:
#finalmente calculo la media (promedio)  de las ganancias
#calculo todos los promedios
tb_salida[  , mean( ganancia_test ) ]

In [49]:
#desvio estandar Distribucion Binomial   sqrt( n * p * (1-p) )
tb_salida[  , lapply( .SD, mean ) ]

testing,testing_pos,envios,aciertos,ganancia_test
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
49404.35,380.25,3714.45,224.85,52795500
