Mejora del desempeño de los modelos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/19-R-improving-model-performance.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/19-R-improving-model-performance.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)

# Definición del problema real

El muchos de los modelos vistos en tutoriales anteriores, el usuario debe ajustar los parámetros correspondientes buscando el mejor desempeño del modelo. Este proceso suele ser heurístico y basado en ensayo y error. Se requieren establecer estrategias para la búsqueda del mejor conjunto de parámetros. 

# Definición del problema en términos de los datos

Al resolver el problema de clasificación de créditos riesgosos usando un árbol de decisión, el usuario debe fijar los valores de los parámetros que determinan como se construye el modelo. ¿Cómo se puede obtener el mejor conjunto de parámetros del modelo, tal que se obtenga el mejor clasificador posible?

# Solución

In [None]:
## Se carga la librería y se leen los datos
## library(C50)
## credit <- read.csv("data/credit.csv")
## credit$default <- factor(credit$default, labels=c("No", "Yes"))

In [None]:
## Esta función lista los parámetros que 
## pueden ajustarse para cada modelo 
## library(caret)
## modelLookup("C5.0")

## Loading required package: lattice
## Loading required package: ggplot2
## 

Loading required package: lattice
Loading required package: ggplot2


model,parameter,label,forReg,forClass,probModel
C5.0,trials,# Boosting Iterations,False,True,True
C5.0,model,Model Type,False,True,True
C5.0,winnow,Winnow,False,True,True


In [None]:
## La función `train` permite construir muchos modelos
## que difieren en el conjunto de parámetros ajustables
## requeridos para su estimación. Se usan los valores
## por defecto que tiene `train`.
## Note que este paso requiere mucho tiempo de cómputo.
## set.seed(300)
## m <- train(default ~ ., data = credit, method = "C5.0")
## m

## C5.0 
## 
## 1000 samples
##   20 predictor
##    2 classes: 'No', 'Yes' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1000, 1000, 1000, 1000, 1000, 1000, ... 
## Resampling results across tuning parameters:
## 
##   model  winnow  trials  Accuracy   Kappa    
##   rules  FALSE    1      0.6923931  0.2736692
##   rules  FALSE   10      0.7221394  0.3408652
##   rules  FALSE   20      0.7347490  0.3622943
##   rules   TRUE    1      0.6913853  0.2693031
##   rules   TRUE   10      0.7156087  0.3252182
##   rules   TRUE   20      0.7264898  0.3438105
##   tree   FALSE    1      0.6922255  0.2564458
##   tree   FALSE   10      0.7308796  0.3120268
##   tree   FALSE   20      0.7327493  0.3166876
##   tree    TRUE    1      0.6871812  0.2478289
##   tree    TRUE   10      0.7338952  0.3250631
##   tree    TRUE   20      0.7353105  0.3266443
## 
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were trials = 20, model = tree and winnow
##  = TRUE.

C5.0 

1000 samples
  20 predictor
   2 classes: 'No', 'Yes' 

No pre-processing
Resampling: Bootstrapped (25 reps) 
Summary of sample sizes: 1000, 1000, 1000, 1000, 1000, 1000, ... 
Resampling results across tuning parameters:

  model  winnow  trials  Accuracy   Kappa    
  rules  FALSE    1      0.6923931  0.2736692
  rules  FALSE   10      0.7221394  0.3408652
  rules  FALSE   20      0.7347490  0.3622943
  rules   TRUE    1      0.6913853  0.2693031
  rules   TRUE   10      0.7156087  0.3252182
  rules   TRUE   20      0.7264898  0.3438105
  tree   FALSE    1      0.6922255  0.2564458
  tree   FALSE   10      0.7308796  0.3120268
  tree   FALSE   20      0.7327493  0.3166876
  tree    TRUE    1      0.6871812  0.2478289
  tree    TRUE   10      0.7338952  0.3250631
  tree    TRUE   20      0.7353105  0.3266443

Accuracy was used to select the optimal model using the largest value.
The final values used for the model were trials = 20, model = tree and winnow
 = TRUE.

Note que en la tabla anterior, el valor del estadístico de ajuste para cada corrida es obtenido sobre 25 réplicas bootstrap para cada conjunto posible de parámetros. Los valores posibles que puede tomar cada parámetro son:


* `model` = {rules, tree}


* `winnow` = {TRUE, FALSE}


* `trials` = {1, 10, 20}

Entonces, 2 x 2 x 3 = 12.

Este proceso es equivalente a realizar un diseño de experimentos para obtener la mejor combinación de parámetros.

In [None]:
## Después de identificar el mejor modelo, `train()` 
## usa el mejor conjunto de parámetros para construir 
## un modelo estimado sobre todo el conjunto de datos.
## Mejor modelo:
## m$finalModel

## 
## Call:
## (function (x, y, trials = 1, rules = FALSE, weights = NULL, control
##  "winnow", "noGlobalPruning", "CF", "minCases", "fuzzyThreshold",
##  "sample", "earlyStopping", "label", "seed")))
## 
## Classification Tree
## Number of samples: 1000 
## Number of predictors: 48 
## 
## Number of boosting iterations: 20 
## Average tree size: 45.1 
## 
## Non-standard options: attempt to group attributes, winnowing
## 


Call:
(function (x, y, trials = 1, rules = FALSE, weights = NULL, control
 "winnow", "noGlobalPruning", "CF", "minCases", "fuzzyThreshold",
 "sample", "earlyStopping", "label", "seed")))

Classification Tree
Number of samples: 1000 
Number of predictors: 48 

Number of boosting iterations: 20 
Average tree size: 45.1 

Non-standard options: attempt to group attributes, winnowing


In [None]:
## Pronóstico
## p <- predict(m, credit)
## table(p, credit$default)

##      
## p      No Yes
##   No  676  79
##   Yes  24 221

     
p      No Yes
  No  676  79
  Yes  24 221

In [None]:
## Probabilidades del pronóstico para la muestra de entrenamiento
## head(predict(m, credit, type = "prob"))

##   No        Yes       
## 1 0.8720819 0.12791809
## 2 0.3284062 0.67159380
## 3 1.0000000 0.00000000
## 4 0.7563177 0.24368229
## 5 0.4531721 0.54682785
## 6 0.9085110 0.09148904

No,Yes
0.8720819,0.12791809
0.3284062,0.6715938
1.0,0.0
0.7563177,0.24368229
0.4531721,0.54682785
0.908511,0.09148904


In [None]:
## A continuación se ejemplifica como parametrizar
## la búsqueda realizada por train. 
## ctrl <- trainControl(method = "cv",               # cross validation
##                      number = 10,                 # número de grupos
##                      selectionFunction = "oneSE") # 

In [None]:
## Se crea una malla de valores posibles
## para los parámetros a optimizar
## grid <- expand.grid(.model = "tree",
##                     .trials = c(1, 5, 10, 15, 20, 25, 30, 35),
##                     .winnow = "FALSE")
## grid

##   .model .trials .winnow
## 1 tree    1      FALSE  
## 2 tree    5      FALSE  
## 3 tree   10      FALSE  
## 4 tree   15      FALSE  
## 5 tree   20      FALSE  
## 6 tree   25      FALSE  
## 7 tree   30      FALSE  
## 8 tree   35      FALSE  

.model,.trials,.winnow
tree,1,False
tree,5,False
tree,10,False
tree,15,False
tree,20,False
tree,25,False
tree,30,False
tree,35,False


In [None]:
## Se llama a `train()` con los valores 
## suministrados para la búsqueda.
## set.seed(300)
## m <- train(default ~ .,      # todas las variables
##            data = credit,    # dataset
##            method = "C5.0",  #
##            metric = "Kappa", #
##            trControl = ctrl, #
##            tuneGrid = grid)  #
## m

## Warning message in Ops.factor(x$winnow):
## “‘!’ not meaningful for factors”

“‘!’ not meaningful for factors”

C5.0 

1000 samples
  20 predictor
   2 classes: 'No', 'Yes' 

No pre-processing
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 900, 900, 900, 900, 900, 900, ... 
Resampling results across tuning parameters:

  trials  Accuracy  Kappa    
   1      0.714     0.2918834
   5      0.735     0.3401066
  10      0.747     0.3504832
  15      0.749     0.3642719
  20      0.755     0.3641425
  25      0.749     0.3521465
  30      0.744     0.3445306
  35      0.745     0.3517542

Tuning parameter 'model' was held constant at a value of tree
Tuning
 parameter 'winnow' was held constant at a value of FALSE
Kappa was used to select the optimal model using  the one SE rule.
The final values used for the model were trials = 5, model = tree and winnow
 = FALSE.

**Ejercicio.--** Cuál de las dos búsquedas produjo el mejor modelo.

---

Mejora del desempeño de los modelos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/predictive-analytics/blob/master/19-R-improving-model-performance.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/predictive-analytics/blob/master/19-R-improving-model-performance.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/predictive-analytics/blob/master/readme.md)