# Selección de los predictores


A la hora de seleccionar los predictores que deben formar parte del modelo se puede seguir el método paso a paso (stepwise), el cual emplea criterios matemáticos para decidir qué predictores contribuyen significativamente al modelo y en qué orden se introducen. Dentro de este método se diferencias tres estrategias:

1. Dirección forward: El modelo inicial no contiene ningún predictor, solo el parámetro $\beta_0$.
A partir de este se generan todos los posibles modelos introduciendo una sola variable de entre las disponibles. Aquella variable que mejore en mayor medida el modelo se selecciona. A continuación se intenta incrementar el modelo probando a introducir una a una las variables restantes. Si introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este proceso se repite hasta llegar al punto en el que ninguna de las variables que quedan por incorporar mejore el modelo.

2.    Dirección backward: El modelo se inicia con todas las variables disponibles incluidas como predictores. Se prueba a eliminar una a una cada variable, si se mejora el modelo, queda excluida. Este método permite evaluar cada variable en presencia de las otras.

3.    Doble o mixto: Se trata de una combinación de la selección forward y backward. Se inicia igual que el forward pero tras cada nueva incorporación se realiza un test de extracción de predictores no útiles como en el backward. Presenta la ventaja de que si a medida que se añaden predictores, alguno de los ya presentes deja de contribuir al modelo, se elimina.

El método paso a paso requiere de algún criterio matemático para determinar si el modelo mejora o empeora con cada incorporación o extracción. Se puede usar como criterio el $R^2$ ajustado por ejemplo.

### Ejemplo

Un estudio quiere generar un modelo que permita predecir la esperanza de vida media de los habitantes de una ciudad en función de diferentes variables. Se dispone de información sobre: habitantes, analfabetismo, ingresos, esperanza de vida, asesinatos, universitarios, heladas, área y densidad poblacional.

In [6]:
#install.packages('dplyr')
library(dplyr)
datos <- as.data.frame(state.x77)
datos <- rename(habitantes = Population, analfabetismo = Illiteracy,
                ingresos = Income, esp_vida = `Life Exp`, asesinatos = Murder,
                universitarios = `HS Grad`, heladas = Frost, area = Area,
                .data = datos)
datos <- mutate(.data = datos, densidad_pobl = habitantes * 1000 / area)
#datos

In [7]:
round(cor(x = datos, method = "pearson"), 3)

Unnamed: 0,habitantes,ingresos,analfabetismo,esp_vida,asesinatos,universitarios,heladas,area,densidad_pobl
habitantes,1.0,0.208,0.108,-0.068,0.344,-0.098,-0.332,0.023,0.246
ingresos,0.208,1.0,-0.437,0.34,-0.23,0.62,0.226,0.363,0.33
analfabetismo,0.108,-0.437,1.0,-0.588,0.703,-0.657,-0.672,0.077,0.009
esp_vida,-0.068,0.34,-0.588,1.0,-0.781,0.582,0.262,-0.107,0.091
asesinatos,0.344,-0.23,0.703,-0.781,1.0,-0.488,-0.539,0.228,-0.185
universitarios,-0.098,0.62,-0.657,0.582,-0.488,1.0,0.367,0.334,-0.088
heladas,-0.332,0.226,-0.672,0.262,-0.539,0.367,1.0,0.059,0.002
area,0.023,0.363,0.077,-0.107,0.228,0.334,0.059,1.0,-0.341
densidad_pobl,0.246,0.33,0.009,0.091,-0.185,-0.088,0.002,-0.341,1.0


In [40]:
modelo <- lm(esp_vida ~ habitantes + ingresos + analfabetismo + asesinatos +
               universitarios + heladas + area + densidad_pobl, data = datos )
summary(modelo)



Call:
lm(formula = esp_vida ~ habitantes + ingresos + analfabetismo + 
    asesinatos + universitarios + heladas + area + densidad_pobl, 
    data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.47514 -0.45887 -0.06352  0.59362  1.21823 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     6.995e+01  1.843e+00  37.956  < 2e-16 ***
habitantes      6.480e-05  3.001e-05   2.159   0.0367 *  
ingresos        2.701e-04  3.087e-04   0.875   0.3867    
analfabetismo   3.029e-01  4.024e-01   0.753   0.4559    
asesinatos     -3.286e-01  4.941e-02  -6.652 5.12e-08 ***
universitarios  4.291e-02  2.332e-02   1.840   0.0730 .  
heladas        -4.580e-03  3.189e-03  -1.436   0.1585    
area           -1.558e-06  1.914e-06  -0.814   0.4205    
densidad_pobl  -1.105e-03  7.312e-04  -1.511   0.1385    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7337 on 41 degrees of freedom
Multiple R-squared:

In [49]:
# Eliminamos todas las variables menos densidad de problacion y vemos el predictor no es signicativo y 
#    ademas que R^2 es mucho peor. Usando anova, nos quedamos con el modelo inicial

modelo2 <- lm(esp_vida ~ densidad_pobl, data = datos )
summary(modelo2)
anova(modelo,modelo2)


Call:
lm(formula = esp_vida ~ densidad_pobl, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8876 -0.7612 -0.1896  1.0250  2.7292 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)   7.080e+01  2.312e-01 306.193   <2e-16 ***
densidad_pobl 5.531e-04  8.731e-04   0.634    0.529    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.351 on 48 degrees of freedom
Multiple R-squared:  0.008292,	Adjusted R-squared:  -0.01237 
F-statistic: 0.4014 on 1 and 48 DF,  p-value: 0.5294


Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,41,22.06833,,,,
2,48,87.56681,-7.0,-65.49847,17.38391,1.893973e-10


In [48]:
# Eliminamos todas las variables cuyo p-valor sea superior 0.1. El valor de R^2 es mas bajo que el modelo inicial
#  Usando anova, nos quedamos con el modelo este modelo
modelo3 <- lm(esp_vida ~ habitantes + asesinatos +
               universitarios, data = datos )
summary(modelo3)
anova(modelo,modelo3)


Call:
lm(formula = esp_vida ~ habitantes + asesinatos + universitarios, 
    data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.60049 -0.45970  0.05036  0.44988  2.26044 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     7.041e+01  9.686e-01  72.700  < 2e-16 ***
habitantes      6.250e-05  2.592e-05   2.411   0.0199 *  
asesinatos     -2.664e-01  3.574e-02  -7.454 1.91e-09 ***
universitarios  4.075e-02  1.541e-02   2.644   0.0112 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.758 on 46 degrees of freedom
Multiple R-squared:  0.7007,	Adjusted R-squared:  0.6812 
F-statistic: 35.89 on 3 and 46 DF,  p-value: 4.15e-12


Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,41,22.06833,,,,
2,46,26.42982,-5.0,-4.36149,1.620613,0.1761754


In [50]:
# Eliminamos la variable area por tener el mayor p-valor. El valor de R^2 ajustado es ligeramente superior que el 
#    del modelo inicial. Usando anova, nos quedamos con el modelo 3 

modelo4 <- lm(esp_vida ~ habitantes + ingresos + analfabetismo + asesinatos +
               universitarios + heladas + densidad_pobl, data = datos )
summary(modelo4)
anova(modelo3,modelo4)


Call:
lm(formula = esp_vida ~ habitantes + ingresos + analfabetismo + 
    asesinatos + universitarios + heladas + densidad_pobl, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.50252 -0.40471 -0.06079  0.58682  1.43862 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     7.094e+01  1.378e+00  51.488  < 2e-16 ***
habitantes      6.249e-05  2.976e-05   2.100   0.0418 *  
ingresos        1.485e-04  2.690e-04   0.552   0.5840    
analfabetismo   1.452e-01  3.512e-01   0.413   0.6814    
asesinatos     -3.319e-01  4.904e-02  -6.768 3.12e-08 ***
universitarios  3.746e-02  2.225e-02   1.684   0.0996 .  
heladas        -5.533e-03  2.955e-03  -1.873   0.0681 .  
densidad_pobl  -7.995e-04  6.251e-04  -1.279   0.2079    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7307 on 42 degrees of freedom
Multiple R-squared:  0.746,	Adjusted R-squared:  0.7037 
F-statistic: 17.63 on 7 and 42 D

Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,46,26.42982,,,,
2,42,22.42473,4.0,4.005096,1.875318,0.132649




En R la función step() permite encontrar el mejor modelo basado en AIC utilizando cualquiera de las 3 variantes del método paso a paso. El AIC tiende a ser más restrictivo e introducir menos predictores que el $R^2$ ajustado. Para un mismo set de datos, no todos los métodos tienen porque concluir en un mismo modelo.

In [10]:
step(object = modelo, direction = "both", trace = 1)
# direction: backward, forward or both
# trace: si es positivo, muestra todas los pasos, si es zero no.

Start:  AIC=-22.89
esp_vida ~ habitantes + ingresos + analfabetismo + asesinatos + 
    universitarios + heladas + area + densidad_pobl

                 Df Sum of Sq    RSS     AIC
- analfabetismo   1    0.3050 22.373 -24.208
- area            1    0.3564 22.425 -24.093
- ingresos        1    0.4120 22.480 -23.969
<none>                        22.068 -22.894
- heladas         1    1.1102 23.178 -22.440
- densidad_pobl   1    1.2288 23.297 -22.185
- universitarios  1    1.8225 23.891 -20.926
- habitantes      1    2.5095 24.578 -19.509
- asesinatos      1   23.8173 45.886  11.707

Step:  AIC=-24.21
esp_vida ~ habitantes + ingresos + asesinatos + universitarios + 
    heladas + area + densidad_pobl

                 Df Sum of Sq    RSS     AIC
- area            1    0.1427 22.516 -25.890
- ingresos        1    0.2316 22.605 -25.693
<none>                        22.373 -24.208
- densidad_pobl   1    0.9286 23.302 -24.174
- universitarios  1    1.5218 23.895 -22.918
+ analfabetismo   1   


Call:
lm(formula = esp_vida ~ habitantes + asesinatos + universitarios + 
    heladas, data = datos)

Coefficients:
   (Intercept)      habitantes      asesinatos  universitarios         heladas  
     7.103e+01       5.014e-05      -3.001e-01       4.658e-02      -5.943e-03  


In [56]:
modelo_final_step <- lm(esp_vida ~ habitantes + asesinatos + universitarios + heladas, data = datos )
summary(modelo_final_step)
anova(modelo,modelo_final_step)


Call:
lm(formula = esp_vida ~ habitantes + asesinatos + universitarios + 
    heladas, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.47095 -0.53464 -0.03701  0.57621  1.50683 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     7.103e+01  9.529e-01  74.542  < 2e-16 ***
habitantes      5.014e-05  2.512e-05   1.996  0.05201 .  
asesinatos     -3.001e-01  3.661e-02  -8.199 1.77e-10 ***
universitarios  4.658e-02  1.483e-02   3.142  0.00297 ** 
heladas        -5.943e-03  2.421e-03  -2.455  0.01802 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7197 on 45 degrees of freedom
Multiple R-squared:  0.736,	Adjusted R-squared:  0.7126 
F-statistic: 31.37 on 4 and 45 DF,  p-value: 1.696e-12


Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,41,22.06833,,,,
2,45,23.30804,-4.0,-1.239709,0.5758033,0.6817522


## Observaciones:

* El modelo final tiene un $R^2$ ajustado de 0.7126, que es mayor que el del modelo inicial
* Tiene la desventaja de que no controlamos totalmente como seleccionamos los predictores
* El modelo final usando step y el inicial no tienen diferencia significativa

In [55]:
# Usando anova, nos quedamos con modelo calculado con step frente al 3
anova(modelo3,modelo_final_step)

Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,46,26.42982,,,,
2,45,23.30804,1.0,3.121781,6.027111,0.01801778


In [58]:
modelo_final_step_sin_habitantes <- lm(esp_vida ~  asesinatos + universitarios + heladas, data = datos )
summary(modelo_final_step)
anova(modelo_final_step_sin_habitantes,modelo_final_step)
# Conclusions: con un nivel de confianza del 5%, el modelo dado por step y el mismo modelo sin la variable 
#     habitantes, no muestran una diferencia significativa. Nos quedamos con el más pequeño.


Call:
lm(formula = esp_vida ~ habitantes + asesinatos + universitarios + 
    heladas, data = datos)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.47095 -0.53464 -0.03701  0.57621  1.50683 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)     7.103e+01  9.529e-01  74.542  < 2e-16 ***
habitantes      5.014e-05  2.512e-05   1.996  0.05201 .  
asesinatos     -3.001e-01  3.661e-02  -8.199 1.77e-10 ***
universitarios  4.658e-02  1.483e-02   3.142  0.00297 ** 
heladas        -5.943e-03  2.421e-03  -2.455  0.01802 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7197 on 45 degrees of freedom
Multiple R-squared:  0.736,	Adjusted R-squared:  0.7126 
F-statistic: 31.37 on 4 and 45 DF,  p-value: 1.696e-12


Unnamed: 0_level_0,Res.Df,RSS,Df,Sum of Sq,F,Pr(>F)
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,46,25.37162,,,,
2,45,23.30804,1.0,2.063582,3.984084,0.05200514
