***
____
![revit](https://i.ibb.co/bQ3dB8C/curso-revit.png)

***
***


# Clase 07
## Selección de variables

In [3]:
from IPython.display import Image
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

matplotlib.rcParams['figure.figsize'] = [10, 10]

Para garantizar la reproducibilidad (esto es, que al ejecutar este notebook otra vez los resultados sean idénticos) vamos a fijar la semilla que usa scikit learn para hacer particiones aleatorias. Para esto tenemos que fijar la semilla (seed) cada vez que llamemos a la aplicacion.

In [4]:
 np.random.seed(42)

# Selección de variables

En esta sección vamos a ver las distintas técnicas de selección de variables, que son las técnicas que nos permiten filtrar las variables que tenemos y elegir aquellas que realmente están ayudando al modelo.

¿Por qué querriamos eliminar variables? Generalmente, cuanta más información tenemos sobre cada observación mejor será la calidad de nuestras predicciones (cuanto más sepamos, más facil será diferenciar unos casos de otros). No obstante, esto no tiene por que ser así en todas las situaciones, hay veces que ciertas variables pueden ser contraproducentes y hacer que nuestros modelos funcionen peor, por ejemplo debido a errores de medición.

Seleccionar variables tiene varias ventajas. En primer lugar, como hemos dicho, puede mejorar las puntuaciones de los modelos (eliminando parte del ruido en los datos), por otra parte, reducir el número de variables independientes reduce la complejidad del modelo, reduciendo así el efecto de sobreajuste del modelo. Además, tener menos variables independientes y modelos más simples significa que nuestros modelos son más rápidos de entrenar, y podemos entrenarlos con más datos en las mismas máquinas.

## Cargamos los datos

Cargaremos los datos del data `Caso mora en tarjetas de crédito`

In [11]:
datos = pd.read_csv("../caso_TC.csv").drop(["ID", "VAR04"], axis = 1)

In [12]:
datos.shape

(5000, 14)

In [13]:
datos.head()

Unnamed: 0,MORA60,VAR01,VAR02,VAR03,VAR05,VAR06,VAR07,VAR08,VAR09,VAR10,VAR11,VAR12,VAR13,VAR14
0,0,235,FAMILIAR,30,93,5,3500.0,0.0,0.0,214,5,Lima,4,PROFESIONAL
1,0,18,FAMILIAR,32,9,12,900.0,1824.67,1933.75,175,12,La Libertad,1,TECNICO
2,0,0,FAMILIAR,26,8,2,2400.0,2797.38,188.29,187,0,Lima,0,PROFESIONAL
3,0,0,FAMILIAR,36,20,12,2700.0,0.0,0.0,187,12,Ancash,0,TECNICO
4,0,0,FAMILIAR,46,0,1,3100.0,2000.0,11010.65,189,0,Lima,0,TECNICO


In [14]:
datos.sample(1).T

Unnamed: 0,1078
MORA60,0
VAR01,0
VAR02,FAMILIAR
VAR03,27
VAR05,23
VAR06,12
VAR07,3500
VAR08,31802
VAR09,1015.54
VAR10,194


In [15]:
datos.dtypes

MORA60      int64
VAR01       int64
VAR02      object
VAR03       int64
VAR05       int64
VAR06       int64
VAR07     float64
VAR08     float64
VAR09     float64
VAR10       int64
VAR11       int64
VAR12      object
VAR13       int64
VAR14      object
dtype: object

## Procesado de datos

In [16]:
# Separamos los datos numéricos y categóricos
datos_numericos = datos.select_dtypes(include=['float64', "int64"])
datos_categoricos = datos.select_dtypes(exclude=['float64', "int64"])

# Para los missing numéricos los imputamos con la media
for col in datos_numericos.columns:
    datos_numericos[col].fillna(datos_numericos[col].mean(), inplace=True)

# Para los categoricos creamos dummies
datos_categoricos_codificados = pd.get_dummies(datos_categoricos)
df_final = pd.concat([datos_numericos, datos_categoricos_codificados], axis=1)

In [17]:
df_final.shape

(5000, 45)

Ya tenemos un dataset preparado para poder entrenar modelos. Este dataset tiene una complejidad dimensional alta ( 986 variables independientes), por lo que vamos a usar técnicas de selección de variables para reducirla.

Antes que nada vamos a ver que errores obtenemos con diversos modelos entrenando con el dataset con todas las variables.

In [18]:
from sklearn.model_selection import cross_validate
from sklearn import metrics
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

objetivo = "MORA60"
X=df_final.drop(objetivo, axis=1)
y=df_final[objetivo]

Vamos a usar la función `cross_validate` que es una versión más flexible que `cross_val_score`. Evaluaremos usando el área bajo la curva ROC

In [19]:
clasificador = cross_validate(LogisticRegression(), X, y, scoring="roc_auc", n_jobs=-1, cv=10)

Dicha función devuelve no solo las puntuaciones en los datos de testing, sino también en los datos de entrenamiento. Además, nos devuelve el tiempo que tarda dicho estimador en ajustar el modelo y en hacer predicciones con el mismo.

In [20]:
pd.DataFrame(clasificador)



Unnamed: 0,fit_time,score_time,test_score,train_score
0,0.203454,0.008977,0.625543,0.721164
1,0.195477,0.005983,0.6616,0.728382
2,0.145611,0.022938,0.675505,0.712427
3,0.117685,0.013962,0.740133,0.697861
4,0.111701,0.002991,0.761029,0.693052
5,0.158573,0.002992,0.775105,0.712603
6,0.148601,0.002993,0.780762,0.709605
7,0.139625,0.002992,0.761143,0.714033
8,0.131646,0.001996,0.81579,0.725461
9,0.105713,0.001996,0.7732,0.732173


In [21]:
def evaluar_modelo(estimador, X, y):
    resultados_estimador = cross_validate(estimador, X, y,
                     scoring="roc_auc", n_jobs=-1, cv=10, return_train_score=True)
    return resultados_estimador

In [22]:
resultados = {}

def ver_resultados():
    resultados_df  = pd.DataFrame(resultados).T
    resultados_cols = resultados_df.columns
    for col in resultados_df:
        resultados_df[col] = resultados_df[col].apply(np.mean)
        resultados_df[col+"_idx"] = resultados_df[col] / resultados_df[col].min()
    return resultados_df

In [23]:
resultados["reg_logis_sin_seleccion"] = evaluar_modelo(LogisticRegression(), X, y)
resultados["knn_sin_seleccion"] = evaluar_modelo(KNeighborsClassifier(n_neighbors=500, weights="distance"), X, y)
resultados["rf_sin_seleccion"] = evaluar_modelo(RandomForestClassifier(n_estimators=100), X, y)

In [24]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.152292,0.002694,0.736981,0.714676,6.554152,1.0,1.088604,1.0
knn_sin_seleccion,0.023236,0.242798,0.676996,1.0,1.0,90.113814,1.0,1.399235
rf_sin_seleccion,0.808138,0.023637,0.756745,1.0,34.779685,8.772868,1.117798,1.399235


Hay 3 tipos generales de estrategias de selección de variables:

# Métodos de filtrado

Los métodos de filtrado usan métodos estadísticos para seleccionar las variables que proporcionan la mayor cantidad de información. Estos métodos se aplican de forma previa a entrenar el modelo (preprocesado), y **son completamente independientes de la elección del estimador**. Generalmente funcionan definiendo una función de evaluación $S(xk_i, y_k)$, evaluando cada variable independiente para cada observación respecto a la variable objetivo de dicha observación, y eligiendo aquellas `K` variables que mejor funcionan.



Scikit-learn tiene las siguientes funciones de evaluación:

- Para regresión: `f_regression, mutual_info_regression`
- Para clasificación: `chi2, f_classif, mutual_info_classif`

f_regression y f_classif devuelven [estadísticos F](https://es.wikipedia.org/wiki/Estad%C3%ADstico_F) (F-values), entrenando un modelo lineal entre las variables independientes y la objetivo en el caso de regresión, y un test ANOVA en el caso de clasificación.

`mutual_info_regression` y `mutual_info_classif` computan el coeficiente de información mutua (MIC) entre las variables independientes y la variable objetivo.

El coeficiente de información mutua nos da una medida de la dependencia entre las variables. El MIC entre dos variables es 0 si no hay relación entre las mismas, y aumenta conforme más relación tienen.

El MIC se define como:

$$I(X;Y) = \sum_{x,y} P_{XY}(x,y) \log
{P_{XY}(x,y) \over P_X(x) P_Y(y)}$$

con $P_{XY}$ siendo la probabilidad conjunta de X e Y


El evaluador `chi2` calcula el estadístico chi cuadrado y lo convierte a estadísticos F, con el estadístico chi cuadrado definido como:
  $$\chi^2(x,y) = \sum {\frac{(x-y)^2}{y}}$$


In [33]:
from sklearn.feature_selection import SelectKBest, f_classif

In [48]:
selector_kbest10 = SelectKBest(f_classif, k=10)
X_kbest10 = selector_kbest10.fit_transform(X, y)

In [49]:
X_kbest10.shape

(5000, 10)

La funcion `get_support` nos devuelve un vector booleano (True/False), aquellos elementos con True son las columnas que se han seleccionado

In [36]:
columnas_seleccion_kbest10 = X.loc[:,selector_kbest10.get_support()].columns
columnas_seleccion_kbest10

Index(['VAR01', 'VAR03', 'VAR05', 'VAR06', 'VAR07', 'VAR08', 'VAR10', 'VAR13',
       'VAR14_PROFESIONAL', 'VAR14_TECNICO'],
      dtype='object')

El parámetro `scores_` del selector nos devuelve los resultados de la función de evaluación

In [37]:
selector_kbest10.scores_[:10]

array([3.05976615e+01, 6.84267123e+01, 3.81019993e+02, 5.33338844e+01,
       1.31605728e+02, 1.69440570e+02, 4.69990311e-03, 2.67668523e+02,
       8.34999653e+00, 4.18206248e+01])

In [38]:
evaluacion_kbest10 = pd.DataFrame({"variable":X.columns, 
                                   "Score":selector_kbest10.scores_, 
                                   "Seleccionado":selector_kbest10.get_support()})

In [39]:
evaluacion_kbest10

Unnamed: 0,variable,Score,Seleccionado
0,VAR01,30.597662,True
1,VAR03,68.426712,True
2,VAR05,381.019993,True
3,VAR06,53.333884,True
4,VAR07,131.605728,True
5,VAR08,169.44057,True
6,VAR09,0.0047,False
7,VAR10,267.668523,True
8,VAR11,8.349997,False
9,VAR13,41.820625,True


Esto nos permite ver cual es la puntuación que le da el evaluador `f_regression` a cada variable independiente

In [44]:
resultados["reg_logis_kbest_10"] = evaluar_modelo(LogisticRegression(), X_kbest10, y)
resultados["knn_kbest_10"] = evaluar_modelo(KNeighborsClassifier(n_neighbors=500, weights="distance"), X_kbest10, y)
resultados["rf_kbest_10"] = evaluar_modelo(RandomForestClassifier(n_estimators=100), X_kbest10, y)

In [45]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.152292,0.002694,0.736981,0.714676,25.453081,1.0,1.113264,1.027568
knn_sin_seleccion,0.023236,0.242798,0.676996,1.0,3.883505,90.113814,1.022653,1.437809
rf_sin_seleccion,0.808138,0.023637,0.756745,1.0,135.06708,8.772868,1.143119,1.437809
reg_logis_kbest_10,0.059142,0.002892,0.713916,0.695503,9.884621,1.073499,1.078423,1.0
knn_kbest_10,0.005983,0.104621,0.662,1.0,1.0,38.829722,1.0,1.437808
rf_kbest_10,0.773433,0.021842,0.725706,1.0,129.266717,8.106664,1.096232,1.437808


Vemos que al reducir las dimensiones a solo 10, los modelos lineales y RF funcionan bastante peor, aunque vemos que por otra parte las diferencias entre la evaluación de entrenamiento y test se han reducido en todos los casos. Esto es así por que al tener menos variables, hay mucha menos flexibilidad para sobreajustar (es decir, "memorizar" los datos de entrenamiento). SVM sin embargo funciona más o menos igual (de mal), pero los tiempos de entrenamiento se reducen considerablemente (de 3.9 segundos a 0.7).

Probamos ahora para 50 variables

In [59]:
selector_kbest50 = SelectKBest(f_classif, k=10)
X_kbest50 = selector_kbest50.fit_transform(X, y)

In [60]:
resultados["reg_logis_kbest_50"] = evaluar_modelo(LogisticRegression(), X_kbest50, y)
resultados["knn_kbest_50"] = evaluar_modelo(KNeighborsClassifier(n_neighbors=500, weights="distance"), X_kbest50, y)
resultados["rf_kbest_50"] = evaluar_modelo(RandomForestClassifier(n_estimators=100), X_kbest50, y)

In [61]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.312564,0.008378,0.737806,0.720646,47.489135,5.598111,1.11451,1.036151
knn_sin_seleccion,0.577455,1.918072,0.677059,1.0,87.73508,1281.63926,1.022748,1.437809
rf_sin_seleccion,5.089292,0.053957,0.758965,1.0,773.236267,36.053623,1.146472,1.437809
reg_logis_kbest_10,0.069813,0.001896,0.713916,0.695503,10.606985,1.267098,1.078423,1.0
knn_kbest_10,0.007181,0.109707,0.662,1.0,1.09098,73.305173,1.0,1.437808
rf_kbest_10,0.991647,0.03032,0.731286,1.0,150.664868,20.259467,1.104661,1.437808
reg_logis_kbest_50,0.065624,0.001497,0.713916,0.695503,9.970499,1.0,1.078423,1.0
knn_kbest_50,0.006582,0.097938,0.662,1.0,1.0,65.441541,1.0,1.437808
rf_kbest_50,0.777819,0.022845,0.730515,1.0,118.177156,15.265043,1.103497,1.437808


Vemos que para 50 variables, los tres estimadores funcionan de forma similar al modelo entrenado con las 209 variables iniciales, sin embargo los tiempos de entrenamiento de los mismos se reducen considerablemente.

De forma similar a `SelectKBest`, donde le decimos al transformador el número de variables que queremos mantener, podemos usar [`SelectPercentile`](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html#sklearn.feature_selection.SelectPercentile) donde especificamos el porcentaje de variables sobre el total.

Por ejemplo, si solo quisieramos conservar el 10% de las variables (sin importar que tengamos 200 o 20000), podemos hacer lo siguiente:


In [62]:
from sklearn.feature_selection import SelectPercentile

selector_pct10 = SelectPercentile(f_classif, percentile=10)
X_pct10 = selector_pct10.fit_transform(X, y)

In [63]:
X_pct10.shape

(5000, 98)

El transformador nos selecciona 98 variables (el 10 por ciento de 981 redondeado)

# Métodos envolventes (wrapper methods)

Los métodos envolventes *(wrapper methods)* funcionan de forma similar a los métodos de ranking. Sin embargo, en lugar de usar una función estadística independiente del modelo para evaluar las variables, estos métodos usan la función de evaluación o el performance de los modelos como input para decidir que variables elegir (es decir, "envuelven" el funcionamiento del estimador). Ésto significa que los métodos de filtrado se pueden aplicar independientemente de la elección del modelo, ya que consideran los modelos como una caja negra que produce evaluaciones, aunque claro, diferentes modelos producirán diferentes selecciones de variables.

`Scikit-learn` implementa un metodo envolvente llamado **Recursive Feature Elimination [(RFE)](http://scikit-learn.org/stable/modules/feature_selection.html#recursive-feature-elimination)**, o Eliminación Recursiva de Variables. RFE funciona seleccionando todas las variables, entrenando el modelo, usando los coeficientes `coef_` o la importancia de las variables `feature_importances_` en función del estimador, y eliminando n variables. Este proceso se repite hasta que se alcanza el número de variables deseado.

In [52]:
from sklearn.feature_selection import RFE
estimador_selector = RandomForestClassifier()
selector_rfe10_rf = RFE(estimador_selector, n_features_to_select=10)
X_rfe10_rf = selector_rfe10_rf.fit_transform(X, y)



In [53]:
X_rfe10_rf.shape

(5000, 10)

In [55]:
evaluacion_rfe10_rf = sorted(
    filter(lambda c: c[2], 
        zip(
            X.columns,
            selector_rfe10_rf.ranking_,
            selector_rfe10_rf.get_support()
        )
    ), key=lambda c: c[1],reverse=True
)

In [56]:
evaluacion_rfe10_rf

[('VAR01', 1, True),
 ('VAR03', 1, True),
 ('VAR05', 1, True),
 ('VAR06', 1, True),
 ('VAR07', 1, True),
 ('VAR08', 1, True),
 ('VAR09', 1, True),
 ('VAR10', 1, True),
 ('VAR11', 1, True),
 ('VAR13', 1, True)]

In [59]:
resultados["reg_lineal_rfe10_rf"] = evaluar_modelo(LogisticRegression(), X_rfe10_rf, y)
resultados["rf_rfe10_rf"] = evaluar_modelo(RandomForestClassifier(), X_rfe10_rf, y)
resultados["svr_rfe10_rf"] = evaluar_modelo(SVC(), X_rfe10_rf, y)

In [61]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.152292,0.002694,0.736981,0.714676,25.453081,1.0,1.469386,1.050278
knn_sin_seleccion,0.023236,0.242798,0.676996,1.0,3.883505,90.113814,1.349789,1.469586
rf_sin_seleccion,0.808138,0.023637,0.756745,1.0,135.06708,8.772868,1.508791,1.469586
reg_logis_kbest_10,0.059142,0.002892,0.713916,0.695503,9.884621,1.073499,1.4234,1.022101
knn_kbest_10,0.005983,0.104621,0.662,1.0,1.0,38.829722,1.319889,1.469585
rf_kbest_10,0.773433,0.021842,0.725706,1.0,129.266717,8.106664,1.446905,1.469585
reg_lineal_rfe10_rf,0.068417,0.002891,0.68996,0.680464,11.434863,1.073153,1.375636,1.0
rf_rfe10_rf,0.09764,0.003591,0.697071,0.999031,16.318981,1.332743,1.389815,1.468162
svr_rfe10_rf,2.678081,0.219214,0.501557,1.0,447.597573,81.360954,1.0,1.469586


Si usamos otro estimador para evaluar veremos que las variables elegidas pueden ser completamente distintas. Los estimadores que se pueden usar tienen que implementar el metodo `coef_` o el metodo `feature_importance` (es decir, tienen que tener una manera de ordenar variables en función de su importancia). Por ejemplo, no podemos usar SVMs.

In [62]:
estimador_selector = LogisticRegression()
selector_rfe10_lineal = RFE(estimador_selector, n_features_to_select=10)
X_rfe10_lineal = selector_rfe10_lineal.fit_transform(X, y)



In [64]:
evaluacion_rfe10_lineal = sorted(
    filter(lambda c: c[2], 
        zip(
            X.columns,
            selector_rfe10_lineal.ranking_,
            selector_rfe10_lineal.get_support()
        )
    ), key=lambda c: c[1],reverse=True
)
evaluacion_rfe10_lineal

[('VAR02_OTRAS', 1, True),
 ('VAR12_Arequipa', 1, True),
 ('VAR12_Huancavelica', 1, True),
 ('VAR12_Loreto', 1, True),
 ('VAR12_Moquegua', 1, True),
 ('VAR12_San Martin', 1, True),
 ('VAR12_Tumbes', 1, True),
 ('VAR12_Ucayali', 1, True),
 ('VAR14_EDUCACION BASICA', 1, True),
 ('VAR14_TECNICO', 1, True)]

In [65]:
set(evaluacion_rfe10_rf).intersection(set(evaluacion_rfe10_lineal))

set()

In [66]:
resultados["reg_lineal_rfe10_lineal"] = evaluar_modelo(LogisticRegression(), X_rfe10_lineal, y)
resultados["rf_rfe10_lineal"] = evaluar_modelo(RandomForestClassifier(), X_rfe10_lineal, y)
resultados["svr_rfe10_lineal"] = evaluar_modelo(SVC(), X_rfe10_lineal, y)

In [67]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.152292,0.002694,0.736981,0.714676,25.453081,1.588454,1.469386,1.293548
knn_sin_seleccion,0.023236,0.242798,0.676996,1.0,3.883505,143.141684,1.349789,1.809977
rf_sin_seleccion,0.808138,0.023637,0.756745,1.0,135.06708,13.9353,1.508791,1.809977
reg_logis_kbest_10,0.059142,0.002892,0.713916,0.695503,9.884621,1.705204,1.4234,1.258844
knn_kbest_10,0.005983,0.104621,0.662,1.0,1.0,61.679242,1.319889,1.809977
rf_kbest_10,0.773433,0.021842,0.725706,1.0,129.266717,12.877066,1.446905,1.809976
reg_lineal_rfe10_rf,0.068417,0.002891,0.68996,0.680464,11.434863,1.704655,1.375636,1.231624
rf_rfe10_rf,0.09764,0.003591,0.697071,0.999031,16.318981,2.117002,1.389815,1.808223
svr_rfe10_rf,2.678081,0.219214,0.501557,1.0,447.597573,129.238165,1.0,1.809977
reg_lineal_rfe10_lineal,0.012166,0.001696,0.609043,0.608744,2.033384,1.0,1.214304,1.101813


Vemos que el estimador RF entrenado con solo 10 variables seleccionadas por `RFE` basado en RF es el modelo que mejor funciona, y tarda 8 veces menos en entrenar.

scikit-learn también tiene la implementación [RFECV](http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV) que implementa el mismo algoritmo pero hace validación cruzada y entrena en múltiples particiones del dataset para calcular automáticamente el conjunto de variables que funciona mejor (a costa de un mayor tiempo de procesamiento).

In [68]:
from sklearn.feature_selection import RFECV

estimador_selector = RandomForestClassifier()
selector_rfecv = RFECV(estimador_selector)
X_rfecv = selector_rfecv.fit_transform(X, y)











In [69]:
X_rfecv.shape

(5000, 22)

En este caso `RFECV` ha elegido 188 variables como aquellas que proporcionan el mejor funcionamiento al estimador RF utilizado.

In [70]:
resultados["reg_lineal_rfecv_rf"] = evaluar_modelo(LogisticRegression(), X_rfecv, y)
resultados["rf_rfecv_rf"] = evaluar_modelo(RandomForestClassifier(), X_rfecv, y)
resultados["svr_rfecv_rf"] = evaluar_modelo(SVC(), X_rfecv, y)

In [71]:
ver_resultados()

Unnamed: 0,fit_time,score_time,test_score,train_score,fit_time_idx,score_time_idx,test_score_idx,train_score_idx
reg_logis_sin_seleccion,0.152292,0.002694,0.736981,0.714676,25.453081,1.928218,1.469386,1.293548
knn_sin_seleccion,0.023236,0.242798,0.676996,1.0,3.883505,173.759077,1.349789,1.809977
rf_sin_seleccion,0.808138,0.023637,0.756745,1.0,135.06708,16.916001,1.508791,1.809977
reg_logis_kbest_10,0.059142,0.002892,0.713916,0.695503,9.884621,2.069939,1.4234,1.258844
knn_kbest_10,0.005983,0.104621,0.662,1.0,1.0,74.872168,1.319889,1.809977
rf_kbest_10,0.773433,0.021842,0.725706,1.0,129.266717,15.631416,1.446905,1.809976
reg_lineal_rfe10_rf,0.068417,0.002891,0.68996,0.680464,11.434863,2.069274,1.375636,1.231624
rf_rfe10_rf,0.09764,0.003591,0.697071,0.999031,16.318981,2.56982,1.389815,1.808223
svr_rfe10_rf,2.678081,0.219214,0.501557,1.0,447.597573,156.881654,1.0,1.809977
reg_lineal_rfe10_lineal,0.012166,0.001696,0.609043,0.608744,2.033384,1.213896,1.214304,1.101813


Vemos que el método que funciona mejor es el de RFECV usando RF como estimador. Este método funciona mejor que  el segundo mejor modelo, un Random Forest entrenado con todo el dataset, pero se entrena en menos tiempo (0.81 segundos versus  0.99 segundos)

# Metodos embebidos (Embedded Methods)

Éstos métodos son metodos de selección de variables que están integrados dentro del proceso de entrenamiento de modelos, y son específicos para cada modelo.

El ejemplo clásico de método embebidos de selección de variables son los procesos de regularización en regresión lineal. Por ejemplo el método L1 tiende a convertir los coeficientes de las variables que no funcionan a 0, por lo tanto eliminandolas.