# Filtrado de variables para modelos de machine learning

Con el fin de reducir el overfitting, mejorar la precisión de los modelos y minimizar los tiempos de entrenamiento, una buena práctica consiste en realizar un filtrado previo de los datos.

En este ejemplo, se utilizará el dataset de clasificación de scikit-learn (wine) para ilustrar la manera de hacerlo. Se utilizarán dos métodos distintos: univariate selection y feature importance.

Ver más:

https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/

https://machinelearningmastery.com/feature-selection-machine-learning-python/

In [1]:
#Load data
from sklearn.datasets import load_wine
X,y = load_wine(return_X_y=True)
print(X.shape)

(178, 13)


## Univariate selection

In [2]:
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif #Método de ANOVA

#Feature extraction
fourBest = SelectKBest(score_func = f_classif, k = 4) #Se seleccionan las 4 mejores features
fit = fourBest.fit(X,y)

#Summarize scores
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)

#Summarize selected features
print(features[0:5,:])

[135.078  36.943  13.313  35.772  12.43   93.733 233.926  27.575  30.271
 120.664 101.317 189.972 207.92 ]
[[  14.23    3.06    3.92 1065.  ]
 [  13.2     2.76    3.4  1050.  ]
 [  13.16    3.24    3.17 1185.  ]
 [  14.37    3.49    3.45 1480.  ]
 [  13.24    2.69    2.93  735.  ]]


Se han seleccionado los 4 atributos con mayor puntuación, es decir, aquellos con los índices 0,6,11 y 12. Sin embargo, la puntuación de otros atributos está bastante cerca, por lo que podría considerarse su utilización también.

In [3]:
print(X)

[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]


In [4]:
print(features)

[[1.423e+01 3.060e+00 3.920e+00 1.065e+03]
 [1.320e+01 2.760e+00 3.400e+00 1.050e+03]
 [1.316e+01 3.240e+00 3.170e+00 1.185e+03]
 [1.437e+01 3.490e+00 3.450e+00 1.480e+03]
 [1.324e+01 2.690e+00 2.930e+00 7.350e+02]
 [1.420e+01 3.390e+00 2.850e+00 1.450e+03]
 [1.439e+01 2.520e+00 3.580e+00 1.290e+03]
 [1.406e+01 2.510e+00 3.580e+00 1.295e+03]
 [1.483e+01 2.980e+00 2.850e+00 1.045e+03]
 [1.386e+01 3.150e+00 3.550e+00 1.045e+03]
 [1.410e+01 3.320e+00 3.170e+00 1.510e+03]
 [1.412e+01 2.430e+00 2.820e+00 1.280e+03]
 [1.375e+01 2.760e+00 2.900e+00 1.320e+03]
 [1.475e+01 3.690e+00 2.730e+00 1.150e+03]
 [1.438e+01 3.640e+00 3.000e+00 1.547e+03]
 [1.363e+01 2.910e+00 2.880e+00 1.310e+03]
 [1.430e+01 3.140e+00 2.650e+00 1.280e+03]
 [1.383e+01 3.400e+00 2.570e+00 1.130e+03]
 [1.419e+01 3.930e+00 2.820e+00 1.680e+03]
 [1.364e+01 3.030e+00 3.360e+00 8.450e+02]
 [1.406e+01 3.170e+00 3.710e+00 7.800e+02]
 [1.293e+01 2.410e+00 3.520e+00 7.700e+02]
 [1.371e+01 2.880e+00 4.000e+00 1.035e+03]
 [1.285e+01

In [5]:
print(features.shape)

(178, 4)


In [6]:
print(X.shape)

(178, 13)


## Feature Importance


In [7]:
from sklearn.ensemble import ExtraTreesClassifier
# feature extraction
model = ExtraTreesClassifier(n_estimators=10)
model.fit(X, y)
print(model.feature_importances_)

[0.143 0.029 0.04  0.046 0.048 0.025 0.154 0.043 0.016 0.158 0.073 0.125
 0.1  ]


Para cada atributo se le otorga un valor de importancia, siendo en este caso los más altos los índices 0, 9,11 y 12. Muy similares a los obtenidos en el método anterior.