# Feature Selection For Machine Learning in Python

Los *features* que se utilizan para entrenar los modelos de *machine learning* tienen una influencia enorme en el rendimiento que se puede alcanzar. *Features* irrelevantes o parcialmente irrelevantes pueden afectar negativamente este rendimiento.

## Feature Selection

Es el proceso mediante el cual se seleccionan aquellos *features* en los datos que contribuyen en mayor medida a la variable de predicción en la que se está interesado. Los *features* irrelevantes, especialmente en modelos de algoritmos lineales, impactan negativamente los resultados.

Tres beneficios de realizar *feature selection* antes de modelar los datos son:

- **Reduces Overfitting:** menos datos redundantes significa menos oportunidad para tomar decisiones basadas en ruido.
- **Improves Accuracy**
- **Reduces Training Time**



### 1. Univariate Selection

Los tests estadísticos se utilizan para seleccionar los *features* que tienen la relación más fuerte con la variable de salida.

La librería *scikit-learn* provee la clase **SelectKBest** que puede ser utilizada con una serie de diferentes tests estadísticos para elegir un número específico de *features*.

Por ejemplo, el método ANOVA-F es apropiado con variables de entrada numéricas y datos categóricos, mediante la función **f_classif()**. En el siguiente ejemplo, se seleccionan los mejores 4 *features*.

In [3]:
# Feature Selection with Univariate Statistical Tests
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
# load data
filename = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
test = SelectKBest(score_func=f_classif, k=4)
fit = test.fit(X, Y)
# summarize scores
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
# summarize selected features
print(features[0:5,:])

[ 39.67  213.162   3.257   4.304  13.281  71.772  23.871  46.141]
[[  6.  148.   33.6  50. ]
 [  1.   85.   26.6  31. ]
 [  8.  183.   23.3  32. ]
 [  1.   89.   28.1  21. ]
 [  0.  137.   43.1  33. ]]


Se pueden ver las puntuaciones de cada atributo y los 4 elegidos (aquellos con puntuaciones mayores).

## 2. Recursive Feature Elimination

El RFE funciona al eliminar recursivamente atributos y construir un modelo sobre los atributos que se mantengan.

El siguiente ejemplo utiliza RFE con la regresión logística para seleccionar los mejores 3 *features*. 

In [4]:
# Feature Extraction with RFE
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = LogisticRegression(solver='lbfgs')
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 4 5 6 1 1 3]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 3. Principal Component Analysis

**Principal Component Analysis (PCA)** utiliza álgebra lineal para transformar el *dataset* a una forma comprimida. 

Por lo general, esta es conocida como una técnica de *data reduction*. Una propiedad del PCA es que se puede elegir el número de dimensiones o componentes principales en el resultado transformado.

En el siguiente ejemplo, se utiliza PCA y se seleccionan 3 componentes principales.

In [1]:
# Feature Extraction with PCA
import numpy
from pandas import read_csv
from sklearn.decomposition import PCA
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)
# summarize components
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print(fit.components_)

Explained Variance: [0.88854663 0.06159078 0.02579012]
[[-2.02176587e-03  9.78115765e-02  1.60930503e-02  6.07566861e-02
   9.93110844e-01  1.40108085e-02  5.37167919e-04 -3.56474430e-03]
 [-2.26488861e-02 -9.72210040e-01 -1.41909330e-01  5.78614699e-02
   9.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01]
 [-2.24649003e-02  1.43428710e-01 -9.22467192e-01 -3.07013055e-01
   2.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]]


Como se puede observar, el *dataset* transformado (con solo los 3 componentes principales) es bastante diferente a los datos originales.

## 4. Feature Importance

*Random Forest* y *Extra Trees* pueden ser utilizados para estimar la importancia de los *features*.

En el siguiente ejemplo, se construye un *ExtraTrees Classifier* para los *Pima Indians onset* del *dataset* de diabetes.

In [2]:
# Feature Importance with Extra Trees Classifier
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = ExtraTreesClassifier(n_estimators=10)
model.fit(X, Y)
print(model.feature_importances_)

[0.10729378 0.2540643  0.0885615  0.07576402 0.06763607 0.13939648
 0.1228383  0.14444556]


Se puede observar que se le asignó una puntuación de importancia a cada atributo, donde a mayor puntuación mayor importancia. Las puntuaciones sugieren la importancia de *plas, age* y *mass*.

## ¿Qué aprendí?

Si bien conocía los beneficios de eliminar atributos irrelevantes, no sabía cómo hacerlo, por lo que aprendí 4 nuevas herramientas para trabajar con datos. En particular, me gustó mucho aprender sobre RFE, pues tenía dudas sobre este tema desde tutoriales pasados y creo que, con lo visto en este tutorial, se entiende mejor el concepto.

Además, pude observar una aplicación directa de los cursos de matemática que se llevan en la universidad: PCA está basado en álgebra lineal. También, ver cómo herramientas de cursos anteriores (ANOVA, por ejemplo, que fue visto en Diseño de Experimentos) vuelven a aparecer en el trabajo con datos, esta vez con aplicaciones distintas.

Finalmente, aprendí cómo los *Random Forest* tienen su aplicación también en el *feature selection*. Este tema me llama mucho la atención y me gustó tener un primer acercamiento con su utilidad.

## ¿Qué me genera dudas?

1. ¿Cómo saber cuál (o cuáles) métodos elegir? Basado en tutoriales anteriores, supongo que depende de los datos a trabajar y la experiencia que se tenga, pero tengo curiosidad si hay una "regla general" que pueda ayudar a decidir.
2. Me interesa conocer la base matemática de estos métodos, en particular el de PCA. ¿Cuál sería un buen recurso (libro, etc) que permita ahondar en la parte matemática más formal de estos contenidos?
3. ¿*Data reduction* es lo mismo que *dimensionality reduction*?