# Feature Selection For Machine Learning in Python

Los *features* que se utilizan para entrenar los modelos de *machine learning* tienen una influencia enorme en el rendimiento que se puede alcanzar. *Features* irrelevantes o parcialmente irrelevantes pueden afectar negativamente este rendimiento.

## Feature Selection

Es el proceso mediante el cual se seleccionan aquellos *features* en los datos que contribuyen en mayor medida a la variable de predicción en la que se está interesado. Los *features* irrelevantes, especialmente en modelos de algoritmos lineales, impactan negativamente los resultados.

Tres beneficios de realizar *feature selection* antes de modelar los datos son:

- **Reduces Overfitting:** menos datos redundantes significa menos oportunidad para tomar decisiones basadas en ruido.
- **Improves Accuracy**
- **Reduces Training Time**



### 1. Univariate Selection

Los tests estadísticos se utilizan para seleccionar los *features* que tienen la relación más fuerte con la variable de salida.

La librería *scikit-learn* provee la clase **SelectKBest** que puede ser utilizada con una serie de diferentes tests estadísticos para elegir un número específico de *features*.

Por ejemplo, el método ANOVA-F es apropiado con variables de entrada numéricas y datos categóricos, mediante la función **f_classif()**. En el siguiente ejemplo, se seleccionan los mejores 4 *features*.

In [4]:
# Feature Selection with Univariate Statistical Tests
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
# load data
filename = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
test = SelectKBest(score_func=f_classif, k=4)
fit = test.fit(X, Y)
# summarize scores
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
# summarize selected features
print(features[0:5,:])

[ 39.67  213.162   3.257   4.304  13.281  71.772  23.871  46.141]
[[  6.  148.   33.6  50. ]
 [  1.   85.   26.6  31. ]
 [  8.  183.   23.3  32. ]
 [  1.   89.   28.1  21. ]
 [  0.  137.   43.1  33. ]]


Se pueden ver las puntuaciones de cada atributo y los 4 elegidos (aquellos con puntuaciones mayores).

## 2. Recursive Feature Elimination

El RFE funciona al eliminar recursivamente atributos y construir un modelo sobre los atributos que se mantengan.

El siguiente ejemplo utiliza RFE con la regresión logística para seleccionar los mejores 3 *features*. 

In [5]:
# Feature Extraction with RFE
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = LogisticRegression(solver='lbfgs')
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 4 5 6 1 1 3]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 3. Principal Component Analysis

**Principal Component Analysis (PCA)** utiliza álgebra lineal para transformar el *dataset* a una forma comprimida. 

Por lo general, esta es conocida como una técnica de *data reduction*. Una propiedad del PCA es que se puede elegir el número de dimensiones o componentes principales en el resultado transformado.