# FEATURE SELECTION

En este notebook vamos a ver las diferentes maneras de seleccionar aquellas features más relevantes con respecto al target. Esto es importante ya que un exceso de features puede hacer el ajuste muy complejo y poco generalizable (overfitting). 

Destacan dos tipos de técnicas de feature selection: 

- Tipo filter, en los cuales los features se filtran según algún criterio y threshold
- Tipo wrapper, en los cuales se usan otros métodos de clasificación para añadir o quitar features

A continuación, vamos a ver cómo los diferentes tipos de feature selection están implementados en scikit

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt

In [None]:
from sklearn.datasets import load_breast_cancer

In [None]:
data = load_breast_cancer()

In [None]:
data_df = pd.DataFrame(data['data'])
data_df.columns = data['feature_names']
data_df['benign'] = data['target']

In [None]:
data_df.shape

In [None]:
# Ploteamos las variables según su malignidad. Esto nos permite intuir
# cuáles son más relevantes

fig, axs = plt.subplots(ncols=5, nrows=6, squeeze=False, sharex=True, figsize=(15,15))

axs = axs.flatten()
for i,col in enumerate(data['feature_names']):
    pd.DataFrame.boxplot(data_df, column=col, by = 'benign', ax=axs[i])

In [None]:
import seaborn as sns

fig, axs = plt.subplots(ncols=5, nrows=6, 
                        squeeze=False, figsize=(15,15))

axs = axs.flatten()
for i,col in enumerate(data['feature_names']):
    sns.violinplot(x='benign', y= col, data = data_df,  
                   ax=axs[i], inner = 'quartile' )
    axs[i].set_title(col)

In [None]:
#https://matplotlib.org/gallery/images_contours_and_fields/image_annotated_heatmap.html
from mpl_toolkits.axes_grid1 import make_axes_locatable
feat_cors = data_df.loc[:,data['feature_names']].corr().values

fig, ax = plt.subplots(figsize=(15,15))
im = ax.imshow(feat_cors)

ax.set_xticks(np.arange(len(data['feature_names'])))
ax.set_yticks(np.arange(len(data['feature_names'])))


ax.set_xticklabels(data['feature_names'])
ax.set_yticklabels(data['feature_names'])

plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
         rotation_mode="anchor")

for i in range(len(data['feature_names'])):
    for j in range(len(data['feature_names'])):
        text = ax.text(j, i, np.round(feat_cors[i,j],1),
                       ha="center", va="center", color="w")
fig.tight_layout()
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="5%", pad=0.05)
plt.colorbar(im, cax=cax)
plt.show()

In [None]:
sns.heatmap(data_df.drop(columns=['benign']).corr(), 
            center=0, square=True, cmap="coolwarm",
            xticklabels=True,yticklabels=True)

In [None]:
X = data_df.drop(columns = ['benign']).values
y = data_df.benign.values

Veamos primero cómo es la clasificación mediante un árbol de decisión usando todas las features

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold

skf = StratifiedKFold(n_splits=10, random_state=0)
clf = DecisionTreeClassifier(random_state=0)
print(np.mean(cross_val_score(clf, X, y, cv=skf)))

Parece que hay muchas correlaciones. Vamos a eliminar aquéllas más correlacionadas y ver cómo cambia la clasificación

In [None]:
to_drop = ['mean perimeter','mean radius','mean compactness','mean concave points',
              'radius error','perimeter error','worst radius','worst perimeter',
              'worst compactness','worst concave points','compactness error',
              'concave points error','worst texture','worst area']

In [None]:
data_new = data_df.drop(columns=to_drop)

In [None]:
X_new = data_new.drop(columns = ['benign']).values

In [None]:
clf = DecisionTreeClassifier(random_state=0)
print(np.mean(cross_val_score(clf, X_new, y, cv=skf)))

### Tipo filter: Feature selection de manera univariada

En este caso,  filtramos aquellas features basado en tests univariados entre los dos grupos

In [None]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import Pipeline
# Seleccionamos las 5 mejores usando chi2
feat_sel= SelectKBest(f_classif, k=5)
pip = Pipeline([('feat_sel', feat_sel), ('clf', clf)])

In [None]:
print(np.mean(cross_val_score(pip, X, y, cv=skf)))

In [None]:
res_k = []
range_k= np.arange(1, 25,1)

for k in range_k:
    feat_sel= SelectKBest(f_classif, k=k)
    pip = Pipeline([('feat_sel', feat_sel), ('clf', clf)])
#    print(np.mean(cross_val_score(pip, X, y, cv=skf)))
    res_k.append(np.mean(cross_val_score(pip, X, y, cv=skf)))
    
plt.plot(res_k)

Esto se podría haber hecho también usando `validation_curve`

In [None]:
from sklearn.model_selection import validation_curve
train_scores, test_scores = validation_curve(pip, X, y, "feat_sel__k",  param_range=range_k, cv=skf)

In [None]:
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)

plt.title("Validation Curve with Decision Tree")
plt.xlabel("$k$")
plt.ylabel("Score")
plt.ylim(0.85, 1.1)
lw = 2
plt.semilogx(range_k, train_scores_mean, label="Training score",
             color="darkorange", lw=lw)
plt.fill_between(range_k, train_scores_mean - train_scores_std,
                 train_scores_mean + train_scores_std, alpha=0.2,
                 color="darkorange", lw=lw)
plt.semilogx(range_k, test_scores_mean, label="Cross-validation score",
             color="navy", lw=lw)
plt.fill_between(range_k, test_scores_mean - test_scores_std,
                 test_scores_mean + test_scores_std, alpha=0.2,
                 color="navy", lw=lw)
plt.legend(loc="best")
plt.show()

¿Cómo accedemos a las mejores features? Con grid search se puede hacer. Al final, feature selection es como si ajustáramos un parámetro mas.

In [None]:
from sklearn.model_selection import GridSearchCV
param_grid = {'feat_sel__k': range_k}

grid = GridSearchCV(pip, param_grid,  cv=skf)

In [None]:
grid.fit(X,y)

In [None]:
print(grid.best_params_)
print(grid.best_score_)
# Cuáles son estas features?
feats_selected = grid.best_estimator_.named_steps['feat_sel'].get_support()
print(feats_selected)
print(data_df.drop(columns='benign').columns[feats_selected])

***Pregunta: ¿Por qué salen features correlacionadas?***

### Tipo wrapper: RECURSIVE FEATURE ELIMINATION

Se encuentra implementada por la clase `RFE` y `RFECV` y  
le tenemos que pasar un clasificador que devuelva pesos o importancia de las features. Ejemplos de ellos son Logistic Regression y los árboles de decisión. Una vez calculados los pesos, va quitando features de manera recursiva.

In [None]:
from sklearn.feature_selection import RFECV

In [None]:
rfecv = RFECV(estimator=clf, step=1, cv=skf,
              scoring='accuracy')
rfecv.fit(X, y)

In [None]:
print(data_df.drop(columns='benign').columns[rfecv.get_support()])
print(np.max(rfecv.grid_scores_))

In [None]:
plt.figure()
plt.xlabel("Number of features selected")
plt.ylabel("Cross validation score of number of selected features")
plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_)
plt.show()

### Tipo wrapper: Seleccionar de un modelo

Se encuentra implementada por la clase `SelectFromModel` y otra vez, 
le pasamos un clasificador que devuelva pesos o importancia de las features. Ejemplos de ellos son Logistic Regression y los árboles de decisión. Una vez calculados los pesos, elegimos aquellas features con el peso mayor

In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

In [None]:
pip = Pipeline([('feat_sel', SelectFromModel(DecisionTreeClassifier())),
                ('clf', DecisionTreeClassifier())])
print(np.mean(cross_val_score(pip, X, y, cv = skf)))

Referencias: http://scikit-learn.org/stable/modules/feature_selection.html