
Los features (variables) que se utilizan para entrenar un modelo tienen una gran influencia para entrenar los modelos de machine learning. La selección de variables (feature selection) es un proces donde se seleccionan automáticamente aquellas características de los datos que contribuyen más a la predicción de la variable o outputs de interés.

* Tener features irrelevantes puede decrecer la precisión de muchos modelos, especialmente los algoritmos con predictores lineales como la regresión líneal y la regresión logística.
* La selección de variables permite reducir el sobreajuste, menos chance de hacer predicciones basadas en la aleatoriedad (ruido).
* Mejora la precisión del modelo.
* Mejora la precisión de los tiempos de entrenamiento del modelo.

Conjunto de datos que consiste en información de salud orientada a predecir si unos pacientes tienen diabetes o no (variable target) a partir de diferentes medidas de diagnóstico de la salud del paciente. La base de datos está constituido por pacientes mujeres de al menos de 21 años descindiente del pueblo Pima de los Estados Unidos.

* Pregnancies: número de veces embarazada.
* GlucosePlasma: concentración de glucosa a las dos horas de una prueba de tolerancia a la glucosa.
* Presión arterial diastólica (mm HG).
* SkinThickness: espesor de pliegues cutáneos en los triceps (mm)
* Insulin: insulina serum a las 2 horas (mu U/ml)
* BMI: índice de masa corporal (peso en kilogramos sobre (altura en metros) ^2)
* DiabetesPedigreeFunction: función pedigri de diabetes
* Edad (años)
* Outcome: si tiene diabetes o no


In [None]:
RFE: Recursive Feature Elimination se basa en la magnitud de los coeficientes.

In [45]:
import pandas as pd
import itertools
import os
from sklearn.feature_selection import RFE
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [41]:
os.chdir(r'C:\Users\Home\Documents\Laboral2020\Konrad Lorenz\MachineLearning\Clase5')
df = pd.read_csv("diabetes.csv")
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [52]:
X = df.values[:,0:8]
y = array[:,8]
X_train,X_test,y_train,y_test=train_test_split(X,y, random_state=12345) 
# feature extraction
model = LogisticRegression(solver='lbfgs', max_iter=500)
rfe = RFE(model, 3)
fit = rfe.fit(X_train, y_train)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)
df.columns[:-1]

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 3 6 5 1 1 4]


Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age'],
      dtype='object')

Las variables seleccionadas son:

In [43]:
#df.columns[fit.support_.append(False)]
sel = list(fit.support_)
sel.append(False) # No seleccionar el target
list(itertools.compress(list(df.columns), sel))


['Pregnancies', 'BMI', 'DiabetesPedigreeFunction']

* Las tres peores: 'SkinThickness', 'Insulin' y Age

* Puede ser muy complejo elegir el número de "features", es mucho más sencillo disponer de medidas de importancia de cada uno de esos features.

# Selección de variables con árboles

In [46]:
X = df.values[:,0:8]
y = array[:,8]
X_train,X_test,y_train,y_test=train_test_split(X,y, random_state=12345) 
# feature extraction
model = ExtraTreesClassifier(n_estimators=10)
model.fit(X_train, y_train)
print(model.feature_importances_)

[0.10419802 0.23695392 0.09981662 0.08140506 0.068967   0.15253446
 0.12232199 0.13380294]


In [51]:
df.columns[:-1]

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age'],
      dtype='object')

In [None]:
#Mas altos: Glucose, BMI, Age, DiabetesPedigreeFunction, Pregnancies, 
# 'BloodPressure', 'SkinThickness', Insulin