# Selección de Características: Categórico


In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.linear_model import LogisticRegression

## Pima Indians Diabetes

El Pima Indians Diabetes [Dataset](https://www.kaggle.com/uciml/pima-indians-diabetes-database) proviene originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Riñones (*National Institute of Diabetes and Digestive and Kidney Diseases*). El objetivo de este dataset consiste en el diagnóstico predictivo de si un paciente tiene o no tiene diabetes, esto con base en mediciones diagnósticas. 

In [2]:
diabetes_columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

diabetes = pd.read_csv("data/pima-indians-diabetes.data.csv", names = diabetes_columns)
diabetes.head()

FileNotFoundError: ignored

Se dividen las variables de entrada y la de salida

In [None]:
data = diabetes.values[:,:-1]
target = diabetes.values[:,-1]

Y luego entre datos de entrenamiento y de prueba

In [None]:
data_train, data_test, target_train, target_test = train_test_split(data, target, test_size=.2, random_state=0)

In [None]:
print("Train:", data_train.shape, target_train.shape)
print("Test: ", data_test.shape, target_test.shape)

### KBest con ANOVA F-test
ANOVA (acrónimo de Análisis de Varianza en inglés) es una prueba de hipótesis estadística paramétrica para determinar si el promedio entre dos muestras de datos provienen de la misma distribución. F-test es una clase de prueba estadística que calcula la proporción entre valores de varianza, como la varianza de dos muestra distintas como en ANOVA. Lo más importante es que el ANOVA F-test es utilizado cuando una de las variables es numérica y la otra categórica como es el caso de un dataset con variables de entrada numéricas y la variable a predecir es categórica.

`f_classif()` es una implementación de ANOVA F-test en `scikit-learn` que puede ser utilizado por `SelectKBest` para seleccionar las $k$ características más relevantes, es decir, las características con calificación más alta del ANOVA F-test.

Utiliza la función `SelectKBest` para filtrar las 6 variables más importantes de acuerdo al ANOVA F-test. Imprime la calificación de cada variable.

### RFE
La Eliminación Recursiva de Características (RFE por sus siglas en inglés) es un algoritmo de búsqueda de características que utiliza un modelo de predicción para realizar un ajuste, establece el órden de importancia de las variables y elimina la menos relevante. Posteriormente, vuelve a clasificar el modelo con las características restantes y repite el proceso iterativamente hasta que queden el número deseado de variables de entradas.

Para este ejemplo, se utiliza un modelo de regresión logística que acepta valores numéricos de entrada y produce un valor de clasificación binario. Otra opción popular son árboles de decisión.

Utiliza la función `RFE` para realizar la eliminación recursiva con regresión logística para 6 variables finales. Imprime la calificación de cada variable (ranking).