# Selección de características

Sofía Ingigerth Cañas Urbina A01173828, IDM

# **FeatureSelection**

¿Para qué sirve este módulo?

El módulo sklearn.feature_selection implementa algoritmos de selección de características y/o reducción de dimensiones. El objetivo de esto puede ser mejorar las puntuaciones de precisión de los estimadores o aumentar su rendimiento en conjuntos de datos de muchas dimensiones. Para esta selección de caracteríticas se hace uso de ciertos criterios para seleccionar las variables que son más útiles para predecir el objetivo de nuestro modelo, como por ejemplo una mayor varianza.

1) ¿Para qué se utiliza el método feature_selection.SelectKBest?

Selecciona las características de acuerdo a las k puntuaciones más altas de acuerdo a una función determinada o por default, donde k que es el número de características a elegir que debe estar entre 0 y el número total de características, sin incluir los límites.

2) ¿Para qué se utiliza el método feature_selection.RFE?

Dado un estimador externo que asigna pesos a las características (por ejemplo, los coeficientes de un modelo lineal), el objetivo de la eliminación recursiva de características (RFE) es seleccionar características considerando recursivamente conjuntos de características cada vez más pequeños. Primero, el estimador se entrena en el conjunto inicial de características y la importancia de cada característica se obtiene a través de cualquier atributo específico o llamable. Luego, las características menos importantes se eliminan del conjunto actual de características. Ese procedimiento se repite recursivamente en el conjunto modificado hasta que finalmente se alcanza el número deseado de características para seleccionar.

* fit: Se usa el método requerido, en este caso SelectKBest o RFE y realiza el cálculo en los valores de las características de los datos de entrada X y ajusta este cálculo al objeto transformador (el modelo). Para la modificación de los datos después se debe usar el método transform(), donde aplicamos los cálculos que hemos calculado en fit() a cada punto de datos en las características X.

* fit_transform: es básicamente la combinación de fit() y transform(). Este método ajusta y transforma los datos de entrada al mismo tiempo que convierte los puntos de datos, regresando la X transformada, que en el caso de estos dos métodos sería la X con las características reducidas.

# **Tutorial**

In [None]:
import pandas as pd
import numpy as np

# Importación de datos

In [None]:
data = pd.read_csv("diabetes.csv")

In [None]:
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(url, names=names)

#Separar atributos y etiquetas

In [None]:
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# Selección de características con KBest (chiCuadrada)

In [None]:
# Import the necessary libraries first
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [None]:
# Feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

# Summarize scores
np.set_printoptions(precision=3)
print(fit.scores_)

features = fit.transform(X)
# Summarize selected features
print(features[0:5,:])

[ 111.52  1411.887   17.605   53.108 2175.565  127.669    5.393  181.304]
[[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 [ 89.   94.   28.1  21. ]
 [137.  168.   43.1  33. ]]


# Selección de características con RFE (Regresión Logística)

In [None]:
# Import your necessary dependencies
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

In [None]:
# Feature extraction
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=3)
fit = rfe.fit(X, Y)
print("Num Features: %s" % (fit.n_features_))
print("Selected Features: %s" % (fit.support_))
print("Feature Ranking: %s" % (fit.ranking_))

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 4 5 6 1 1 3]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


# Modelo con Ridge regression

In [None]:
# First things first
from sklearn.linear_model import Ridge

In [None]:
ridge = Ridge(alpha=1.0)
ridge.fit(X,Y)

Ridge()

In [None]:
Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

Ridge(normalize=False)

In [None]:
# A helper method for pretty-printing the coefficients
def pretty_print_coefs(coefs, names = None, sort = False):
    if names == None:
        names = ["X%s" % x for x in range(len(coefs))]
    lst = zip(coefs, names)
    if sort:
        lst = sorted(lst,  key = lambda x:-np.abs(x[0]))
    return " + ".join("%s * %s" % (round(coef, 3), name)
                                   for coef, name in lst)

In [None]:
print ("Ridge model:", pretty_print_coefs(ridge.coef_))

Ridge model: 0.021 * X0 + 0.006 * X1 + -0.002 * X2 + 0.0 * X3 + -0.0 * X4 + 0.013 * X5 + 0.145 * X6 + 0.003 * X7


**1) Descripción de los métodos utilizados y a que tipo de métodos pertenecen. Cuántas y cuáles características se seleccionaron al aplicar cada método.**

En este tutorial se utilizaron los métodos de selección de características de KBest y RFE. KBest como método filtro seleccionó las características de acuerdo a las 4 puntuaciones más altas, en este caso de la función chi cuadrada y resultaron las características de glucosa, insulina, BMI y edad. Después se aplicó el método wrapper de RFE con regresión logística, seleccionando 3 características: embarazos, función de diabetes y BMI.

**2) Breve resumen del proceso realizado en este tutorial sobre Selección de Características.**

El proceso comenzó importando los datos del archivo .csv por medio de un url de git hub. Ya teniendo el dataframe se separaron los atributos (características) de las etiquetas y se seleccionaron las características por medio de los métodos descritos anteriormente. El procedimiento general fue la creación del modelo de selección de características con los parámetros deseados y luego el uso de la función fit() a las características. Por último, se aplica un modelo de regresión Ridge entrenado con los datos que se imprime en forma de una ecuación en las variables.