# Selección de features 

## Tipos de datos de variables de entrada comunes:

**Variables numéricas**
- Variables enteras.
- Variables de punto flotante.

**Variables categóricas**
- Variables booleanas (dicotómicas).
- Variables ordinales.
- Variables nominales.

## Tipo de variables de respuesta:
- Numérica: problema de modelado predictivo de regresión.
- Categórica: Problema de modelado predictivo de clasificación.

## Métodos para selección de features

#### Entrada numérica, Salida numérica
Este es un problema de modelado predictivo de regresión con variables de entrada numéricas.

Las técnicas más comunes son utilizar un coeficiente de correlación, como el de Pearson para una correlación lineal, o métodos basados en rangos para una correlación no lineal.

- Coeficiente de correlación de Pearson (lineal).
- Coeficiente de rango de Spearman (no lineal)

#### Entrada numérica, salida categórica
Este es un problema de modelado predictivo de clasificación con variables de entrada numéricas.

Este podría ser el ejemplo más común de un problema de clasificación,

Nuevamente, las técnicas más comunes están basadas en la correlación, aunque en este caso, deben tener en cuenta el objetivo categórico.

- Coeficiente de correlación ANOVA (lineal).
- Coeficiente de rango de Kendall (no lineal). Kendall asume que la variable categórica es ordinal.

#### Entrada categórica, salida numérica
Este es un problema de modelado predictivo de regresión con variables de entrada categóricas.

Este es un ejemplo poco frequente de un problema de regresión.

Se puede usar los mismos métodos de "Entrada numérica, salida categórica" (descritos anteriormente), pero a la inversa.

#### Entrada categórica, salida categórica
Este es un problema de modelado predictivo de clasificación con variables de entrada categóricas.

La medida de correlación más común para datos categóricos es la prueba de chi-cuadrado. También puede utilizar la información mutua (ganancia de información) del campo de la teoría de la información.

- Test Chi-Cuadrado (tablas de contingencia).
- Información mutua.

## Selección en SKLearn

##### Estadísticas de correlación
scikit-learn proporciona implementaciones de la mayoría de las medidas estadísticas útiles.

Por ejemplo:

- Coeficiente de correlación de Pearson: `f_regression()`
- ANOVA: `f_clasif()`
- Chi-Cuadrado: `chi2()`
- Información mutua: `mutual_info_classif()` y `mutual_info_regression()`

##### Métodos de selección
scikit-learn proporciona muchos métodos de filtrado diferentes una vez que se han calculado las estadísticas para cada variable respecto al target.

Dos de los métodos más populares incluyen:
- Seleccione las k principales variables: [SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html)
- Seleccione las variables percentiles superiores: [SelectPercentile](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html)

## Ejemplos

####  Regresion (Entrada numérica, Salida numérica)

In [None]:
# Selección de función de correlación de Pearson para entrada y salida numérica
from sklearn.datasets import make_regression
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

# generar el dataset
X, y = make_regression(n_samples=100, n_features=100, n_informative=10)
print('Dataframe antes:', X.shape)

# definir la selección de feature
fs = SelectKBest(score_func=f_regression, k=10)

# aplicar la selección
X_selected = fs.fit_transform(X, y)

print('Dataframe con features seleccionadas:', X_selected.shape)

#### Clasificación (Entrada numérica, Salida categórica)

In [None]:
# Selección de características de ANOVA para entrada numérica y salida categórica
from sklearn.datasets import make_classification
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

# generar dataset
X, y = make_classification(n_samples=100, n_features=20, n_informative=2)
print('Dataframe antes:', X.shape)

# definir selección de feature
fs = SelectKBest(score_func=f_classif, k=2)

# aplicar selección de feature
X_selected = fs.fit_transform(X, y)

print('Dataframe con features seleccionadas:', X_selected.shape)