## Selección de características

La selección de características es el proceso de seleccionar un subconjunto de características (variables) relevantes, para usar en la construcción de un modelo usando algoritmos de Machine Learning.

Esto es clave para hacer modelos más simples, rápidos, y más confiables.

Métodos de selección de características:

* **filter methods**, eliminación de variables constantes, casi-constantes, duplicadas. También se usan algunas medidas estadísticas (Fisher score, métodos univariados, información mutua) y correlación.
* **wrapper methods**, eliminación de variables usando estrategías como *step forward selection* (de lo simple a lo general), *step backward selection* (de lo general a lo simple), y búsquedas exhaustivas.
* **Embedded methods**, eliminación de variables usando modelos como regresión *LASSO*, importancia de las variables derivada de *árboles de decisión*, coeficientes de modelos de regresión.

**¿Por qué usar selección de características?**

* Modelos simples son más fáciles de interpretar.
* Tiempos de entrenamiento más cortos.
* Mejor generalización al reducir el sobreajuste.
* Fácil de implementar para los desarrolladores.
* Eliminación de redundancia en las variables.


### Filther methods

Características:

* No usa algoritmos de Machine Learning.
* Agnóstico al modelo.
* Es menos costoso es términos computacionales.
* Son adecuados para eliminar rápidamente características irrelevantes.

Pasos:

* Clasifique las características de acuerdo con cierto criterio.
    * Cada característica se clasifica independientemente del espacio de características.
* Seleccione las características de mayor rango.

Estos métodos pueden seleccionar variables redundantes porque no consideran las relaciones entre características.

Criterios:

* Chi-Cuadrado - Fisher Score.
* Pruebas univariadas parametricas.
* Información mutua.
* Varianza (características constantes o cuasi-constantes)

#### Variables constantes

Las características constantes son aquellas que muestran el mismo valor, solo un valor, para todas las observaciones del conjunto de datos. En otras palabras, el mismo valor para todas las filas del conjunto de datos. Estas características no proporcionan información que permita a un modelo de aprendizaje automático discriminar o predecir un objetivo.

Identificar y eliminar características constantes es un primer paso sencillo hacia la selección de características y modelos de aprendizaje automático más fáciles de interpretar.

**VarianceThreshold** de sklearn proporciona un enfoque simple para la selección de características. Elimina todas las características cuya variación no alcanza un cierto umbral. De forma predeterminada, elimina todas las características de variación cero, es decir, las características que tienen el mismo valor en todas las muestras.

#### Variables cuasi-constantes

Las características cuasi constantes son aquellas que muestran el mismo valor para la gran mayoría de las observaciones del conjunto de datos. En general, estas características proporcionan poca información, si es que la hay, que permita a un modelo de aprendizaje automático discriminar o predecir un objetivo. Pero puede haber excepciones. Por lo tanto, debe tener cuidado al eliminar este tipo de funciones.

#### Correlacion

### Wrapper methods

Características:

* Utiliza modelos predictivos para puntuar un subconjunto de características.
* Entrena un nuevo modelo en cada subconjunto de características.
* Son costosos computacionalmente.
* Por lo general, proporciona el subconjunto de características de mejor rendimiento para un algoritmo determinado.
* Posiblemente no produzca la mejor combinación de características para un modelo ML diferente.

Estos métodos detectan relaciones entre las variables. Adicional encuentran el mejor subconjunto de características para el clasificador deseado.

Pasos:

* Busca un subconjunto de características.
* Construye un modelo usando un algoritmo de Machine Learning en el subconjunto de características seleccionado.
* Evalua el desempeño del modelo.
* Repite.

De esto surgen dos preguntas interesantes:

* **¿Cómo buscar el subconjunto?**
* **¿Cuándo parar la búsqueda?**

**Búsqueda**:

1. **Forward selection**, agrega una característica a la vez.
2. **Backward selection**, elimina una característica a la vez.
3. **Exhaustive search**, busca entre todas las combinaciones posibles de caracterísiticas.

**Stoping**:

* Aumenta el rendimiento del modelo(Forward).
* Disminuye el rendimiento del modelo (Backward).
* Alcanza el número de caracterísiticas definido (Exhaustive).

Los criterios de stoping suelen ser muy arbitrarios. Deben ser definidos por cada usuario.

### Embedded methods

Características:

* Realiza la selección de características como parte del proceso de construcción del modelo.
* Considera la interacción entre caracterísiticas y modelos.
* Son menos costosos computacionalmente que los métodos wrapper, porque se ajustan al modelo ML solo una vez.

Pasos:

* Entrenar un modelo usando un algoritmo de Machine Learning.
* Derivar la importancia de las características.
* Eliminar las características no importantes.

