![Screenshot 2023-09-06 at 23.58.33.png](attachment:6ca8b607-bb31-4d3d-b923-c4408ce35fad.png)

# Selección de atributos (Feature Selection)

La selección de atributos es una subtarea dentro de la tarea de reducción de dimensionalidad, la cual, a su vez, se incluye dentro de la `limpieza de datos`. 

Las técnicas de selección de atributos pueden ser tanto `supervisadas` como `no supervisadas`, en función de si estas consideran o no la existencia de una clase en el conjunto de datos. 

Todas las técnicas de selección de atributos necesitan de un algoritmo de evaluación de atributos que les permita determinar la bondad de estos con el fin de seleccionar aquellos que puedan ser candidatos para ser eliminados. 

Existen numerosos algoritmos de evaluación de atributos, dependiendo de cómo calculen la métrica de bondad, pero existen dos categorías: algoritmos de evaluación de atributos individuales (o univariantes) y algoritmos de evaluación de conjuntos de atributos (o multivariantes). 

>Note: Nótese que la relevancia, o poder predictivo, que un atributo puede tener de cara a la predicción de una clase puede depender de la existencia de otros atributos. Esto es, un atributo puede recibir una métrica baja de bondad, por su débil relación matemática con la variable clase y, sin embargo, ser de gran importancia cuando contribuye, junto a otros, a la predicción de esta. Por esta razón, los algoritmos de evaluación de conjuntos de atributos, aunque mucho más costosos computacionalmente que los de atributos individuales, suelen seleccionar atributos que, en conjunto, son más relevantes.

En el caso de la selección de atributos supervisada, el algoritmo de evaluación puede estar definido solo para clasificación o para regresión, o bien para ambos tipos de aprendizaje. Por ello, es importante tener en cuenta la aplicabilidad del algoritmo deseado al conjunto de datos y seleccionar uno que sea compatible.

Cuando se lleva a cabo una selección de atributos mediante un algoritmo de evaluación de conjuntos de atributos, se necesita también disponer de un algoritmo de búsqueda, debido a que el espacio de posibles subconjuntos que hay que explorar es exponencial con respecto al número de atributos inicial del conjunto de datos.

## VarianceThreshold

El algoritmo `sklearn.feature_selection.VarianceThreshold` es una función de selección de características que elimina las características con una varianza muy baja. Es un algoritmo de selección de características no supervisado, lo que significa que no utiliza la variable objetivo para seleccionar las características.

El algoritmo funciona calculando la varianza de cada característica en el conjunto de datos. La varianza es una medida de la dispersión de los datos alrededor de la media. Las características con una varianza muy baja tienen valores muy similares, por lo que no aportan mucha información sobre el conjunto de datos.

El algoritmo elimina las características con una varianza inferior a un cierto umbral. El umbral se puede establecer manualmente o se puede calcular automáticamente utilizando un método de validación cruzada.

Por ejemplo, si tenemos un conjunto de datos con `100` muestras y `10` predictores, el algoritmo calcula la varianza de cada predictor. Si el umbral se establece en `0.1`, el algoritmo eliminará las características con una varianza inferior a `0.1`.

El algoritmo `sklearn.feature_selection.VarianceThreshold` es un algoritmo simple y eficiente que puede ser útil para eliminar características irrelevantes de un conjunto de datos. Sin embargo, es importante tener en cuenta que este algoritmo no tiene en cuenta la relación entre las características y la variable objetivo. Por lo tanto, es posible que elimine características que son relevantes para el objetivo.

Aquí hay un resumen de las ventajas y desventajas del algoritmo `sklearn.feature_selection.VarianceThreshold`:

Ventajas:

- Es simple y eficiente.
- No requiere la variable objetivo.

Desventajas:

- Puede eliminar características relevantes para el objetivo.
- No tiene en cuenta la interacción entre las características.
- En general, el algoritmo sklearn.feature_selection.VarianceThreshold es una buena opción - para eliminar características irrelevantes de un conjunto de datos. 

## Ejemplo

En el Programa se construye una tabla de datos con tres atributos, de los cuales el primero es prácticamente constante (salvo un valor a 1, el resto —5 de 6 veces— vale 0). La clase que implementa este tipo de selección en scikit-learn es `VarianceThreshold`. El umbral utilizado en este ejemplo es 0,8, el cual deja pasar un atributo si varía al menos un 20 % a través de las instancias. Tras la aplicación de la selección, el conjunto de datos resultante solo contiene los dos últimos atributos 

In [None]:
import numpy as np
from sklearn.feature_selection import VarianceThreshold

In [None]:
# Carga de datos.
X = [[0, 0, 1], [0, 1, 0], [1, 0, 0],
     [0, 1, 1], [0, 1, 0], [0, 1, 1]]


print(np.array(X))

In [None]:
# Limpieza de datos: selección de atributos.

# fijamos un umbral (th) para decidir qué porcentaje mínimo deben variar los valores 
# de una columna para considerarse una columna relevante a la hora de 
# mantenerla en nuestro estudio
th = 0.2
sel = VarianceThreshold(th)
print(sel.fit_transform(X))

Mayor información: [sklearn feature selection - VarianceThreshold](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html)