## Ingeniería de atributos
Consiste en crear, seleccionar o transformar el dataset para mejorar el rendimiento del modeo. Escoger los atributos más relevantes para una tarea.

Grados de dependencia de métodos con modelo:
- Filtros: independendientes, se basan solo en estadísticas generales de los datos. (Selección basada en Correlación o CFS, Filtro basado en consistencia, ganancia de información y Relief)

### Filtros
- CFS selecciona atributos según la correlación con la variable objetivo y baja correlación entre sí para reducir redundancia. Por ejemplo relacionado con una enfermedad podemos tener en cuenta valores como el colesterol o la presión arterial que se relacionan con la enfermedad y entre sí.
- Basado en consistencia: selecciona subconjuntos de atributos consistentes con la variable onjetivo, garantiza que el conjunto mantenga distinciones necesarias. Es útil para la clasificación de textos, donde términos específicos pueden ser consistentes con clasificaciones como emergencia o atención médica en un modelo para clasificar reportes médicos. Descarta otros términos, lo que reduce la dimensión de forma eficiente.
- Ganancia de información: mide el aporte de cada atributo en la clasificación, usando información mutua entre cada atributo y la clase. Útil en clasificación binaria, como detección de fraudes financieros, para identificar atributos como ubicación

# Feature selection con sklearn.feature_selection
Este proceso consiste en identificar y seleccionar subconjuntos de variables o características relevantes en un conjunto de datos para mejorar el rendimiento del modelo.
- Se reduce la dimensión al eliminar características irrelevantes o redundantes, una gran dimensión puede afectar al modelo
- Mejora el rendimiento, características relevantes equivale a mayor precisión y robustez para generalizar a nuevos datos

## Eliminación de características con poca varianza
VarianceThreshold es un método para eliminar características con poca variabilidad. Se usa en el preprocesamiento de datos para simplificar conjuntos de datos y mejorar la eficiencia del modelo.
- Por defecto elimina las características con varianza 0, es decir, con mismo valor en todas las muestras
-  Se puede especificar un umbral de varianza para eliminar características con varianza menor que este umbral

In [None]:
#caracteristicas booleanas(variables aleatorias de Bernoulli)
#eliminar caracteristicas que sean 1 o 0 en mas del 80% de la muestra
#quieres que existe al menos un 20% distinto
# Var[X]=p(1-p)
# Umbral=0.8*(1-0.8)=0.16

from sklearn.feature_selection import VarianceThreshold

X=[[0,0,1],[0,1,0],[1,0,0],[0,1,1],[0,1,0],[0,1,1]]
sel=VarianceThreshold(threshold=(0.8*(1-0.8)))
sel.fit_transform(X)
#aca se elimina la primera columna, pues 5 de 6 son 0, es decir la probabilidad es mayor a 0.8

array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

## Univariate feature selection
Consiste en identificar  razgos relevantes con pruebas estadísticas univariadas. 
- Se evalúa cada variable de forma independiente, solo en relación con el resultado a predecir
- Se usan diversas pruebas, F-test para diferencias entre las medias de dos o más grupos, Chi-cuadrado para independencia entre variables categóricas y ANOVA para comparar medias diferentes entre grupos
- Selección de características, SelectKBest elimina todas las variables excepto las mejores por una puntuación donde K es el número de características a conservar, SelectPercentile conserva un porcentaje específico de las mejores características y GenericUnivariateSelect hace una selección configurable

In [2]:
# uso de F-test para obtener las dos caracteristicas mejores de un dataset

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

X, y=load_iris(return_X_y=True)
X.shape

(150, 4)

In [3]:
X_new=SelectKBest(f_classif,k=2).fit_transform(X,y)
X_new.shape

(150, 2)