# Selección de características

## Métodos de filtrado: 
El método de filtrado para la selección de características es una técnica utilizada para reducir el número de características (o variables) en un conjunto de datos, dejando solo las que son más relevantes para el problema que estamos resolviendo.

##### ¿Qué es la selección de características?
En machine learning, a veces tienes demasiadas características (columnas en tus datos), y no todas son útiles. Algunas pueden ser irrelevantes o redundantes. El objetivo de la selección de características es encontrar el conjunto más pequeño de características importantes que aún permitan al modelo desempeñarse bien.

##### ¿Qué hace el método de filtrado?
El método de filtrado utiliza criterios estadísticos para evaluar cada característica de forma independiente del modelo que usarás después. Esto significa que se enfoca únicamente en las características y su relación con la variable objetivo, sin construir un modelo aún.

En palabras simples, clasifica las características según su importancia y selecciona las mejores basándose en una métrica.

![image.png](attachment:04260eb7-bdc1-4e43-9e22-aabcbf51305a.png)

### Existen:
* Métodos de filtrado para regresión
* Métodos de filtrado para clasificación
* Métodos de filtrado en un problema realista
* Métodos wrapper
* Métodos embedded

### Ventajas e inconvenientes
![image.png](attachment:885267ac-cbf7-45c9-9c34-14af377bbf02.png)

##### Ventajas del método de filtrado:
* Rápido y sencillo: no necesitas entrenar un modelo para aplicar este método.
* Independiente del modelo: puedes usarlo antes de probar diferentes algoritmos, lo que lo hace muy versátil.
* Evita overfitting: reducir características irrelevantes o redundantes ayuda a que el modelo generalice mejor.

##### Desventajas:
* Ignora interacciones entre características: como evalúa cada característica por separado, puede pasar por alto combinaciones importantes de características.
* Puede ser demasiado simple: si las relaciones entre características y la variable objetivo son complejas, este método puede no capturarlas.

## Conceptos Importantes:

### 1. F-Test
El F-Test (prueba F) es una técnica estadística que se utiliza para comparar la relación entre dos variables: una característica y la variable objetivo (lo que queremos predecir). Sirve para evaluar si una característica es estadísticamente significativa al predecir la variable objetivo.

#### ¿Cómo funciona?
1. Mide la relación entre la variabilidad dentro de los grupos (valores de la característica) y la variabilidad entre los grupos.
2. El resultado es un puntaje F. Cuanto mayor sea, más fuerte es la relación entre la característica y la variable objetivo.

#### ¿Para qué sirve en machine learning?
* Ayuda a seleccionar características relevantes en problemas de regresión o clasificación.
* Útil cuando trabajas con datos continuos (p. ej., edad, peso, ingresos).
* Por ejemplo:
    * Si estás prediciendo los precios de casas, el F-Test puede indicar que "tamaño de la casa" tiene una relación más fuerte con el precio que "color de las paredes".

### 2. Mutual Information Score (MI)
El Mutual Information Score (MI) mide la dependencia entre dos variables. En otras palabras, indica cuánto una característica reduce la incertidumbre sobre la variable objetivo.

#### ¿Cómo funciona?
1. Calcula cuánta información aporta una característica sobre la variable objetivo.
2. El resultado es un puntaje MI. Un valor alto significa que la característica es muy relevante para predecir la variable objetivo.

#### ¿Para qué sirve en machine learning?
* Se usa tanto en problemas de clasificación como de regresión.
* Funciona bien con variables continuas y categóricas.
* Por ejemplo:
    * Si estás prediciendo si un correo es spam o no, el MI podría revelar que la presencia de ciertas palabras ("gratis", "oferta") tiene una fuerte relación con la clasificación de "spam".

![image.png](attachment:5200682f-baed-4cd5-8a9f-83e87225c16e.png)

### Conclusión

* Usa el F-Test cuando tus datos y relaciones sean principalmente lineales y trabajes con variables continuas.
* Usa Mutual Information Score (MI) para detectar relaciones más complejas y no lineales, especialmente si tienes variables categóricas.

Ambos son herramientas valiosas para seleccionar características y mejorar el rendimiento de tus modelos de machine learning. 