Para aplicar el filtro ANOVA en un escenario de regresión usando Python, utilizaremos la función f_regression que ofrece scikit-learn. Esta función evalúa la relación lineal entre cada característica regresora y la variable respuesta continua. A continuación, te muestro cómo usar f_regression para seleccionar las características más importantes de un conjunto de datos, aplicando la técnica de reducción de dimensionalidad.

Usaremos un conjunto de datos hipotético para ilustrar cómo se podría realizar este proceso

### Cargar las librerías necesarias

In [1]:
import numpy as np
from sklearn.datasets import make_regression
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

### Generar un conjunto de datos de regresión

Para el propósito de este ejemplo, generaremos un conjunto de datos sintético con características, algunas de las cuales serán más informativas que otras:

In [2]:
X, y = make_regression(n_samples=100, n_features=10, 
                       n_informative=2, noise=0.1, random_state=42)

# Mostrar las dimensiones originales de los datos
print("Dimensiones originales de los datos:", X.shape)

Dimensiones originales de los datos: (100, 10)


In [5]:
#X
#y

### Aplicar Filtro ANOVA para regresión

Utilizaremos SelectKBest con f_regression para seleccionar las tres características más importantes

In [6]:
# Crear y aplicar SelectKBest usando ANOVA f_regression
selector = SelectKBest(f_regression, k=3)
X_reduced = selector.fit_transform(X, y)

# Mostrar las dimensiones reducidas de los datos
print("Dimensiones reducidas de los datos:", X_reduced.shape)

Dimensiones reducidas de los datos: (100, 3)


### Evaluar las características seleccionadas
Podemos ver qué características han sido seleccionadas y sus respectivos puntajes ANOVA:

In [7]:
# Obtener los puntajes de las características
scores = selector.scores_

# Mostrar los puntajes
print("Puntajes de todas las características:", scores)

# Mostrar qué características fueron seleccionadas
print("Características seleccionadas:", selector.get_support())


Puntajes de todas las características: [1.11159035e+00 2.28654424e+00 3.66692384e+00 1.62482882e+02
 4.24750576e-01 7.50895146e-02 4.12961427e+01 9.48156524e-02
 2.83604389e-01 3.92526889e-01]
Características seleccionadas: [False False  True  True False False  True False False False]


Este bloque de código te dará una salida que muestra cuáles características fueron seleccionadas basadas en el test ANOVA para regresión y sus respectivos puntajes. Este método te permite identificar y mantener aquellas características que tienen un mayor impacto en la variable de respuesta, lo que puede ayudar a mejorar la precisión de los modelos de regresión y a reducir la complejidad del modelo.

Este enfoque se puede adaptar fácilmente para trabajar con datos reales y es una herramienta valiosa para la selección de características en problemas de regresión donde la dimensionalidad es un desafío.