# <img src="uni-logo.png" alt="Logo UNI" width=150 hight=300 align="right">


<br><br><br>
<h1><font color="#7F000E" size=4>Data Mining (CC442)</font></h1>



<h1><font color="#7F000E" size=6>Variable Selection in Linear Regression</font></h1>

<br>
<div style="text-align: right">
<font color="#7F000E" size=3>Yuri Coicca, M.Sc.</font><br>
<font color="#7F000E" size=3>Faculty of Science</font><br>
<font color="#7F000E" size=3>Computer Science - UNI</font><br>
</div>

**<H2>Variable Selection in Linear Regression**

---

### 1. Reducing the Number of Predictors (Reducción del número de predictores)
Aunque hoy en día las computadoras pueden procesar modelos con muchísimas variables (el enfoque "kitchen-sink" o de "todo a la vez"), el texto advierte que esto es peligroso por varias razones:

*   **Costo y Factibilidad:** Recolectar datos para muchas variables es caro y difícil en el futuro.
*   **Calidad de los datos:** A más variables, mayor probabilidad de tener valores faltantes (missing values).
*   **Parsimonia (Simplicidad):** Los modelos simples son más fáciles de explicar y entender.
*   **Multicolinealidad:** Demasiadas variables suelen estar correlacionadas entre sí, lo que hace que los coeficientes de la regresión sean inestables.
*   **Trade-off Sesgo-Varianza (Bias-Variance):**
    *   Si añades variables irrelevantes, aumenta la **varianza** del modelo (el modelo se vuelve muy sensible a cambios en los datos de entrenamiento).
    *   Si quitas variables importantes, aumenta el **sesgo** (el modelo es demasiado simple y no captura la realidad).
    *   **La meta:** Encontrar el equilibrio que minimice el error total.

---

### 2. How to Reduce the Number of Predictors (Cómo reducirlos)
El primer paso no es matemático, sino de **conocimiento del negocio (Domain Knowledge)**.
*   **Eliminación manual:** Se deben descartar variables que sean costosas de medir, que tengan muchos errores, que estén muy correlacionadas entre sí o que simplemente no tengan sentido lógico para el problema.
*   **Herramientas estadísticas iniciales:** Usar tablas de correlación y gráficos para identificar qué variables no aportan información nueva.

---

### 3. Exhaustive Search (Búsqueda Exhaustiva)
Este es el método "fuerza bruta". Consiste en evaluar **todas las combinaciones posibles** de predictores.

**¿Cómo funciona?**
Si tienes $p$ variables, el algoritmo prueba modelos con 1 variable, luego todas las parejas posibles, luego todos los tríos, y así hasta llegar al modelo con las $p$ variables.

**Criterios de evaluación:**
Como no podemos usar el $R^2$ normal (porque siempre sube al añadir variables, aunque sean basura), usamos métricas que **penalizan la complejidad**:

1.  **Adjusted $R^2$ (R-cuadrado ajustado):** Penaliza al modelo por cada predictor extra. Un valor más alto es mejor. Maximizar el $R^2_{adj}$ es equivalente a minimizar el error cuadrático medio (RMSE).
2.  **AIC (Akaike Information Criterion):** Estima el error de predicción. Penaliza el número de parámetros. **Buscamos el valor más bajo.**
3.  **BIC (Bayesian Information Criterion):** Similar al AIC, pero la penalización por cada variable extra es más fuerte. **Buscamos el valor más bajo.**

**Punto clave:** Si comparas modelos que tienen el **mismo número de variables**, todas estas métricas coincidirán en cuál es el mejor. La diferencia aparece cuando comparas un modelo de 3 variables contra uno de 5.

En la búsqueda exhaustiva, el problema es que no podemos usar el $R^2$ normal para comparar modelos de diferentes tamaños, porque el $R^2$ tiene un "vicio": **siempre sube** cuando añades una variable, aunque sea una variable basura (como el color de los calcetines del conductor para predecir el precio de un carro).

Para solucionar esto, el libro **Data Mining for Business Analytics** en la página 220 presenta tres ecuaciones "jueces" que penalizan el exceso de variables. Aquí te las explico al detalle:

---

#### 3.1. R-Cuadrado Ajustado ($R^2_{adj}$)

Es la versión "honesta" del $R^2$. La fórmula que aparece es:

$$R^2_{adj} = 1 - \frac{n-1}{n-p-1}(1 - R^2)$$

*   **¿Qué significan las letras?**
    *   $n$: Número de registros (filas de datos).
    *   $p$: Número de predictores (variables).
    *   $R^2$: El coeficiente de determinación normal.
*   **¿Cómo funciona la "trampa"?** Mira la fracción $\frac{n-1}{n-p-1}$. A medida que añades más variables ($p$ aumenta), el denominador ($n-p-1$) se hace más pequeño. Esto hace que toda la fracción sea más grande, lo que termina "restando" más valor al resultado final.
*   **Conclusión:** El $R^2_{adj}$ solo subirá si la nueva variable ayuda tanto que compensa el "castigo" de haberla incluido. **Buscamos el valor más alto.**

---

#### 3,2. AIC (Akaike Information Criterion)

Esta métrica viene de la teoría de la información y busca el modelo que menos información pierda. La fórmula es:

$$AIC = n \ln(SSE/n) + n(1 + \ln(2\pi)) + 2(p+1)$$

*   **¿Cómo se lee?** Tiene dos partes en una pelea:
    1.  **La precisión ($n \ln(SSE/n)$):** Si el error ($SSE$) es pequeño, este número es bajo. Esto premia que el modelo le atine a los datos.
    2.  **La penalización ($2(p+1)$):** Aquí es donde se castiga la complejidad. Por cada variable extra ($p$), el AIC sube.
*   **Conclusión:** El AIC busca un equilibrio. **Buscamos el valor más bajo.** Se dice que el AIC es mejor para modelos que deben predecir muy bien, aunque sean un poco más complejos.

---

#### 3.3. BIC (Bayesian Information Criterion)

También llamado Criterio de Schwartz. Es muy parecido al AIC, pero más "estricto":

$$BIC = n \ln(SSE/n) + n(1 + \ln(2\pi)) + \ln(n)(p+1)$$

*   **La diferencia clave:** Nota que en lugar de un $2$ (como en el AIC), aquí el castigo es **$\ln(n)$**.
*   **¿Por qué importa?** Si tienes muchos datos ($n$ es grande), el $\ln(n)$ será mucho mayor que $2$. Esto significa que el BIC castiga las variables extra mucho más fuerte que el AIC.
*   **Conclusión:** El BIC prefiere modelos más simples y pequeños (más parsimoniosos). **Buscamos el valor más bajo.**

---

### Resumen comparativo (Muy importante para tu explicación)

El PDF menciona un punto vital al final de la página 3: 

> *"Para un tamaño fijo de subconjunto, $R^2$, $R^2_{adj}$, AIC y BIC todos seleccionan el mismo subconjunto"*.

**¿Qué significa esto?** 
Si obligamos al algoritmo a buscar solo modelos de **3 variables**, todas las ecuaciones coincidirán en cuál es el mejor grupo de 3. 

La "pelea" entre las ecuaciones ocurre cuando el algoritmo debe decidir: **"¿Es mejor este modelo de 3 variables o este otro de 6?"**. 
*   El **AIC** podría decirte que el de 6 es mejor si la precisión aumenta un poco.
*   El **BIC** probablemente te dirá que te quedes con el de 3 porque es más tacaño con el número de variables.



### Acerca de la librería mlxtend 
---
La librería **`mlxtend`** (abreviatura de **Machine Learning Extensions**) es una biblioteca de Python extremadamente útil que funciona como una "caja de herramientas" adicional para los científicos de datos.

Su creador es Sebastian Raschka (un referente muy importante en el mundo del Machine Learning) y su objetivo principal es **complementar a Scikit-learn** con funciones que esa librería estándar no tiene.

Aquí te detallo por qué es tan relevante, especialmente para lo que estás estudiando ahora:

#### 1. Selección de Variables 
Esta es la joya de la corona de `mlxtend` para tu estudio actual. Mientras que Scikit-learn es un poco limitado en métodos automáticos de selección de "subconjuntos", `mlxtend` ofrece:
*   **ExhaustiveFeatureSelector (EFS):** Lo que me pediste. Prueba literalmente todas las combinaciones posibles.
*   **SequentialFeatureSelector (SFS):** Implementa el *Forward Selection* y *Backward Elimination* que mencionaba tu PDF de forma muy sencilla y visual.

#### 2. Visualización de Modelos
Tiene herramientas de graficación increíbles que Scikit-learn no incluye de forma nativa. Por ejemplo, te permite dibujar las **"Regiones de Decisión"**, que son mapas de calor que muestran cómo un modelo está clasificando los datos en un plano 2D. Es muy útil para entender si tu modelo está haciendo *overfitting* (sobreajuste).

#### 3. Reglas de Asociación (Data Mining)
Si alguna vez necesitas hacer análisis de "canasta de compras" (como el ejemplo de los protectores de patas de sillas y el riesgo crediticio que menciona tu PDF en la página 1), `mlxtend` es la librería líder. Incluye algoritmos como:
*   **Apriori:** Para encontrar patrones de productos que se compran juntos.
*   **Association Rules:** Para calcular la confianza y el soporte de esas relaciones.

#### 4. Evaluación de Modelos
Ofrece pruebas estadísticas más avanzadas que las de Scikit-learn, como:
*   **Test de McNemar:** Para comparar si un algoritmo es estadísticamente mejor que otro.
*   **Bias-Variance Decomposition:** Te permite medir exactamente cuánto error viene del "Sesgo" y cuánto de la "Varianza" (el famoso *trade-off* que menciona tu PDF en la página 2).

#### 5. Ensambles de Modelos (Ensemble Methods)
Permite hacer **Stacking**, que es una técnica avanzada donde usas un modelo de Machine Learning para "aprender" de las predicciones de otros modelos previos y así mejorar la precisión final.

---

#### ¿Por qué la usamos en el curso?
*"Because Python does not have an exhaustive search routine, we created a loop..."*. 

Se tendría que programar un bucle manual. Sin embargo, con `mlxtend`, **no tienes que reinventar la rueda**. Esa librería ya tiene ese bucle optimizado, probado y listo para usarse con una sola línea de código, devolviéndote métricas detalladas de cada combinación de variables.

**En resumen:** `mlxtend` es el puente entre el aprendizaje automático básico y el análisis estadístico profundo que necesitas para la selección de variables.

In [1]:
# %pip install mlxtend

In [2]:
# !pip install mlxtend

In [3]:
import sys
import os

# Esto te dirá dónde está buscando Python las librerías
print("Ruta de Python:", sys.executable)

try:
    import mlxtend
    print("✅ mlxtend detectada con éxito. Versión:", mlxtend.__version__)
except ImportError:
    print("❌ mlxtend sigue sin aparecer en este entorno.")

Ruta de Python: C:\Users\YURI\anaconda3\python.exe
✅ mlxtend detectada con éxito. Versión: 0.24.0


### Ejemplo en Código (Python)
Dado que Python (scikit-learn) no tiene una función nativa de "Exhaustive Search" como otros programas (ej. R), el texto menciona que se suele crear un bucle. Aquí te comparto un ejemplo funcional usando la librería `mlxtend`, que es el estándar para esto:

In [4]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
from mlxtend.feature_selection import ExhaustiveFeatureSelector as EFS

# 1. Cargar datos de ejemplo (Predicción de progresión de diabetes)
diabetes = load_diabetes()
X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = diabetes.target

# 2. Configurar la Búsqueda Exhaustiva
# Queremos que pruebe combinaciones de entre 1 y 4 variables
lr = LinearRegression()
efs = EFS(lr, 
          min_features=1, 
          max_features=4, 
          scoring='r2', # Evaluamos basado en R-cuadrado
          print_progress=True,
          cv=5) # Validación cruzada para evitar overfitting

# 3. Ejecutar la búsqueda
efs = efs.fit(X, y)

# 4. Resultados
print('Mejor puntuación (R2): %.2f' % efs.best_score_)
print('Mejores variables:', efs.best_feature_names_)

# Podemos ver el detalle de todos los modelos probados
df_results = pd.DataFrame.from_dict(efs.get_metric_dict()).T
print(df_results[['feature_idx', 'avg_score']].sort_values('avg_score', ascending=False).head())

Features: 385/385

Mejor puntuación (R2): 0.47
Mejores variables: ('bmi', 'bp', 's3', 's5')
      feature_idx avg_score
325  (2, 3, 6, 8)  0.472286
318  (2, 3, 4, 8)  0.471379
263  (1, 2, 3, 8)  0.466818
123     (2, 3, 8)  0.462661
322  (2, 3, 5, 8)  0.461128



### Explicación del ejemplo
---
1.  **`EFS`**: Este objeto genera todas las combinaciones posibles (si pides de 1 a 4 variables entre 10 disponibles, probará cientos de modelos).
2.  **`scoring='r2'`**: Aunque el $R^2$ normal es engañoso, al usar **validación cruzada (`cv=5`)**, estamos obligando al modelo a demostrar que esas variables funcionan en datos no vistos, lo cual actúa como una penalización natural similar al $R^2$ ajustado.
3.  **Limitación:** Si tuvieras 100 variables, el Exhaustive Search tardaría años en terminar. Por eso, para muchos predictores, se usan los algoritmos que siguen en el texto: *Forward Selection* o *Backward Elimination*.

### Explicación de los resultados
---
Estos resultados son la prueba real de lo que explica la sección **6.4 del libro del cursoF**. Aquí de tiene la interpretación detallada para que la uses en tu explicación:

#### 1. El Ganador: La combinación óptima
El algoritmo nos dice que el "mejor" modelo posible (dentro de lo que buscamos) tiene un **$R^2$ de 0.47** (aproximadamente 47%). Las variables elegidas son:
*   **'bmi'** (Índice de masa corporal)
*   **'bp'** (Presión sanguínea)
*   **'s3'** y **'s5'** (Indicadores de suero sanguíneo)

**Interpretación técnica:** Esto significa que con solo estas 4 variables, puedes explicar el 47% de la variación en la progresión de la enfermedad. Según el PDF, este es tu modelo "parsimonioso".

#### 2. "Features: 385/385" (El esfuerzo exhaustivo)
Este número es clave. Significa que el código probó **385 combinaciones diferentes** de variables.
*   Probó todas las variables solas, todas las parejas posibles, todos los tríos y todos los grupos de cuatro.
*   **Conexión con el PDF:** Esto es exactamente el **Exhaustive Search** que describe la página 3. No dejó ninguna piedra sin mover para encontrar ese 0.47.

#### 3. Las variables "Estrella" (Análisis de los índices)
Si miras la columna `feature_idx`, notarás un patrón muy interesante:
*   El modelo #325 (el mejor) usa los índices **(2, 3, 6, 8)**.
*   El modelo #123 (el cuarto mejor) usa **(2, 3, 8)**.

**¿Qué significa esto?** Que las variables en las posiciones **2, 3 y 8** son extremadamente poderosas. Nota que el modelo #123, con solo **3 variables**, logra un puntaje de **0.462**, que es casi tan bueno como el mejor de 4 variables (0.472).

#### 4. Relación con la "Parsimonia" (Sección 6.4 del libro)
Aquí es donde puedes brillar en tu explicación:
*   El PDF dice que "a veces es mejor un modelo con menos variables si la diferencia en error es pequeña".
*   En tus resultados, pasar de 3 variables (score 0.462) a 4 variables (score 0.472) solo mejora el modelo en un **1%**. 
*   **Tu decisión como analista:** Podrías elegir el modelo de 3 variables porque es más simple, más barato de medir en el futuro y menos propenso a errores, cumpliendo con el principio de **Reducing the Number of Predictors**.

#### 5. ¿Qué es el `avg_score`?
En `mlxtend`, ese valor es el promedio del $R^2$ tras hacer validación cruzada. 
*   **Por qué es mejor que el R2 normal:** Porque asegura que ese 0.47 no es casualidad o "suerte" con unos pocos datos, sino que el modelo es robusto. Esto se relaciona con lo que dice el PDF en la página 3 sobre evitar el **Over-fitting** (ajustarse al ruido).

**Resumen para tu presentación:**
*"Corrimos una búsqueda exhaustiva que evaluó 385 modelos. Encontramos que un subconjunto de 4 variables es el óptimo, pero identificamos que con solo 3 variables clave (índices 2, 3 y 8) obtenemos un rendimiento casi idéntico, lo cual nos permite tener un modelo más simple y parsimonioso como recomienda el texto."*