**Resumen sobre Regresión Lineal Múltiple**

#### 1. Concepto de Regresión Lineal Múltiple
A diferencia de la **Regresión Lineal Simple**, donde se usa un único predictor, en la **Regresión Lineal Múltiple** se utilizan múltiples predictores para estimar la variable respuesta.

La fórmula matemática general es:
$$ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_nX_n + \varepsilon $$
Donde:
-  *Y* es la variable dependiente (respuesta).
-  *X_1, X_2, ..., X_n* son las variables predictoras.
-  $\beta_0$ es la intersección (valor cuando todas las \( X \) son 0).
-  $\beta_1, \beta_2, ..., \beta_n$ son los coeficientes de regresión.
-  $\varepsilon$ es el término de error.

#### 2. Evaluación del Modelo: Multicolinealidad y Ajuste
**Multicolinealidad**
Se presenta cuando dos o más predictores están altamente correlacionados, afectando la estabilidad de los coeficientes de regresión. En mercados financieros, esto es común porque los índices bursátiles están interrelacionados.

- **Impacto:** No reduce el poder predictivo, pero hace que los coeficientes cambien drásticamente ante pequeñas variaciones en los datos.
  
-  **Cómo Detectar y Solucionar Multicolinealidad**
  
📌 1. Factor de Inflación de Varianza (VIF - Variance Inflation Factor) Una métrica para medir cuán colineadas están las variables. Si 10
VIF>10, hay un problema de multicolinealidad.

📌 2. Matriz de Correlación
Si dos o más predictores tienen una correlación mayor a 0.8 o 0.9, es una señal de alerta.

📌 3. Eliminar una de las variables redundantes
Si dos predictores aportan información muy similar, eliminar uno puede mejorar la estabilidad del modelo.

📌 4. Transformaciones o PCA (Análisis de Componentes Principales)
Métodos como PCA permiten combinar predictores correlacionados en nuevas variables menos redundantes.


#### 3. Métricas de Evaluación

1. **Error Cuadrático Medio (RMSE)**
   $$ RMSE = \sqrt{\frac{\sum (Y_{real} - Y_{predicho})^2}{n-k-1}} $$
   Donde:
   - $Y_{real}$es el valor real.
   - $Y_{predicho}$ es el valor estimado por el modelo.
   - $n$ es el número de observaciones.
   - $k$  es el número de predictores.
   - $RMSE $ mide el error promedio en la predicción.

 
2. **Coeficiente de Determinación Ajustado $R^2$**  
   $$ R^2_{ajustado} = 1 - \left( \frac{(1-R^2)(n-1)}{n-k-1} \right) $$
   - Penaliza la inclusión de predictores innecesarios.
   - Indica qué porcentaje de la variabilidad de la respuesta es explicado por el modelo.

#### 4. Interpretación de RMSE

El **RMSE (Root Mean Squared Error)** mide el error promedio que comete el modelo al predecir la variable dependiente $Y$.

$\underline{Criterios:}$
- **RMSE bajo**: Es bueno, porque significa que las predicciones del modelo son cercanas a los valores reales.
- **RMSE alto**: Es malo, porque significa que las predicciones del modelo están lejos de los valores reales.

¿Qué es un "RMSE bajo"?
No hay un valor universal para RMSE que sea "bueno" o "malo", ya que depende de la escala de la variable dependiente $Y$. Por ejemplo:
- Si $Y$ está en una escala de 0 a 100, un RMSE de 5 podría considerarse bueno.
- Si $Y$ está en una escala de 0 a 1, un RMSE de 0.5 sería muy alto.

$\underline{Regla  general:}$
- Compara el RMSE con la desviación estándar de $Y$. Si el RMSE es mucho menor que la desviación estándar, el modelo es útil.


#### 5. Interpretación de $R^2$ ajustado

El **$R^2$ ajustado** mide cuánto de la variabilidad de $Y$ es explicada por el modelo, ajustado por el número de predictores.

Criterios:
- **$R^2$ ajustado cercano a 1**: Es bueno, porque el modelo explica la mayor parte de la variabilidad de $Y$.
- **$R^2$ ajustado cercano a 0**: Es malo, porque el modelo no explica la variabilidad de $Y$.
- **$R^2$ ajustado negativo**: Es muy malo, porque el modelo es peor que simplemente usar la media de $Y$ como predicción.

Valores típicos:
- **0.7 - 1.0**: Muy bueno.
- **0.5 - 0.7**: Aceptable.
- **0.0 - 0.5**: Malo.
- **< 0.0**: Muy malo.



**Comparación entre Train y Test**

Al comparar las métricas en los conjuntos de **Train** y **Test**, puedes evaluar si el modelo está sobreajustado (overfitting) o si generaliza bien.

**Criterios:**
- **$R^2$ ajustado**:
  - **Train > Test**: Es normal, pero si la diferencia es muy grande, puede indicar sobreajuste.
  - **Train ≈ Test**: Es ideal, porque significa que el modelo generaliza bien.
  - **Train < Test**: Es raro y puede indicar un error en el modelo o en los datos.



- **RMSE**:
  - **Train < Test**: Es normal, pero si la diferencia es muy grande, puede indicar sobreajuste.
  - **Train ≈ Test**: Es ideal, porque significa que el modelo generaliza bien.
  - **Train > Test**: Es raro y puede indicar un error en el modelo o en los datos.



**Cuadro resumen comparativo**

| **Métrica**       | **Train** | **Test** | **Interpretación**                                                                 |
|--------------------|-----------|----------|------------------------------------------------------------------------------------|
| **$R^2$ ajustado** | Alto      | Alto     | Modelo bueno y generaliza bien.                                                   |
| **$R^2$ ajustado** | Alto      | Bajo     | Modelo sobreajustado (overfitting).                                               |
| **$R^2$ ajustado** | Bajo      | Bajo     | Modelo malo (no explica la variabilidad de \( Y \)).                              |
| **RMSE**           | Bajo      | Bajo     | Modelo bueno y generaliza bien.                                                   |
| **RMSE**           | Bajo      | Alto     | Modelo sobreajustado (overfitting).                                               |
| **RMSE**           | Alto      | Alto     | Modelo malo (predicciones lejanas a los valores reales).                          |

