# 10. Respuesta a preguntas Iniciales

## Variables numéricas

Las variables más relevantes para determinar el precio de las casas del dataset de Ames son:

| **Variable** | **Significado** | **Interpretación** |
|---------------|----------------|--------------------|
| **OverallQual** | *Overall Material and Finish Quality* → Calidad general de los materiales y acabados. | Escala del **1 al 10** que evalúa la calidad general de la construcción y los acabados. Un valor alto indica **mejor calidad** y suele asociarse con precios más altos. |
| **GrLivArea** | *Ground Living Area (sq ft)* → Área habitable sobre el nivel del suelo (en pies²). | Representa el **espacio habitable total por encima del suelo**, sin incluir sótanos ni garajes. Es una de las variables más correlacionadas con `SalePrice`. |
| **GarageArea** | *Garage Area (sq ft)* → Área del garaje (en pies²). | Indica el **tamaño del garaje**, lo que refleja capacidad de estacionamiento o espacio adicional. |
| **YearBuilt** | *Original Construction Year* → Año de construcción original. | Año en que fue construida la vivienda. Las casas más nuevas tienden a tener **mayor valor**, aunque también depende del mantenimiento y remodelaciones. |
| **1stFlrSF** | *First Floor Square Feet* → Superficie del primer piso (en pies²). | Área del **primer nivel** de la vivienda. Puede correlacionarse con `GrLivArea`, pero se refiere específicamente al piso inferior. |
| **YearRemod/Add** | *Remodel Year* → Año de remodelación o ampliación. | Año en que la vivienda fue **remodelada o ampliada**. Si coincide con `YearBuilt`, significa que **no ha sido remodelada**. |
| **FullBath** | *Full Bathrooms Above Grade* → Número de baños completos sobre el nivel del suelo. | Cuenta los baños con ducha o bañera ubicados **en niveles habitables**, lo que impacta en la comodidad y el valor. |
| **GarageYrBlt** | *Year Garage was Built* → Año de construcción del garaje. | Indica cuándo se construyó el garaje. Si es nulo, la vivienda **no tiene garaje**. También refleja la antigüedad de la infraestructura. |

---

## Variables categóricas (dummies)

| **Variable** | **Significado** | **Interpretación del valor 1** |
|---------------|----------------|-------------------------------|
| **KitchenQual_TA** | *Kitchen Quality = Typical/Average* → Calidad promedio de la cocina. | La cocina tiene materiales y acabados **de nivel medio**, ni lujosos ni deficientes. |
| **FireplaceQu_Sin categoria** | *Fireplace Quality = Sin categoría / Nulo* | Indica que la **calidad de la chimenea no fue registrada** o que la casa **no tiene chimenea**. Esta categoría fue creada durante la limpieza de datos para representar los valores faltantes. |

---

Estas variables demostraron ser significativas, incluso usando metodos lineales más robustos como HC3 o Huber.

En conclusión, aprendimos lo siguiente sobre Métodos lineales:

## 10.1 Regularización


| Característica | **OLS (Mínimos Cuadrados Ordinarios)** | **Ridge (Regresión de cresta)** | **Lasso (Regresión L1)** |
|----------------|------------------------------------------|----------------------------------|---------------------------|
| **Ecuación de optimización** | Minimiza:  ![OLS](https://latex.codecogs.com/svg.image?\min_{\beta}\sum_i(y_i-\hat{y_i})^2) | Minimiza:  ![Ridge](https://latex.codecogs.com/svg.image?\min_{\beta}\sum_i(y_i-\hat{y_i})^2+\lambda\sum_j\beta_j^2) | Minimiza:  ![Lasso](https://latex.codecogs.com/svg.image?\min_{\beta}\sum_i(y_i-\hat{y_i})^2+\lambda\sum_j\|\beta_j\|) |
| **Tipo de penalización** | Sin penalización | Penalización L2 (cuadrática) | Penalización L1 (absoluta) |
| **Objetivo principal** | Ajuste puro a los datos | Reducir la varianza del modelo | Selección de variables y regularización |
| **Efecto de la penalización** | Ninguno | Reduce la magnitud de los coeficientes pero no los elimina | Puede llevar algunos coeficientes exactamente a 0 |
| **Interpretación de coeficientes** | Todos los predictores contribuyen al modelo | Todos contribuyen pero con menor peso | Algunos predictores se eliminan (coef. = 0) |
| **Control de sobreajuste** | Limitado | Bueno (reduce varianza) | Bueno, además realiza selección automática |
| **Dependencia entre predictores** | Sensible a la multicolinealidad | Maneja bien la multicolinealidad | Tiende a seleccionar uno de los predictores correlacionados |
| **Hiperparámetro λ (alpha)** | No aplica | Controla el grado de penalización L2 | Controla el grado de penalización L1 |
| **Valor típico de λ** | — | λ ∈ [10⁻³, 10³], ajustado por validación cruzada | λ ∈ [10⁻³, 10³], ajustado por validación cruzada |
| **Comportamiento con outliers** | Muy sensible | Algo más robusto | Algo más robusto |
| **Uso común** | Modelos explicativos | Modelos predictivos estables | Modelos con selección de características |
| **Ejemplo de uso en `sklearn`** | `LinearRegression()` | `Ridge(alpha=λ)` | `Lasso(alpha=λ)` |

---

## 10.2 Metodos Robustos

| Característica | **OLS (Mínimos Cuadrados Ordinarios)** | **HC3 (Heterocedasticity-Consistent)** | **Bootstrap** | **Huber (RLM)** |
|----------------|----------------------------------------|----------------------------------------|----------------|------------------|
| **Tipo de estimación** | Estimador clásico de mínimos cuadrados | OLS con corrección de varianza robusta | Estimación empírica por remuestreo | Regresión robusta (función de pérdida modificada) |
| **Base teórica** | Minimiza la suma de errores cuadráticos | Ajuste de errores estándar según White (HC3) | Basado en distribución empírica de coeficientes | Minimiza función de pérdida Huber (mixta L1–L2) |
| **Qué corrige** | Nada (asume homocedasticidad y normalidad) | Heterocedasticidad | Inestabilidad muestral y varianza | Influencia de outliers |
| **Supuestos clave** | Homocedasticidad, independencia, normalidad | Relaja homocedasticidad | Relaja todos los supuestos paramétricos | Relaja normalidad y sensibilidad a outliers |
| **Efecto sobre los coeficientes** | Coeficientes exactos de OLS | Igual que OLS | Varía según muestra bootstrap | Modificados por ponderación robusta |
| **Efecto sobre los errores estándar** | Subestimados si hay heterocedasticidad | Corrige errores estándar (robustos) | Estimados empíricamente por remuestreo | Ajustados por pesos observacionales |
| **Sensibilidad a outliers** | Alta | Alta | Media (depende de las réplicas) | Baja (reduce peso de outliers) |
| **Sensibilidad a heterocedasticidad** | Alta | Baja | Media | Baja |
| **Ventajas** | Simple e interpretativo | Mejora inferencia sin cambiar coeficientes | No depende de supuestos teóricos | Robusto frente a outliers e inestabilidad |
| **Desventajas** | Sesgo en errores si no se cumplen supuestos | No corrige outliers | Costoso computacionalmente | Menos eficiente si no hay outliers |
| **Resultado principal** | Coeficientes y errores estándar clásicos | Errores estándar robustos (HC3) | Distribución empírica de parámetros | Coeficientes robustos y pesos observacionales |
| **Implementación en Python** | `sm.OLS(y, X).fit()` | `sm.OLS(y, X).fit(cov_type='HC3')` | `resample(X, y)` + `sm.OLS` repetido | `sm.RLM(y, X, M=sm.robust.norms.HuberT())` |
| **Interpretación de pesos** | Todos iguales | Todos iguales | Depende del remuestreo | Menores para residuales grandes |
| **Tipo de robustez** | Ninguna | Varianza robusta | Muestral (bootstraping) | Observacional (residual-based) |

---

## 10.3 Metodos de validación de supuestos

| **Supuesto** | **Método de validación** | **Procedimiento / Estadístico** | **Interpretación esperada (modelo adecuado)** | **Código típico (Python / statsmodels)** |
|---------------|---------------------------|----------------------------------|-----------------------------------------------|------------------------------------------|
| **Linealidad** | Gráfico de residuos vs. valores ajustados | Dispersión aleatoria de los residuos alrededor de 0 | No debe observarse patrón sistemático; los residuos deben distribuirse aleatoriamente | `sns.residplot(x=fitted, y=residuals)` |
| **Homoscedasticidad (varianza constante)** | **Test de Breusch–Pagan** o **White** | \( H_0: \text{varianza constante} \) | p-value > 0.05 → no hay evidencia de heterocedasticidad | `het_breuschpagan(resid, X)` |
| | **Gráfico de residuos vs. ajustados** | Residuos con dispersión uniforme | No debe observarse cono o patrón de expansión | `plt.scatter(fitted, resid)` |
| **Normalidad de errores** | **QQ-Plot (Quantile-Quantile)** | Comparación visual con la distribución normal teórica | Puntos cercanos a la línea diagonal → residuos normales | `sm.qqplot(residuals, line='45')` |
| | **Shapiro-Wilk / Jarque–Bera test** | \( H_0: \text{residuos normales} \) | p-value > 0.05 → normalidad no rechazada | `sm.stats.jarque_bera(resid)` |
| **Independencia de errores (no autocorrelación)** | **Durbin–Watson test** | \( 0 < DW < 4 \), ideal ≈ 2 | Valores cercanos a 2 → sin autocorrelación | `sm.stats.stattools.durbin_watson(resid)` |
| **Multicolinealidad** | **VIF (Variance Inflation Factor)** | \( VIF_j = \frac{1}{1 - R_j^2} \) | VIF < 5 → aceptable, VIF > 10 → colinealidad alta | `variance_inflation_factor(X.values, i)` |

