# Capítulo 7: Remedios y métodos robustos

### 7.1 Correcciones para heterocedasticidad

De acuerdo con el supuesto de homocedasticidad ([Ecuación 6.2.1](C6.html#ecuacion-621-varianza-errores)), la presencia de heterocedasticidad puede provocar que los errores estándar de los coeficientes estén subestimados, afectando los valores $t$ y las decisiones de significancia. Para corregir este problema, se utilizan los estimadores de varianza robusta **HC** (Heteroscedasticity-Consistent), que ajustan los errores estándar sin cambiar los coeficientes estimados. 

- **HC0**: Estimador original de White, básico y consistente frente a heterocedasticidad.  
- **HC1**: Ajusta HC0 por los grados de libertad, corrigiendo ligeras subestimaciones.  
- **HC2**: Considera los *leverage points* de cada observación, dando más peso a observaciones influyentes.  
- **HC3**: Aproximación tipo *jackknife*, más conservadora y recomendada en muestras pequeñas por ofrecer errores estándar más cautelosos.  

In [9]:
import statsmodels.api as sm
import pandas as pd

pd.set_option('display.float_format', '{:.6f}'.format)

data_modelo_base = pd.read_csv("../data/AmesHousing_codificada.csv")

data_modelo_base = data_modelo_base[['SalePrice_log', 'Overall Qual', 'Gr Liv Area', 
                                     'Garage Cars', 'Total Bsmt SF', '1st Flr SF', 
                                     'Full Bath', 'Year Built', 'Fireplaces', 'Lot Area']]
X = data_modelo_base[['Overall Qual', 'Gr Liv Area', 'Garage Cars', 'Total Bsmt SF',
                      '1st Flr SF', 'Full Bath', 'Year Built', 'Fireplaces', 'Lot Area']]
y = data_modelo_base[['SalePrice_log']]

X = sm.add_constant(X)

modelo_base = sm.OLS(y, X).fit()

resultados_HC0 = modelo_base.get_robustcov_results(cov_type='HC0')
resultados_HC1 = modelo_base.get_robustcov_results(cov_type='HC1')
resultados_HC2 = modelo_base.get_robustcov_results(cov_type='HC2')
resultados_HC3 = modelo_base.get_robustcov_results(cov_type='HC3')

def get_confint_df(result, var_names):
    ci = result.conf_int()
    if isinstance(ci, pd.DataFrame):
        ci = ci.loc[var_names]
    else:
        ci = pd.DataFrame(ci, columns=["lower", "upper"], index=var_names)
    return ci

variables = modelo_base.params.index

se_df = pd.DataFrame({
    "OLS": modelo_base.bse,
    "HC0": resultados_HC0.bse,
    "HC1": resultados_HC1.bse,
    "HC2": resultados_HC2.bse,
    "HC3": resultados_HC3.bse,
})
se_df.index.name = "Variable"

ic_ols = get_confint_df(modelo_base, variables)
ic_hc0 = get_confint_df(resultados_HC0, variables)
ic_hc1 = get_confint_df(resultados_HC1, variables)
ic_hc2 = get_confint_df(resultados_HC2, variables)
ic_hc3 = get_confint_df(resultados_HC3, variables)

ic_df = pd.DataFrame({
    "OLS_lower": ic_ols.iloc[:,0],
    "OLS_upper": ic_ols.iloc[:,1],
    "HC0_lower": ic_hc0.iloc[:,0],
    "HC0_upper": ic_hc0.iloc[:,1],
    "HC1_lower": ic_hc1.iloc[:,0],
    "HC1_upper": ic_hc1.iloc[:,1],
    "HC2_lower": ic_hc2.iloc[:,0],
    "HC2_upper": ic_hc2.iloc[:,1],
    "HC3_lower": ic_hc3.iloc[:,0],
    "HC3_upper": ic_hc3.iloc[:,1],
})
ic_df.index = variables
ic_df.index.name = "Variable"

display(se_df.style.format("{:.6f}"))

Unnamed: 0_level_0,OLS,HC0,HC1,HC2,HC3
Variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
const,0.253443,0.289644,0.290168,0.290559,0.29148
Overall Qual,0.003334,0.004443,0.004451,0.004459,0.004474
Gr Liv Area,1e-05,1e-05,1e-05,1e-05,1.1e-05
Garage Cars,0.005301,0.006828,0.006841,0.006851,0.006874
Total Bsmt SF,1.3e-05,1.5e-05,1.5e-05,1.5e-05,1.5e-05
1st Flr SF,1.4e-05,1.6e-05,1.6e-05,1.6e-05,1.6e-05
Full Bath,0.007656,0.008385,0.0084,0.008412,0.008439
Year Built,0.000134,0.000151,0.000151,0.000151,0.000152
Fireplaces,0.005274,0.00564,0.00565,0.005658,0.005676
Lot Area,1e-06,1e-06,1e-06,1e-06,1e-06


**Tabla 7.1.1.** Errores estándar OLS vs. HC0-HC3.

Se observa que los errores estándar aumentan ligeramente cuando se aplican las correcciones HC, especialmente para variables como `Overall Qual`, `Garage Cars` y `Full Bath`. Esto indica que los estimadores OLS originales podrían subestimar la variabilidad de los coeficientes si existe heterocedasticidad.

Por ejemplo, el coeficiente de `Overall Qual` tiene un error estándar de 0.00333 bajo OLS clásico, que se incrementa a 0.00447 bajo HC3, la corrección más conservadora. De manera similar, `Garage Cars` pasa de 0.00530 a 0.00687.  

Las variables con cambios mínimos en los errores estándar (como `Gr Liv Area` o `Lot Area`) sugieren que su variabilidad está poco afectada por heterocedasticidad.

In [10]:
display(ic_df.style.format("{:.6f}"))

Unnamed: 0_level_0,OLS_lower,OLS_upper,HC0_lower,HC0_upper,HC1_lower,HC1_upper,HC2_lower,HC2_upper,HC3_lower,HC3_upper
Variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
const,4.749133,5.743047,4.678149,5.81403,4.677121,5.815059,4.676355,5.815825,4.67455,5.81763
Overall Qual,0.095133,0.108206,0.092957,0.110382,0.092942,0.110397,0.092927,0.110412,0.092897,0.110442
Gr Liv Area,0.00022,0.000259,0.000219,0.00026,0.000219,0.00026,0.000219,0.00026,0.000219,0.00026
Garage Cars,0.038647,0.059434,0.035652,0.06243,0.035627,0.062454,0.035607,0.062475,0.035561,0.06252
Total Bsmt SF,0.000129,0.000178,0.000125,0.000182,0.000125,0.000182,0.000125,0.000182,0.000125,0.000183
1st Flr SF,-2.6e-05,3.1e-05,-2.8e-05,3.3e-05,-2.8e-05,3.3e-05,-2.8e-05,3.3e-05,-2.8e-05,3.3e-05
Full Bath,-0.028511,0.001512,-0.02994,0.002941,-0.02997,0.002971,-0.029993,0.002994,-0.030046,0.003047
Year Built,0.0025,0.003024,0.002467,0.003058,0.002466,0.003058,0.002466,0.003059,0.002465,0.00306
Fireplaces,0.035813,0.056495,0.035095,0.057213,0.035075,0.057233,0.03506,0.057248,0.035025,0.057283
Lot Area,8e-06,1.1e-05,8e-06,1.2e-05,8e-06,1.2e-05,8e-06,1.2e-05,8e-06,1.2e-05


**Tabla 7.1.2.** Intervalos de confianza OLS vs. HC0-HC3.

Se puede observar que los intervalos de confianza se ensanchan ligeramente cuando se aplican las correcciones HC, reflejando un aumento en la incertidumbre de los coeficientes. Por ejemplo, el coeficiente de `Overall Qual` tiene un intervalo de confianza de [0.095, 0.108] bajo OLS, que se amplía a [0.0929, 0.1104] con HC3. Lo mismo ocurre con `Garage Cars` y `Full Bath`, indicando que las inferencias de estos coeficientes son sensibles a la heterocedasticidad.

En contraste, intervalos de confianza prácticamente inalterados, como los de `Gr Liv Area` o `Lot Area`, sugieren que la heterocedasticidad tiene poco efecto sobre la precisión de estos coeficientes.  

### 7.2 Modelos robustos con funciones Huber/Tukey

Los **modelos de regresión robusta** son una extensión de la regresión lineal ordinaria diseñada para reducir la influencia de outliers o valores atípicos en la estimación de los coeficientes. Mientras que la regresión OLS pondera todos los residuales por igual, los modelos robustos asignan **menor peso a los residuales grandes**, permitiendo obtener estimaciones más confiables y estables.

Existen diversas funciones de pérdida que determinan cómo se penalizan los residuales, donde cada una equilibra de distinta manera la eficiencia para valores centrales y la robustez frente a outliers extremos:

- **Huber / TukeyHuberT()**:

$$
\rho(r) = 
\begin{cases} 
\frac{1}{2} r^2 & \text{si } |r| \le \delta \\[2mm]
\delta \left(|r| - \frac{1}{2}\delta \right) & \text{si } |r| > \delta
\end{cases}
$$  
**Ecuación 7.2.1.** Función de pérdida Huber.

Protege contra outliers moderados manteniendo eficiencia para valores centrales.

- **Tukey Biweight**:

$$
\rho(r) = 
\begin{cases}
\frac{c^2}{6} \left[ 1 - \left(1 - \left(\frac{r}{c}\right)^2 \right)^3 \right] & \text{si } |r| \le c \\[1mm]
\frac{c^2}{6} & \text{si } |r| > c
\end{cases}
$$  
**Ecuación 7.2.2.** Función de pérdida Tukey.

Limita el impacto de observaciones lejanas sin eliminarlas completamente.

In [11]:
import statsmodels.api as sm
import pandas as pd

rlm_huber = sm.RLM(y, X, M=sm.robust.norms.HuberT()).fit()       # Función de pérdida Huber
rlm_tukey = sm.RLM(y, X, M=sm.robust.norms.TukeyBiweight()).fit() # Función de pérdida Tukey Biweight

rlm_df = pd.DataFrame({
    'OLS': modelo_base.params,
    'RLM_Huber': rlm_huber.params,
    'RLM_Tukey': rlm_tukey.params
})

weights_df = pd.DataFrame({
    'Huber_weights': rlm_huber.weights,
    'Tukey_weights': rlm_tukey.weights
})

display(rlm_df)

Unnamed: 0,OLS,RLM_Huber,RLM_Tukey
const,5.24609,5.554695,5.757333
Overall Qual,0.10167,0.093458,0.090582
Gr Liv Area,0.00024,0.000243,0.000245
Garage Cars,0.049041,0.055135,0.056782
Total Bsmt SF,0.000154,0.000169,0.000176
1st Flr SF,3e-06,-8e-06,-1.3e-05
Full Bath,-0.013499,-0.017119,-0.016548
Year Built,0.002762,0.002626,0.002528
Fireplaces,0.046154,0.040135,0.038912
Lot Area,1e-05,1.1e-05,1.1e-05


**Tabla 7.2.1.** Coeficientes OLS vs. RLM. *Valores en escala logarítmica.*

Se observa que el intercepto (`const`) aumenta al usar modelos robustos, lo que refleja que los outliers tienden a sesgar hacia abajo la estimación en OLS. Por su parte, variables como `Overall Qual` y `Fireplaces` muestran coeficientes algo menores en modelos robustos, indicando que su efecto estaba ligeramente sobreestimado por la presencia de outliers. 

Para la mayoría de las demás variables (`Gr Liv Area`, `Garage Cars`, `Total Bsmt SF`, `Year Built`), las diferencias son pequeñas, lo que sugiere que los outliers no tienen un impacto fuerte en estas estimaciones.  

In [12]:
display(weights_df)

Unnamed: 0,Huber_weights,Tukey_weights
0,1.000000,0.953644
1,1.000000,0.866662
2,1.000000,0.970765
3,1.000000,0.922950
4,1.000000,0.962404
...,...,...
2763,1.000000,0.986576
2764,1.000000,0.999931
2765,1.000000,0.974192
2766,1.000000,0.993637


**Tabla 7.2.2.** Pesos outliers Huber vs. Tukey.

La mayoría de los pesos son cercanos a 1 en ambos modelos robustos, lo que indica que la mayoría de las observaciones se ajusta bien al modelo y tiene plena influencia en la estimación de los coeficientes. 

Sin embargo, algunas observaciones presentan pesos menores, como la última fila, con Huber = 0.69 y Tukey = 0.68, lo que refleja que su residuo es relativamente grande y su efecto en el ajuste se atenúa.

Además, es evidente que Tukey aplica un castigo más fuerte a residuales extremos.

### 7.3 Bootstrap

El **bootstrap** es un método de remuestreo que permite estimar la variabilidad de los coeficientes de un modelo sin asumir una distribución específica de los errores. Consiste en generar múltiples muestras con reemplazo a partir de los datos originales y recalcular los estimadores para cada réplica, obteniendo así una **distribución empírica** de los coeficientes, a partir de la cual se calculan el error estándar y los intervalos de confianza.

In [13]:
from sklearn.utils import resample
import numpy as np
import pandas as pd

B = 1000
coef_boot = np.zeros((B, X.shape[1]))

for i in range(B):
    X_resample, y_resample = resample(X, y)
    model_bs = sm.OLS(y_resample, X_resample).fit()
    coef_boot[i, :] = model_bs.params

coef_mean = coef_boot.mean(axis=0)        
coef_se = coef_boot.std(axis=0)                     
ic_lower = np.percentile(coef_boot, 2.5, axis=0)       
ic_upper = np.percentile(coef_boot, 97.5, axis=0)  

bootstrap_df = pd.DataFrame({
    'Coef_mean': coef_mean,
    'SE_bootstrap': coef_se,
    'IC_2.5%': ic_lower,
    'IC_97.5%': ic_upper
}, index=X.columns)

bootstrap_df


Unnamed: 0,Coef_mean,SE_bootstrap,IC_2.5%,IC_97.5%
const,5.232542,0.298929,4.647238,5.838055
Overall Qual,0.1016,0.004225,0.093696,0.110445
Gr Liv Area,0.00024,1.1e-05,0.000218,0.000262
Garage Cars,0.04911,0.00637,0.036729,0.061688
Total Bsmt SF,0.000154,1.4e-05,0.000126,0.000182
1st Flr SF,3e-06,1.6e-05,-2.9e-05,3.3e-05
Full Bath,-0.014124,0.008165,-0.029493,0.002944
Year Built,0.002769,0.000156,0.002459,0.003073
Fireplaces,0.046117,0.005553,0.035379,0.056597
Lot Area,1e-05,1e-06,8e-06,1.2e-05


**Tabla 7.3.1.** Resumen Bootstrap.

Variables como `Overall Qual`, `Gr Liv Area`, `Garage Cars` y `Year Built` tienen coeficientes claramente distintos de cero, con intervalos de confianza estrechos y consistentes, lo que sugiere estimaciones robustas y estables. Por el contrario, `1st Flr SF` y `Full Bath` presentan intervalos que incluyen el cero, indicando que su efecto sobre la variable respuesta podría no ser significativo.

### 7.4 OLS vs. HC3 vs. Bootstrap

In [14]:
import pandas as pd

coef_ols = modelo_base.params         
se_ols = modelo_base.bse               

se_hc3 = resultados_HC3.bse            

coef_boot_mean = bootstrap_df['Coef_mean']  
se_boot = bootstrap_df['SE_bootstrap']  

ic_ols = modelo_base.conf_int().iloc[:,1] - modelo_base.conf_int().iloc[:,0]

ic_hc3 = resultados_HC3.conf_int()[:,1] - resultados_HC3.conf_int()[:,0]

ic_boot = bootstrap_df['IC_97.5%'] - bootstrap_df['IC_2.5%']

comparative_df = pd.DataFrame({
    'Coef_OLS': coef_ols,
    'SE_OLS': se_ols,
    'SE_HC3': se_hc3,
    'Coef_Bootstrap': coef_boot_mean,
    'SE_Bootstrap': se_boot,
    'IC_width_OLS': ic_ols,
    'IC_width_HC3': ic_hc3,
    'IC_width_Bootstrap': ic_boot
})

coef_df = comparative_df[['Coef_OLS', 'Coef_Bootstrap']]
se_df = comparative_df[['SE_OLS', 'SE_HC3', 'SE_Bootstrap']]
ic_df = comparative_df[['IC_width_OLS', 'IC_width_HC3', 'IC_width_Bootstrap']]
coef_df

Unnamed: 0,Coef_OLS,Coef_Bootstrap
const,5.24609,5.232542
Overall Qual,0.10167,0.1016
Gr Liv Area,0.00024,0.00024
Garage Cars,0.049041,0.04911
Total Bsmt SF,0.000154,0.000154
1st Flr SF,3e-06,3e-06
Full Bath,-0.013499,-0.014124
Year Built,0.002762,0.002769
Fireplaces,0.046154,0.046117
Lot Area,1e-05,1e-05


**Tabla 7.4.1.** Coeficientes OLS vs. Bootstrap. *Valores en escala logarítmica.*

Se observa que la estimación de los parámetros es muy estable frente al remuestreo, lo que sugiere que la muestra utilizada es suficientemente representativa y que los coeficientes no dependen excesivamente de observaciones individuales.

En particular, las variables como `Overall Qual`, `Gr Liv Area` y `Fireplaces` muestran coeficientes positivos consistentes en ambos métodos, confirmando su relación directa con el precio de la vivienda. Por su parte, `Full Bath` mantiene un coeficiente ligeramente negativo, indicando que, controlando por las demás variables, su efecto es mínimo.

In [15]:
se_df

Unnamed: 0,SE_OLS,SE_HC3,SE_Bootstrap
const,0.253443,0.29148,0.298929
Overall Qual,0.003334,0.004474,0.004225
Gr Liv Area,1e-05,1.1e-05,1.1e-05
Garage Cars,0.005301,0.006874,0.00637
Total Bsmt SF,1.3e-05,1.5e-05,1.4e-05
1st Flr SF,1.4e-05,1.6e-05,1.6e-05
Full Bath,0.007656,0.008439,0.008165
Year Built,0.000134,0.000152,0.000156
Fireplaces,0.005274,0.005676,0.005553
Lot Area,1e-06,1e-06,1e-06


**Tabla 7.4.2.** Errores estándar OLS vs. HC3 vs. Bootstrap.<a id="tabla-742-se-ols-hc3-boot"></a>

Los errores estándar de OLS son generalmente menores que los obtenidos mediante HC3 o bootstrap, lo que sugiere que este modelo inicial podría subestimar la incertidumbre cuando hay heterocedasticidad presente o dependiendo de la muestra seleccionada.  

El método HC3, diseñado para ser más conservador frente a heterocedasticidad y leverage points, produce errores estándar ligeramente mayores que OLS, especialmente para variables como `Overall Qual`, `Garage Cars` y `Full Bath`. El bootstrap refleja un patrón muy similar al de HC3, confirmando la estabilidad de las estimaciones.

Es notable que las variables con errores estándar relativamente bajos (`Gr Liv Area`, `Lot Area`) están estimadas con gran precisión, mientras que aquellas con errores más altos (`Full Bath`, `Garage Cars`) presentan mayor incertidumbre en la estimación de su efecto sobre el precio de la vivienda.

In [16]:
ic_df

Unnamed: 0,IC_width_OLS,IC_width_HC3,IC_width_Bootstrap
const,0.993914,1.14308,1.190817
Overall Qual,0.013073,0.017545,0.016749
Gr Liv Area,3.9e-05,4.1e-05,4.4e-05
Garage Cars,0.020787,0.026959,0.02496
Total Bsmt SF,4.9e-05,5.8e-05,5.6e-05
1st Flr SF,5.7e-05,6.2e-05,6.2e-05
Full Bath,0.030023,0.033094,0.032437
Year Built,0.000524,0.000595,0.000614
Fireplaces,0.020682,0.022258,0.021219
Lot Area,3e-06,4e-06,4e-06


**Tabla 7.4.3.** Amplitud intervalos de confianza OLS vs. HC3 vs. Bootstrap.

Alineados con los errores estándar ([Tabla 7.4.2](#tabla-742-se-ols-hc3-boot)), los intervalos calculados con OLS son consistentemente más estrechos que los obtenidos con HC3 o bootstrap, llegando a la misma conclusión de que el OLS inicial es menos robusto.