<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-5/Regresi%C3%B3n_Puntaje_Horas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Regresi√≥n Lineal Simple MCO

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import probplot, shapiro, jarque_bera, normaltest, anderson, kstest
from statsmodels.stats.diagnostic import het_breuschpagan, het_white,lilliefors
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.regression.linear_model import GLS, GLSAR


In [None]:
data = pd.read_excel("/content/sample_data/Data_Regresion.xlsx", sheet_name='data')
data.head()

In [None]:
# Este Script sera modificado para tu conveniencia

#1 Definir variables dependiente (Y) e independiente (X)

X = data['Horas(x)']
y= data['Puntaje(y)']

# A√±adir una constante a las caracter√≠sticas para el modelo statsmodels
X_const = sm.add_constant(X)

print("Datos Cargados:")
print(data)
print("-" * 50)

# 2. Construcci√≥n del Modelo de Regresi√≥n Lineal ---
# Usamos statsmodels para tener un resumen detallado y acceso a los residuos para los supuestos.
model = sm.OLS(y, X_const)
## results = model.fit(cov_type='HAC', cov_kwds={'maxlags':1})
results = model.fit()
print("Resumen del Modelo de Regresi√≥n Lineal:")
print(results.summary())
print("-" * 50)

# Obtener los residuos del modelo
residuals = results.resid
fitted_values = results.fittedvalues

# --- 3. Evaluaci√≥n de Supuestos de la Regresi√≥n Lineal ---

## Supuesto 1: Linealidad üìà
# Se asume que la relaci√≥n entre las variables es lineal.
# Se puede verificar con un gr√°fico de dispersi√≥n de la variable predictora contra la variable objetivo,
# y tambi√©n con un gr√°fico de residuos vs. valores predichos.

plt.figure(figsize=(12, 6))

# Gr√°fico de dispersi√≥n de X vs. Y
plt.subplot(1, 2, 1)
sns.scatterplot(x=X, y=y)
plt.title('Linealidad: X vs. Y')
plt.xlabel('X')
plt.ylabel('Y')

# Residuos vs. Valores Predichos: La mejor manera de verificar la linealidad y homocedasticidad
plt.subplot(1, 2, 2)
sns.scatterplot(x=fitted_values, y=residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos vs. Valores Predichos')
plt.xlabel('Valores Predichos')
plt.ylabel('Residuos')
plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n del Supuesto de Linealidad ---")
print("Observar el gr√°fico 'X vs. Y': si los puntos siguen una tendencia lineal, el supuesto se cumple.")
print("En el gr√°fico de 'Residuos vs. Valores Predichos', los residuos deben estar distribuidos aleatoriamente alrededor de cero, sin patrones evidentes (forma de embudo, curva, etc.).")
print("-" * 50)

## Supuesto 2: Normalidad de los Residuos üìä
# Los residuos deben seguir una distribuci√≥n normal.
# Se puede verificar con gr√°ficos (histograma, Q-Q plot) y pruebas estad√≠sticas.

plt.figure(figsize=(12, 5))

# Histograma de los residuos
plt.subplot(1, 2, 1)
sns.histplot(residuals, kde=True)
plt.title('Histograma de los Residuos')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')

# Q-Q plot de los residuos
plt.subplot(1, 2, 2)
probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot de los Residuos')
plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n del Supuesto de Normalidad de los Residuos ---")
print("Pruebas estad√≠sticas:")

# Prueba de Shapiro-Wilk (para n < 50)
shapiro_test = shapiro(residuals)
print(f"Shapiro-Wilk Test: Estad√≠stico={shapiro_test.statistic:.3f}, p-value={shapiro_test.pvalue:.3f}")
if shapiro_test.pvalue > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

# Prueba de Jarque-Bera (para n > 2000, pero tambi√©n √∫til para n peque√±as)
jarque_bera_test = jarque_bera(residuals)
print(f"Jarque-Bera Test: Estad√≠stico={jarque_bera_test.statistic:.3f}, p-value={jarque_bera_test.pvalue:.3f}")
if jarque_bera_test.pvalue > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")



# Prueba de Agostino-Pearson (D'Agostino's K-squared test)
agostino_test = normaltest(residuals)
print(f"\nAgostino-Pearson Test: Estad√≠stico={agostino_test.statistic:.3f}, p-value={agostino_test.pvalue:.3f}")
if agostino_test.pvalue > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

# Prueba de Anderson-Darling
anderson_test = anderson(residuals, dist='norm')
print(f"\nAnderson-Darling Test: Estad√≠stico={anderson_test.statistic:.3f}")
print("Valores cr√≠ticos y niveles de significancia:")
for i in range(len(anderson_test.critical_values)):
    sl, cv = anderson_test.significance_level[i], anderson_test.critical_values[i]
    if anderson_test.statistic < cv:
        print(f"  -> Para nivel de significancia {sl}%: estad√≠stico < {cv:.3f} (No rechazar normalidad)")
    else:
        print(f"  -> Para nivel de significancia {sl}%: estad√≠stico >= {cv:.3f} (Rechazar normalidad)")

# Prueba de Kolmogorov-Smirnov (con par√°metros estimados)
ks_test = kstest(residuals, 'norm', args=(residuals.mean(), residuals.std()))
print(f"\nKolmogorov-Smirnov Test: Estad√≠stico={ks_test.statistic:.3f}, p-value={ks_test.pvalue:.3f}")
if ks_test.pvalue > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

# Prueba de Lilliefors (Kolmogorov-Smirnov modificada para normalidad con par√°metros estimados)
lillie_test = lilliefors(residuals, dist='norm')
print(f"\nLilliefors Test: Estad√≠stico={lillie_test[0]:.3f}, p-value={lillie_test[1]:.3f}")
if lillie_test[1] > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")



print("\nObservar el Q-Q Plot: los puntos deben seguir aproximadamente la l√≠nea recta. Las desviaciones indican no normalidad.")
print("-" * 50)

## Supuesto 3: Homocedasticidad (Varianza Constante de los Residuos) üìè
# La varianza de los residuos debe ser constante en todos los niveles de las variables predictoras.
# Se verifica principalmente con el gr√°fico de residuos vs. valores predichos y pruebas estad√≠sticas.

print("\n--- Evaluaci√≥n del Supuesto de Homocedasticidad ---")
# El gr√°fico de residuos vs. valores predichos ya se mostr√≥ en la secci√≥n de linealidad.
# Buscar patrones en forma de embudo o cono, que indicar√≠an heterocedasticidad.

print("Pruebas estad√≠sticas:")

# Prueba de Breusch-Pagan
bp_test = het_breuschpagan(residuals, X_const)
print(f"Breusch-Pagan Test: LM Statistic={bp_test[0]:.3f}, p-value={bp_test[1]:.3f}, F-statistic={bp_test[2]:.3f}, F-p-value={bp_test[3]:.3f}")
if bp_test[1] > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: hay homocedasticidad (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: hay heterocedasticidad (p <= 0.05).")

# Prueba de White
white_test = het_white(residuals, X_const)
print(f"White Test: LM Statistic={white_test[0]:.3f}, p-value={white_test[1]:.3f}, F-statistic={white_test[2]:.3f}, F-p-value={white_test[3]:.3f}")
if white_test[1] > 0.05:
    print("  -> **No se puede rechazar la hip√≥tesis nula**: hay homocedasticidad (p > 0.05).")
else:
    print("  -> **Se rechaza la hip√≥tesis nula**: hay heterocedasticidad (p <= 0.05).")
print("-" * 50)

## Supuesto 4: Ausencia de Multicolinealidad üîÑ
# Las variables predictoras no deben estar altamente correlacionadas entre s√≠.
# Para este conjunto de datos, solo hay una variable predictora (X), por lo que la multicolinealidad no es un problema.
# Sin embargo, se incluye la secci√≥n para demostrar c√≥mo se har√≠a con m√∫ltiples variables.

print("\n--- Evaluaci√≥n del Supuesto de Ausencia de Multicolinealidad ---")
if X.ndim > 1 and X.shape[1] > 1: # Solo se aplica si hay m√°s de una variable predictora
    print("Matriz de Correlaci√≥n entre Variables Predictoras:")
    correlation_matrix = X.corr()
    print(correlation_matrix)

    plt.figure(figsize=(8, 6))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Matriz de Correlaci√≥n de Variables Predictoras')
    plt.show()

    print("\nFactor de Inflaci√≥n de la Varianza (VIF):")
    vif_data = pd.DataFrame()
    vif_data["feature"] = X.columns
    vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
    print(vif_data)

    print("\nInterpretaci√≥n del VIF:")
    print("  - VIF = 1: No hay correlaci√≥n.")
    print("  - VIF entre 1 y 5: Moderada correlaci√≥n.")
    print("  - VIF > 5 (o > 10, seg√∫n la literatura): Alta multicolinealidad, lo que puede ser problem√°tico.")
else:
    print("Solo hay una variable predictora (X), por lo que la multicolinealidad no es un problema en este modelo.")
print("-" * 50)

## Supuesto 5: Independencia de los Residuos (Ausencia de Autocorrelaci√≥n) üîó
# Los residuos no deben estar correlacionados entre s√≠. Esto es crucial en series de tiempo.
# Se verifica con el estad√≠stico de Durbin-Watson, que est√° incluido en el resumen de `statsmodels`.

print("\n--- Evaluaci√≥n del Supuesto de Independencia de los Residuos ---")
# Extrae la estadistica de Durbiny-Watson
summary_string = str(results.summary())
durbin_watson_line = [line for line in summary_string.split('\n') if 'Durbin-Watson' in line][0]
durbin_watson_stat = float(durbin_watson_line.split()[-1])

print(f"Estad√≠stico Durbin-Watson (del resumen del modelo): {durbin_watson_stat:.3f}")
print("Interpretaci√≥n del Durbin-Watson:")
print("  - Valor **cercano a 2**: No hay autocorrelaci√≥n.")
print("  - Valor **< 2**: Autocorrelaci√≥n positiva (residuos adyacentes similares).")
print("  - Valor **> 2**: Autocorrelaci√≥n negativa (residuos adyacentes opuestos).")
print("  - Un valor entre 1.5 y 2.5 generalmente se considera aceptable.")
print("-" * 50)

print("\n--- Conclusi√≥n de la Evaluaci√≥n de Supuestos ---")
print("La evaluaci√≥n de estos supuestos es crucial para confiar en las inferencias del modelo de regresi√≥n lineal.")
print("Si los supuestos no se cumplen, las estimaciones de los coeficientes y sus errores est√°ndar pueden no ser v√°lidas,")
print("afectando la significancia estad√≠stica y la capacidad de generalizaci√≥n del modelo.")
print("En caso de incumplimiento, se pueden considerar transformaciones de datos, la inclusi√≥n de otras variables,")
print("o el uso de modelos de regresi√≥n m√°s avanzados (ej. regresi√≥n robusta, modelos generalizados lineales).")

In [None]:
data = pd.read_excel("/content/sample_data/Data_Regresion.xlsx", sheet_name='data')
data.head()

##M√≠nimos Cuadrados Generalizados Factibles con GLSAR

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import probplot, shapiro, jarque_bera, normaltest, anderson, kstest
from statsmodels.stats.diagnostic import het_breuschpagan, het_white,lilliefors
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.regression.linear_model import GLS, GLSAR



# Transformar 'Puntaje(y)' (as per your original code)
#data['Puntaje(y)'] = data['Puntaje(y)']**3

# --- 1. Definir variables dependiente (Y) e independiente (X) ---
X = data[['Horas(x)']] # X debe ser un DataFrame para sm.add_constant
y = data['Puntaje(y)']

# A√±adir una constante a las caracter√≠sticas para el modelo statsmodels
X_const = sm.add_constant(X)

print("Datos Cargados:")
print(data)
print("-" * 50)

# --- 2. Construcci√≥n del Modelo de Regresi√≥n Lineal (OLS inicial para diagn√≥stico) ---
# Usamos statsmodels para tener un resumen detallado y acceso a los residuos para los supuestos.

model_ols = sm.OLS(y, X_const)
results_ols = model_ols.fit()
print("Resumen del Modelo de Regresi√≥n Lineal (OLS Inicial):")
print(results_ols.summary())
print("-" * 50)

# Obtener los residuos del modelo OLS
residuals_ols = results_ols.resid
fitted_values_ols = results_ols.fittedvalues

# --- 3. Evaluaci√≥n de Supuestos de la Regresi√≥n Lineal (con OLS) ---

## Supuesto 1: Linealidad üìà
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(x=X['Horas(x)'], y=y)
plt.title('Linealidad: X vs. Y (OLS)')
plt.xlabel('X')
plt.ylabel('Y')

plt.subplot(1, 2, 2)
sns.scatterplot(x=fitted_values_ols, y=residuals_ols)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos vs. Valores Predichos (OLS)')
plt.xlabel('Valores Predichos')
plt.ylabel('Residuos')
plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n del Supuesto de Linealidad (OLS) ---")
print("Observar el gr√°fico 'X vs. Y': si los puntos siguen una tendencia lineal, el supuesto se cumple.")
print("En el gr√°fico de 'Residuos vs. Valores Predichos', los residuos deben estar distribuidos aleatoriamente alrededor de cero, sin patrones evidentes (forma de embudo, curva, etc.).")
print("-" * 50)

## Supuesto 2: Normalidad de los Residuos üìä
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
sns.histplot(residuals_ols, kde=True)
plt.title('Histograma de los Residuos (OLS)')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
probplot(residuals_ols, dist="norm", plot=plt)
plt.title('Q-Q Plot de los Residuos (OLS)')
plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n del Supuesto de Normalidad de los Residuos (OLS) ---")
print("Pruebas estad√≠sticas:")

shapiro_test = shapiro(residuals_ols)
print(f"Shapiro-Wilk Test: Estad√≠stico={shapiro_test.statistic:.3f}, p-value={shapiro_test.pvalue:.3f}")
if shapiro_test.pvalue > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

jarque_bera_test = jarque_bera(residuals_ols)
print(f"Jarque-Bera Test: Estad√≠stico={jarque_bera_test.statistic:.3f}, p-value={jarque_bera_test.pvalue:.3f}")
if jarque_bera_test.pvalue > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

agostino_test = normaltest(residuals_ols)
print(f"\nAgostino-Pearson Test: Estad√≠stico={agostino_test.statistic:.3f}, p-value={agostino_test.pvalue:.3f}")
if agostino_test.pvalue > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

anderson_test = anderson(residuals_ols, dist='norm')
print(f"\nAnderson-Darling Test: Estad√≠stico={anderson_test.statistic:.3f}")
print("Valores cr√≠ticos y niveles de significancia:")
for i in range(len(anderson_test.critical_values)):
    sl, cv = anderson_test.significance_level[i], anderson_test.critical_values[i]
    if anderson_test.statistic < cv:
        print(f"   -> Para nivel de significancia {sl}%: estad√≠stico < {cv:.3f} (No rechazar normalidad)")
    else:
        print(f"   -> Para nivel de significancia {sl}%: estad√≠stico >= {cv:.3f} (Rechazar normalidad)")

ks_test = kstest(residuals_ols, 'norm', args=(residuals_ols.mean(), residuals_ols.std()))
print(f"\nKolmogorov-Smirnov Test: Estad√≠stico={ks_test.statistic:.3f}, p-value={ks_test.pvalue:.3f}")
if ks_test.pvalue > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

lillie_test = lilliefors(residuals_ols, dist='norm')
print(f"\nLilliefors Test: Estad√≠stico={lillie_test[0]:.3f}, p-value={lillie_test[1]:.3f}")
if lillie_test[1] > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: los residuos parecen ser normales (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: los residuos no parecen ser normales (p <= 0.05).")

print("\nObservar el Q-Q Plot: los puntos deben seguir aproximadamente la l√≠nea recta. Las desviaciones indican no normalidad.")
print("-" * 50)

## Supuesto 3: Homocedasticidad (Varianza Constante de los Residuos) üìè
print("\n--- Evaluaci√≥n del Supuesto de Homocedasticidad (OLS) ---")
print("Pruebas estad√≠sticas:")

bp_test = het_breuschpagan(residuals_ols, X_const)
print(f"Breusch-Pagan Test: LM Statistic={bp_test[0]:.3f}, p-value={bp_test[1]:.3f}, F-statistic={bp_test[2]:.3f}, F-p-value={bp_test[3]:.3f}")
if bp_test[1] > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: hay homocedasticidad (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: hay heterocedasticidad (p <= 0.05).")

white_test = het_white(residuals_ols, X_const)
print(f"White Test: LM Statistic={white_test[0]:.3f}, p-value={white_test[1]:.3f}, F-statistic={white_test[2]:.3f}, F-p-value={white_test[3]:.3f}")
if white_test[1] > 0.05:
    print("   -> **No se puede rechazar la hip√≥tesis nula**: hay homocedasticidad (p > 0.05).")
else:
    print("   -> **Se rechaza la hip√≥tesis nula**: hay heterocedasticidad (p <= 0.05).")
print("-" * 50)

## Supuesto 4: Ausencia de Multicolinealidad üîÑ
print("\n--- Evaluaci√≥n del Supuesto de Ausencia de Multicolinealidad ---")
if X.ndim > 1 and X.shape[1] > 1: # Solo se aplica si hay m√°s de una variable predictora
    print("Matriz de Correlaci√≥n entre Variables Predictoras:")
    correlation_matrix = X.corr()
    print(correlation_matrix)

    plt.figure(figsize=(8, 6))
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
    plt.title('Matriz de Correlaci√≥n de Variables Predictoras')
    plt.show()

    print("\nFactor de Inflaci√≥n de la Varianza (VIF):")
    vif_data = pd.DataFrame()
    vif_data["feature"] = X.columns
    vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
    print(vif_data)

    print("\nInterpretaci√≥n del VIF:")
    print("   - VIF = 1: No hay correlaci√≥n.")
    print("   - VIF entre 1 y 5: Moderada correlaci√≥n.")
    print("   - VIF > 5 (o > 10, seg√∫n la literatura): Alta multicolinealidad, lo que puede ser problem√°tico.")
else:
    print("Solo hay una variable predictora (X), por lo que la multicolinealidad no es un problema en este modelo.")
print("-" * 50)

## Supuesto 5: Independencia de los Residuos (Ausencia de Autocorrelaci√≥n) üîó
print("\n--- Evaluaci√≥n del Supuesto de Independencia de los Residuos (OLS) ---")
summary_string_ols = str(results_ols.summary())
durbin_watson_line_ols = [line for line in summary_string_ols.split('\n') if 'Durbin-Watson' in line][0]
durbin_watson_stat_ols = float(durbin_watson_line_ols.split()[-1])

print(f"Estad√≠stico Durbin-Watson (del resumen del modelo OLS): {durbin_watson_stat_ols:.3f}")
print("Interpretaci√≥n del Durbin-Watson:")
print("   - Valor **cercano a 2**: No hay autocorrelaci√≥n.")
print("   - Valor **< 2**: Autocorrelaci√≥n positiva (residuos adyacentes similares).")
print("   - Valor **> 2**: Autocorrelaci√≥n negativa (residuos adyacentes opuestos).")
print("   - Un valor entre 1.5 y 2.5 generalmente se considera aceptable.")
print("-" * 50)

# --- Implementaci√≥n de FGLS para Autocorrelaci√≥n (usando GLSAR) ---
# GLSAR es una implementaci√≥n de GLS para corregir la autocorrelaci√≥n.
# Estima el par√°metro de autocorrelaci√≥n (rho) y luego realiza la transformaci√≥n.

print("\n--- Implementaci√≥n de FGLS para corregir Autocorrelaci√≥n (usando GLSAR) ---")

# Para GLSAR, necesitamos un modelo GLSAR y el n√∫mero de lags para el AR(p) proceso.
# Generalmente, se empieza con AR(1) (lags=1) si el Durbin-Watson indica autocorrelaci√≥n positiva.
# Si el Durbin-Watson es bajo (mucho menor que 2), sugiere autocorrelaci√≥n positiva de primer orden.

# Ajustar un modelo GLSAR con un proceso AR(1)
model_glsar = GLSAR(y, X_const, 1) # 1 indica AR(1)
results_glsar = model_glsar.iterative_fit()

print("\nResumen del Modelo de Regresi√≥n con FGLS (GLSAR - AR(1)):")
print(results_glsar.summary())
print("-" * 50)

# Obtener los residuos y valores predichos del modelo GLSAR
residuals_glsar = results_glsar.resid
fitted_values_glsar = results_glsar.fittedvalues

# --- Re-evaluaci√≥n del Supuesto de Independencia de los Residuos (con FGLS) ---
print("\n--- Re-evaluaci√≥n del Supuesto de Independencia de los Residuos (despu√©s de FGLS) ---")
summary_string_glsar = str(results_glsar.summary())
durbin_watson_line_glsar = [line for line in summary_string_glsar.split('\n') if 'Durbin-Watson' in line][0]
durbin_watson_stat_glsar = float(durbin_watson_line_glsar.split()[-1])

print(f"Estad√≠stico Durbin-Watson (del resumen del modelo GLSAR): {durbin_watson_stat_glsar:.3f}")
print("Interpretaci√≥n del Durbin-Watson:")
print("   - Valor **cercano a 2**: No hay autocorrelaci√≥n.")
print("   - Valor **< 2**: Autocorrelaci√≥n positiva (residuos adyacentes similares).")
print("   - Valor **> 2**: Autocorrelaci√≥n negativa (residuos adyacentes opuestos).")
print("   - Un valor entre 1.5 y 2.5 generalmente se considera aceptable.")
print("\nDespu√©s de aplicar FGLS, esperamos que el estad√≠stico Durbin-Watson se acerque a 2.")
print("-" * 50)

# --- Visualizaci√≥n de Residuos despu√©s de FGLS ---
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
sns.scatterplot(x=fitted_values_glsar, y=residuals_glsar)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos vs. Valores Predichos (GLSAR)')
plt.xlabel('Valores Predichos (GLSAR)')
plt.ylabel('Residuos (GLSAR)')

plt.subplot(1, 2, 2)
sns.histplot(residuals_glsar, kde=True)
plt.title('Histograma de Residuos (GLSAR)')
plt.xlabel('Residuos (GLSAR)')
plt.ylabel('Frecuencia')

plt.tight_layout()
plt.show()

print("\n--- Conclusi√≥n de la Evaluaci√≥n de Supuestos ---")
print("La evaluaci√≥n de estos supuestos es crucial para confiar en las inferencias del modelo de regresi√≥n lineal.")
print("Si los supuestos no se cumplen, las estimaciones de los coeficientes y sus errores est√°ndar pueden no ser v√°lidas,")
print("afectando la significancia estad√≠stica y la capacidad de generalizaci√≥n del modelo.")
print("En caso de incumplimiento, se pueden considerar transformaciones de datos, la inclusi√≥n de otras variables,")
print("o el uso de modelos de regresi√≥n m√°s avanzados (ej. regresi√≥n robusta, modelos generalizados lineales).")



##M√≠nimos cuadrados ponderados (wls)



In [None]:
# --- Implementaci√≥n de M√≠nimos Cuadrados Ponderados (WLS) ---

print("\n--- Implementaci√≥n de M√≠nimos Cuadrados Ponderados (WLS) ---")

# 1. Explicaci√≥n de WLS
print("\n**Concepto de M√≠nimos Cuadrados Ponderados (WLS)**")
print("M√≠nimos Cuadrados Ponderados (WLS) es un m√©todo de regresi√≥n que se utiliza")
print("cuando el supuesto de homocedasticidad de los errores se viola (es decir, hay heterocedasticidad).")
print("La heterocedasticidad implica que la varianza de los errores no es constante")
print("a lo largo de los diferentes niveles de las variables predictoras.")
print("En WLS, se asignan pesos a cada observaci√≥n. Las observaciones con menor varianza (errores m√°s peque√±os)")
print("reciben pesos mayores, y las observaciones con mayor varianza (errores m√°s grandes)")
print("reciben pesos menores. Esto le da m√°s 'importancia' en el ajuste del modelo a las observaciones")
print("que son m√°s fiables (tienen menor varianza), corrigiendo as√≠ el problema de la heterocedasticidad")
print("y produciendo estimaciones de coeficientes m√°s eficientes (menores errores est√°ndar).")
print("Generalmente, los pesos son inversamente proporcionales a la varianza de los errores.")

# 2. Definir los pesos
# Una forma com√∫n de estimar los pesos es usar los residuos del modelo OLS inicial.
# Si la varianza de los errores es proporcional a alguna funci√≥n de las variables predictoras
# o de los valores ajustados, podemos usar esa funci√≥n para definir los pesos.
# Por ejemplo, si la varianza es proporcional a los valores ajustados al cuadrado (fitted_values_ols**2),
# los pesos ser√≠an inversamente proporcionales a fitted_values_ols**2.
# Para evitar dividir por cero o valores muy peque√±os, a menudo se a√±ade una peque√±a constante.

# Estimaci√≥n de los pesos: Inverso de la varianza estimada de los residuos OLS
# Una aproximaci√≥n simple es usar el inverso de los residuos al cuadrado del modelo OLS.
# Sin embargo, esto puede ser problem√°tico si los residuos son cercanos a cero.
# Una alternativa com√∫n es usar el inverso de los valores ajustados al cuadrado o alguna transformaci√≥n de X.
# Aqu√≠, usaremos el inverso de los valores ajustados del modelo OLS.
# Se recomienda a√±adir una peque√±a constante para evitar la divisi√≥n por cero.
weights = 1.0 / (fitted_values_ols**2 + 1e-6) # A√±adir una peque√±a constante para estabilidad

print("\nPesos calculados (basados en el inverso de los valores ajustados del modelo OLS):")
print(weights.head())
print("-" * 50)

# 3. Ajustar el modelo WLS
# Usamos la clase WLS de statsmodels, pasando la variable dependiente, las predictoras con constante, y los pesos.
model_wls = sm.WLS(y, X_const, weights=weights)
results_wls = model_wls.fit()

# 4. Mostrar el resumen de los resultados del modelo WLS
print("\nResumen del Modelo de Regresi√≥n con WLS:")
print(results_wls.summary())
print("-" * 50)

# 5. Explicar c√≥mo los pesos influyen en el ajuste y los resultados
print("\n**Influencia de los Pesos en el Modelo WLS**")
print("En el modelo WLS, las observaciones con pesos m√°s altos (generalmente aquellas con menor varianza de error estimada)")
print("tienen una mayor influencia en la determinaci√≥n de los coeficientes de regresi√≥n.")
print("Esto significa que el modelo se ajusta m√°s estrechamente a los puntos de datos que se consideran m√°s 'fiables' (menos ruidosos).")
print("La principal ventaja es que las estimaciones de los coeficientes son m√°s eficientes (tienen menores errores est√°ndar)")
print("en presencia de heterocedasticidad, en comparaci√≥n con OLS.")
print("Comparando el resumen de WLS con el de OLS, se observar√° que los errores est√°ndar de los coeficientes son diferentes,")
print("y potencialmente menores, lo que puede afectar la significancia estad√≠stica (valores p).")
print("El R-cuadrado en WLS se interpreta de manera diferente a OLS y a menudo no es directamente comparable.")
print("-" * 50)


# Obtener los residuos y valores predichos del modelo WLS
residuals_wls = results_wls.resid
fitted_values_wls = results_wls.fittedvalues

# 6. Incluir visualizaciones (residuos ponderados vs. valores ajustados)
# Para evaluar la homocedasticidad despu√©s de aplicar WLS, es √∫til graficar los residuos ponderados
# (residuos * sqrt(weights)) o los residuos sin ponderar frente a los valores ajustados.
# Idealmente, los residuos ponderados vs. valores ajustados deber√≠an mostrar una dispersi√≥n m√°s uniforme alrededor de cero.

# Calcular residuos ponderados
weighted_residuals_wls = residuals_wls * np.sqrt(weights)

plt.figure(figsize=(12, 6))

# Gr√°fico de Residuos WLS sin ponderar vs. Valores Predichos WLS
plt.subplot(1, 2, 1)
sns.scatterplot(x=fitted_values_wls, y=residuals_wls)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos (WLS) vs. Valores Predichos (WLS)')
plt.xlabel('Valores Predichos (WLS)')
plt.ylabel('Residuos (WLS)')

# Gr√°fico de Residuos Ponderados WLS vs. Valores Predichos WLS
plt.subplot(1, 2, 2)
sns.scatterplot(x=fitted_values_wls, y=weighted_residuals_wls)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos Ponderados (WLS) vs. Valores Predichos (WLS)')
plt.xlabel('Valores Predichos (WLS)')
plt.ylabel('Residuos Ponderados (WLS)')

plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n de Homocedasticidad (despu√©s de WLS) ---")
print("Observar el gr√°fico de 'Residuos Ponderados (WLS) vs. Valores Predichos (WLS)'.")
print("Esperamos que la dispersi√≥n de los puntos sea m√°s uniforme alrededor de la l√≠nea cero")
print("en comparaci√≥n con el gr√°fico de residuos vs. valores predichos del modelo OLS inicial.")
print("Esto indicar√≠a que WLS ha ayudado a corregir la heterocedasticidad.")
print("-" * 50)


## Regresi√≥n Lineal Robusta
.


In [None]:
# --- Implementaci√≥n de Regresi√≥n Lineal Robusta ---

print("\n--- Implementaci√≥n de Regresi√≥n Lineal Robusta ---")

# 1. Explicaci√≥n de Regresi√≥n Lineal Robusta
print("\n**Concepto de Regresi√≥n Lineal Robusta**")
print("La Regresi√≥n Lineal Robusta es una alternativa a M√≠nimos Cuadrados Ordinarios (OLS)")
print("que es menos sensible a la presencia de valores at√≠picos (outliers) o influyentes")
print("en los datos. Mientras que OLS minimiza la suma de los errores al cuadrado,")
print("lo que hace que los valores at√≠picos tengan un impacto cuadr√°tico grande en el ajuste,")
print("la regresi√≥n robusta utiliza diferentes funciones de p√©rdida o esquemas de ponderaci√≥n")
print("para mitigar la influencia de estas observaciones extremas.")
print("Se utiliza t√≠picamente cuando la inspecci√≥n visual de los datos o el an√°lisis de residuos")
print("del modelo OLS inicial sugiere la presencia de outliers que podr√≠an distorsionar los resultados de OLS.")

# 2. M√©todos de Regresi√≥n Robusta en statsmodels
print("\n**M√©todos de Regresi√≥n Robusta en `statsmodels`**")
print("`statsmodels` implementa varios m√©todos de estimaci√≥n robusta.")
print("Los m√°s comunes son los M-estimators (Estimadores M).")
print("Los M-estimators generalizan la idea de OLS minimizando una funci√≥n de p√©rdida (rho)")
print("de los residuos, en lugar del cuadrado de los residuos. Equivalente a esto,")
print("ponderan las observaciones de manera iterativa en funci√≥n del tama√±o de sus residuos;")
print("los residuos m√°s grandes reciben un peso menor.")
print("Algunas funciones de ponderaci√≥n (normas) comunes para M-estimators incluyen:")
print("  - Huber's T (HuberT): Pondera linealmente los residuos grandes.")
print("  - Tukey's Biweight (TukeyBiweight): Asigna peso cero a residuos que exceden un cierto umbral,")
print("    eliminando efectivamente su influencia.")
print("La clase `statsmodels.api.RLM` (Robust Linear Model) implementa M-estimators.")
print("Por defecto, `RLM` utiliza la norma de Huber (HuberT).")

# 3. Importar la clase RLM (ya importada en una celda anterior)
# from statsmodels.api import RLM # No es necesario importar de nuevo

# 4. Instanciar un modelo de regresi√≥n robusta
# Usamos la clase RLM de statsmodels. Podemos especificar una funci√≥n de ponderaci√≥n (norm).
# Por defecto, usa HuberT. Aqu√≠ usaremos HuberT expl√≠citamente o dejaremos el valor por defecto.
# Tambi√©n podemos usar TukeyBiweight: sm.robust.norms.TukeyBiweight()

model_robust = sm.RLM(y, X_const, M=sm.robust.norms.HuberT())
# O simplemente: model_robust = sm.RLM(y, X_const) # Usa HuberT por defecto

# 5. Ajustar el modelo robusto
results_robust = model_robust.fit()

# 6. Mostrar el resumen de los resultados del modelo de regresi√≥n robusta
print("\nResumen del Modelo de Regresi√≥n Robusta (usando HuberT):")
print(results_robust.summary())
print("-" * 50)

In [None]:
# 7. Obtener los residuos y valores predichos del modelo robusto
residuals_robust = results_robust.resid
fitted_values_robust = results_robust.fittedvalues

print("\nResiduos del modelo Robusto (HuberT):")
print(residuals_robust.head())
print("\nValores predichos del modelo Robusto (HuberT):")
print(fitted_values_robust.head())
print("-" * 50)

# 8. Visualizar los residuos del modelo robusto
plt.figure(figsize=(12, 6))

# Gr√°fico de Residuos Robusto vs. Valores Predichos Robusto
plt.subplot(1, 2, 1)
sns.scatterplot(x=fitted_values_robust, y=residuals_robust)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos (Robusto - HuberT) vs. Valores Predichos (Robusto)')
plt.xlabel('Valores Predichos (Robusto)')
plt.ylabel('Residuos (Robusto)')

# Gr√°fico de Residuos OLS vs. Valores Predichos OLS para comparaci√≥n (usando variables de celdas anteriores)
plt.subplot(1, 2, 2)
sns.scatterplot(x=fitted_values_ols, y=residuals_ols)
plt.axhline(0, color='red', linestyle='--')
plt.title('Residuos (OLS) vs. Valores Predichos (OLS) - Comparaci√≥n')
plt.xlabel('Valores Predichos (OLS)')
plt.ylabel('Residuos (OLS)')

plt.tight_layout()
plt.show()

print("\n--- Evaluaci√≥n Visual de Residuos (Robusto vs. OLS) ---")
print("Observar el gr√°fico de 'Residuos (Robusto - HuberT) vs. Valores Predichos (Robusto)'.")
print("La dispersi√≥n de los puntos puede ser diferente a la del gr√°fico OLS,")
print("especialmente si hay valores at√≠picos. Los puntos at√≠picos que ten√≠an")
print("una gran desviaci√≥n en OLS pueden tener una menor influencia o un patr√≥n diferente")
print("en el modelo robusto debido a la reponderaci√≥n.")
print("-" * 50)


# 9. Imprimir una breve interpretaci√≥n de los resultados del modelo robusto
print("\n--- Interpretaci√≥n de los Resultados del Modelo Robusto (HuberT) ---")
print("Comparando el resumen del Modelo Robusto con el del Modelo OLS inicial:")
print(f"- Coeficiente 'const' (Robusto): {results_robust.params['const']:.3f} (OLS: {results_ols.params['const']:.3f})")
print(f"- Coeficiente 'Horas(x)' (Robusto): {results_robust.params['Horas(x)']:.3f} (OLS: {results_ols.params['Horas(x)']:.3f})")
print(f"- Error Est√°ndar 'const' (Robusto): {results_robust.bse['const']:.3f} (OLS: {results_ols.bse['const']:.3f})")
print(f"- Error Est√°ndar 'Horas(x)' (Robusto): {results_robust.bse['Horas(x)']:.3f} (OLS: {results_ols.bse['Horas(x)']:.3f})")

print("\nObservaciones:")
print("Los coeficientes estimados por el modelo robusto pueden diferir de los de OLS,")
print("especialmente si hay valores at√≠picos que influyen en el ajuste de OLS.")
print("Los errores est√°ndar del modelo robusto a menudo se calculan de manera diferente")
print("(por defecto, usa Cov Type H1 en statsmodels RLM, que es robusta a la heterocedasticidad)")
print("y pueden proporcionar inferencias m√°s fiables en presencia de desviaciones de los supuestos de OLS.")
print("La regresi√≥n robusta, al ponderar menos los outliers, tiende a ajustar la 'tendencia central' de los datos,")
print("siendo menos arrastrada por puntos extremos.")
print("En este caso, el coeficiente de 'Horas(x)' es ligeramente diferente y el intercepto tambi√©n,")
print("lo que sugiere que el modelo robusto ha ajustado el ajuste para ser menos influenciado por")
print("las observaciones con residuos grandes (los posibles outliers identificados en el an√°lisis OLS anterior).")
print("-" * 50)

## Modelos Lineales Generalizados



In [None]:
# --- Implementaci√≥n de Modelos Lineales Generalizados (GLM) ---

print("\n--- Implementaci√≥n de Modelos Lineales Generalizados (GLM) ---")

# 1. Explicaci√≥n de GLM
print("\n**Concepto de Modelos Lineales Generalizados (GLM)**")
print("Los Modelos Lineales Generalizados (GLM) extienden el modelo de regresi√≥n lineal cl√°sico (OLS)")
print("para permitir que la variable dependiente (respuesta) tenga una distribuci√≥n de error")
print("distinta a la normal y para relacionar la media de la respuesta con una combinaci√≥n")
print("lineal de las variables predictoras a trav√©s de una **funci√≥n de enlace**.")
print("El modelo lineal cl√°sico asume que:")
print("  - La variable dependiente es continua.")
print("  - Los errores son independientes y se distribuyen normalmente con media cero y varianza constante (homocedasticidad).")
print("  - La relaci√≥n entre la media de la variable dependiente y las predictoras es lineal.")
print("\nGLM relaja estas suposiciones al especificar:")
print("  - Una **distribuci√≥n de probabilidad** para la variable dependiente (ej. Binomial para datos binarios, Poisson para conteos, Gamma para datos positivos asim√©tricos).")
print("  - Una **funci√≥n de enlace** que transforma la media esperada de la variable dependiente para que la relaci√≥n con la combinaci√≥n lineal de las predictoras sea lineal. G(E[y]) = XŒ≤.")
print("  - Una **funci√≥n de varianza** que describe c√≥mo la varianza de la respuesta depende de la media.")

# 2. Ejemplos comunes de GLM
print("\n**Ejemplos Comunes de GLM:**")
print("  - **Regresi√≥n Log√≠stica:** Para variables dependientes binarias (0/1). Utiliza la familia Binomial y la funci√≥n de enlace logit.")
print("  - **Regresi√≥n de Poisson:** Para variables dependientes de conteo (n√∫meros enteros no negativos). Utiliza la familia Poisson y la funci√≥n de enlace log.")
print("  - **Regresi√≥n Gamma:** Para variables dependientes continuas y positivas con distribuciones asim√©tricas (ej. tiempos de espera, reclamaciones de seguros). Utiliza la familia Gamma y una funci√≥n de enlace como la inversa o la log.")
print("  - **Regresi√≥n Lineal (como un caso especial de GLM):** Utiliza la familia Gaussiana (Normal) y la funci√≥n de enlace identidad.")


# 3. Preparar datos para un ejemplo b√°sico de GLM (Regresi√≥n de Poisson)
# El conjunto de datos actual ('data') es continuo y no es ideal para Poisson o Log√≠stica.
# Simularemos datos simples para una Regresi√≥n de Poisson.
# Supongamos que queremos modelar el n√∫mero de eventos (un conteo) en funci√≥n de una variable predictora.

np.random.seed(42) # para reproducibilidad
n_samples = 100
# Variable predictora (ej. nivel de exposici√≥n, tiempo)
X_sim = np.random.rand(n_samples) * 10
# Combinaci√≥n lineal de predictoras (en este caso, solo una)
linear_predictor = 0.5 + 0.3 * X_sim
# Media esperada para una distribuci√≥n de Poisson (lambda = exp(linear_predictor))
# La funci√≥n de enlace log (log(lambda) = linear_predictor) es la can√≥nica para Poisson.
mu_sim = np.exp(linear_predictor)
# Generar datos de conteo siguiendo una distribuci√≥n de Poisson con la media calculada
y_sim = np.random.poisson(mu_sim)

# Crear un DataFrame para los datos simulados
data_glm = pd.DataFrame({'X_sim': X_sim, 'y_sim': y_sim})

# A√±adir una constante a las caracter√≠sticas para el modelo statsmodels
X_sim_const = sm.add_constant(data_glm['X_sim'])
y_sim = data_glm['y_sim']

print("\nDatos Simulados para Regresi√≥n de Poisson:")
print(data_glm.head())
print("-" * 50)


In [None]:
# 4. Instanciar un modelo GLM (Regresi√≥n de Poisson)
# Usamos la clase GLM de statsmodels, especificando la variable dependiente, las predictoras con constante,
# y la familia de distribuci√≥n de errores (Poisson en este caso).

model_glm = sm.GLM(y_sim, X_sim_const, family=sm.families.Poisson())

# 5. Ajustar el modelo GLM
results_glm = model_glm.fit()

# 6. Mostrar el resumen de los resultados del modelo GLM
print("\nResumen del Modelo GLM (Regresi√≥n de Poisson):")
print(results_glm.summary())
print("-" * 50)

# 7. Explicar las diferencias clave en la interpretaci√≥n de los resultados de un GLM
print("\n**Diferencias Clave en la Interpretaci√≥n de Resultados (GLM vs. OLS)**")
print("Comparando el resumen del Modelo GLM (Poisson) con el del Modelo OLS:")
print("\n**Coeficientes:**")
print("  - En OLS, los coeficientes se interpretan directamente como el cambio esperado en la media de Y por un cambio de una unidad en X, manteniendo otras variables constantes.")
print("  - En GLM, los coeficientes se interpretan en la **escala de la funci√≥n de enlace**. Para la Regresi√≥n de Poisson con enlace log, el coeficiente de una predictora")
print("    representa el cambio esperado en el **logaritmo de la media** de Y por un cambio de una unidad en X.")
print("    Esto significa que un cambio de una unidad en X multiplica la media esperada de Y por exp(coeficiente).")
print("    Por ejemplo, si el coeficiente es 0.3, un aumento de 1 en X multiplica la media esperada por exp(0.3) ‚âà 1.35 (un aumento del 35%).")

print("\n**Bondad de Ajuste:**")
print("  - OLS utiliza R-cuadrado como m√©trica principal. Mide la proporci√≥n de la varianza en Y explicada por el modelo.")
print("  - GLM no usa R-cuadrado de la misma manera. Las m√©tricas de bondad de ajuste para GLM a menudo se basan en la **devianza**, que es una generalizaci√≥n de la suma de cuadrados residuales.")
print("    La devianza residual mide la discrepancia entre el modelo ajustado y los datos saturados (un modelo que ajusta perfectamente cada observaci√≥n).")
print("    Una devianza residual peque√±a en relaci√≥n con los grados de libertad sugiere un buen ajuste.")
print("    Tambi√©n se puede usar la devianza nula (deviance of the null model, con solo el intercepto) para calcular m√©tricas an√°logas al R-cuadrado (pseudo R-squared),")
print("    como el Pseudo R-squared de McFadden, Cox-Snell, o Nagelkerke, aunque su interpretaci√≥n es diferente a la de OLS.")
print("    El AIC (Criterio de Informaci√≥n de Akaike) y BIC (Criterio de Informaci√≥n Bayesiano) tambi√©n se utilizan para comparar modelos GLM.")

print("\n**Supuestos:**")
print("  - OLS asume normalidad, homocedasticidad e independencia de los errores.")
print("  - GLM asume que la variable dependiente sigue la distribuci√≥n de la familia especificada y que los errores son independientes.")
print("    No asume homocedasticidad (la varianza puede depender de la media, seg√∫n la familia) ni normalidad de los errores en la escala original.")

print("\n**Errores Est√°ndar y Significancia:**")
print("  - Los errores est√°ndar y los valores p se interpretan de manera similar (para probar la significancia de los coeficientes),")
print("    pero se derivan de la teor√≠a de m√°xima verosimilitud, que es la base de la estimaci√≥n de GLM, en lugar de OLS.")

# 8. Concluir resaltando cu√°ndo usar GLM
print("\n--- Cu√°ndo Considerar el Uso de un GLM ---")
print("Debe considerar usar un GLM en lugar de OLS cuando:")
print("  - Su variable dependiente **no es continua** o **no tiene errores distribuidos normalmente**.")
print("    (ej. binaria, conteo, proporci√≥n, datos positivos asim√©tricos).")
print("  - La **varianza de los errores no es constante** y/o depende de la media de la respuesta.")
print("  - La relaci√≥n entre la media de la respuesta y las predictoras **no es lineal** en la escala original,")
print("    pero puede ser lineal en la escala transformada por una funci√≥n de enlace adecuada.")
print("GLM proporciona un marco flexible para modelar una variedad m√°s amplia de tipos de datos de respuesta que OLS.")
print("-" * 50)

La Regresi√≥n por M√≠nimos Cuadrados Ponderados (WLS) aborda la heterocedasticidad asignando pesos a las observaciones, dando m√°s importancia a aquellas con menor varianza de error. Un enfoque com√∫n es usar pesos inversamente proporcionales a los valores ajustados al cuadrado de un modelo OLS inicial. El resumen del modelo WLS muestra errores est√°ndar ajustados en comparaci√≥n con OLS, y los gr√°ficos de residuos ponderados pueden indicar si la heterocedasticidad se ha mitigado.

Los M√≠nimos Cuadrados Generalizados (GLS) son un m√©todo m√°s general que OLS y WLS, capaz de manejar tanto la heterocedasticidad como la autocorrelaci√≥n. Su implementaci√≥n en statsmodels requiere especificar la matriz de covarianza de error (Œ©). Si Œ© es diagonal con entradas inversamente proporcionales a los pesos de WLS, los resultados de GLS ser√°n num√©ricamente id√©nticos a WLS. En la pr√°ctica, Œ© es a menudo desconocida y necesita ser estimada (GLS Factible - FGLS).

La Regresi√≥n Lineal Robusta es menos sensible a los valores at√≠picos que OLS. Los estimadores M, como Huber's T o Tukey's Biweight, son m√©todos comunes que re-ponderan iterativamente las observaciones bas√°ndose en sus residuos, reduciendo la influencia de los residuos grandes. El resumen del modelo robusto y los gr√°ficos de residuos pueden mostrar diferencias en las estimaciones de los coeficientes y los errores est√°ndar de los errores en comparaci√≥n con OLS, lo que refleja el impacto reducido de los valores at√≠picos.

Los Modelos Lineales Generalizados (GLM) extienden la regresi√≥n lineal a variables dependientes que no son continuas o normalmente distribuidas (por ejemplo, binarias, de recuento). Los GLM requieren especificar una distribuci√≥n de probabilidad para la respuesta (por ejemplo, Binomial, Poisson) y una funci√≥n de enlace para relacionar la media de la respuesta con el predictor lineal. La interpretaci√≥n de los coeficientes se realiza en la escala de la funci√≥n de enlace, no en la escala de respuesta original, y la bondad del ajuste se eval√∫a utilizando m√©tricas como la deviance y el pseudo R-cuadrado en lugar del R-cuadrado de OLS.

