In [18]:
import statsmodels.api as sm
import pandas as pd

In [3]:
# Cargamos el conjunto de datos longley utilizando la función load del módulo datasets de statsmodels.
# La opción as_pandas = False indica que queremos cargar los datos en un formato que no sea un DataFrame de pandas.
data = sm.datasets.longley.load()

# Añadimos una columna de unos (constantes) al conjunto de datos exógeno (predictores).
# Esto es necesario para incluir el término independiente en nuestro modelo de regresión.
data.exog = sm.add_constant(data.exog)

In [8]:
# Imprimir los primeros 5 elementos de los datos exógenos y endógenos
print("Datos exógenos (predictores):")
print(data.exog[:5])
print("Datos endógenos (variable de respuesta):")
print(data.endog[:5])


Datos exógenos (predictores):
   const  GNPDEFL       GNP   UNEMP   ARMED       POP    YEAR
0    1.0     83.0  234289.0  2356.0  1590.0  107608.0  1947.0
1    1.0     88.5  259426.0  2325.0  1456.0  108632.0  1948.0
2    1.0     88.2  258054.0  3682.0  1616.0  109773.0  1949.0
3    1.0     89.5  284599.0  3351.0  1650.0  110929.0  1950.0
4    1.0     96.2  328975.0  2099.0  3099.0  112075.0  1951.0
Datos endógenos (variable de respuesta):
0    60323.0
1    61122.0
2    60171.0
3    61187.0
4    63221.0
Name: TOTEMP, dtype: float64


La heterocedasticidad es un concepto estadístico que se refiere a la variabilidad desigual de los errores de un modelo de regresión a lo largo de los valores de la variable independiente. En otras palabras, la heterocedasticidad implica que la dispersión de los errores no es constante en todos los niveles de la variable explicativa.

En un modelo de regresión lineal, se asume que la varianza de los errores es constante en todos los niveles de la variable independiente. Esto se conoce como homocedasticidad. Sin embargo, cuando hay heterocedasticidad, la varianza de los errores cambia a medida que varían los valores de la variable independiente.

La presencia de heterocedasticidad puede tener implicaciones importantes para la validez de las inferencias estadísticas derivadas del modelo de regresión. Puede conducir a estimaciones sesgadas de los errores estándar, lo que afecta la precisión de las pruebas de hipótesis y la confianza en los intervalos de confianza. Además, puede afectar la eficiencia de los estimadores de los coeficientes de regresión.

Existen pruebas estadísticas específicas, como la prueba de Breusch-Pagan o la prueba de White, que se utilizan para evaluar la presencia de heterocedasticidad en un modelo de regresión. Si se detecta heterocedasticidad, se pueden aplicar técnicas de corrección, como transformaciones de variables o el uso de modelos de regresión robustos que tienen en cuenta la heterocedasticidad.

In [12]:
# Ajustamos un modelo de mínimos cuadrados ordinarios (OLS) a los datos.
# Utilizamos data.endog como la variable de respuesta (endógena) y data.exog como las variables predictoras (exógenas).
# Luego, llamamos al método .fit() para ajustar el modelo a los datos.
# Después, utilizamos .resid para obtener los residuos del modelo.
ols_resid = sm.OLS(data.endog, data.exog).fit().resid

In [13]:
ols_resid

0     267.340030
1     -94.013942
2      46.287168
3    -410.114622
4     309.714591
5    -249.311215
6    -164.048956
7     -13.180357
8      14.304773
9     455.394095
10    -17.268927
11    -39.055043
12   -155.549974
13    -85.671308
14    341.931514
15   -206.757825
dtype: float64

In [20]:
import numpy as np

# Convertir los residuos en un array de numpy
ols_resid_array = np.array(ols_resid[:-1])

# Crear una serie de pandas con los residuos
ols_resid_exog = pd.Series(sm.add_constant(ols_resid_array), index=range(len(ols_resid_array)))

# Ajustar el modelo OLS con los datos realineados
resid_fit = sm.OLS(ols_resid_endog, ols_resid_exog).fit()



ValueError: Data must be 1-dimensional, got ndarray of shape (15, 2) instead