In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/ryupepa/Econometrica/master/python-notebooks/data-csv/sleep75.csv')

In [3]:
model = smf.ols(data=df, formula='sleep~totwrk+age+I(age**2)+male+smsa+south').fit()

In [4]:
# Для того, чтобы проверить наличие гетероскедастичности с помощью теста Бройша-Пагана,
# необходимо построить вспомогательную регрессию,
#зависимой переменной в которой будут квадраты остатков исходной регресси.

$$e_i = y_i - \hat{y}_i$$
$$
e_i^2 = \gamma_0 + \gamma_1*totwrk+age+\gamma_2*I(age**2)+\gamma_3*male+\gamma_3*smsa+\gamma_4*south
$$

In [5]:
# квадраты остатков добавим в датафрейм, воспользовавшись методом '.resid', возвращающий значения остатков
df['res2']=model.resid**2
df['res']=model.resid

In [6]:
 sub_model= smf.ols(data=df, formula='res2~totwrk+age+I(age**2)+male+smsa+south').fit()

## Сформулируем проверямемую гипотезу, о характере зависимости дисперсии ошибок от факторов регресси
$$
H_0: \sigma_i^2 \equiv \sigma^2=f(\gamma_0),
$$
$$
H_1:\sigma_i^2 = f(\gamma_0 + z_{i1}\gamma_1 + z_{i2}*\gamma_2 + \dots + \gamma_{ip}\gamma_p).
$$
### Другими словами, значимость вспомогательной регресси в целом, т.е.
$$
H_0: \gamma_1=\gamma_2=\gamma_3=\gamma_4=\gamma_5=\gamma_6=0,
$$
$$
H_1:  \gamma_1^2+\gamma_2^2+\gamma_3^2+\gamma_4^2+\gamma_5^2+\gamma_6^2>0.
$$

### При справедливости нулевой гипотезы статистика $n*R_0^2 $ имеет распределение хи-квадрат:
$$
nR_0^2 \approx_{H_0} \chi^2_p
$$

In [7]:
St = np.round(len(df)*sub_model.rsquared,2)
St

8.31

In [8]:
Hi2 = stats.chi2.ppf(1-0.05,6)
Hi2

12.591587243743977

$$
nR_0^2 < \chi_p^2.
$$
### Нет оснований отвергнуть нулевую гипотезу. Тест указывает на гомоскедастичность.