## Листок 8: Мультиколлинеарность

### Ссылка на листки, ноутбуки и данные

https://github.com/artamonoff/Econometrica

## Ссылки на документацию

https://www.statsmodels.org/stable/generated/statsmodels.regression.linear_model.OLSResults.html#statsmodels.regression.linear_model.OLSResults

https://tedboy.github.io/statsmodels_doc/index.html

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm 
import statsmodels.formula.api as smf
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from statsmodels.iolib.summary2 import summary_col # вывод результатов тестирования
from statsmodels.stats.outliers_influence import variance_inflation_factor # VIF
import scipy
import matplotlib.pyplot as plt
import seaborn as sns

## 1 sleep equation #1

## 1.1 VIFs

Для набора данных `sleep75` рассмотрим линейную регрессию

**sleep на totwrk/100, totwrk^2/10000, age, smsa, male, south**.

Какие регрессии нужно рассматривать для вычисления показателей VIF для коэффициентов
**totwrk, totwrk^2, male**? 

Ответ

- **totwrk/100 на totwrk^2/10000, age, smsa, male, south**
- **totwrk^2/10000 на totwrk/100, age, smsa, male, south**
- **male на totwrk/100, totwrk^2/10000, age, smsa, south**

In [None]:
data_sleep = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
data_sleep.shape

In [None]:
# Модель sleep на totwrk/100, totwrk^2/10000, age, smsa, male, south
Sleep_eq11 = smf.ols(formula = 'sleep~I(totwrk/100)+I(totwrk**2/10000)+age+smsa+male+south', data = data_sleep).fit()

In [None]:
# Модель 1:  totwrk/100 на totwrk^2/10000, age, smsa, male, south
# Создаем спецификацию модели через формулу и подгоняем модель
model_11 = smf.ols(formula = 'I(totwrk/100)~I(totwrk**2/10000)+age+smsa+male+south', data = data_sleep).fit()

In [None]:
# Модель 2: totwrk^2/10000 на totwrk/100, age, smsa, male, south
# Создаем спецификацию модели через формулу и подгоняем модель
model_12 = smf.ols(formula = 'I(totwrk**2/10000)~I(totwrk/100)+age+smsa+male+south', data = data_sleep).fit()

In [None]:
# Модель 3: male на totwrk/100, totwrk^2/10000, age, smsa, south
# Создаем спецификацию модели через формулу и подгоняем модель
model_13 = smf.ols(formula = 'male~I(totwrk/100)+I(totwrk**2/10000)+age+smsa+south', data = data_sleep).fit()

In [None]:
#Результаты подгонки
# info_dict = {'No. Observations': lambda x: '{0:d}'.format(int(x.nobs)), 
#              'R-squared': lambda x: "%#8.3f" % x.rsquared,
#              'Adj. R-squared': lambda x: "%#8.3f" % x.rsquared_adj,
#              'Residual Std. Error': lambda x: "%#8.3f" % x.mse_resid**0.5,
#              'F-statistic': lambda x: '{:.3f}'.format(x.fvalue), 
#              'Prob (F-statistic)': lambda x: '{:.3f}'.format(x.f_pvalue)
#              }

print(summary_col([model_11, model_12, model_13], stars=True, float_format='%.3f'))

In [None]:
# VIF для totwrk/100 c округлением до 2-х десятичных знаков
VIF_1 = 1/(1 - model_11.rsquared)
VIF_1.round(2)

In [None]:
# VIF для totwrk^2/10000 c округлением до 2-х десятичных знаков
VIF_2 = 1/(1 - model_12.rsquared)
VIF_2.round(2)

In [None]:
# VIF для male c округлением до 2-х десятичных знаков
VIF_3 = 1/(1 - model_13.rsquared)
VIF_3.round(2)

In [None]:
# names of exog
Sleep_eq11.model.exog_names

In [None]:
# VIF для totwrk/100 c округлением до 2-х десятичных знаков
VIF_1 = variance_inflation_factor(exog = Sleep_eq11.model.exog, exog_idx = 1)
print('VIF for exog', Sleep_eq11.model.exog_names[1], ': ', VIF_1.round(2))

In [None]:
# VIF для totwrk^2/10000 c округлением до 2-х десятичных знаков
VIF_2 = variance_inflation_factor(exog = Sleep_eq11.model.exog, exog_idx = 2)
print('VIF for exog', Sleep_eq11.model.exog_names[2], ': ', VIF_2.round(2))

In [None]:
# VIF для male c округлением до 2-х десятичных знаков
VIF_3 = variance_inflation_factor(exog = Sleep_eq11.model.exog, exog_idx = 5)
print('VIF for exog', Sleep_eq11.model.exog_names[5], ': ', VIF_3.round(2))

## 1.2 Последствия

Для набора данных `sleep75` рассмотрим линейную регрессию
**sleep на totwrk/100, totwrk^2/10000, age, smsa, male**.

Результаты оценивания:

In [None]:
# Модель sleep на totwrk/100, totwrk^2/10000, age, smsa, male
Sleep_eq12 = smf.ols(formula = 'sleep~I(totwrk/100)+I(totwrk**2/10000)+age+smsa+male', data = data_sleep).fit()

In [None]:
info_dict = {'No. Observations': lambda x: '{0:d}'.format(int(x.nobs)), 
             'Residual Std. Error': lambda x: "%#8.3f" % x.mse_resid**0.5,
             'F-statistic': lambda x: '{:.3f}'.format(x.fvalue), 
             'Prob (F-statistic)': lambda x: '{:.3f}'.format(x.f_pvalue)
             }
print(summary_col(Sleep_eq12, float_format='%.3f', stars=True, info_dict = info_dict))

In [None]:
df = summary_params(Sleep_eq12, alpha=0.05)
df['significance'] = df.apply(lambda x: 'Значим' if x['P>|t|']<0.05 else 'Незначим', axis=1)
df

### На уровне значимости 5% значимы коэффициенты: "age"  "smsa" "male"

## Тестируется значимость влияния занятости, т.е. гипотеза 

## $H_0:\beta_{totwrk/100}=\beta_{totwrk^2/10000}=0$.

In [None]:
# тестовая F_stat
Sleep_eq12.f_test('I(totwrk / 100) = I(totwrk ** 2 / 10000)=0')

In [None]:
# критическое значение F_crit
alpha=0.05
scipy.stats.f.ppf(1-alpha, 2, 700).round(2)

### Так как F_stat > F_crit, то гипотеза отвергается. Значит коэффициенты совместно значимы.

In [None]:
#VIFs
VIFS = pd.DataFrame({'VIF': [variance_inflation_factor(Sleep_eq12.model.exog, i) for i in range(int(Sleep_eq12.df_model+1))]}, index=Sleep_eq12.model.exog_names)
VIFS.drop(index='Intercept', inplace=True)
VIFS

In [None]:
# Матрица корреляций
df_sleep = data_sleep[['male', 'age', 'smsa']].copy()
df_sleep['I(totwrk / 100)'] = data_sleep['totwrk']/100
df_sleep['I(totwrk ** 2 / 10000)'] = (data_sleep['totwrk']**2)/10000
corr_matrix = df_sleep.corr().round(3)
corr_matrix

In [None]:
# Визуализация корреляций
sm.graphics.plot_corr(corr_matrix, xnames=df_sleep.columns, normcolor=True, cmap='coolwarm')
plt.show()

Документация: https://tedboy.github.io/statsmodels_doc/generated/statsmodels.graphics.api.plot_corr.html?highlight=plot_corr#statsmodels.graphics.api.plot_corr

In [None]:
# Визуализация корреляций
sns.heatmap(corr_matrix, annot=True, fmt='.3g', vmin=-1, vmax=1, center=0, cmap='coolwarm', 
            square=True, linewidths=1, linecolor='white')
# add customized title to heatmap
plt.title('Correlation Matrix', loc='center', color='red', size=14, weight='bold')

Документация: https://seaborn.pydata.org/generated/seaborn.heatmap.html

### "Продвинутая" визуализация корреляций

In [None]:
corr_matrix = df_sleep.corr().round(3)
# нижнетреугольная матрица корреляций
mask = np.triu(corr_matrix)
sns.heatmap(corr_matrix, annot=True, fmt='.3g', vmin=-1, vmax=1, center=0, cmap='coolwarm', square=True, linewidths=1, linecolor='white', mask=mask)
# add customized title to heatmap
plt.title('Correlation Matrix', loc='center', color='red', size=14, weight='bold')

In [None]:
corr_matrix = df_sleep.corr().round(3)
# верхнетреугольная матрица корреляций
mask = np.tril(corr_matrix)
sns.heatmap(corr_matrix, annot=True, fmt='.3g', vmin=-1, vmax=1, center=0, cmap='coolwarm', square=True, linewidths=1, linecolor='white', mask=mask)
# add customized title to heatmap
plt.title('Correlation Matrix', loc='center', color='red', size=14, weight='bold')

In [None]:
# Fill diagonal and upper half with NaNs
mask = np.zeros_like(corr_matrix, dtype=bool)
mask[np.triu_indices_from(mask)] = True
corr_matrix[mask] = np.nan
(corr_matrix
 .style
 .set_properties(**{'text-align': 'center'})
 .background_gradient(cmap='coolwarm', axis=None, vmin=-1, vmax=1)
 .highlight_null(color='#f1f1f1')  # Color NaNs grey
 .format(precision=2, na_rep=" ")
 .set_caption('Correlation Matrix'))

Документация: 

https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.html