# <font color='black'> Регрессионный анализ: продолжение, 2024 </font>
# <font color='black'>Практическое занятие 3 </font>


## <font color='black'>Модель множественной линейной регрессии. Мультиколлинеарность </font>
На этом занятии мы продолжим работать с данными из статьи [Kalenborn C., Lessman C., 2013](https://yadi.sk/i/nlEQUoWKiqY0UA). Одна из частей анализа в данной статье выполнена на основе cross-section data (использованы усредненные данные за 2005 - 2010 гг.). Авторы изучают взаимосвязь уровня коррупции и демократии, предполагая, что ее характер зависит от значений показателя свободы прессы. Кратко о данных:
* cpi - уровень коррупции: Corruption Perception Index. Непрерывная шкала от 0 до 10, где 10 означает наиболее высокий уровень коррупции.
* dem - индекс демократии: Vanhanen’s democratization index. Непрерывная шкала от 0 до 100, где 100 означает максимальное значение уровня демократии.
* fp - свобода прессы: Freedom House. Приведен к непрерывной шкале от 0 до 100, где 100 - наиболее высокое значение свободы прессы.
* loggdppc - натуральный логарифм ВВП на душу населения. World Bank.
* stab - уровень политической стабильности. Индекс построен на основе показателей "Political Stability" и "Absence of Violence/Terrorism" из the Worldwide Governance Indicators. Непрерывная шкала от -2.5 до 2.5, где 2.5 соответствует наиболее высокому уровню политической стабильности.
* britcol - дамми-переменная, где 1 - бывшая британская колония.

In [None]:
import pandas as pd
import statsmodels.formula.api as smf
import seaborn as sns
import numpy as np
import matplotlib.pyplot as mpl
%matplotlib inline

from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
!pip install bioinfokit
from bioinfokit.visuz import cluster

Откроем массив данных:

In [None]:
lab3 = pd.read_stata('lab1.dta')
lab3 = lab3.dropna()

И оценим линейную множественную регрессионную модель с уже знакомой Вам спецификацией:

In [None]:
m1 = smf.ols(formula = "cpi ~ dem + fp + loggdppc + britcol + stab", data = lab3).fit()
print(m1.summary())

С точки зрения такого сюжета, как мультиколлинеарность, полезно будет посмотреть на то, насколько сильно связаны объясняющие переменные в модели. Выведем набор графиков, включающий и визуализацию распределений самих переменных (по главной диагонали), и диаграммы рассеяния.

In [None]:
sns.pairplot(lab3[["dem", "fp", "stab", "loggdppc", "britcol"]])

Также ниже представим корреляционную матрицу для предикторов:

In [None]:
lab3[["dem", "fp", "stab", "loggdppc", "britcol"]].corr().round(3)

Рассчитаем показатели variance inflation factor:

In [None]:
X = lab3[["dem", "fp", "stab", "loggdppc", "britcol"]]
X = add_constant(X)

vif_data = pd.DataFrame({'variables':X.columns[1:], 'VIF':[variance_inflation_factor(X.values, i+1) for i in range(len(X.columns[1:]))]})
print(vif_data)

Также для тренировки самостоятельно посчитаем VIF для показателя dem, построив предварительно соответствующую вспомогательную модель и выгрузив ее коэффициент детерминации:

In [None]:
m1_aux = smf.ols(formula = "dem ~ fp + loggdppc + britcol + stab", data = lab3).fit()

vif_dem = 1/(1-m1_aux.rsquared)
print(vif_dem)

Для лучшего понимания, как связаны $R^2$ из вспомогательной регрессионной модели и значения VIF, построим график:

In [None]:
rsquared = np.linspace(0, 0.99)
VIF = 1/(1-rsquared)
fig, axes = mpl.subplots()
mpl.plot(rsquared, VIF, 'b')
axes.set_xlabel('R-squared')
axes.set_ylabel('VIF')
mpl.title('The behaviour of VIF as a function of $R^2$')
mpl.show()

Рассмотрим, что можно было бы сделать, если бы все-таки сильная мультиколлинеарность была обнаружена. Мы уже обсуждали, что в этом случае нам может помочь метод главных компонент. На основе исходных данных можно построить новые индексы - линейные комбинации стандартизированных показателей (объясняющих переменных). Главные компоненты будут нескоррелированны между собой.

Возьмем за основу для тренировки такие достаточно сильно скоррелированные между собой предикторы, как dem, fp, stab, loggdppc.

И для начала стандартизируем наши данные.

In [None]:
pca_dta = lab3[["dem", "fp", "stab", "loggdppc"]]
pca_dta_stand =  StandardScaler().fit_transform(pca_dta)
pca_dta_stand = pd.DataFrame(pca_dta_stand, columns=pca_dta.columns)
pca_dta_stand.head(5)

Реализуем процедуру МГК и выведем значения информативности решения (сами значения вариаций, и для удобства долю общей вариации, объясняемую главными компонентами)

In [None]:
pca_results = PCA().fit(pca_dta_stand)

print(pca_results.explained_variance_)
print(pca_results.explained_variance_ratio_)

Визуализируем информативность решения на графике так называемой "каменистой осыпи".

Примечание: график сохранится в отдельном файле screeplot.png.

In [None]:
pca_list = ["PC"+str(i+1) for i in range(len(pca_dta_stand.columns[0:]))]
cluster.screeplot(obj=[pca_list, pca_results.explained_variance_ratio_])

Представим отдельно веса, с которыми исходные стандартизированные показатели учитываются в главных компонентах:

In [None]:
loadings = pca_results.components_
pca_list = ["PC"+str(i+1) for i in range(len(pca_dta_stand.columns[0:]))]
loadings = pd.DataFrame.from_dict(dict(zip(pca_list, loadings)))
loadings['variable'] = pca_dta_stand.columns.values
loadings = loadings.set_index('variable')
print(loadings)

Если ГК интерпретируемые, Вы можете включить их вместо исходных показателей в регрессионную модель. Можно включить только первые несколько ГК (количество определяется на основе критерия Кайзера и графика каменистой осыпи, как мы уже обсудили), объясняющие наибольшую долю дисперсии исходных данных. Ниже покажем, как можно сохранить полученные ГК в исходном массиве данных:

In [None]:
PC = pca_results.transform(pca_dta_stand)
lab3["PC1"] = PC[:,0]
lab3.head(5)
