# <font color='black'> Регрессионный анализ социально-экономических процессов, 2025 - 2026 </font>
# <font color='black'>Практическое занятие 2 </font>


## <font color='black'>Модель множественной линейной регрессии. Модели с переменными взаимодействия </font>
На этом занятии мы продолжим работать с данными из статьи [Kalenborn C., Lessman C., 2013](https://yadi.sk/i/nlEQUoWKiqY0UA). Одна из частей анализа в данной статье выполнена на основе cross-section data (использованы усредненные данные за 2005 - 2010 гг.). Авторы изучают взаимосвязь уровня коррупции и демократии, предполагая, что ее характер зависит от значений показателя свободы прессы. Кратко о данных:
* cpi - уровень коррупции: Corruption Perception Index. Непрерывная шкала от 0 до 10, где 10 означает наиболее высокий уровень коррупции.
* dem - индекс демократии: Vanhanen’s democratization index. Непрерывная шкала от 0 до 100, где 100 означает максимальное значение уровня демократии.
* fp - свобода прессы: Freedom House. Приведен к непрерывной шкале от 0 до 100, где 100 - наиболее высокое значение свободы прессы.
* loggdppc - натуральный логарифм ВВП на душу населения. World Bank.
* stab - уровень политической стабильности. Индекс построен на основе показателей "Political Stability" и "Absence of Violence/Terrorism" из the Worldwide Governance Indicators. Непрерывная шкала от -2.5 до 2.5, где 2.5 соответствует наиболее высокому уровню политической стабильности.
* britcol - дамми-переменная, где 1 - бывшая британская колония.

In [None]:
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import numpy as np
from scipy.stats import norm

import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.lines as mlines

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

sns.set(style = "white", palette='deep')

Откроем массив данных для репликации результатов исследования - lab1.dta.

In [None]:
lab2 = pd.read_stata('lab1.dta')
lab2 = lab2.dropna()

Познакомимся с тем, как устроен массив данных.

In [None]:
lab2.head(10)

В прошлый раз мы уже оценивали парную линейную регрессию cpi на dem.

In [None]:
m0 = smf.ols(formula = "cpi ~ dem", data = lab2).fit(cov_type = "HC3")
print(m0.summary())

Оценим для начала регрессионную модель без переменных взаимодействия. Проинтерпретируйте все оценки коэффициентов модели m1. Как изменилась оценка коэффициента при dem по сравнению с соответствующей оценкой в модели m0?

In [None]:
m1 = smf.ols(formula = "cpi ~ dem + fp + loggdppc + britcol + stab", data = lab2).fit(cov_type = "HC3")
print(m1.summary())

И соответствующая таблица разложения вариации (ANOVA-таблица):

In [None]:
anova = sm.stats.anova_lm(m1)
print(anova)

Альтернатива: Мы можем получить оценку коэффициента при любом предикторе в такой модели, воспользуясь теоремой Фриша-Во-Ловелла (the Frisch-Waugh-Lovell theorem). К примеру, для того, чтобы получить оценку коэффициента при переменной dem, а именно, оценить, как связаны dem и cpi, нужно очистить вариацию этих переменных от других предикторов (а именно, от fp, loggdppc, britcol и stab, с другой).

1) Для этого мы оцениваем регрессию dem на fp, loggdppc, britcol и stab, сохраняем остатки - то есть, получаем очищенный показатель dem.

2) Далее аналогично оцениваем регрессию cpi на fp, loggdppc, britcol и stab, сохраняем остатки - то есть, получаем очищенный показатель cpi.

3) После этого достаточно будет оценить регрессию очищенного cpi на очищенный dem и убедиться, что мы получили тот же самый коэффициент при dem, что и в исходной модели с контрольными переменными.

In [None]:
m1_1 = smf.ols(formula = "dem ~ fp + loggdppc + britcol + stab", data = lab2).fit()
resid_data = pd.DataFrame()
resid_data["res1"] = m1_1.resid

In [None]:
m1_2 = smf.ols(formula = "cpi ~ fp + loggdppc + britcol + stab", data = lab2).fit()
resid_data["res2"] = m1_2.resid

In [None]:
m1_3 = smf.ols(formula = "res2 ~ res1", data = resid_data).fit(cov_type = "HC3")
print(m1_3.summary())

Для того, чтобы лучше понять, что скрывается за процессом очищения вариации, представим себе следующее. Мы включаем в модель категориальную контрольную переменную. Далее реализуем следующие шаги:

1) разделим исходный массив на подгруппы в зависимости от количества категорий в контрольной переменной

2) оценим регрессионную модель $y$ на $x$ для каждого подмассива, итого получим J оценок коэффициентов наклона при $x$, где J - это количество категорий контрольной переменной   

3) взвесим результаты: суммируем взвешенные оценки коэффициентов, в качестве веса будет выступать доля подвыборки в общем массиве $∑w_j\hat{\beta}_j$

Таким образом, очищение вариации равносильно тому, как если бы мы исследовали взаимосвязь $x$ и $y$ при фиксированном значении контрольной переменной

Рассмотрим для иллюстрации исходную модель. При этом сфокусируемся на разделении выборки по бинарной контрольной переменной britcol

Итак, всего у нас 170 наблюдений

In [None]:
len(lab2)

Из них 38 стран - бывшие британские колонии, оставшиеся 132 страны - страны, которые не являются бывшими британскими колониями

In [None]:
print(f"Страны, которые не являются бывшими британскими колониями: {len(lab2[lab2['britcol'] == 0])} стран")
print(f"Бывшие британские колонии: {len(lab2[lab2['britcol'] == 1])} стран")

Оценим регрессионную модель на соответствующих подвыборках:

In [None]:
m_group0 = smf.ols(formula='cpi ~ dem + fp + loggdppc + stab',
                      data=lab2[lab2['britcol'] == 0]).fit()

print(m_group0.summary())

In [None]:
m_group1 = smf.ols(formula='cpi ~ dem + fp + loggdppc + stab',
                      data=lab2[lab2['britcol'] == 1]).fit()

print(m_group1.summary())

Сравним результаты в полной модели с учетом контрольной переменной britcol и с учетом деления на подвыборки:

In [None]:
X = ['dem', 'fp', 'loggdppc', 'stab']
comparison = []

for x in X:
        comparison.append({
            'variable': x,
            'group0': m_group0.params[x],
            'group1': m_group1.params[x],
            'total': m1.params[x],
            'weight_group0': len(lab2[lab2['britcol'] == 0]) / len(lab2),
            'weight_group1': len(lab2[lab2['britcol'] == 1]) / len(lab2)
        })

comparison = pd.DataFrame(comparison)

comparison

Взвесим результаты на долю наблюдений.

In [None]:
comparison['weighted_coef'] = comparison['group0']*comparison['weight_group0'] + comparison['group1']*comparison['weight_group1']

comparison

Полученные результаты взвешивания показывают близкие результаты к исходным результатам оценивания модели на всей выборке.

Несколько сложнее обстоят дела с непрерывной контрольной переменной. Размер подвыборки, с одной стороны, должен быть не слишком маленьким для оценивания регрессионной модели с заданным количеством параметров. С другой стороны, создавать слишком большие подвыборки также нецелесообразно, так как можно упустить различия во взаимосвязи, проявляющиеся в разных подмассивах, и в результате получить плохое приближение к оценкам модели по всей выборке. В связи с этим поделим массив на подвыборки из расчета, чтобы в подвыборке было хотя бы 30 наблюдений (с учетом нагруженности спецификации модели следует корректировать размер подвыборки):     

In [None]:
lab2['stab_quartile'] = pd.qcut(lab2['stab'], q=4, labels=False)

X = ['dem', 'fp', 'loggdppc', 'britcol']
comparison = []

for x in X:
    coefs_by_quartile = []
    weights_by_quartile = []

    for quartile in sorted(lab2['stab_quartile'].unique()):
        quartile_data = lab2[lab2['stab_quartile'] == quartile]

        if len(quartile_data) > 30:
            model = smf.ols('cpi ~ dem + fp + loggdppc + britcol', data=quartile_data).fit()
            coefs_by_quartile.append(model.params[x])
            weights_by_quartile.append(len(quartile_data) / len(lab2))

    weighted_coef = np.average(coefs_by_quartile, weights=weights_by_quartile)

    comparison.append({
        'variable': x,
        'total': m1.params[x],
        'weighted_coef': weighted_coef
    })

comparison = pd.DataFrame(comparison)
comparison

Рассмотрим, как различается уровень коррупции в группах стран с разным уровнем свободы прессы. Предварительно разделим страны на 2 группы: "not free" и "free". В качестве порогового значения для разделения возьмем 70 баллов по показателю "свобода прессы".

In [None]:
lab2['groups'] = lab2['fp'].apply(lambda x: 1 if x > 70 else 0)

Модель 2 включает вместо непрерывной переменной уровня свободы прессы бинарный показатель "groups" в качестве предиктора. Проинтерпретируйте оценки коэффициентов модели m2.

In [None]:
m2 = smf.ols(formula = "cpi ~ dem + groups + loggdppc + britcol + stab", data = lab2).fit(cov_type = "HC3")
print(m2.summary())

Тем не менее, данная модель не позволяет ответить на ключевой вопрос, которые ставили перед собой Kalenborn C., Lessman C. А именно, их интересовало, различается ли взаимосвязь коррупции и уровня демократии в странах с разными значениями свободы прессы? Для того, чтобы продвинуться в ответе на данный вопрос, представим следующий график. Какой предварительный вывод Вы можете сделать на основе данного графика?  

In [None]:
fig = sns.lmplot(data=lab2, x="dem", y="cpi", hue="groups", legend=False)

plt.title("Взаимосвязь индексов демократии и коррупции", fontweight='bold')
plt.xlabel("Индекс демократии", fontweight='bold')
plt.ylabel("Индекс восприятия коррупции", fontweight='bold')

palette = sns.color_palette('deep', 2)
legend_elements = [
    mlines.Line2D([], [], color=palette[0], marker='o',
                 markersize=8, label='Несвободные'),
    mlines.Line2D([], [], color=palette[1], marker='o',
                 markersize=8, label='Свободные')
]

plt.legend(handles=legend_elements, loc='upper center',
           bbox_to_anchor=(0.5, -0.15), ncol=2, frameon=True)

plt.tight_layout()
plt.show()

Изменим спецификацию регрессионной модели так, чтобы она позволяла ответить на вопрос, как различается взаимосвязь коррупции и уровня демократии в двух группах стран (условно назовем их "свободные" и "несвободные"). Для этого нужно ввести переменную взаимодействия между предиктором "dem" и "groups".
Проинтерпретируйте оценки коэффициентов в модели m3.

In [None]:
m3 = smf.ols(formula = "cpi ~ dem*groups + loggdppc + britcol + stab", data = lab2).fit(cov_type = "HC3")
print(m3.summary())

Проиллюстрируем на графике различия между предельными эффектами демократии в зависимости от групп стран. Для этого нам предварительно понадобится
* задать формулу для расчета предельных эффектов. Для этого мы

1) извлечем оценки коэффициентов модели m3 (marg_effect)

2) получим вектор уникальных значений переменной "groups" (values), которая является условием (то есть, от ее значений зависит предельный эффект демократии)

* задать формулу для расчета стандартных ошибок

In [None]:
print(m3.params)
print(m3.cov_params())

In [None]:
v = lab2.groups.unique()
me = m3.params.iloc[1] + m3.params.iloc[3] * v
cov = m3.cov_params().values
se = np.sqrt(cov[1,1] + v**2 * cov[3,3] + 2 * v * cov[1,3])

plt.figure(figsize=(7, 4))
plt.errorbar(me, v, xerr=1.96 * se, fmt='D', capsize=5)

plt.yticks([0, 1], ['Несвободные \n страны', 'Свободные \n страны'],
           fontsize=8, fontweight='bold')

for i, (y_val, x_val) in enumerate(zip(v, me)):
    plt.annotate(f'{x_val:.3f}', (x_val, y_val), xytext=(-15, -15),
                textcoords='offset points', va='center',
                fontsize=8.5, fontweight='bold',
                bbox=dict(boxstyle='round', facecolor='white', alpha=0.3, edgecolor='gray'))

plt.xlabel('Предельные эффекты', fontsize=10, fontweight='bold')

plt.grid(True, alpha=0.2)
plt.tight_layout()
plt.show()

Теперь попробуем оценить модель, но уже с переменной взаимодействия между исходными непрерывными переменными "dem" и "fp", без деления стран на группы "not free" и "free". Какой вывод можно сделать на основе оценок данной модели?
Предложите возможные преобразования для более удобной интерпретации и примените их при оценивании модели (в качестве дополнительной практики после занятия).

In [None]:
m4 = smf.ols(formula = "cpi ~ dem*fp + loggdppc + britcol + stab", data = lab2).fit(cov_type = "HC3")
print(m4.summary())

Покажем на графике, как изменяется предельный эффект демократии и его значимость в зависимости от "условия" (freedom of press). Проинтерпретируйте график.

In [None]:
cov_m4 = np.asmatrix(m4.cov_params())
fp_values = np.linspace(lab2.fp.min(), lab2.fp.max())
marg_effect_m4 = m4.params.iloc[1] + m4.params.iloc[3]*fp_values
se2 = np.sqrt(cov_m4[1,1] + fp_values**2*(cov_m4[3,3]) + 2*fp_values*cov_m4[1,3])

plt.figure(figsize=(7, 4))
plt.plot(fp_values, marg_effect_m4, 'b')
plt.plot(fp_values, marg_effect_m4 - norm.ppf(0.975)*se2, 'b--')
plt.plot(fp_values, marg_effect_m4 + norm.ppf(0.975)*se2, 'b--')
plt.xlabel('Свобода прессы', fontsize=10)
plt.ylabel('Предельный эффект демократии', fontsize=10)
plt.axhline(y=0, color ='r', linestyle = '--')
plt.title('Зависимость предельного эффекта \n от значений индекса свободы прессы', fontsize=12, fontweight='bold')

plt.grid(True, alpha=0.2)
plt.tight_layout()
plt.show()

Резюмируйте результаты проведенного анализа.