# Введение в регрессионный анализ

## Семинар 2. Парная линейная регрессия

* Группировка и критерий Стьюдента для двух групп (повторение)
* Парная линейная регрессия: вычисление оценок коэффициентов «с нуля»
* Парная линейная регрессия: работа с остатками
* Парная линейная регрессия с функцией `ols()` из `statsmodels`

*Алла Тамбовцева*

Для работы в этом практикуме нам потребуются библиотеки `numpy`, `pandas`, знакомый модуль `stats` из библиотеки `scipy`, а также модуль `pyplot` из библиотеки `matplotlib` для построения графиков. Импортируем их с сокращёнными названиями:

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt

В этом практикуме мы будем работать с сокращённой версией [данных для репликации](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OSEXBV) статьи *Trust nobody: How voters react to conspiracy theories // Journal of Experimental Political Science*. 

В статье описывается эксперимент, в котором принимали участие респонденты из США. 

* **Первая часть эксперимента.** Участники случайным образом поделены на две группы. Одной группе демонстрируется ролик с изложением конспирологической теории, не затрагивающей внутреннюю политику государства, а другой группе – нейтральный развлекательный ролик такой же длительности. 

* **Вторая часть эксперимента.** Участники снова случайным образом поделены на две группы. Одной группе предлагается прочитать статью о негативных аспектах деятельности администрации президента (с перечнем скандалов, которые были с ней связаны), другой группе – статью о достижениях администрации президента (с упоминанием улучшений в сфере здравоохранения и трудоустройства). 

* **Третья часть эксперимента.** Респонденты отвечают на серию вопросов, направленных на выявление степени доверия к средствам массовой информации и политическим институтам.

Повторить исследование и проверить, насколько знакомство с конспирологическими теориями и скандальными фактами влияет на степень доверия к разным институтам, в полной мере мы пока не сможем, но сформулируем собственные вопросы. Итак, **наши вопросы**:

* есть ли отличия в степени доверия к СМИ у тех участников, которым демонстрировался конспирологический ролик, и тех, кому демонстрировался нейтральный ролик?
* правда ли, что, чем старше респондент, тем меньше его степень доверия к Google и другим поисковым системам?

Переменные в файле `trust_consp.csv`:

* `edu`: уровень образования респондента (целые значения от 0 до 3);
* `age`: возраст респондента (в годах);
* `female`: пол респондента (1 – женский, 0 – мужской);
* `conspiracy`: тип воздействия (0 – нейтральный ролик, 1 – конспирологический ролик);
* `scandal`: тип статьи (0 – достижения администрации, 1 – скандальные факты об администрации);
* `media_score`: индекс доверия к СМИ (от 0 до 100);
* `google`: индекс доверия к Google и другим поисковым системам (от 0 до 100);
* `poltrust_score`: индекс доверия к политическим институтам (от 0 до 100).

### Задание 1

Загрузите данные из файла `trust_consp.csv` и сохраните их в датафрейм `dat`. Сгруппируйте строки на основе показателя `conspiracy` и выведите описательные статистики для столбца `media_score`. У кого степень доверия к СМИ выше, у тех, кто видел нейтральный ролик или у тех, кто видел конспирологический ролик?

In [None]:
### YOUR CODE HERE ###

### Задание 2

Выберите строки, соответствующие участникам, смотревшим нейтральный ролик, и сохраните их в датафрейм `neut`. Выберите строки, соответствующие участникам, смотревшим конспирологический ролик, и сохраните их в датафрейм `consp`. 

Реализуйте критерий Стьюдента для двух выборок и проверьте, приняв уровень доверия равным 95%, есть ли отличия в степени доверия к СМИ у тех участников, которым демонстрировался конспирологический ролик, и тех, кому демонстрировался нейтральный ролик. Проинтерпретируйте полученные результаты. Изменится ли наш вывод, если мы изменим уровень доверия на 99%?

In [None]:
### YOUR CODE HERE ###

### Задание 3

Для ответа на второй вопрос о связи возраста и степени доверия к Google/другим поисковым системам для исключения влияния других факторов сузим нашу выборку – будем изучать только участников с самым низким уровнем образования (значение 0 в `edu`, можно самостоятельно проделать дальнейшие действия для других уровней образования). На практике, конечно, обычно поступают по-другому, но пока мы таким неидеальным образом искусственно создадим ситуацию, когда уровень образования у респондентов не отличается, а значит, не может сказываться на изменчивости значений индекса доверия к Google.

Выберите строки, которые соответствуют интересующим нас респондентам, и сохраните их в датафрейм `df`. Оставьте в `df` только столбцы `age` и `google`.

*Подсказка:* пример кода для выбора столбцов с названиями `"x"` и `"y"`: 
            
            df[["x", "y"]]

In [None]:
### YOUR CODE HERE ###

### Задание 4

Выведите на экран средние значения переменных `age` и `google` (сохраните предварительно их в переменные `age_mean` и `google_mean`, они нам ещё понадобятся).

In [None]:
### YOUR CODE HERE ###

### Задание 5

Выведите на экран ковариационную матрицу для столбцов датафрейма `df`. Используя эту матрицу, вычислите коэффициент корреляции Пирсона между `age` и `google`. Проинтерпретируйте полученное значение.

*Подсказка:* метод `.cov()` для ковариационной матрицы, функция `sqrt()` из библиотеки `numpy` для извлечения квадратного корня.

In [None]:
### YOUR CODE HERE ###

### Задание 6

Выведите на экран корреляционную матрицу для столбцов датафрейма `df`. Сравните результаты с тем, что получилось в предыдущей задаче. 

*Подсказка:* метод `.corr()` для получения корреляционной матрицы. 

In [None]:
### YOUR CODE HERE ###

### Задание 7

Допустим, нам необходимо понять, правда ли, что с возрастом люди меньше доверяют Google и другим поисковым системам, и если да, то насколько. Что в данной задаче является зависимой переменной, а что – объясняющей (независимой)? Постройте диаграмму рассеивания для данных из датафрейма `df`, где по горизонтальной оси указаны значения объясняющей переменной, а по вертикальной – зависимой.

*Подсказка:* функция `scatter()` из модуля `pyplot`, который мы импортировали как `plt`; на вход принимает два массива/столбца датафрейма, значения первого будут идти по горизонтальной оси, второго – по вертикальной.

In [None]:
### YOUR CODE HERE ###

### Задание 8

1. Запишите в общем виде, как должно выглядеть уравнение регрессионной модели для задачи, сформулированной в предыдущем задании (при записи используйте условное математическое ожидание и названия переменных). 
2. Найдите, используя результаты предыдущих заданий, оценки коэффициентов модели $\hat{b}_0$ и $\hat{b}_1$. 
3. Запишите уравнение оценённой модели, используя найденные оценки коэффициентов $\hat{b}_0$ и $\hat{b}_1$.
4. На сколько, в среднем, изменяется значение индекса доверия к Google и другим поисковым системам, если возраст увеличивается на один год? Чему соответствует значение $\hat{b}_0$?

In [None]:
### YOUR CODE HERE ###

### Задание 9

Используя значения $\hat{b}_0$ и $\hat{b}_1$ из предыдущей задачи, найдите предсказанные значения зависимой переменной и сохраните их в новый столбец `predicted` в датафрейм `df`.

In [None]:
### YOUR CODE HERE ###

### Задание 10

Добавьте в датафрейм `df` столбец `e` с остатками модели ($\varepsilon$). Добавьте в датафрейм `df` столбец `e2` с квадратами остатков модели ($\varepsilon^2$). Найдите сумму квадратов остатков модели RSS.

In [None]:
### YOUR CODE HERE ###

### Задание 11

Постройте ещё раз диаграмму рассеивания из задания 7. Добавьте на неё регрессионную прямую. Покажите, как по полученному графику можно находить остатки модели. Покажите, в какой части графика остатки больше нуля, а в какой – меньше.

*Подсказка*: функция `plot()` из модуля `pyplot`, который мы импортировали как `plt`; на вход принимает два массива/столбца датафрейма, значения первого будут идти по горизонтальной оси, второго – по вертикальной; по вертикальной оси должны идти предсказанные значения зависимой переменной.

In [None]:
### YOUR CODE HERE ###

### Заключение – мостик к следующим занятиям

Конечно, Python умеет оценивать регрессионные модели самостоятельно. Мы проделали много манипуляций «с нуля», чтобы закрепить материал лекции и немного подготовиться к проверочной, теперь можем выдохнуть и положиться на автоматику :) 

Итак, импортируем функцию `ols()` из модуля `statsmodels`. Название этой функции – сокращение от *ordinary least squares*, модель, полученная обычным методом наименьших квадратов (МНК), который обсуждался на лекции и который чаще всего используется на практике.

In [None]:
from statsmodels.formula.api import ols

Оценим модель линейной регрессии на основе данных в датафрейме `df` (зависимая переменная – `google`, независимая – `age`):

In [None]:
# метод .fit() – оценка, подгонка модели,
# вычисление ее коэффициентов и других характеристик

model = ols("google ~ age", data = df).fit()

Так как полное описание модели нам пока не нужно, извлечём из полученного результата только оценки коэффициентов $\hat{b}_0$ и $\hat{b}_1$, то есть константу (`intercept`) и угол наклона прямой (`slope`, в выдачах называется по независимой переменной):

In [None]:
model.params

При желании можем извлечь из модели предсказанные значения зависимой переменной (те, что мы получили ранее с нуля в `predicted`):

In [None]:
model.predict()

А можем найти предсказанное значение зависимой переменной `google` для человека 42 лет:

In [None]:
# exog – от exogeneous, внешние (новые) данные
# в виде словаря записываем название 
# независимой переменной и её значение

model.predict(exog = {"age" : 42})

Или сразу для нескольких людей разного возраста:

In [None]:
# в age сразу список

model.predict(exog = {"age" : [42, 18, 30]})

Кроме того, можем отдельно поинтересоваться, чему равны остатки (`.resid` от *residuals*):

In [None]:
model.resid

И даже получить сумму квадратов остатков (здесь `.ssr` от *sum of squared residuals*, у нас на курсе и вообще в статистике это RSS, мы их тоже уже посчитали ранее «с нуля», можем сравнить):

In [None]:
model.ssr

Всё! С более подробным описанием результатов, которые хранятся в объекте `model`, мы познакомимся после следующих лекций.