# Введение в регрессионный анализ
## Семинар 4. Доверительный интервал для наклона регрессии

Импортируем необходимые библиотеки, модули и функции:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
from statsmodels.formula.api import ols

В этом практикуме мы будем работать с данными о качестве жизни в крупных городах. Пояснения по столбцам в файле `city24.csv`:
    
* `city`: название города;
* `Decibel_Level`: уровень шума;
* `Traffic_Density`: плотность трафика, интенсивность дорожного движения;
* `Green_Space_Area`: площадь зелёных насаждений;
* `Air_Quality_Index`: индекс качества воздуха (чем выше, тем грязнее воздух);
* `Happiness_Score`: индекс счастья;
* `Cost_of_Living_Index`: индекс стоимости жизни;
* `Healthcare_Index`: индекс качества здравоохранения.

## Часть 1: описание данных и оценка моделей

Загрузите данные из файла `city24.csv` и сохраните их в датафрейм `df`.

In [None]:
### YOUR CODE HERE ###

### Задача 1

Выберите строки, которые соответствуют городам с низкой или средней транспортной загруженностью (столбец `Traffic_Density`), и сохраните их в датафрейм `chosen`. В последующих заданиях нужно работать именно с этим датафреймом. 

In [None]:
### YOUR CODE HERE ###

### Задача 2

Отсортируйте строки в датафрейме `chosen` по убыванию значений индекса счастья. Посмотрите на полученные результаты. 

*Подсказка:* метод `.sort_values()`, применяется к датафрейму, для настройки порядка сортировки используется аргумент `ascending`.

In [None]:
### YOUR CODE HERE ###

### Задача 3

В дальнейшем анализе нас будут интересовать переменные `Happiness_Score`, `Decibel_Level` и `Cost_of_Living_Index`. Давайте построим гистограммы для визуализации их распределения, только не по-отдельности, а все сразу. Воспользуемся более продвинутым способом построения графиков, обращаясь к функциям модуля `plt`, который мы импортировали из библиотеки `matplotlib`. 

В этом модуле есть функция `subplots()`, которая создает несколько подграфиков внутри одного изображения. Так, мы можем создать сетку из графиков из одной строки и трех столбцов, то есть поставить три графика в один ряд:

In [None]:
plt.subplots(nrows = 1, ncols = 3)

Пока это набор из трёх пустых координатных плоскостей (осей) внутри одной картинки. Сохраним результаты, возвращённые функцией, в переменные. Так как первый результат – это изображение, его часто называют `fig` (от *figure*). Второй результат – это набор осей, его обычно сокращают до `ax` (*axes*). Заодно установим размер картинки 16 на 9 дюймов:

In [None]:
fig, axes = plt.subplots(nrows = 1, ncols = 3, figsize = (16, 9));

Теперь осталось добавить в каждую координатную плоскость по графику. Гистограмму для `Happiness_Score` поместим в первую плоскость `axes[0]` – код для этого действия уже написан, можете добавить свой цвет заливки в `color`. 

Дополните код так, чтобы во второй координатной плоскости была гистограмма для `Decibel_Level`, а в третьей – для `Cost_of_Living_Index`. Прокомментируйте полученные гистограммы.

In [None]:
fig, axes = plt.subplots(nrows = 1, ncols = 3, figsize = (16, 9));

axes[0].hist(data["Happiness_Score"], color = "#DE3163", edgecolor = "white");
ax[0].set_xlabel("Happiness Score");

### YOUR CODE HERE ###

### Задача 4

Постройте модель линейной регрессии, которая описывает связь между индексом счастья и уровнем шума. Сохраните её в переменную `model01` и выведите на экран полную выдачу с результатами оценки модели. Запишите уравнение модели, приведите содержательную интерпретацию оценок коэффициентов. Можно ли считать, приняв уровень доверия равным 95%, что уровень шума оказывает эффект на уровень счастья? Изменится ли вывод, если мы изменим уровень доверия на 90% или 99%?

In [None]:
### YOUR CODE HERE ###

### Задача 5

Постройте модель линейной регрессии, которая описывает связь между индексом счастья и индексом стоимости жизни. Сохраните её в переменную `model02` и выведите на экран полную выдачу с результатами оценки модели. Запишите уравнение модели, приведите содержательную интерпретацию оценок коэффициентов. Можно ли считать, приняв уровень доверия равным 95%, что уровень шума оказывает эффект на уровень счастья? Изменится ли вывод, если мы изменим уровень доверия на 90% или 99%?

In [None]:
### YOUR CODE HERE ###

### Задача 6

По умолчанию метод `.summary()` вычисляет и выводит границы 95%-ного доверительного интервала для оценки коэффициента. Однако это можно скорректировать, добавив аргумент `alpha` (уровень значимости). Измените уровни доверия на 90% и 99% и выведите новые результаты для модели из предыдущей задачи. Прокомментируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

## Часть 2: представление результатов – таблицы

В статьях и отчётах выдачи с результатами регрессионного анализа обычно выглядят иначе, чем в Python. Установим библиотеку `stargazer` для экспорта результатов регрессионного анализа в красивом табличном виде:

In [None]:
!pip install stargazer

Импортируем класс `Stargazer`:

In [None]:
from stargazer.stargazer import Stargazer

С помощью этого класса мы можем подготовить выдачу в табличном виде, поместив необходимые модели внутрь `Stargazer()` в виде списка:

In [None]:
stargazer = Stargazer([model01, model02])

Посмотрим, что получилось:

In [None]:
stargazer

Красивая выдача, каждая модель в отдельном столбце, как обычно и бывает в статьях. Как её выгрузить? Если вы работаете в LaTeX, все просто, метод `.render_latex()` вернёт код LaTeX для таблицы, который можно скопировать:

In [None]:
print(stargazer.render_latex())

Если вы работаете в Word, можно вернуть код для таблицы в виде кода HTML:

In [None]:
print(stargazer.render_html())

Далее, в блокноте или прямо в Jupyter (*New – Text File*) можно создать новый текстовый файл с расширением `.htm` и скопировать туда код для таблицы. Это специфический формат, файл и как страницу HTML в браузере можно открыть, и как текст в редакторе в обработанном виде. Если открыть этот файл в браузере, мы увидим готовую свёрстанную таблицу, если открыть с помощью Word или аналогичного текстового редактора, мы увидим таблицу, которую можно редактировать.

При необходимости (а часто такая необходимость возникает, хотя бы для того, чтобы вывести значения с точностью до второго знака после точки) можно скорректировать настройки выгружаемых таблиц. Почитать про это можно в [тьюториале](https://github.com/StatsReporting/stargazer/blob/master/examples.ipynb) из официальной [документации](https://pypi.org/project/stargazer/).

## Часть 3: ещё про доверительные интервалы

В этой части для работы нам потребуется знакомый модуль `stats` из библиотеки `scipy`:

In [None]:
from scipy import stats

Воспроизведём график для доверительных интервалов из задач для самостоятельного решения типа №2. Для этого построим модель на других данных, искусственно смоделированных (хочется для наглядности получить оценки коэффициентов побольше, и стандартные ошибки тоже):

In [None]:
x = [10, -3, -20, 8, 18, -19, -3, -13, -5, -19, -7, 
     16, -9, 14, 6, 18, -8, -8, 18, 5, -14, -15, -7, 
     12, 11, 10, -10, 14, -20, 6, -3, 4, 1, -14, -13, 
     -20, -15, 4, -4, -7, -11, -5, 10, 10, 1, 13, -2, 
     1, 8, 6, -10, 11, -7, 10, 11, -4, -4, -1, 12, -3]

y = [25, -5, -60, 27, 58, -56, -14, -35, -17, -55, -21, 
     47, -24, 46, 19, 58, -29, -24, 55, 10, -40, -43, 
     -21, 40, 35, 25, -29, 43, -56, 22, -6, 10, 0, -45, 
     -43, -64, -43, 8, -10, -25, -37, -19, 33, 33, -1, 
     43, -7, 5, 24, 16, -35, 29, -20, 28, 34, -14, -9, 
     -2, 35, -12]

dat = pd.DataFrame({"x" : x, "y" : y})
mod = ols("y ~ x", dat).fit()
print(mod.summary())

Извлечём из модели значение оценки коэффициента при `x` (то есть $\hat{b}_1$), а также её стандартную ошибку (то есть $\hat{\sigma}_{\hat{b}_1}$):

In [None]:
coef = mod.params[1]
se = mod.HC0_se[1]

### Задача 1

Используя значения выше и тот факт, что выборка достаточно большая, постройте 95%-ный доверительный интервал для оценки коэффициента регрессии при `x`. Сравните результат с выдачей Python.

In [None]:
### YOUR CODE HERE ###

### Задача 2

Вычислите границы 95%-ного доверительного интервала из предыдущей задачи, но с более точным t-значением.

In [None]:
### YOUR CODE HERE ###

Построим график, визуализирующий 95%-ный доверительный интервал. Для этого запишем в `error` значение предельной ошибки, полученное в предыдущей задаче (t-значение, умноженное на стандартную ошибку):

In [None]:
# error = ?
plt.scatter(x = coef, y = 1, s = 50);
plt.errorbar(x = coef, y = 1, xerr = error);

Как из этого графика получить наблюдаемое значение t-статистики? Давайте вычислим его примерное значение, а также p-value, а затем пересчитаем всё точно и сравним результаты!

In [None]:
### YOUR CODE HERE ###