# Введение в регрессионный анализ

## Семинар 3. Парная регрессия и проверка гипотез


*Алла Тамбовцева*

* Парная линейная регрессия с функцией `ols()` из `statsmodels`
* Интерпретация результатов оценки модели
* Иллюстрация работы центральной предельной теоремы


Импортируем уже знакомые библиотеки, модули и функции: библиотеку `pandas`, модуль `pyplot` из библиотеки `plt`, функцию `ols()` из библиотеки `statsmodels`:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
from statsmodels.formula.api import ols

### Часть 1: парная регрессия и проверка гипотез о коэффициентах

В этом практикуме продолжим работать с файлом `salaries.csv` из необязательного домашнего задания №2. Показатели в файле:

В этом файле сохранены данные по сотрудникам университета в США, а именно следующие их характеристики:

* `rank`: должность;
* `discipline`: тип преподаваемой дисциплины (`A` – теоретическая, `B` – практическая);
* `phd`: число лет с момента получения степени PhD;
* `service`: число лет опыта работы;
* `sex`: пол;
* `salary`: заработная плата за 9 месяцев, в долларах.

Загрузите данные из файла и сохраните их в датафрейм `sls`.

In [None]:
### YOUR CODE HERE ###

### Задание 1

Сгруппируйте строки по типу преподаваемой дисциплины и полу и выведите описательные статистики для:

* заработной платы
* опыта работы

в каждой из полученных групп. Прокомментируйте полученные результаты.

In [None]:
### YOUR CODE HERE ###

### Задание 2

Выберите строки, соответствующие сотрудникам мужского пола (`Male`), преподающим практические дисциплины (`B`), и сохраните их в датафрейм `sls_male`. Выберите строки, соответствующие сотрудникам женского пола, преподающим практические дисциплины (`B`), и сохраните их в датафрейм `sls_female`.

In [None]:
### YOUR CODE HERE ###

### Задание 3

Постройте гистограмму для заработной платы сотрудников, преподающих практические дисциплины.

* сотрудников мужского пола, преподающих практические дисциплины;
* сотрудников женского пола, преподающих практические дисциплины.

Прокомментируйте полученные графики – форму распределения заработной платы в каждой группе, возможное наличие/отсутствие нехарактерных значений.

**Подсказка**: метод `.hist()`, его можно применить к выбранному столбцу; за цвет заливки отвечает аргумент `color`, за цвет границ столбцов – аргумент `edgecolor`. 

In [None]:
### YOUR CODE HERE ###

### Задание 4

Постройте ящики с усами для заработной платы:

* сотрудников мужского пола, преподающих практические дисциплины;
* сотрудников женского пола, преподающих практические дисциплины.

Прокомментируйте полученные графики. Если в какой-нибудь из групп встречаются нехарактерные значения заработной платы, удалите их из соответствующего датафрейма (оставьте в нем только строки с характерными значениями заработной платы).

In [None]:
### YOUR CODE HERE ###

### Задание 5

Так как сотрудников женского пола в нашей выборке мало, давайте уберем деление по полу. Объединим датафреймы `sls_male` и `sls_female`.

In [None]:
sls_b = pd.concat([sls_male, sls_female])

Постройте диаграмму рассеивания для визуализации связи между опытом работы `service` и заработной платой `salary`, расположив независимую переменную по горизонтальной оси, зависимую – по вертикальной.

Прокомментируйте полученный график. Можно ли считать связь между опытом работы и заработной платой линейной?

In [None]:
### YOUR CODE HERE ###

### Задание 6

Используя данные из датафрейма `sls_b` и функцию `ols()` из библиотеки `statsmodels`, постройте линейную модель, которая описывает связь между опытом работы и заработной платой. Выведите полную выдачу результатов, полученных после оценки модели и проинтерпретируйте полученные результаты: 

* запишите уравнение полученной модели и поясните, что содержательно означают коэффициенты;
* укажите, является ли оценка коэффициента при независимой переменной статистически значимой.

*Подсказка:* метод `.summary()`, применяется к модели после оценки с помощью метода `.fit()`.

In [None]:
### YOUR CODE HERE ###

### Задание 7

Из полученной в предыдущем задании модели извлеките остатки и сохраните их в столбец `resid` датафрейма `sls_b`. Выведите описательные статистики для остатков модели. Постройте для них гистограмму. Что можно сказать о распределении остатков?

In [None]:
### YOUR CODE HERE ###

### Задание 8

Постройте диаграмму рассеивания между значениями независимой переменной и остатками модели. Как вы думаете, что может показать такой график, если говорить о выполнении условий Гаусса-Маркова?

In [None]:
### YOUR CODE HERE ###

## Часть 2: центральная предельная теорема

Импортируем библиотеку `numpy` и модуль `stats` из библиотеки `scipy`, они нам понадобятся для этой части:

In [None]:
import numpy as np
from scipy import stats

В задаче №1а для самостоятельного решения (из недели 3) вам предложено поработать с гамма-распределением. Плотность гамма-распределения можно задать по-разному. Используя один параметр $\alpha$ (при $x \geqslant 0$, $\alpha > 0$):

$$
f(x, \alpha) = \frac{x^{\alpha-1} e^{-x}}{\Gamma(\alpha)}.
$$

Или два параметра $\alpha$ и $\beta$:

$$
f(x, \alpha, \beta) = \frac{\beta^\alpha x^{\alpha - 1} e^{-\beta x }}{\Gamma(\alpha)}.
$$

Как можно заметить, при $\beta=1$ разницы между формулами нет. В модуле `stats` используется первый вариант, с одним параметром $\alpha$ (чтобы учесть $\beta$, при работе с распределением нужно добавить аргумент `scale`, равный $1/\beta$):

Создадим с помощью функции `gamma()` случайную величину `x` с параметрами $\alpha=5$, $\beta=1$:

In [None]:
# a = alpha
# rv – random variable

x = stats.gamma(a = 5)
print(type(x)) 

Чему равно математическое ожидание и стандартное отклонение такой величины?

**Подсказка:** $E(X) = \alpha/\beta$, $D(X) = \alpha/\beta^2$.

In [None]:
### YOUR CODE HERE ###

Если мы применим к объекту типа `random variable` методы `.mean()` и `.std()`, мы получим не среднее арифметическое и выборочное стандартное отклонение (пока нет выборки и массива с ее значениями), а математическое ожидание и стандартное отклонение случайной величины:

In [None]:
ex = x.mean()
sx = x.std()
print("E(X)", ex)
print("sd(X)", sx)

Сгенерируем случайную выборку из такой случайной величины объема $n=100$ (у каждого будет своя выборка) и посчитаем ее среднее и стандартное отклонение:

In [None]:
sample = x.rvs(size = 100)
print(sample)

### YOUR CODE HERE ###

Теперь повторим процедуру извлечения выборок объема $n=100$ пять тысяч раз и на каждой итерации цикла будем вычислять среднее арифметическое и записывать его в список `averages`:

In [None]:
averages = []
for i in range(0, 5000):
    sample = x.rvs(size = 100)
    ave = sample.mean()
    averages.append(ave)

Для удобства дальнейшей работы превратим список в массив:

In [None]:
Averages = np.array(averages)

Какое распределение, согласно центральной предельной теореме, имеет выборочное среднее, если мы рассматриваем выборки объема $n=100$ из распределения с математическим ожиданием 5 и стандартным отклонением 2.24? Укажите название и параметры указанного распределения.

In [None]:
### YOUR CODE HERE ###

Вычислите среднее и выборочное стандарттное отклонение по массиву `Averages`. Постройте для них гистограмму. Сравните полученные результаты с теми, что были получены «теоретически» на шаге ранее.

In [None]:
### YOUR CODE HERE ###