# Линейная регрессия с Statsmodels. Подгонка регрессии через формулу (категориальные переменные)

In [None]:
import numpy as np
import pandas as pd

import statsmodels.api as sm

In [None]:
df = pd.read_csv('Diamond.csv')
df.head()

## Пример: diamond equation #1

На датасете/датафрейме `df` подгоним регрессия `log(price)` на `log(carat), colour`. Спецификация (как уравнение)
$$
	\log(price)=\beta_0+\beta_1 \log(carat)+\beta_2 colour+u
$$
**Замечание**: 
- `colour` является категориальной переменной (нечисловой!)
- зависимая переменная – логарифм цены

**Решение**: Добавим в датафрейм пул dummy-переменных, сочувствующий разным уровням/значениям категориальной переменной. Используем метод [pandas.get-dummies](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html#pandas.get_dummies). Обратим внимание на параметр `dtype` (числовые значения на выходе)

In [None]:
df = pd.get_dummies(df, columns=['colour'], dtype=int)
df

In [None]:
# инициализация/спецификация модели через матрицы регрессионного дизайна
# задаём вектор наблюдений зависимой переменной y 
y = np.log(df['price'])
# и матрицу наблюдений регрессоров X с первым столбом из единиц. Матрицу создадим через метод pandas.DataFrame и словарь 
X = sm.add_constant(pd.DataFrame( {'log(carat)': np.log(df['carat']), 'col_D': df['colour_D'], 'col_E':df['colour_E'], 'col_F':df['colour_F'], 'col_G':df['colour_G'], 'col_H':df['colour_H']} ))
X

In [None]:
# создаём объект класса OLS. Параметр missing нужен для контроля пропущенных значений
mod = sm.OLS(endog=y, exog=X, missing='drop')

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)