# Регрессия с Statsmodels. Подгонка регрессии через формулу (категориальные переменные)

In [None]:
import numpy as np
import pandas as pd

import statsmodels.formula.api as smf

import statsmodels.api as sm # только показать альтернативный способ

In [None]:
df = pd.read_csv('Diamond.csv')
df.head()

## Пример: diamond equation

На датасете/датафрейме `df` подгоним регрессия `log(price)` на `log(carat), colour`. Спецификация (как уравнение)
$$
	\log(price)=\beta_0+\beta_1 \log(carat)+\beta_2 colour+u
$$
**Замечание**: `colour` является категориальной переменной

In [None]:
# описательные статистики для colour
df.value_counts(subset='colour')

In [None]:
# инициализация/спецификация модели через формулу
# создаём объект класса OLS
mod = smf.ols(formula='np.log(price)~np.log(carat)+colour', data=df)

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)