# Линейная регрессия с Statsmodels. Подгонка регрессии через формулу (количественные переменные)

In [None]:
import numpy as np
import pandas as pd

import statsmodels.formula.api as smf

import statsmodels.api as sm # только показать альтернативный способ

In [None]:
df = pd.read_csv('sleep75.csv')
df.shape

## Пример: sleep equation #1

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+u
$$

In [None]:
# инициализация/спецификация модели через формулу
# создаём объект класса OLS
mod = smf.ols(formula='sleep~totwrk+age', data=df)

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем полный протокол подгонки
res.summary()

In [None]:
# сокращённый протокол подгонки
res.summary(slim=True)

In [None]:
# сохраним его в виде текстового файла
with open('sleep-equation1.txt', 'w') as f:
        f.write(res.summary(slim=True).as_text())

## Пример: sleep equation #2

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age, age^2`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+\beta_3age^2+u
$$

In [None]:
# инициализация/спецификация модели через формулу
# создаём объект класса OLS
mod = sm.OLS.from_formula(formula='sleep~totwrk+age+I(age**2)', data=df)

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)

In [None]:
# выведем краткий протокол подгонки и переименуем переменные
res.summary(slim=True, yname='Sleeping time', xname=['const', 'Занятость', 'Возраст', 'Квадрат возраста'])

## Пример: sleep equation #3

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age, age^2, log(hrwage)`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+\beta_3age^2+\beta_4\log(hrwage)+u
$$
**Замечание** обратим внимание на число наблюдений

In [None]:
# инициализация/спецификация модели через формулу
# создаём объект класса OLS
mod = smf.ols(formula='sleep~totwrk+age+I(age**2)+np.log(hrwage)', data=df)

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)