# Линейная регрессия с Statsmodels. Подгонка регрессии через матрицы дизайна (количественные переменные)

In [None]:
import numpy as np
import pandas as pd

import statsmodels.api as sm

In [None]:
df = pd.read_csv('sleep75.csv')
df.shape

## Пример: sleep equation #1

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+u
$$

In [None]:
# инициализация/спецификация модели через матрицы регрессионного дизайна
# задаём вектор наблюдений зависимой переменной y 
y = df['sleep']
# и матрицу наблюдений регрессоров X (с первым столбом из единиц)
X = sm.add_constant(df[['totwrk', 'age']])
X

In [None]:
# создаём объект класса OLS. Параметр missing нужен для контроля пропущенных значений
mod = sm.OLS(endog=y, exog=X, missing='drop')

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)

## Пример: sleep equation #2

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age, age^2`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+\beta_3age^2+u
$$

In [None]:
# инициализация/спецификация модели через матрицы регрессионного дизайна
# задаём вектор наблюдений зависимой переменной y 
y = df['sleep']
# и матрицу наблюдений регрессоров X (с первым столбом из единиц), в которую вручную нужно добавить квадрат регрессора
X = sm.add_constant(df[['totwrk', 'age']])
X['age**2'] = df['age']**2
X

In [None]:
# создаём объект класса OLS. Параметр missing нужен для контроля пропущенных значений
mod = sm.OLS(endog=y, exog=X, missing='drop')

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)

## Пример: sleep equation #3

На датасете/датафрейме `df` подгоним регрессия `sleep` на `totwrk, age, age^2, log(hrwage)`. Спецификация (как уравнение)
$$
	sleep=\beta_0+\beta_1 totwrk+\beta_2 age+\beta_3age^2+\beta_4\log(hrwage)+u
$$
**Замечание** обратим внимание на наличие пропущенных значений

In [None]:
# инициализация/спецификация модели через матрицы регрессионного дизайна
# задаём вектор наблюдений зависимой переменной y 
y = df['sleep']
# и матрицу наблюдений регрессоров X (с первым столбом из единиц), в которую вручную нужно добавить квадрат регрессора
X = sm.add_constant(df[['totwrk', 'age']])
X['age**2'] = df['age']**2
X['log(hrwage)'] = np.log(df['hrwage'])
X

In [None]:
# создаём объект класса OLS. Параметр missing нужен для контроля пропущенных значений
mod = sm.OLS(endog=y, exog=X, missing='drop')

# подгонка специфицированной модели на данных с неробастной ковариационной матрицей для коэффициентов
# создаём объект класса RegressionResults
res = mod.fit()

# выведем краткий протокол подгонки
res.summary(slim=True)