# Sleep Equation (Модель1)
На датасете `sleep75` рассмотрим региессию **sleep на log(hrwage), smsa, totwrk, male, marr, age, south, yngkid**

Спецификация: $sleep=\beta_0+\beta_1\log(hrwage)+\cdots+u$

In [None]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm

In [None]:
df = pd.read_csv('sleep75.csv')
# Описательные статистики по переменным модели
df[['sleep', 'hrwage', 'smsa', 'totwrk', 'male', 'marr', 'age', 'south', 'yngkid']].describe()

*Замечание*: есть пропущенные значения по hrwage
## Первый способ оценивания: 
через спецификацию

In [None]:
# специфицируем моделл через формулу
sleep_eq1 = smf.ols(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

In [None]:
# Число наблюдений, под которые подгонялась модель
sleep_eq1.nobs

*Вывод*: наблюдения с пропущенными значениями были удалены при оценивании модели

In [None]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', 
                                data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

## Второй способ оценивания: 
через матрицы ргерессионного дизайна $\mathbf{y}, \mathbf{X}$

In [None]:
# Зададим матрицы регрессионного дизайна
y = df['sleep'] # зависимая переменная
# в исходом датасете есть переменная lhrwage=log(hrwage)
# регрессоры с добавленным столбом единиц
X = sm.add_constant(df[['lhrwage', 'smsa', 'totwrk', 'male', 'marr', 'age', 'south', 'yngkid']])  
X.tail(n=7)

In [None]:
# Погоним модель (удалим пропущенные наблюдения с missing='drop')
sleep_eq3 = sm.OLS(y, X, missing='drop').fit()
# Коэфициенты модели с округление
sleep_eq3.params.round(2)