# Задачи по Эконометрике: Интерпретация коэффициентов
Захаров Савелий
# Sleep Equation

## Sleep Equation (Модель 1)

На датасете `sleep75` рассмотрим региессию **sleep на totwrk, male**

Спецификация: $sleep=\beta_0+\beta_1totwrk+\beta_2male+u$

In [1]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm

In [2]:
df = pd.read_csv('/Users/saveliyzakharov/Downloads/Econometrica-master-2/python-notebooks/data-csv/sleep75.csv')

### Cпособ оценивания через спецификацию

In [3]:
# специфицируем модель через формулу
sleep_eq1 = smf.ols(formula='sleep~totwrk+male', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

Intercept    3573.20
totwrk         -0.17
male           88.84
dtype: float64

In [4]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~totwrk+male', data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

Intercept    3573.20
totwrk         -0.17
male           88.84
dtype: float64

### Интерпретация модели

1) При увеличении количества рабочих минут в неделю на единицу, кол-во сна в неделю уменьшается на 0.17.
2) Мужчины спят в среднем на 88.84 минуты больше.

## Sleep Equation (Модель 2)
На датасете `sleep75` рассмотрим региессию **sleep на totwrk, male, smsa, age, south, yngkid, marr, union**

Спецификация: $sleep=\beta_0+\beta_1totwrk+\beta_2male+\cdots+u$

In [41]:
# Описательные статистики по переменным модели
df[['sleep', 'totwrk', 'male', 'smsa', 'age', 'south', 'yngkid', 'marr', 'union']].describe()

Unnamed: 0,sleep,totwrk,male,smsa,age,south,yngkid,marr,union
count,706.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0
mean,3266.355524,2122.92068,0.566572,0.399433,38.815864,0.184136,0.128895,0.82153,0.21813
std,444.413448,947.470123,0.4959,0.490129,11.342637,0.38787,0.335321,0.38318,0.413269
min,755.0,0.0,0.0,0.0,23.0,0.0,0.0,0.0,0.0
25%,3015.0,1553.5,0.0,0.0,29.0,0.0,0.0,1.0,0.0
50%,3270.5,2288.0,1.0,0.0,36.0,0.0,0.0,1.0,0.0
75%,3532.25,2691.75,1.0,1.0,48.0,0.0,0.0,1.0,0.0
max,4695.0,6415.0,1.0,1.0,65.0,1.0,1.0,1.0,1.0


### Cпособ оценивания через спецификацию

In [42]:
# специфицируем моделл через формулу
sleep_eq1 = smf.ols(formula='sleep~totwrk+male+smsa+age+south+yngkid+marr+union', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

Intercept    3446.83
totwrk         -0.17
male           87.11
smsa          -54.19
age             2.71
south         102.27
yngkid        -13.05
marr           31.36
union          11.87
dtype: float64

In [43]:
# Число наблюдений, под которые подгонялась модель
sleep_eq1.nobs

706.0

In [44]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~totwrk+male+smsa+age+south+yngkid+marr+union', 
                                data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

Intercept    3446.83
totwrk         -0.17
male           87.11
smsa          -54.19
age             2.71
south         102.27
yngkid        -13.05
marr           31.36
union          11.87
dtype: float64

### Интерпретация модели
1) При увеличении количества рабочих минут в неделю на единицу, кол-во сна в неделю уменьшается на 0.17.
2) Мужчины спят в среднем на 87.11 минуты больше.

## Sleep Equation (Модель 3)
На датасете `sleep75` рассмотрим региессию **sleep на log(hrwage), smsa, totwrk, male, marr, age, south, yngkid**

Спецификация: $sleep=\beta_0+\beta_1\log(hrwage)+\cdots+u$

In [47]:
# Описательные статистики по переменным модели
df[['sleep', 'hrwage', 'smsa', 'totwrk', 'male', 'marr', 'age', 'south', 'yngkid']].describe()

Unnamed: 0,sleep,hrwage,smsa,totwrk,male,marr,age,south,yngkid
count,706.0,532.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0
mean,3266.355524,5.082839,0.399433,2122.92068,0.566572,0.82153,38.815864,0.184136,0.128895
std,444.413448,3.704385,0.490129,947.470123,0.4959,0.38318,11.342637,0.38787,0.335321
min,755.0,0.35,0.0,0.0,0.0,0.0,23.0,0.0,0.0
25%,3015.0,2.890002,0.0,1553.5,0.0,1.0,29.0,0.0,0.0
50%,3270.5,4.379999,0.0,2288.0,1.0,1.0,36.0,0.0,0.0
75%,3532.25,6.210001,1.0,2691.75,1.0,1.0,48.0,0.0,0.0
max,4695.0,35.509987,1.0,6415.0,1.0,1.0,65.0,1.0,1.0


*Замечание*: есть пропущенные значения по hrwage
### Первый способ оценивания: 
через спецификацию

In [48]:
# специфицируем моделл через формулу
sleep_eq1 = smf.ols(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

Intercept         3440.19
np.log(hrwage)      -1.39
smsa               -36.96
totwrk              -0.16
male                36.87
marr                53.34
age                  2.37
south               76.27
yngkid              47.92
dtype: float64

In [49]:
# Число наблюдений, под которые подгонялась модель
sleep_eq1.nobs

532.0

In [50]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', 
                                data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

Intercept         3440.19
np.log(hrwage)      -1.39
smsa               -36.96
totwrk              -0.16
male                36.87
marr                53.34
age                  2.37
south               76.27
yngkid              47.92
dtype: float64

### Интерпретация модели
1) Люди живущие в мегаполисе в среднем спят меньше на 36.96 минут.
2) При изменении почасовой оплаты на 1% человек спит на 0.0139 минуты в неделю меньше