# sleep 

## Модель 1

### спецификация 
$
sleep=B0+B1*totwork+B2*male+u
$

In [4]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/sleep75.csv')

In [6]:
df.head()

Unnamed: 0,age,black,case,clerical,construc,educ,earns74,gdhlth,inlf,leis1,...,spwrk75,totwrk,union,worknrm,workscnd,exper,yngkid,yrsmarr,hrwage,agesq
0,32,0,1,0.0,0.0,12,0,0,1,3529,...,0,3438,0,3438,0,14,0,13,7.070004,1024
1,31,0,2,0.0,0.0,14,9500,1,1,2140,...,0,5020,0,5020,0,11,0,0,1.429999,961
2,44,0,3,0.0,0.0,17,42500,1,1,4595,...,1,2815,0,2815,0,21,0,0,20.529997,1936
3,30,0,4,0.0,0.0,12,42500,1,1,3211,...,1,3786,0,3786,0,12,0,12,9.619998,900
4,64,0,5,0.0,0.0,14,2500,1,1,4052,...,1,2580,0,2580,0,44,0,33,2.75,4096


### Первый способ оценивания (спецификация)

In [8]:
# специфицируем модель через формулу
sleep_eq1 = smf.ols(formula='sleep~totwrk+male', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

Intercept    3573.20
totwrk         -0.17
male           88.84
dtype: float64

In [9]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~totwrk+male', data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

Intercept    3573.20
totwrk         -0.17
male           88.84
dtype: float64

###  Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [10]:
# Зададим матрицы регрессионного дизайна
y = df['sleep'] # зависимая переменная
X = sm.add_constant(df[['totwrk', 'male']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,totwrk,male
0,1.0,3438,1
1,1.0,5020,1
2,1.0,2815,1
3,1.0,3786,0
4,1.0,2580,1
5,1.0,1205,1
6,1.0,2113,1


In [11]:
# Погоним модель
sleep_eq3 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
sleep_eq3.params.round(2)

const     3573.20
totwrk      -0.17
male        88.84
dtype: float64

## Модель 2

### спецификация
$
sleep=B0+B1*totwork+B2*male+...+u
$

In [12]:
# Описательные статистики по переменным модели
df[['sleep', 'totwrk', 'male', 'smsa', 'age', 'south', 'yngkid', 'marr', 'union']].describe()

Unnamed: 0,sleep,totwrk,male,smsa,age,south,yngkid,marr,union
count,706.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0
mean,3266.355524,2122.92068,0.566572,0.399433,38.815864,0.184136,0.128895,0.82153,0.21813
std,444.413448,947.470123,0.4959,0.490129,11.342637,0.38787,0.335321,0.38318,0.413269
min,755.0,0.0,0.0,0.0,23.0,0.0,0.0,0.0,0.0
25%,3015.0,1553.5,0.0,0.0,29.0,0.0,0.0,1.0,0.0
50%,3270.5,2288.0,1.0,0.0,36.0,0.0,0.0,1.0,0.0
75%,3532.25,2691.75,1.0,1.0,48.0,0.0,0.0,1.0,0.0
max,4695.0,6415.0,1.0,1.0,65.0,1.0,1.0,1.0,1.0


### Первый способ оценивания (спецификация)

In [13]:
# специфицируем моделл через формулу
sleep_eq1 = smf.ols(formula='sleep~totwrk+male+smsa+age+south+yngkid+marr+union', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)

Intercept    3446.83
totwrk         -0.17
male           87.11
smsa          -54.19
age             2.71
south         102.27
yngkid        -13.05
marr           31.36
union          11.87
dtype: float64

In [14]:
# Число наблюдений, под которые подгонялась модель
sleep_eq1.nobs

706.0

In [15]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~totwrk+male+smsa+age+south+yngkid+marr+union', 
                                data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

Intercept    3446.83
totwrk         -0.17
male           87.11
smsa          -54.19
age             2.71
south         102.27
yngkid        -13.05
marr           31.36
union          11.87
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [16]:
# Зададим матрицы регрессионного дизайна
y = df['sleep'] # зависимая переменная
# регрессоры с добавленным столбом единиц
X = sm.add_constant(df[['totwrk', 'male', 'smsa', 'age', 'south', 'yngkid', 'marr', 'union']])  
X.tail(n=7)

Unnamed: 0,const,totwrk,male,smsa,age,south,yngkid,marr,union
699,1.0,2725,1,0,61,0,0,1,0
700,1.0,2388,0,1,32,1,0,0,0
701,1.0,2026,0,1,45,0,0,1,0
702,1.0,675,1,0,34,0,0,1,1
703,1.0,1851,0,0,37,0,0,1,0
704,1.0,1961,0,0,54,1,0,1,1
705,1.0,2363,0,0,30,1,1,1,0


In [17]:
# Погоним модель
sleep_eq3 = sm.OLS(y, X).fit()
# Коэфициенты модели с округлением
sleep_eq3.params.round(2)


const     3446.83
totwrk      -0.17
male        87.11
smsa       -54.19
age          2.71
south      102.27
yngkid     -13.05
marr        31.36
union       11.87
dtype: float64

## Модель 3

### спецификация 
$
sleep=B0+B1*log(hrwage)+...+u
$

In [18]:
# Описательные статистики по переменным модели
df[['sleep', 'hrwage', 'smsa', 'totwrk', 'male', 'marr', 'age', 'south', 'yngkid']].describe()

Unnamed: 0,sleep,hrwage,smsa,totwrk,male,marr,age,south,yngkid
count,706.0,532.0,706.0,706.0,706.0,706.0,706.0,706.0,706.0
mean,3266.355524,5.082839,0.399433,2122.92068,0.566572,0.82153,38.815864,0.184136,0.128895
std,444.413448,3.704385,0.490129,947.470123,0.4959,0.38318,11.342637,0.38787,0.335321
min,755.0,0.35,0.0,0.0,0.0,0.0,23.0,0.0,0.0
25%,3015.0,2.890002,0.0,1553.5,0.0,1.0,29.0,0.0,0.0
50%,3270.5,4.379999,0.0,2288.0,1.0,1.0,36.0,0.0,0.0
75%,3532.25,6.210001,1.0,2691.75,1.0,1.0,48.0,0.0,0.0
max,4695.0,35.509987,1.0,6415.0,1.0,1.0,65.0,1.0,1.0


### Первый способ оценивания (спецификация)

In [19]:
# специфицируем моделл через формулу
sleep_eq1 = smf.ols(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', data=df).fit()
# Коэфициенты модели с округление
sleep_eq1.params.round(2)


  result = getattr(ufunc, method)(*inputs, **kwargs)


Intercept         3440.19
np.log(hrwage)      -1.39
smsa               -36.96
totwrk              -0.16
male                36.87
marr                53.34
age                  2.37
south               76.27
yngkid              47.92
dtype: float64

In [20]:
# Число наблюдений, под которые подгонялась модель
sleep_eq1.nobs

532.0

In [21]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='sleep~np.log(hrwage)+smsa+totwrk+male+marr+age+south+yngkid', 
                                data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(2)

  result = getattr(ufunc, method)(*inputs, **kwargs)


Intercept         3440.19
np.log(hrwage)      -1.39
smsa               -36.96
totwrk              -0.16
male                36.87
marr                53.34
age                  2.37
south               76.27
yngkid              47.92
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [23]:
# Зададим матрицы регрессионного дизайна
y = df['sleep'] # зависимая переменная
# в исходом датасете есть переменная lhrwage=log(hrwage)
# регрессоры с добавленным столбом единиц
X = sm.add_constant(df[['lhrwage', 'smsa', 'totwrk', 'male', 'marr', 'age', 'south', 'yngkid']])  
X.tail(n=7)

Unnamed: 0,const,lhrwage,smsa,totwrk,male,marr,age,south,yngkid
699,1.0,,0,2725,1,1,61,0,0
700,1.0,,1,2388,0,0,32,1,0
701,1.0,,1,2026,0,1,45,0,0
702,1.0,,0,675,1,1,34,0,0
703,1.0,,0,1851,0,1,37,0,0
704,1.0,,0,1961,0,1,54,1,0
705,1.0,,0,2363,0,1,30,1,1


In [24]:
# Погоним модель (удалим пропущенные наблюдения с missing='drop')
sleep_eq3 = sm.OLS(y, X, missing='drop').fit()
# Коэфициенты модели с округление
sleep_eq3.params.round(2)

const      3440.19
lhrwage      -1.39
smsa        -36.96
totwrk       -0.16
male         36.87
marr         53.34
age           2.37
south        76.27
yngkid       47.92
dtype: float64

# wage equation

## модель 1

### спецификация 
$
log(wage)=B0+B1*age+B2*IQ+u
$

In [25]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm

In [27]:
df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/wage2.csv')
df.head()

Unnamed: 0,wage,hours,IQ,KWW,educ,exper,tenure,age,married,black,south,urban,sibs,brthord,meduc,feduc,lwage
0,769,40,93,35,12,11,2,31,1,0,0,1,1,2.0,8.0,8.0,6.645091
1,808,50,119,41,18,11,16,37,1,0,0,1,1,,14.0,14.0,6.694562
2,825,40,108,46,14,11,9,33,1,0,0,1,1,2.0,14.0,14.0,6.715384
3,650,40,96,32,12,13,7,32,1,0,0,1,4,3.0,12.0,12.0,6.476973
4,562,40,74,27,11,14,5,34,1,0,0,1,10,6.0,6.0,11.0,6.331502


### Первый способ оценивания (спецификация)

In [29]:
# специфицируем модель через формулу
wage_eq1 = smf.ols(formula='np.log(wage)~age+IQ', data=df).fit()
# Коэфициенты модели с округление
wage_eq1.params.round(3)

Intercept    5.077
age          0.024
IQ           0.009
dtype: float64

In [30]:
# Альтеративно
wage_eq2 = sm.OLS.from_formula(formula='lwage~age+IQ', data=df).fit()
# Коэфициенты модели с округление
wage_eq2.params.round(3)

Intercept    5.077
age          0.024
IQ           0.009
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [31]:
# Зададим матрицы регрессионного дизайна
y = df['lwage'] # зависимая переменная
X = sm.add_constant(df[['age', 'IQ']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,age,IQ
0,1.0,31,93
1,1.0,37,119
2,1.0,33,108
3,1.0,32,96
4,1.0,34,74
5,1.0,35,116
6,1.0,30,91


In [32]:
# Погоним модель
wage_eq3 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
wage_eq3.params.round(3)

const    5.077
age      0.024
IQ       0.009
dtype: float64

## Модель 2

### спецификация
$
log(wage)=B0+B1*age+B2*IQ+...+u
$

In [33]:
# Описательные статистики по переменным модели
df[['lwage', 'age', 'IQ', 'south', 'urban', 'married', 'KWW']].describe()

Unnamed: 0,lwage,age,IQ,south,urban,married,KWW
count,935.0,935.0,935.0,935.0,935.0,935.0,935.0
mean,6.779004,33.080214,101.282353,0.341176,0.717647,0.893048,35.744385
std,0.421144,3.107803,15.052636,0.474358,0.450385,0.309217,7.638788
min,4.744932,28.0,50.0,0.0,0.0,0.0,12.0
25%,6.505783,30.0,92.0,0.0,0.0,1.0,31.0
50%,6.807935,33.0,102.0,0.0,1.0,1.0,37.0
75%,7.056175,36.0,112.0,1.0,1.0,1.0,41.0
max,8.032035,38.0,145.0,1.0,1.0,1.0,56.0


### Первый способ оценивания (спецификация)

In [34]:
# специфицируем моделл через формулу
wage_eq1 = smf.ols(formula='lwage~age+IQ+south+urban+married+KWW', data=df).fit()
# Коэфициенты модели с округление
wage_eq1.params.round(3)

Intercept    5.126
age          0.014
IQ           0.007
south       -0.101
urban        0.165
married      0.191
KWW          0.007
dtype: float64

In [35]:
# Число наблюдений, под которые подгонялась модель
wage_eq1.nobs

935.0

In [36]:
# Альтеративно
sleep_eq2 = sm.OLS.from_formula(formula='lwage~age+IQ+south+urban+married+KWW', data=df).fit()
# Коэфициенты модели с округление
sleep_eq2.params.round(3)

Intercept    5.126
age          0.014
IQ           0.007
south       -0.101
urban        0.165
married      0.191
KWW          0.007
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [37]:
# Зададим матрицы регрессионного дизайна
y = df['lwage'] # зависимая переменная
# регрессоры с добавленным столбом единиц
X = sm.add_constant(df[['age', 'IQ', 'south', 'urban', 'married', 'KWW']])  
X.tail(n=7)

Unnamed: 0,const,age,IQ,south,urban,married,KWW
928,1.0,31,100,1,0,1,33
929,1.0,34,82,1,1,1,30
930,1.0,30,79,1,0,1,28
931,1.0,31,102,1,1,1,32
932,1.0,28,77,1,0,1,22
933,1.0,28,109,1,0,1,25
934,1.0,35,107,1,0,1,32


In [38]:
# Погоним модель
wage_eq3 = sm.OLS(y, X).fit()
# Коэфициенты модели с округлением
wage_eq3.params.round(3)


const      5.126
age        0.014
IQ         0.007
south     -0.101
urban      0.165
married    0.191
KWW        0.007
dtype: float64

# Output equation

## модель1 

### спецификация 
$
sleep=B0+B1*log(capital)+B2*log(labour)+u
$

In [39]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm

In [40]:
df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/Labour.csv')
df.head()

Unnamed: 0,capital,labour,output,wage
0,2.606563,184,9.250759,43.080307
1,1.323237,91,3.66431,27.780016
2,22.093692,426,28.781516,44.467748
3,10.737851,72,4.124642,39.73471
4,1.161365,46,2.89015,34.650709


### Первый способ оценивания (спецификация)

In [41]:
# специфицируем модель через формулу
output_eq1 = smf.ols(formula='np.log(output)~np.log(capital)+np.log(labour)', data=df).fit()
# Коэфициенты модели с округление
output_eq1.params.round(3)

Intercept         -1.711
np.log(capital)    0.208
np.log(labour)     0.715
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [42]:
# Зададим матрицы регрессионного дизайна
y = np.log(df['output']) # зависимая переменная
# логаримируем данные
X = pd.DataFrame(data={'l_capital': np.log(df['capital']), 'l_labour': np.log(df['labour'])} )
X = sm.add_constant(X)
#X = sm.add_constant(df[['totwrk', 'male']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,l_capital,l_labour
0,1.0,0.958033,5.214936
1,1.0,0.280081,4.51086
2,1.0,3.095292,6.054439
3,1.0,2.373775,4.276666
4,1.0,0.149596,3.828641
5,1.0,5.623283,8.941415
6,1.0,0.518174,3.871201


In [43]:
# Погоним модель
output_eq2 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
output_eq2.params.round(3)

const       -1.711
l_capital    0.208
l_labour     0.715
dtype: float64

## модель 2

### спецификация 
$
sleep=B0+B1*log(capital)+B2*log(labour)+B3*log(wage)+u
$

### Первый способ оценивания (спецификация)

In [45]:
# специфицируем модель через формулу
output_eq1 = smf.ols(formula='np.log(output)~np.log(capital)+np.log(labour)+np.log(wage)', data=df).fit()
# Коэфициенты модели с округление
output_eq1.params.round(3)

Intercept         -5.007
np.log(capital)    0.149
np.log(labour)     0.720
np.log(wage)       0.921
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [46]:
# Зададим матрицы регрессионного дизайна
y = np.log(df['output']) # зависимая переменная
# логаримируем данные
X = pd.DataFrame(data={'l_capital': np.log(df['capital']), 'l_labour': np.log(df['labour']), 'l_wage': np.log(df['wage'])} )
X = sm.add_constant(X)
#X = sm.add_constant(df[['totwrk', 'male']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,l_capital,l_labour,l_wage
0,1.0,0.958033,5.214936,3.763066
1,1.0,0.280081,4.51086,3.324317
2,1.0,3.095292,6.054439,3.794764
3,1.0,2.373775,4.276666,3.682225
4,1.0,0.149596,3.828641,3.545318
5,1.0,5.623283,8.941415,3.890591
6,1.0,0.518174,3.871201,3.47995


In [47]:
# Погоним модель
output_eq2 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
output_eq2.params.round(3)

const       -5.007
l_capital    0.149
l_labour     0.720
l_wage       0.921
dtype: float64

# cost equation

## модель 1 

### спецификация 
$
log(cost)=B0+B1*log(q)+u
$

In [48]:
import numpy as np # linear algebra 
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# stats models: regression fitting via formulas
import statsmodels.formula.api as smf
# stats models: regression fitting via matrices of regression design
import statsmodels.api as sm


In [49]:
df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/Electricity.csv')
df.head()

Unnamed: 0,cost,q,pl,sl,pk,sk,pf,sf
0,0.213,8.0,6869.47,0.3291,64.945,0.4197,18.0,0.2512
1,3.0427,869.0,8372.96,0.103,68.227,0.2913,21.067,0.6057
2,9.4059,1412.0,7960.9,0.0891,40.692,0.1567,41.53,0.7542
3,0.7606,65.0,8971.89,0.2802,41.243,0.1282,28.539,0.5916
4,2.2587,295.0,8218.4,0.1772,71.94,0.1623,39.2,0.6606


### Первый способ оценивания (спецификация)

In [50]:
# специфицируем модель через формулу
cost_eq1 = smf.ols(formula='np.log(cost)~np.log(q)', data=df).fit()
# Коэфициенты модели с округление
cost_eq1.params.round(3)

Intercept   -3.841
np.log(q)    0.836
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [51]:
# Зададим матрицы регрессионного дизайна
y = np.log(df['cost']) # зависимая переменная
# логаримируем данные
X = pd.DataFrame(data={'l_q': np.log(df['q'])} )
X = sm.add_constant(X)
#X = sm.add_constant(df[['totwrk', 'male']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,l_q
0,1.0,2.079442
1,1.0,6.767343
2,1.0,7.252762
3,1.0,4.174387
4,1.0,5.686975
5,1.0,5.209486
6,1.0,3.912023


In [52]:
# Погоним модель
cost_eq2 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
cost_eq2.params.round(3)

const   -3.841
l_q      0.836
dtype: float64

## модель 2

### спецификация 
$
log(cost)=B0+B1*log(q)+B2*log(pl)+B3*log(pf)+B4*log(pk)+u
$

### Первый способ оценивания (спецификация)

In [54]:
# специфицируем модель через формулу
cost_eq1 = smf.ols(formula='np.log(cost)~np.log(q)+np.log(pl)+np.log(pf)+np.log(pk)', data=df).fit()
# Коэфициенты модели с округление
cost_eq1.params.round(3)

Intercept    -7.472
np.log(q)     0.838
np.log(pl)    0.044
np.log(pf)    0.713
np.log(pk)    0.188
dtype: float64

### Второй способ оценивания (через матрицы регресионного дизайна y,x)

In [56]:
# Зададим матрицы регрессионного дизайна
y = np.log(df['cost']) # зависимая переменная
# логаримируем данные
X = pd.DataFrame(data={'l_q': np.log(df['q']), 'l_pl': np.log(df['pl']), 'l_pf': np.log(df['pf']), 'l_pk': np.log(df['pk'])} )
X = sm.add_constant(X)
#X = sm.add_constant(df[['totwrk', 'male']]) # регрессоры с добавленным столбом единиц
X.head(n=7)

Unnamed: 0,const,l_q,l_pl,l_pf,l_pk
0,1.0,2.079442,8.834842,2.890372,4.173541
1,1.0,6.767343,9.032763,3.047708,4.22284
2,1.0,7.252762,8.982297,3.726416,3.706032
3,1.0,4.174387,9.101852,3.351272,3.719481
4,1.0,5.686975,9.014131,3.668677,4.275832
5,1.0,5.209486,8.529811,3.569814,4.309859
6,1.0,3.912023,9.12742,3.467921,4.505018


In [57]:
# Погоним модель
cost_eq2 = sm.OLS(y, X).fit()
# Коэфициенты модели с округление
cost_eq2.params.round(3)

const   -7.472
l_q      0.838
l_pl     0.044
l_pf     0.713
l_pk     0.188
dtype: float64