## Monitoria 2 - Econometría
### Pontificia Universidad Javeriana
#### Análisis de Regresión Multiple - En proceso de creación

El objetivo de este documento es dar ejemplos de los tipos de regresiones que podemos realizar, como se hacen en Python y sus interpretaciones. Tanto de sus formas funcionales como de los tipos de regresores (variables continuas, binarias, interacciones, etc.)

In [1]:
import pandas as pd 
import numpy as np 
import os 

pathout = './data/'
if not os.path.exists(pathout):
    os.mkdir(pathout) 
    pathgraphs = './graphs/'
    if not os.path.exists(pathgraphs): 
        os.mkdir(pathgraphs) 

In [2]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

Inicialmente se mostrara un ejemplo de cada una de las siguientes formas funcionales para las regresiones, junto con su interpretación:

![title](graphs/loglog.png)

## 1. Regresión Nivel - nivel
Para esta regresión usaremos datos de la base econmath que contiene datos sobre los resultados en la prueba ACT de estudiantes en estados unidos, junto con algunas características de estos.

Estamos interesados en determinar si el promedio en high School afecta los resultados en matemáticas de esta prueba, por lo que usaremos las siguientes variables:

####  Nuestra variable dependiente de interés
- actmth: Variable con información de la calificación de los estudiantes en la prueba de matemáticas

####  Nuestra variable independiente de interés:

- hsgpa: Variable con información el promedio en high school del estudiante

#### Nuestros controles:

- male: Variable binaria que indica si el estudiante es hombre o mujer
- colgpa: Variable con información sobre el promedio en el college
- study: Variable con información de las horas estudiadas cada semana



In [40]:
d0 = pd.read_stata(pathout + 'econmath.dta')
d0.head(10)

Unnamed: 0,age,work,study,econhs,colgpa,hsgpa,acteng,actmth,act,mathscr,male,calculus,attexc,attgood,fathcoll,mothcoll,score
0,23,15.0,10.0,0,3.4909,3.355,24.0,26.0,27.0,10,1,1,0,0,1,1,84.43
1,23,0.0,22.5,1,2.1,3.219,23.0,20.0,24.0,9,1,0,0,0,0,1,57.380001
2,21,25.0,12.0,0,3.0851,3.306,21.0,24.0,21.0,8,1,1,1,0,0,1,66.389999
3,22,30.0,40.0,0,2.6805,3.977,31.0,28.0,31.0,10,0,1,0,1,1,1,81.150002
4,22,25.0,15.0,1,3.7454,3.89,28.0,31.0,32.0,8,1,1,0,1,0,1,95.900002
5,22,0.0,30.0,0,3.0555,3.5,25.0,30.0,28.0,10,1,1,1,0,0,1,83.610001
6,22,20.0,25.0,1,2.1666,3.0,15.0,19.0,18.0,9,0,1,0,1,0,0,76.230003
7,22,20.0,15.0,0,3.2544,3.77,28.0,30.0,32.0,9,1,1,1,0,1,1,84.43
8,22,28.0,7.0,0,3.1298,3.927,28.0,28.0,30.0,6,0,0,1,0,0,1,79.510002
9,21,22.5,25.0,0,2.2424,2.77,18.0,19.0,17.0,9,0,1,0,1,0,0,46.720001


In [37]:
X0 = d0[['hsgpa' ,'study','male' , 'colgpa']] 
X0 = sm.add_constant(X0)
Y0 = d0.actmth

In [38]:
reg0 = sm.OLS(endog=Y0, exog=X0, missing = 'drop',)
reg0 = reg0.fit()
print(reg0.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.229
Model:                            OLS   Adj. R-squared:                  0.225
Method:                 Least Squares   F-statistic:                     60.00
Date:                Wed, 12 May 2021   Prob (F-statistic):           2.15e-44
Time:                        10:36:33   Log-Likelihood:                -2129.7
No. Observations:                 814   AIC:                             4269.
Df Residuals:                     809   BIC:                             4293.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9690      1.188      5.867      0.0

Dado que estamos interesados en la interpretación de hsgpa, y tanto nuestra variable independiente como dependiente están en niveles, la interpretación será la siguiente:

#### Al aumentar en una unidad el promedio en High School, los resultados de la prueba de matemáticas del ACT aumentaran en promedio y manteniendo todo lo demás constante en 3.99 puntos. Esta es una estimación altamente significativa.

Aquí hay que tener presente que el promedio en High School va de 0 a 4, por lo que un aumento de una unidad es bastante. Además, el puntaje máximo en el ACT matemáticas es de 36.
Dado lo anterior tendría sentido aplicar logaritmo a la variable hsgpa para ver el efecto de un aumento porcentual sobre el ACT matemáticas.

## 2. Regresión Nivel - Log

En las regresiones Nivel - Log tendremos nuestra variable dependiente en niveles y nuesta independiente en log.
Para este ejemplo usaremos la base de datos econmath del ejemplo anterior, pero esta vez estaremos interesados en determinar como un aumento porcentual en el promedio de High school afecta los resultados de la prueba de matemáticas ACT.

In [41]:
lhsgpa = np.log(d0.hsgpa)

In [48]:
X01 = d0[['study','male' , 'colgpa',]].copy() 
X01['lhsgpa'] = lhsgpa 
X01 = sm.add_constant(X01)
Y01 = d0.actmth

In [49]:
reg1 = sm.OLS(endog=Y01, exog=X01, missing = 'drop')
reg1 = reg1.fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.226
Model:                            OLS   Adj. R-squared:                  0.222
Method:                 Least Squares   F-statistic:                     58.95
Date:                Wed, 12 May 2021   Prob (F-statistic):           1.08e-43
Time:                        10:55:10   Log-Likelihood:                -2131.4
No. Observations:                 814   AIC:                             4273.
Df Residuals:                     809   BIC:                             4296.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.7701      1.391      3.430      0.0

Ahora, dado que esta es una regresión Nivel - Log, la interpretación para nuestra variable de interés "lhsgpa" será la siguiente:

#### Ante un aumento de un 1% en el promedio de High School, los resultados en el ACT matemáticas aumentaran en promedio y manteniendo todo lo demás constante, en 0.128 puntos.

Como se pudo observar, el coeficiente de lhsgpa se debe dividir por 100 para interpretar correctamente.

## 3. Regresión Log - Nivel

Para este tipo de regresión importaremos una base de datos que contiene información sobre 526 trabajadores para el año 1976. Supongamos que estamos interesados en determinar el efecto de la educación sobre el salario por hora de los trabajadores. Este salario, lo tendremos en logaritmo, por lo que tendremos una interpretación Log - Nivel

In [52]:
d1 = pd.read_stata(pathout + 'WAGE1.dta')
d1.head(1)

Unnamed: 0,wage,educ,exper,tenure,nonwhite,female,married,numdep,smsa,northcen,...,trcommpu,trade,services,profserv,profocc,clerocc,servocc,lwage,expersq,tenursq
0,3.1,11,2,0,0,1,0,2,1,0,...,0,0,0,0,0,0,0,1.131402,4,0


####  Nuestra variable dependiente de interés
- lwage:Variable con información del salario por hora de los trabajadores en logaritmo

####  Nuestra variable independiente de interés:

- educ: Variable con información de los años de educacion de los trabajadores 

#### Nuestros controles:

- exper Variable con información de los años de experiencia del trabajador
- expersq: Variable "exper" al cuadrado
- female: Variable binaria que indica si el trabajador es hombre o mujer


In [53]:
X1 = d1[['educ','exper' , 'expersq' , 'female']] 
X1 = sm.add_constant(X1)
Y = d1.lwage

In [21]:
reg1 = sm.OLS(endog=Y, exog=X1,)
reg1 = reg1.fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.400
Model:                            OLS   Adj. R-squared:                  0.395
Method:                 Least Squares   F-statistic:                     86.69
Date:                Wed, 12 May 2021   Prob (F-statistic):           2.03e-56
Time:                        10:30:02   Log-Likelihood:                -279.27
No. Observations:                 526   AIC:                             568.5
Df Residuals:                     521   BIC:                             589.9
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.3905      0.102      3.820      0.0

Ahora teniendo en cuenta que wage esta en logaritmos y educ esta en niveles diremos que:

#### Al aumentar en un año la educación de las personas, su salario por hora aumentaría en promedio en 8.41%, manteniendo lo demás constante. Esta estimación resulta ser altamente significativa. 

La estimación obtenida para el regresor educ se multiplica por 100.

## 4. Regresión Log - Log

Por ultimo, para realizar una regresión Log - Log, tanto nuestra variable dependiente como nuestra variable independiente deben estar en logaritmo.

Para este caso estamos interesados en el efecto de un aumento porcentual en la experiencia sobre el salario por hora. Seguiremos usando la base de datos WAGE1 pero ahora, exper estará en logaritmo.

In [74]:
lexper = np.log(d1.exper)

In [75]:
X4 = d1[['educ' , 'expersq' , 'female']].copy() 
X4['lexper'] = lexper 
X4 = sm.add_constant(X4)
Y4 = d1.lwage

In [76]:
reg4 = sm.OLS(endog=Y4, exog=X4, missing = 'drop',)
reg4 = reg4.fit()
print(reg4.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.408
Model:                            OLS   Adj. R-squared:                  0.403
Method:                 Least Squares   F-statistic:                     89.67
Date:                Wed, 12 May 2021   Prob (F-statistic):           5.91e-58
Time:                        11:10:54   Log-Likelihood:                -275.68
No. Observations:                 526   AIC:                             561.4
Df Residuals:                     521   BIC:                             582.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.2745      0.106      2.601      0.0

Teniendo en cuenta que tanto wage como exper esta en logaritmos, tendremos una interpretación log - log, y diremos que:

#### Un aumento en un 1% en la experiencia de las personas aumenta en promedio y manteniendo lo demás constante, el salario por hora en 0.223 puntos porcentuales, siendo una estimación altamente significativa.