## Monitoria 2 - Econometría
### Pontificia Universidad Javeriana
#### Análisis de Regresión Multiple 

El objetivo de este documento es dar ejemplos de los tipos de regresiones que podemos realizar, como se hacen en Python y sus interpretaciones. Tanto de sus formas funcionales como de los tipos de regresores (variables continuas, binarias, interacciones, etc.) Además se hará una breve explicación de algunas de las principales salidas de la tabla de regresión en Python.

Usaremos 2 bases de datos para todos los ejercicios, WAGE1.dta y econmath.dta

Este documento sigue el siguiente orden:

- Regresión Nivel - Nivel
- Regresión Nivel - Log
- Regresión Log - Nivel
- Regresión Log - Log
- Variables Binarias
- Interacciones entre variables Binarias
- R cuadrado
- Estadistico t
- Estadistico F

Inicialmente se mostrará un ejemplo de cada una de las siguientes formas funcionales para las regresiones, junto con su interpretación:

![title](graphs/loglog.png)

Luego pasaremos a una breve descripción de los estadísticos t, F y el R cuadrado

In [92]:
import pandas as pd 
import numpy as np 
import os 

pathout = './data/'
if not os.path.exists(pathout):
    os.mkdir(pathout) 
    pathgraphs = './graphs/'
    if not os.path.exists(pathgraphs): 
        os.mkdir(pathgraphs) 

In [93]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

## 1. Regresión Nivel - nivel
Para esta regresión usaremos datos de la base econmath que contiene datos sobre los resultados en la prueba ACT de estudiantes en estados unidos, junto con algunas características de estos.

Estamos interesados en determinar si el promedio en high School afecta los resultados en matemáticas de esta prueba, por lo que usaremos las siguientes variables:

####  Nuestra variable dependiente de interés
- actmth: Variable con información de la calificación de los estudiantes en la prueba de matemáticas

####  Nuestra variable independiente de interés:

- hsgpa: Variable con información el promedio en high school del estudiante

#### Nuestros controles:

- male: Variable binaria que indica si el estudiante es hombre o mujer
- colgpa: Variable con información sobre el promedio en el college
- study: Variable con información de las horas estudiadas cada semana



In [94]:
d0 = pd.read_stata(pathout + 'econmath.dta')
d0.head(1)

Unnamed: 0,age,work,study,econhs,colgpa,hsgpa,acteng,actmth,act,mathscr,male,calculus,attexc,attgood,fathcoll,mothcoll,score
0,23,15.0,10.0,0,3.4909,3.355,24.0,26.0,27.0,10,1,1,0,0,1,1,84.43


In [95]:
X0 = d0[['hsgpa' ,'study','male' , 'colgpa']] 
X0 = sm.add_constant(X0)
Y0 = d0.actmth

In [96]:
# En esta regresión tenemos problemas de missing values por lo que debemos especificarle python
# que no los tenga en cuenta
reg0 = sm.OLS(endog=Y0, exog=X0, missing = 'drop',)
reg0 = reg0.fit()
print(reg0.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.229
Model:                            OLS   Adj. R-squared:                  0.225
Method:                 Least Squares   F-statistic:                     60.00
Date:                Wed, 12 May 2021   Prob (F-statistic):           2.15e-44
Time:                        12:59:27   Log-Likelihood:                -2129.7
No. Observations:                 814   AIC:                             4269.
Df Residuals:                     809   BIC:                             4293.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9690      1.188      5.867      0.0

Dado que estamos interesados en la interpretación de hsgpa, y tanto nuestra variable independiente como dependiente están en niveles, la interpretación será la siguiente:

#### Al aumentar en una unidad el promedio en High School, los resultados de la prueba de matemáticas del ACT aumentaran en promedio y manteniendo todo lo demás constante en 3.99 puntos. Esta es una estimación altamente significativa.

Aquí hay que tener presente que el promedio en High School va de 0 a 4, por lo que un aumento de una unidad es bastante. Además, el puntaje máximo en el ACT matemáticas es de 36.
Dado lo anterior tendría sentido aplicar logaritmo a la variable hsgpa para ver el efecto de un aumento porcentual sobre el ACT matemáticas.

## 2. Regresión Nivel - Log

En las regresiones Nivel - Log tendremos nuestra variable dependiente en niveles y nuesta independiente en log.
Para este ejemplo usaremos la base de datos econmath del ejemplo anterior, pero esta vez estaremos interesados en determinar como un aumento porcentual en el promedio de High school afecta los resultados de la prueba de matemáticas ACT.

In [97]:
# Vamos a pasar esta variable a logaritmo
lhsgpa = np.log(d0.hsgpa)

In [98]:
X01 = d0[['study','male' , 'colgpa',]].copy() 
X01['lhsgpa'] = lhsgpa 
X01 = sm.add_constant(X01)
Y01 = d0.actmth

In [99]:
reg1 = sm.OLS(endog=Y01, exog=X01, missing = 'drop')
reg1 = reg1.fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.226
Model:                            OLS   Adj. R-squared:                  0.222
Method:                 Least Squares   F-statistic:                     58.95
Date:                Wed, 12 May 2021   Prob (F-statistic):           1.08e-43
Time:                        12:59:28   Log-Likelihood:                -2131.4
No. Observations:                 814   AIC:                             4273.
Df Residuals:                     809   BIC:                             4296.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.7701      1.391      3.430      0.0

Ahora, dado que esta es una regresión Nivel - Log, la interpretación para nuestra variable de interés "lhsgpa" será la siguiente:

#### Ante un aumento de un 1% en el promedio de High School, los resultados en el ACT matemáticas aumentaran en promedio y manteniendo todo lo demás constante, en 0.128 puntos.

Como se pudo observar, el coeficiente de lhsgpa se debe dividir por 100 para interpretar correctamente.

## 3. Regresión Log - Nivel

Para este tipo de regresión importaremos una base de datos que contiene información sobre 526 trabajadores para el año 1976. Supongamos que estamos interesados en determinar el efecto de la educación sobre el salario por hora de los trabajadores. Este salario, lo tendremos en logaritmo, por lo que tendremos una interpretación Log - Nivel

In [100]:
d1 = pd.read_stata(pathout + 'WAGE1.dta')
d1.head(1)

Unnamed: 0,wage,educ,exper,tenure,nonwhite,female,married,numdep,smsa,northcen,...,trcommpu,trade,services,profserv,profocc,clerocc,servocc,lwage,expersq,tenursq
0,3.1,11,2,0,0,1,0,2,1,0,...,0,0,0,0,0,0,0,1.131402,4,0


####  Nuestra variable dependiente de interés
- lwage:Variable con información del salario por hora de los trabajadores en logaritmo

####  Nuestra variable independiente de interés:

- educ: Variable con información de los años de educacion de los trabajadores 

#### Nuestros controles:

- exper Variable con información de los años de experiencia del trabajador
- expersq: Variable "exper" al cuadrado
- female: Variable binaria que indica si el trabajador es hombre o mujer


In [101]:
X1 = d1[['educ','exper' , 'expersq' , 'female']] 
X1 = sm.add_constant(X1)
Y = d1.lwage

In [102]:
reg1 = sm.OLS(endog=Y, exog=X1,)
reg1 = reg1.fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.400
Model:                            OLS   Adj. R-squared:                  0.395
Method:                 Least Squares   F-statistic:                     86.69
Date:                Wed, 12 May 2021   Prob (F-statistic):           2.03e-56
Time:                        12:59:29   Log-Likelihood:                -279.27
No. Observations:                 526   AIC:                             568.5
Df Residuals:                     521   BIC:                             589.9
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.3905      0.102      3.820      0.0

Ahora teniendo en cuenta que wage esta en logaritmos y educ esta en niveles diremos que:

#### Al aumentar en un año la educación de las personas, su salario por hora aumentaría en promedio en 8.41%, manteniendo lo demás constante. Esta estimación resulta ser altamente significativa. 

La estimación obtenida para el regresor educ se multiplica por 100.

## 4. Regresión Log - Log

Por ultimo, para realizar una regresión Log - Log, tanto nuestra variable dependiente como nuestra variable independiente deben estar en logaritmo.

Para este caso estamos interesados en el efecto de un aumento porcentual en la experiencia sobre el salario por hora. Seguiremos usando la base de datos WAGE1 pero ahora, exper estará en logaritmo.

In [103]:
#Pasamos esta variable a logaritmos
lexper = np.log(d1.exper)

In [104]:
X4 = d1[['educ' , 'expersq' , 'female']].copy() 
X4['lexper'] = lexper 
X4 = sm.add_constant(X4)
Y4 = d1.lwage

In [105]:
reg4 = sm.OLS(endog=Y4, exog=X4, missing = 'drop',)
reg4 = reg4.fit()
print(reg4.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.408
Model:                            OLS   Adj. R-squared:                  0.403
Method:                 Least Squares   F-statistic:                     89.67
Date:                Wed, 12 May 2021   Prob (F-statistic):           5.91e-58
Time:                        12:59:30   Log-Likelihood:                -275.68
No. Observations:                 526   AIC:                             561.4
Df Residuals:                     521   BIC:                             582.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.2745      0.106      2.601      0.0

Teniendo en cuenta que tanto wage como exper esta en logaritmos, tendremos una interpretación log - log, y diremos que:

#### Un aumento en un 1% en la experiencia de las personas aumenta en promedio y manteniendo lo demás constante, el salario por hora en 0.223 puntos porcentuales, siendo una estimación altamente significativa.

## 5. Variables Binarias
Las variables binarias, también conocidas como variables Dummy o dicotomas, nos ayudan clasificar cuando se cumple o no una condición. Por ejemplo, en casos anteriores agregamos una variable de genero que nos indicaba cuando una persona era hombre o mujer. Por ejemplo en la base de datos WAGE1 tenemos una variable llamada "female" que le da valores de 1 a las mujeres y valores de 0 a los hombres.
Estas variables nos ayudan a ver si existe una diferencia estadística entre dos grupos. Para el ejemplo anterior nos indica si existe una diferencia estadística entre los salarios por hora de los hombres y las mujeres.

Para dar un ejemplo de como se realiza la interpretacion, usaremos la base de datos econmath para ver si hay una diferencia estadistica entre las mujeres y los hombres en los resultados de la prueba de matematicas del ACT.
Traeremos entonces lso resultados de la primera regresion pero ahora nos fijaremos en el coeficiente de la variable male.

In [106]:
print(reg0.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.229
Model:                            OLS   Adj. R-squared:                  0.225
Method:                 Least Squares   F-statistic:                     60.00
Date:                Wed, 12 May 2021   Prob (F-statistic):           2.15e-44
Time:                        12:59:31   Log-Likelihood:                -2129.7
No. Observations:                 814   AIC:                             4269.
Df Residuals:                     809   BIC:                             4293.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9690      1.188      5.867      0.0

Este coeficiente se interpreta de la siguiente manera:

#### Los hombres obtienen en promedio y manteniendo todo lo demás constante, 1.48 puntos de mas que las mujeres en la prueba de matemáticas del ACT.


## 6. Interacciones entre variables Binarias

Algo que también podemos hacer es realizar interacciones entre variables binarias. Suponiendo que tenemos dos variables binarias, una de genero y otra de color de piel que nos indica cuando una persona es blanca o de color. Podríamos interactuar estas variables para para diferenciar por ejemplo, el efecto de hombres blancos con hombres de color, mujeres de color y mujeres blancas. Dependiendo de nuestro objetivo, esto podría tener sentido.

Para dar un ejemplo continuaremos con la base de datos econmath, y vamos a interactuar la variable binaria "male" y la variable binaria "econhs" que indica si la persona tuvo un curso de economía en High School. Esto se realiza de la siguiente forma:

In [107]:
econmale = d0.male*d0.econhs
econmale

0      0
1      1
2      0
3      0
4      1
      ..
851    0
852    1
853    0
854    0
855    1
Length: 856, dtype: int8

Para tener una interpretación mas completa, en nuestra regresión añadiremos la variable "male" individualmente, la variable "econhs" y la interacción "econmale". En este caso, tendremos un grupo base, que serán las mujeres que no vieron un curso de economía en High School. Estas estarán representados con un 0 en la variable "econmale".

In [108]:
# El paso a seguir es agregar estas variables como regresores:


In [109]:
X5 = d0[['hsgpa' ,'study','male' , 'econhs', 'colgpa']].copy()
X5['econmale'] = econmale
X5 = sm.add_constant(X5)
Y5 = d0.actmth

In [110]:
reg5 = sm.OLS(endog=Y5, exog=X5, missing = 'drop')
reg5 = reg5.fit()
print(reg5.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.236
Model:                            OLS   Adj. R-squared:                  0.230
Method:                 Least Squares   F-statistic:                     41.48
Date:                Wed, 12 May 2021   Prob (F-statistic):           3.63e-44
Time:                        12:59:33   Log-Likelihood:                -2126.1
No. Observations:                 814   AIC:                             4266.
Df Residuals:                     807   BIC:                             4299.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9577      1.188      5.855      0.0

La interpretación se complica un poco en estos casos, pero veamoso de la siguiente forma. Nuestra ecuación estimada es la siguiente:


$ actmth = \beta_{0} + \beta_{1}male + \beta_{2}econ + \beta_{3}econmale + ...$


Si queremos encontrar el efecto de cualquier grupo respecto de las mujeres que no vieron un curso de economía (grupo base), lo haremos de la siguiente forma:

- Hombres y curso de economía: $\beta_{1} + \beta_{2} + \beta_{3}$

- Hombres sin curso de economía: $\beta_{1}$

- Mujeres y curso de economía: $ \beta_{2}$

Siguiendo la idea anterior, podemos decir que:

#### Los hombres que si vieron un curso de economía en High School obtienen en promedio y con todo lo demás constante, $(1.59  - 0.51 - 0.26)$ puntos de mas que las mujeres que no vieron un curso de economía.

 Nota: Por ahora ignoremos la significancia estadística


## 7. R cuadrado

El $R^{2}$ nos dice que tanto mis regresores explican la variación en y.
Matemáticamente tendremos que $R^{2}$ se escribe como:


$ R^{2} = \frac{\sum_{i=1}^{n}{(\hat{y} - \bar{y})^{2}}}{\sum_{i=1}^{n}{(y_{i} - \bar{y})^{2}}} = \frac{SSE}{SST} $



Donde SSE es la suma explicada de cuadrados y SST es la suma total de cuadrados. Es importante notar que con el $R^{2}$ aumenta a medida que añadimos regresores. Es por esto que aparece el $R^{2} Ajustado$, en el cual el coeficiente puede disminuir si se añade un regresor que no aporta nada a nuestra regresión.

Este R cuadrado lo podemos encontrar también en cada regresión que realizamos.

In [111]:
# Para el ejercicio anterior:
print(reg5.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.236
Model:                            OLS   Adj. R-squared:                  0.230
Method:                 Least Squares   F-statistic:                     41.48
Date:                Wed, 12 May 2021   Prob (F-statistic):           3.63e-44
Time:                        12:59:33   Log-Likelihood:                -2126.1
No. Observations:                 814   AIC:                             4266.
Df Residuals:                     807   BIC:                             4299.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9577      1.188      5.855      0.0

#### En este caso podemos decir que nuestros regresores explican un 23.6% de nuestra variable dependiente "actmth". 
Esto lo podemos ver en la esquina superior derecha de la tabla de regresión, en la parte que dice R-squared.

## 8. Estadístico t

La distribución t con m grados de libertad se obtiene dividiendo una normal estándar $z$ por la raíz de una Chi cuadrado $\sqrt{X^{2}}$. El resultado se distribuye t con m grados de libertad. Despues de algo de matematicas llegamos a: 

$\frac{\hat\beta_{i} - q}{\sqrt{{\hat\sigma_{\epsilon}}^{2}(X'X)^{-1}}} \sim t_{n - k - 1}$

Para lo que nos interesa, al realizar una regresión utilizamos el estadístico t para ver si una estimación es estadísticamente significativa o no. Usualmente se usa que q = 0, para probar la significancia estadistica pero no tiene que ser necesariamente así.

Específicamente podemos ver la significancia de una estimación a través del valor de la t o de su p-value (son equivalentes):

Cuando ocurre que:

 - $p-value < $  nivel de significancia 
 o  
 - $t > $valor critico
 


entonces, rechazamos $H_{0}$ en favor de $H_{1}$.


$H_{0}$: La estimación no es significativa

$H_{1}$: La estimación es significativa.


Suponiendo que tenemos la siguiente tabla de regresión:

In [112]:
print(reg5.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.236
Model:                            OLS   Adj. R-squared:                  0.230
Method:                 Least Squares   F-statistic:                     41.48
Date:                Wed, 12 May 2021   Prob (F-statistic):           3.63e-44
Time:                        12:59:34   Log-Likelihood:                -2126.1
No. Observations:                 814   AIC:                             4266.
Df Residuals:                     807   BIC:                             4299.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9577      1.188      5.855      0.0

#### Diremos que nuestro regresor econmale no es significativo ya que tiene un p-value de 0.59, pero colgpa es altamente significativo ya que su p-value es de 0.000. Esto lo podemos ver en la parte principal de la tabla.

Si vemos los estadísticos t llegaríamos a la misma conclusión.

## 9. Estadístico F

La idea del estadístico F es imponer varias restricciones al mismo tiempo. El caso mas comun es ver si  $\beta_{1} =\beta_{2} = \beta_{3} = 0$, es decir, si estas 3 variables son conjuntamente no significativas. El estadístico F compara dos regresiones, una restringida y otra sin ninguna restricción. El punto es que si la suma de residuos al cuadrado de las dos regresiones es estadísticamente igual, es porque mi $H_{0}$ es verdad, y no la rechazaríamos.


El estadístico F puede ser visto en terminos del R cuadrado como:

  $F = \frac{R^{2}/(n - k - 1)}{(1-R^{2}/(k))} \sim F_{r, n - k - 1} $

En otras palabras, el estadístico F nos indica cuando nuestros regresores son conjuntamente significativos. Este estadístico resulta útil cuando hay alta correlación entre nuestros regresores, lo cual hace que el estadístico t no sea tan confiable para rechazar significancia. Un ejemplo claro es el siguiente:

En el punto anterior rechazamos significancia estadística de la variable econmale, lo cual nos haría pensar que debemos eliminar este regresor, pero...

In [113]:
print(reg5.summary())

                            OLS Regression Results                            
Dep. Variable:                 actmth   R-squared:                       0.236
Model:                            OLS   Adj. R-squared:                  0.230
Method:                 Least Squares   F-statistic:                     41.48
Date:                Wed, 12 May 2021   Prob (F-statistic):           3.63e-44
Time:                        12:59:35   Log-Likelihood:                -2126.1
No. Observations:                 814   AIC:                             4266.
Df Residuals:                     807   BIC:                             4299.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9577      1.188      5.855      0.0

#### Como podemos ver en la tabla, en la esquina superior derecha, la probabilidad del estadístico F es un numero muy cercano a 0, por lo que rechazamos que nuestros estimadores sean no significativos conjuntamente. En otras palabras, todos nuestros regresores son significativos conjuntamente!.

Este es el final del segundo documento de Introducción a Python para el análisis de datos. Si necesitan cualquier cosa pueden ponerse en contacto conmigo al correo Juan.rinconp@javeriana.edu.co