# Práctica 2: Estimación e Inferencia en Modelos de Regresión Lineales

## Cuestiones

In [None]:
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pylab as plt
from wooldridge import *

1. Utilizando la base de datos **hprice1**:
    - Estimar el modelo $\log {\rm price} = \beta_0 + \beta_1 \log {\rm lotsize} + \beta_2 \log{\rm sqrft} + \beta_3 {\rm bdrms} + u$. Interpretar los resultados obtenidos.
    - Obtener la predicción de $\log {\rm price}$ cuando ${\rm lotsize}=20000$, ${\rm sqrft}=2500$ y ${\rm bdrms}=4$.
    - Para explicar la variación de ${\rm price}$, se considera también el modelo: ${\rm price} = \beta^\prime_0 + \beta_1^\prime {\rm sqrtft} + \beta_2^\prime {\rm bdrms} + u^\prime$. ¿Que modelo es más útil?

In [None]:
datos=dataWoo("hprice1")
y=datos["lprice"]
X=datos[["llotsize", "lsqrft", "bdrms"]]

mco1 = sm.OLS(y, sm.add_constant(X)).fit()
print(mco1.summary())

#x0=[1, np.log(20000), np.log(2500), 4]
#y0=mco1.predict(exog=x0)
#print(y0, np.exp(y0))

In [None]:
y1=datos["price"]
X1=datos[["sqrft", "bdrms"]]

mco2 = sm.OLS(y1, sm.add_constant(X1)).fit()
#print(mco2.summary())


print("AIC1: ", mco1.aic, "AIC2: ", mco2.aic)
print("BIC1: ", mco1.bic, "BIC2: ", mco2.bic)

2. Usando los datos de **vote1**:
    - Estimar el modelo $voteA = \beta_0 + \beta_1 \log(expendA) + \beta_2 \log(expendB) + \beta_3 prtystrA + u$.
    - ¿Cuál es la interpretación de $\beta_1$?
    - ¿Los gastos de A afectan a los resultados de las elecciones? ¿Y los gastos de B?
    - Analizar la correcta especificación *lineal* del modelo con los Tests de Harvey-Collier y Reset de Ramsey.
    - Establecer la hipótesis nula de que un aumento de $1\%$ de aumento en los gastos de A es compensado por un aumento del $1\%$ en los gastos de B. Contrastar estadísticamente.

In [None]:
#dataWoo("vote1", description=True)

datos=dataWoo("vote1")
y=datos["voteA"]
X=datos[["lexpendA", "lexpendB", "prtystrA"]]

mco3 = sm.OLS(y, sm.add_constant(X)).fit()

mco3.summary()


#mco3.f_test([0,1,1,0])

In [None]:
import statsmodels.stats.diagnostic as diagn #Para el test de Harvey-Collier

diagn.linear_harvey_collier(mco3)
mco3.summary()

In [None]:
import statsmodels.stats.outliers_influence as oi #Para el test RESET de Ramsey


rr=oi.reset_ramsey(mco3, degree=2)
print(rr)
















3. Con los datos disponibles en **mlb1** se pretende analizar el efecto de diversas características de los jugadores de la liga de béisbol americana en su salario. Se propone el siguiente modelo:
$$
\log (salary) = \beta_0 + \beta_1 years + \beta_2 gamesyr + \beta_3 bavg + \beta_4 hrunsyr + \beta_5 rbisyr + \beta_6 runsyr + \beta_7 fldperc + \beta_8 allstar + \beta_9 black + \beta_{10} hispan + \beta_{11} black \times percblck + \beta_{12} hispan \times perchisp + u
$$
    - Estimar el modelo.
    - ¿Son las variables $black$, $hispan$, $black\times percblck$ y $hispan\times perchisp$ conjuntamente significativas?
    - ¿Cómo interpretarías los coeficientes de las variables "raciales"?
    
    
    
    
    
    
    

In [None]:
datos=dataWoo("mlb1")
#print(len(datos))
#datos=datos.dropna(subset=['blckpb'])#para quitar valores faltantes en la variable 'blckpb'
#print(len(datos))

In [None]:
#dataWoo("mlb1", description=True)
datos=dataWoo("mlb1")

datos=datos.dropna(subset=['blckpb'])#para quitar valores faltantes en la variable 'blckpb'
y=datos['lsalary']
X=datos[['years', 'gamesyr', 'bavg', 'hrunsyr', 'rbisyr', 'runsyr', 'fldperc', 'allstar', 'black', 'hispan', 'blckpb', 'hispph']]

mco4 = sm.OLS(y, sm.add_constant(X)).fit()

mco4.summary()

In [None]:
R=[[0,0,0,0,0,0,0,0,0,1,0,0,0], [0,0,0,0,0,0,0,0,0,0,1,0,0], [0,0,0,0,0,0,0,0,0,0,0,1,0], [0,0,0,0,0,0,0,0,0,0,0,0,1]]
mco4.f_test(R).summary()

4. Utilizar los datos de **gpa3** para analizar los promedios generales de calificaciones ($cumgpa$) de atletas universitarios en base a la puntuación del examen de acceso a la universidad ($sat$), el percentil alcanzado en bachiller ($hsperc$) y las horas de cursos universitarios ($totrs$):
$$
cumgpa = \beta_0 + \beta_1 sat + \beta_2 hsperc + \beta_3 tothrs + u
$$
    - Estimar el modelo anterior e interpreta los resultados.
    - ¿Está el modelo adecuadamente espeficicado de forma lineal según los tests de Harvey-Collier y RESET de Ramsey?
    - Para determinar si hay diferencias en las calificaciones entre hombres y mujeres del modelo anterior, considera el modelo con interacciones:
    $$
cumgpa = \delta_0 + \delta_1 sat + \delta_2 hsperc + \delta_3 tothrs + \delta_4 female + \delta_5 female\times sat + \delta_6 female \times hsperc + \delta_7 female \times tothrs +  u
$$  
Estima el modelo e interpreta los coeficientes obtenidos.
    - Contrasta la hipótesis $H_0: \delta_4=\delta_5=\delta_6=\delta_7=0$. ¿Qué se puede deducir de lo obtenido?

In [None]:
#dataWoo("gpa3", description=True)

datos=dataWoo("gpa3")

y=datos["cumgpa"]
X=datos[["sat", "hsperc", "tothrs"]]

mco5 = sm.OLS(y, sm.add_constant(X)).fit()

mco5.summary()


import statsmodels.stats.outliers_influence as oi #Para el test RESET de Ramsey
import statsmodels.stats.diagnostic as diagn #Para el test de Harvey-Collier


hc=diagn.linear_harvey_collier(mco5)
rr=oi.reset_ramsey(mco5, degree=2)




datos["fsat"]=datos["female"]*datos["sat"]
datos["fhperc"]=datos["female"]*datos["hsperc"]
datos["ftot"]=datos["female"]*datos["tothrs"]


#datos[["female", "sat", "hsperc", "tothrs", "fsat", "fhperc", "ftot"]]

y1=datos["cumgpa"]
X1=datos[["sat", "hsperc", "tothrs", "female", "fsat", "fhperc", "ftot"]]

mco6 = sm.OLS(y1, sm.add_constant(X1)).fit()

mco6.summary()

5. Usando los datos de **sleep75**, y sabiendo que el modelo de interés es:
$$
sleep = \beta_0 + \beta_1 totwrk + \beta_2 educ + \beta_3 age + \beta_4 age^2 + \beta_5 yngkid + u
$$
    - Estimar el modelo por separado para hombres y mujeres y deducir su hay diferencias importantes entre los dos modelos estimados. Obtener las sumas de cuadrados de los residuos $SCR_H$ y $SCR_M$.
    - Estimar el modelo sin distinguir por género, y obtener $SCR$. Construir el estadístico:
    $$
    F_{exp} = \frac{n-2k -2}{k+1} \frac{SCR - (SCR_H+SCR_M)}{SCR_H + SCR_M} \sim F_{k+1, n-2k-1}
    $$
    donde $n$ es el número total de observaciones y $k$ el número de variables del modelo ($5$).
    - El estadístico $F_{exp}$ (**Test de Chow**) permite contrastar la hipótesis de que coeficientes de los modelos para hombres y mujeres coinciden. Comprobar si se rechaza o no esta hipótesis.

In [None]:
datos=dataWoo("sleep75")

datosH=datos[datos["male"]==1]

yH=datosH["sleep"]
XH=datosH[["totwrk", "educ", "age", "agesq", "yngkid"]]


datosM=datos[datos["male"]==0]

yM=datosM["sleep"]
XM=datosM[["totwrk", "educ", "age", "agesq", "yngkid"]]


mcoH = sm.OLS(yH, sm.add_constant(XH)).fit()
mcoH.summary()



In [None]:

mcoM = sm.OLS(yM, sm.add_constant(XM)).fit()
mcoM.summary()

In [None]:
scrH=mcoH.ssr
scrM=mcoM.ssr
print(scrH, scrM)

6. Aplicar el test de Chow del ejercicio anterior para determinar si existen diferencias entre géneros al analizar el modelo $\log (wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 exper^2 + \beta_4 tenure + \beta_5 tenure^2 + u$ con los datos de **wage1**.

In [None]:
datos

7. Utilizando **apple**:
    - Definir la variable binaria $eco=1$ si $ecolbs>0$ y $eco=0$ y si $ecolbs=0$. ¿Qué indica esa variable? ¿Cuál es la proporcion de familias que asegura que comprará manzanas ecoetiquetadas?
    - Estimar el modelo $eco = \beta_0 + \beta_1 ecoprc + \beta_2 regprc +\beta_3 faminc + \beta_4 hhsize + \beta_5 educ + \beta_6 age + u$. Interpretar $\beta_1$ y $\beta_2$.
    - ¿Son conjuntamente significativas las variables que no corresponden a precios del modelo? ¿Qué variable independiente, además de las relacionadas con precios, parecen tener unefecto más importante sobre la decisión de comprar manzanas ecológicas? ¿Tiene sentido?
    - Sustituir en el modelo la variable $faminc$ por $\log (faminc)$ y estimar el nuevo modelo. ¿Qué modelo se ajusta mejor?
    - Utilizar el Test de Chow para determinar si hay diferencias entre hombres y mujeres en su intención de comprar manzanas ecológicas.

In [None]:
datos=dataWoo("apple")
#datos[datos["ecolbs"] ==0, "eco"] = 0
datos["eco"]=0
datos.loc[datos['ecolbs']>0.01, 'eco'] = 1
datos["lfaminc"]=np.log(datos["faminc"])

In [None]:
datos