In [1]:
rm(list=ls())
cat("\014")

install.packages("foreign")
#install.packages("zoo")
install.packages("lmtest")
install.packages("stargazer")
install.packages("car")

#Activa librerias.
library(foreign)
library(zoo)
library(lmtest)
library(stargazer)
library(car)

#Se abre la base.
datos=read.csv(file.choose(), sep=";")

#Se miran los datos de la base.
str(datos)
attach(datos)
names(datos)
table(Sexo, Ocupado)
table(Jefehogar,Ocupado)
table(Etnia,Ocupado)
table(Titulo,Ocupado)
table(Edadgrupos, Ocupado)


#Se convierte la variable en un factor.
Ciudad=as.factor(Ciudad)
is.factor(Ciudad)
summary(Ciudad)
Ciudad=relevel(Ciudad,"Resto")

#Se corre el modelo.
modelo=lm(Ocupado ~Sexo+Edad1923+Edad2429+Edad3034+Edad35+Jefehogar+Indigena+
            Gitano+Raizal+Palenquero+Negro+Bachiller+Tecnico+Universitario+Postgrado+
               Ciudad)
summary(modelo)

#Como ninguna de las variables de raza es significativa, 
#se prueba un un modelo sin esas categorías.

modeloa=lm(Ocupado ~Sexo+Edad1923+Edad2429+Edad3034+Edad35+Jefehogar+Bachiller+
             Tecnico+Universitario+Postgrado+Ciudad)
summary(modeloa)

#Como el ajuste de los estimadores mejora, y también la parsimonia del modelo
#Siguiendo a Wooldridge, se hace la prueba RESET para testear la forma funcional del modelo.

ajustea=(fitted(modeloa))^2


modeloa1=lm(Ocupado ~ Sexo+Edad1923+Edad2429+Edad3034+Edad35+Jefehogar+Bachiller+
              Tecnico+Universitario+Postgrado+Ciudad+ajustea)
summary(modeloa1)

#Tabla anova para comparar ajustes entre modelos.
anova(modeloa, modeloa1)


#La prueba F de la tabla anova indica que el modeloa1 tiene un mejor ajuste
#ello significa que se deben agregar relaciones no lineales en el modelo.
#No se agregaran variables con formas cuadráticas, cubicas o logaritmicas
#ya que las variables son categoricas. Por otro, lado se asumirá que la necesidad 
#de relaciones no lineales se resuelven con una forma funcional más adecuada
#para modelos con varible dependiente dicotómica. 



##Prueba de heterocedasticidad.
#Teorícamente, el modelo de probabilidad lineal sufre de heterocedasticidad, la que se
#puede solucionar con Minimos cuadrados ponderados, o con inferencia con errrores robustos.
#Así, a pesar de que se sabe que el modelo tiene heterocedasticidad, se va a comprobar. 
    
#Análisis Gráfico. Siguiendo a Gujararti, al haber un patron claro, hay señal de heterocedasticidad.
plot(fitted(modelo),I(residuals(modelo))^2)

#Breush Pagan test. Como H_0 es homocedasticidad y el pvalor es es muy pequeño, se rechaza
#la nula, y hay heterocedasticidad, confirmando así el análisis gráfico. 
bptest(modeloa)
#Como hay heterocedasticidad hay que corregirla, en caso de querer hacer inferencia.



##Prueba de multicolinealidad
vif(modeloa)
#Como la variable Edad35 tiene un vif mayor a 10, es una señal fuerte de  multicolinealidad
#Así que, como solución se propone excluir dicha variable del modelo y ver el cambio en el 
#ajuste.

modelof=lm(Ocupado ~Sexo+Edad1923+Edad2429+Edad3034+Jefehogar+Bachiller+
             Tecnico+Universitario+Postgrado+Ciudad)
summary(modelof)
vif(modelof)


#se exponen los resultados.

stargazer(modelo, modeloa, modelof, title = "modelos estimados", type = "text", column.labels = c(Modelo1, Modelo2, Modelo3) )
stargazer(modelo, modeloa, modelof, title = "modelos estimados", type = "latex")



## Otros especificaciones que no salen en la parte escrita del trabajo

modelob=lm(Ocupado ~Sexo+Edad1923+Edad2429+Edad3034+Edad35+Jefehogar+Bachiller+
             Tecnico+Universitario+Postgrado+Ciudad+Edad1923*Bachiller+Edad1923*Tecnico+
             Edad1923*Universitario+Edad1923*Postgrado)
summary(modelob)

ajusteb=(fitted(modelob))^2

modelob1=lm(Ocupado ~Sexo+Edad1923+Edad2429+Edad3034+Edad35+Jefehogar+Bachiller+
              Tecnico+Universitario+Postgrado+Ciudad+Edad1923*Bachiller+Edad1923*Tecnico+
              Edad1923*Universitario+Edad1923*Postgrado+ajusteb)
summary(modelob1)

SyntaxError: ignored