# MODELOS LOGIT Y PROBIT

Cuando una variable binaria es la variable dependiene a explicar, el modelo de regresión se interpreta como probabilidades. Retomando el ejemplo de la ecuación minceriana, el modelo se podría reformular considerando una variable salarial binaria; igual a la unidad para salarios por encima de la media y cero para salarios por debajo de la media.

Para lograr asegurar que las probabilidades estén restringidas a valores entre cero y uno se han sugerido dos modelos fundamentales; el logístico o logit y el probabilístico o probit. 

La regresión logística no supone linealidad como en los modelos de regresión clásica, tampoco requiere del supuesto de normalidad ni del de homocedasticidad (Garson, 2014). Sin embargo, si requiere que las observaciones sean independientes y que las variables explicatorias estén relacionadas linealmente al logito de la variable dependiente.

En general, los resultados de los modelos logit y probit permiten llegar a las mismas conclusiones ya que sus coeficientes sólo difieren en escala; los coeficientes logit son aproximadamente 1.8 veces los que se obtienen en el probit. Tal vez la desventaja más visible de los probit es que sus coeficientes son más difíciles de interpretar y además, debido al supuesto de normalidad, no se recomienda su uso cuando las observaciones se concentran mucho en alguna de las colas de la distribución.

### Estimación por MV 

Son modelos estimados por MV debido a su no linealidad. Este método tiene ventajas estadísticas en virtud de que sus estimaciones son consistentes, eficientes y para muestras grandes son insesgadas y su distribución se aproxima a una normal.

### Pruebas de hipótesis

Se pueden aplicar pruebas de restricciones tipo Wald. Una prueba usual en este sentido consiste en comparar la razón de verosimilitud (LR) del modelo que se está estimando en relación al modelo nulo, en el cual los coeficientes de las variables explicativas están restringidos a ser nulos. Si el LR es significativamente diferente de cero tendremos evidencia de que el modelo que se está estimando es diferente al nulo. 
La bondad de ajuste se obtiene con base en el porcentaje correctamente predicho por el modelo: se define un valor predicho de uno si la probabilidad predicha es de menos 0.5 y de cero en caso contrario. El porcentaje predicho correctamente es el número de veces en que el valor estimado es igual al real.

Los modelos probabilísticos que se presentan se elaboraron para predecir la probabilidad de obtener ingresos por hora por arriba de la mediana (p), de acuerdo a los años de escolaridad, la experiencia y el sexo. 

Los indicadores se construyeron con la Encuesta Nacional de Ocupación y Empleo (ENOE) 2015 del INEGI. 

In [1]:
library(stats)

In [2]:
load("Capitulo_LogitProbit.RData")

In [3]:
attach(BDatos_1)

In [4]:
summary(BDatos_1)

   ing_x_hrs            ingocup        escolaridad          sexo       
 Min.   :   0.0886   Min.   :    16   Min.   : 0.000   Min.   :0.0000  
 1st Qu.:  16.6667   1st Qu.:  3000   1st Qu.: 6.000   1st Qu.:0.0000  
 Median :  24.2248   Median :  4300   Median : 9.000   Median :1.0000  
 Mean   :  34.2161   Mean   :  5568   Mean   : 9.725   Mean   :0.6085  
 3rd Qu.:  37.7778   3rd Qu.:  6450   3rd Qu.:12.000   3rd Qu.:1.0000  
 Max.   :3000.0000   Max.   :180000   Max.   :24.000   Max.   :1.0000  
     exper         capacita     
 Min.   : 0.0   Min.   : 0.000  
 1st Qu.:14.0   1st Qu.: 0.000  
 Median :25.0   Median : 0.000  
 Mean   :26.4   Mean   : 1.278  
 3rd Qu.:36.0   3rd Qu.: 0.000  
 Max.   :92.0   Max.   :98.000  

In [6]:
BDatos_1

ing_x_hrs,ingocup,escolaridad,sexo,exper,capacita
<dbl>,<int>,<int>,<int>,<int>,<dbl>
58.13953,6000,16,1,29,0
31.25000,4300,11,0,37,0
23.25581,4800,12,0,37,0
17.77778,3440,10,1,10,0
14.53488,3000,3,0,88,0
35.71429,4300,6,0,48,0
25.00000,1720,6,0,58,0
37.03704,4300,12,1,56,0
95.20349,13100,12,0,20,0
8.50822,3000,9,1,43,0


In [7]:
# Para generar la variable cualitativa con valor de uno si 
# está por arriba de la madiana y cero en caso cotrario.
y <- ifelse(ing_x_hrs>24.22,1,0)

In [8]:
summary(y)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0000  1.0000  0.5036  1.0000  1.0000 

In [9]:
# Estimo los modelos logit y probit
# Modelo logit
mod_logit <- glm(y ~ escolaridad + exper + sexo, family = "binomial")

In [10]:
summary(mod_logit)


Call:
glm(formula = y ~ escolaridad + exper + sexo, family = "binomial")

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2072  -1.0861   0.5374   1.0795   2.2437  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.4328725  0.0263347  -92.38   <2e-16 ***
escolaridad  0.1859686  0.0017082  108.87   <2e-16 ***
exper        0.0174362  0.0004403   39.60   <2e-16 ***
sexo         0.2789270  0.0126256   22.09   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 167665  on 120948  degrees of freedom
Residual deviance: 152567  on 120945  degrees of freedom
AIC: 152575

Number of Fisher Scoring iterations: 4


In [12]:
# Modelo probit
mod_probit <- glm(y ~ escolaridad + exper + sexo, family = binomial(link = "probit"))

In [13]:
summary(mod_probit)


Call:
glm(formula = y ~ escolaridad + exper + sexo, family = binomial(link = "probit"))

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2367  -1.0968   0.5401   1.0796   2.2530  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.4116513  0.0150724  -93.66   <2e-16 ***
escolaridad  0.1101217  0.0009769  112.72   <2e-16 ***
exper        0.0095507  0.0002621   36.44   <2e-16 ***
sexo         0.1662554  0.0077044   21.58   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 167665  on 120948  degrees of freedom
Residual deviance: 152796  on 120945  degrees of freedom
AIC: 152804

Number of Fisher Scoring iterations: 4


Los resultados econométricos del modelo logit y probit muestran que la escolaridad, la experiencia y el sexo son estadísticamente diferente de cero y tienen una relación positiva con la probabilidad de obtener ingreso por hora  por arriba de la mediana. También se observa que el modelo logit presenta coeficientes mayores a los de modelo probit, aunque nos son comparables. 
La lectura de los resultados son los siguientes, cuando se utiliza el logaritmo odds: 
1. Por una unidad de cambio en años de escolaridad, se incrementa el logaritmo de odds de tener ingreso por arriba de la media por 0.18 en el modelo logit y 0.11 en el modelo probit.

2. Por una unidad de cambio en años de experiencia, se incrementa  el logaritmo de odds de tener ingreso por arriba de la media por 0.017 en el modelo logit y 0.009 en el modelo probit. 
3. El ser hombre (sexo =1),  incrementa el logaritmo de odds de tener ingreso por arriba de la media por 0.279 en el modelo logit y 0.166 en el modelo probit.

Si para el análisis se utiliza en lugar del log odds la razón de odds, entonces los resultados son los siguientes: 

In [14]:
#odds ratios and 95% CI

exp(cbind(OR = coef(mod_logit), confint(mod_logit)))

Waiting for profiling to be done...


Unnamed: 0,OR,2.5 %,97.5 %
(Intercept),0.08778431,0.08335809,0.09242306
escolaridad,1.20438447,1.200368,1.20843265
exper,1.01758906,1.01671217,1.01846834
sexo,1.32171085,1.28941374,1.35483454


In [15]:
exp(cbind(OR = coef(mod_probit), confint(mod_probit)))

Waiting for profiling to be done...


Unnamed: 0,OR,2.5 %,97.5 %
(Intercept),0.2437405,0.2368851,0.2507615
escolaridad,1.116414,1.1143268,1.1185135
exper,1.0095964,1.0090896,1.0101048
sexo,1.1808747,1.1631579,1.1988686


Ahora, con la razón odds la interpretación es la siguiente:

1. Por una unidad de incremento en años de escolaridad, se incrementa la razón de odds de tener ingreso por arriba de la media por  un factor 1.20 en el modelo logit y 1.11 en el modelo probit.

2. Por una unidad de incremento en años de experiencia, se incrementa la razón de odds de tener ingreso por arriba de la media por un factor 1.01 en el modelo logit y 1.009 en el modelo probit.

3. El ser hombre (sexo =1),  incrementa la razón  de odds de tener ingreso por arriba de la media por un factor de 1.321 en el modelo logit y 1.181 en el modelo probit.