# Variables de Respuesta Cualitativa

Hasta ahora hemos cubierto modelos de regresión cuya variable dependiente $y_i$ es continua. 

Sin embargo, es posible que estemos interesados en estudiar la relación entre una variable cualitativa $y_i$ y un conjunto de $k$ variables explicativas $x_{ji}$, $j \in \{1, ..., k\}$.

Inicialmente consideraremos el caso en que la variable es binaria, es decir, $y_i \in \{0, 1\}$.

## Aplicación: Empleabilidad y Género

Claudia Goldin (Harvard) ganó el Premio Nobel en 2023 por su investigación sobre las brechas de género en el mercado laboral. Las conclusiones de su trabajo señalan que estas brechas no se deben exclusivamente a discriminación. Sus resultados indican, por ejemplo, que las decisiones de fertilidad pueden generar disrupciones en las carreras de las mujeres, reducción en el número de horas de trabajo, y mayor preferencia por flexibilidad laboral.

Suponga que nos interesa estudiar la **participación de las mujeres en el mercado laboral**. Para ello utilizaremos un modelo de la forma:

$$P(Ocupado_i = 1) = F(\alpha + \beta \text{ } Genero_i + X_i'\gamma)$$

donde 

\begin{equation*}
Ocupado_i =
    \left\{\begin{array}{lr}
    1, \text{si $i$ trabajó al menos una hora} \\
    1, \text{si $i$ no trabajó pero tenía trabajo} \\
    0, \text{de lo contrario}
    \end{array}\right.
\end{equation*}

Para las 13 ciudades principales de Colombia, según el DANE, la tasa de ocupación por género se veía de la siguiente manera en 2018: 

| Ciudad        | Mujeres | Hombres | Brecha |   | Ciudad        | Mujeres | Hombres | Brecha |
|---------------|---------|---------|--------|---|---------------|---------|---------|--------|
| Barranquilla  | 0.489   | 0.694   | -0.205 |   | Manizales     | 0.427   | 0.618   | -0.190 |
| Bogotá        | 0.545   | 0.686   | -0.141 |   | Medellín      | 0.486   | 0.664   | -0.178 |
| Bucaramanga   | 0.545   | 0.673   | -0.128 |   | Montería      | 0.488   | 0.663   | -0.175 |
| Cali          | 0.514   | 0.674   | -0.161 |   | Pasto         | 0.514   | 0.649   | -0.136 |
| Cartagena     | 0.416   | 0.636   | -0.220 |   | Pereira       | 0.487   | 0.696   | -0.209 |
| Cúcuta        | 0.427   | 0.601   | -0.174 |   | Villavicencio | 0.495   | 0.655   | -0.160 |
| Ibagué        | 0.492   | 0.627   | -0.135 |   |               |         |         |        |

Hoy trabajarémos con informacipon de la Gran Encuesta de Hogares (GEIH), que se usa para medir diferentes estadísticas del mercado laboral.

## Modelo de Probabilidad Lineal

Para modelar de manera sencilla variables dependientes binarias podemos imponer una forma funcional lineal. Considere $y_i \in \{0,1\}$ tal que 

\begin{align*}
y_i &= E[y_i | X]  + \varepsilon_i \\
    &= X_i'\beta + \varepsilon_i \\
\end{align*}

Note que este modelo se basa en los supuestos clásicos de una regresión lineal. Sin embargo, observe que $y_i$ es una variable binaria y por lo tanto la esperanza condicional se lee como un porcentaje o **probabilidad**. Es decir,

$$ E[y_i| X] = P[y_i = 1 | X] = p_i $$

De esta manera, por los axiomas de probabilidad se tiene que:

$$0 \leq E[y_i | X] \leq 1$$

Una ventaja de este modelo es que podemos interpretar los coeficientes $\beta_j$ como efectos marginales de manera directa. Es decir,

$$\frac{\partial E[y_i | X]}{\partial x_{ji}} = \beta_j$$

Así, $\beta_j$ es el cambio (o efecto) de $x_j$ en la probabilidad que $y_i = 1$, manteniendo constante los demás regresores.

Sin embargo, algunos de los supuestos del modelo de regresión no se cumplen. En particular, los errores no se distribuyen normal y el modelo es mecánicamente heteroscedastico. Note que:

| $y_i$ | $\varepsilon_i$ |
|-------|-----------------|
|  1    | 1 - $X_i'\beta$ |
|  0    | - $X_i'\beta$   |

Esto nos permite concluir que los errores se distribuyen Bernoulli.

Mostremos ahora que el modelo es heteroscedastico. Recuerde que 

$$V(\varepsilon_i) = E(\varepsilon_i^2) - E(\varepsilon_i)^2$$

1. Note que $E(\varepsilon_i) = 0$.
\begin{align*}
E(\varepsilon_i) &= (1- X_i'\beta)p_i + (- X_i'\beta)(1 - p_i) \\
&= (1- p_i)p_i - (p_i)(1 - p_i) = 0 \\
\end{align*}

2. Note que $E(\varepsilon_i^2)$
\begin{align*}
E(\varepsilon_i^2) &= (1- X_i'\beta)^2p_i + (- X_i'\beta)^2(1 - p_i) \\
&= (1- p_i)^2p_i + p_i^2(1 - p_i) \\
&= p_i - 2p_i^2 + p_i^3 + p_i^2 - p_i^3\\
&= p_i - p_i^2 = p_i(1 - p_i)\\
\end{align*}

Ya que 

$$V(\varepsilon_i) = p_i(1 - p_i) = X_i'\beta(1 - X_i'\beta)$$

podemos concluir que el modelo es heteroscedastico, es decir, la varianza depende de las variables $X_i$.

Esto nos indica que si estimamos el modelo por MCO, debemos corregir nuestros errores estándar usando el método de White (**errores robustos**).

## Ventajas y Limitaciones

**Ventajas**

- Sencillo de estimar con MCO.
- Interpretación directa:  
  - $\beta_j$ indica el **cambio en la probabilidad** de $y_i = 1$ ante un cambio unitario en $x_j$.

**Limitaciones**

- La predicción $\hat{P}(y_i =1 \mid X)$ puede estar **fuera del intervalo [0,1]**.
- Supone una relación estrictamente lineal.
- Heterocedasticidad de los errores.

## Modelos de Probabilidad No-lineales

Debido a las desventajas de MPL, se consideran alternativas de estimación. Estos modelos alternativos son más flexibles (no-lineales), aunque imponen cierta estructura a la distribución de los errores.

Recuerde que nuestro interés es estimar la probabilidad que la variable binaria $y_i$ tome el valor de 1. 

$$P[y_i = 1 | X] = F(X_i'\beta)$$

La función $F(\cdot)$ transforma $X_i'\beta$ para garantizar que $P[y_i = 1 | X]$ estés entre 0 y 1.

## Modelo Logit

- El modelo logit utiliza la función logística:

$$
P(y_i=1) = F(X_i'\beta) = \frac{\exp(X_i'\beta)}{1+\exp(X_i'\beta)} = \frac{e^{X_i'\beta}}{1+e^{X_i'\beta}}
$$

- Como $\exp(X_i'\beta)$ es siempre positiva, $P(y_i=1)$ estará entre 0 y 1.

- La probabilidad de que $y_i=0$ es:

$$
P(y_i=0) = 1 - P(y_i=1) = \frac{1}{1+\exp(X_i'\beta)}
$$

## Modelo Probit

- El modelo probit utiliza la función de distribución acumulada (cdf) de la distribución normal $\Phi$.

$$
P(y_i=1) = \Phi(X_i'\beta) = \int_{-\infty}^{X_i'\beta} \phi(z) \, dz \hspace{10pt}\text{ donde }\hspace{10pt} \phi(z) = \frac{1}{\sqrt{2\pi}} \exp(- z^2)
$$

- $P(y_i=1)$ será un número entre 0 y 1 porque la cdf de la normal toma valores en ese rango.

## Función de Verosimilitud

- La verosimilitud es la probabilidad de que el resultado de la observación $i$ sea $y_i$.

- Si $y_i = 1$, la verosimilitud es $P(y_i=1)$.  
- Si $y_i = 0$, la verosimilitud es $P(y_i=0)$.  

- La función de verosimilitud es:

$$
L = P(y_i=1)^{y_i} \, P(y_i=0)^{1-y_i}
$$

- Observe que:  
  - Si $y_i=1$: $L = P(y_i=1)$
  - Si $y_i=0$: $L = P(y_i=0)$

## Estimación de Máxima Verosimilitud

- Los coeficientes en los modelos probit y logit se obtienen maximizando la log-verosimilitud:

$$
\max \sum_{i=1}^n \Big[ y_i \cdot \ln P(y_i=1) + (1-y_i) \cdot \ln P(y_i=0) \Big]
$$

- Si el resultado es $y_i = 1$, se maximiza la probabilidad predicha $P(y_i=1)$ (por ejemplo, 0.8 o 0.9).

- Si el resultado es $y_i = 0$, se maximiza $P(y_i=0)$ o, de forma equivalente, se minimiza $P(y_i=1)$ (por ejemplo, 0.1 o 0.2).  

- Los estimadores de máxima verosimilitud son:  
  - Consistentes  
  - Asintóticamente normales  
  - Asintóticamente eficientes (si se cumplen los supuestos).

# Estimación de Máxima Verosimilitud versus MCO

- Los coeficientes en los modelos probit y logit se obtienen maximizando la función de log-verosimilitud  
  (si el resultado $y = 1$, se maximiza la probabilidad predicha $P(y=1)$)

$$
\max \sum_{i=1}^{n} \Big( y_i \cdot \ln P(y_i=1) + (1-y_i) \cdot \ln P(y_i=0) \Big)
$$

- Los coeficientes OLS se obtienen minimizando la suma de los residuos al cuadrado  
  (diferencia entre el valor real $y$ y el valor predicho $\hat{y}$)  

$$
\min \sum_{i=1}^{n} \hat{u}^2 = \sum_{i=1}^{n} (y - \hat{y})^2 = \sum_{i=1}^{n} (y - x \hat{\beta})^2
$$

## Efectos Marginales

Note que para los modelos logit y probit, los coeficientes $\beta_j$ no representan el efecto marginal de la variable independiente $x_{ji}$

Esto se debe a que:
$$\frac{\partial P[y_i = 1 | X]}{\partial x_{ij}} = \frac{\partial F(X_i'\beta)}{\partial x_{ij}} = F'(X_i'\beta) \beta_j$$

Este cambio marginal se interpreta como el efecto de la variable independiente en la probabilidad que $y_i = 1$.

- Para el modelo probit:
$$\frac{\partial P[y_i = 1 | X]}{\partial x_{ij}} = \phi(X_i'\beta) \beta_j$$

- Para el modelo logit:
$$\frac{\partial P[y_i = 1 | X]}{\partial x_{ij}} = \frac{\exp(X_i'\beta)}{[1+\exp(X_i'\beta)]^2} \beta_j$$


## Efecto en la Media y Efecto Promedio

Observe que el efecto marginal depende de $X_i$. Luego, debemos fijar valores para realizar interpretaciones.

1. Efecto en la media

$$\frac{\partial P[y_i = 1 | X]}{\partial x_{ij}} = \frac{\partial F(X_i'\beta)}{\partial x_{ij}} \bigg|_{X_i = \bar X} = F'(\bar X'\beta) \beta_j$$

2. Efecto promedio

$$\frac{\partial P[y_i = 1 | X]}{\partial x_{ij}} = \frac{1}{n} \sum _{i = 1}^n \frac{\partial F(X_i'\beta)}{\partial x_{ij}} = \beta_j \frac{1}{n} \sum _{i = 1}^n F'(X_i'\beta)$$

## Pseudo R-cuadrado

- El **Pseudo R-cuadrado**, también llamado **McFadden R-squared**, mide el ajuste de un modelo probit o logit.  
- Compara la log-verosimilitud de un modelo completo con la de un modelo que solo tiene una constante.  

$$
Pseudo \; R^2 = 1 - \frac{LL_{nr}}{LL_{0}}
$$

- $LL_{nr}$: log-verosimilitud del modelo no restringido (con todas las variables independientes).  
- $LL_{0}$: log-verosimilitud del modelo restringido (solo con constante).  

- Interpretación:  
  - Si las variables independientes no explican nada → $LL_{0} \approx LL_{nr}$ → $Pseudo \; R^2 = 0$.  
  - Si las variables independientes explican muy bien → $LL_{ur}$ aumenta (se acerca a 0, pues es negativo) → $Pseudo \; R^2  \to 1$.  

- El **Pseudo R-cuadrado** indica:  
  - Qué tan bien predice el modelo el resultado.  
  - Qué tanto mejora respecto a un modelo nulo (solo intercepto).  
  - **Ojo:** su magnitud **no se interpreta como en OLS**.  

- Comparar dos modelos: uno con mayor $Pseudo \; R^2  = 0$ predice mejor el resultado.

## Porcentaje de predicciones correctas

- El **porcentaje de predicciones correctas** es una medida de ajuste del modelo.  
- Mide el porcentaje de predicciones correctas sobre el total de predicciones para una variable binaria.  

**Procedimiento**:
- El resultado real $y_i$ solo puede ser 0 o 1.  
- La probabilidad predicha $P(y_i=1)$ es un número entre 0 y 1.  
  - Si $P(y_i=1) > 0.5 \implies \hat{y_i}=1$.  
  - Si $P(y_i=1) \leq 0.5 \implies \hat{y_i}=0$.  

**Casos posibles:**
1. $y_i=1$ y $\hat{y_i}=1$ → **predicción correcta**.  
2. $y_i=1$ y $\hat{y_i}=0$ → **predicción incorrecta**.  
3. $y_i=0$ y $\hat{y_i}=0$ → **predicción correcta**.  
4. $y_i=0$ y $\hat{y_i}=1$ → **predicción incorrecta**.  
