# Modelos LP, Logit y Probit
## Variable dependiente binaria

Supongamos que la variable dependiente observada toma valores discretos como los siguientes:

$$\begin{array}{ccl}
Y=1& & \text{Si se cumple cierta condición}\\ 
Y=0& & \text{Si no se cumple cierta condición}\\ 
\end{array}$$

En este caso la variable dependiente $Y$, al tomar solo los dos valores (0,1), corresponde a un ensayo de Bernoulli: se cumple o no una condición, con cierta probabilidad. Sea $p$ la probabilidad de que la variable tome el valor de 1. Así, la probabilidad de $Y=1$ estará dada por la función de expectativa condicional: $p=\mathbb{E}(Y|X)$. 

En esta subsección abordaremos tres modelos de econometría para este tipo de variable dependiente. El nombre particular que adopta el modelo de econometría cambia según la función particular que se emplee para modelar la probabilidad. En particular, estudiaremos los siguientes modelos: 

* Modelo de Probabilidad lineal ( _Linear Probability_ - LP ): Emplea una función lineal ( _OLS_ ).  
* Modelo Probit: Modela la probabilidad empleando una f.d.p. normal.
* Modelo Logit: Modela la probabilidad empleando una f.d.p. logística.

</br></br>

## Modelo de Probabilidad Lineal

La probabilidad se encuentra dada por $p=\mathbb{E}(Y|X)=X\beta$ y por ende el modelo de econometría a emplear es el de _OLS_ ya visto:

$$Y=X\beta + u$$

En textos tradicionales de econometría se argumenta que una desventaja del MPL se encuentra en el hecho de predecir probabilidades fuera del intervalo $[0,1]$. Sin embargo, en muchas aplicaciones prácticas el modelo PL representa una razonable aproximación ya que es lineal y se puede estimar de manera sencilla, además, no recae sobre supuestos fuertes asociados a especificar una función de distribución de probabilidad. 

## Modelos Probit y Logit

En resumen, en el modelo **Probit** y **logit** la probabilidad $p$ esta dada por funciones de distribución de probabilidad. Mientras que en el probit $p=\mathbb{E}(Y|X)=\Phi(X\beta)$, donde $\Phi(\cdot)$ es la función de distribución acumulada de la distribución normal estándar, en el logit $p=\mathbb{E}(Y|X)=\Lambda(X\beta)=(1+exp(-X\beta))^{-1}$.

Pero de forma más general, para determinar el anterior resultado, se puede partir de la motivación típica en el modelo Probit (o Logit): el supuesto de que la participación (por ejemplo, la decisión de participar en el mercado laborar) se encuentra determinada por una variable latente $Y^{*}$ (no observada) que es la que satisface

$$Y^*=X\beta+u$$

Esta variable latente presenta 'mayor libertad', en el sentido que puede ser no negativa y/o continua. En el caso particular de tomar valores en una dirección específica (por ejemplo, valores positivos), su contra parte observada (por el investigador) tomaría el valor de 1. Es decir, $Y=\mathbf{1}[Y^*>0]$. 

Así, bajo el supuesto de que $u\sim\mathbb{N}(0,1)$, la probabilidad $p$ estaría dada por la expresión antes mencionada:

$$p=\mathbb{E}(Y|X)=P[Y=1|X]=P[u<X\beta]=\Phi(X\beta)$$   


**Estimación:** Dados los supuestos sobre distribución de probabilidad, se puede emplear **MLE** como técnica para estimar los parámetros. En particular, al considerar que $Y$ corresponde a un ensayo Bernoulli con probabilidad $p$, la función de probabilidad para una observación particular $i$ estará dada por

$$p_i^{Y_i}(1-p_i)^{1-Y_i}$$

en donde se reemplaza la probabilidad $p_i$ por la f.d.p. normal $\Phi(X_i'\beta)$ para el caso del Probit o por la f.d.p. logística $\Lambda(X_i'\beta)$ para el caso del Logit. Por ende, el vector de parámetros estimados se puede obtener a partir de (el logaritmo de) la función de verosimilitud ( _log-likelihood_ ):

$$\hat{\beta}=\text{arg max}_\beta\,\sum_{i}^n{\left( Y_i\cdot\text{Ln}(p_i) + (1-Y_i)\cdot\text{Ln}(1-p_i)\right)}$$


</br></br>

<center><img src="under_construction.jpg" alt="cover" width="30%" height="30%"style="margin: 15px 0 0 0"></center>
</br>