#### Modelo causal de Rubin y educación

El económista empírico tiene un modelo que utiliza para explicitar los efectos de una variable de tratamiento sobre una variable resultado y para entender qué método permite recuperar (inferir) este efecto. Más en general: 

- Una población dada tieen unos parámetros que queremos estimar (por ejemplo, un efecto de una variable sobre otra) 
- El modelo define el proceso que genera los datos observados de esa población 
- El método contruye un estimador para aplicar en los datos 
- El resultado en unos datos es una estimación 

El objetivo es que esta estimación sea una adecuada medición del parámtro (estimación puntual)

##### Un modelo de educación 

Supongamos un individuo cuyo ingreso en la vida (valor presente neto del ingreo laboral, descontado al momento en que decide su educación) depende de la educación y también de otras caracteristicas: 

$y = f(d, \theta, X, \tau)$

Donde y es en ingreso laboral (en valor presente), d = {0, 1} es la variable binaria que identifica el nivel educativo (diploma universitario), $\theta \geq 0$ es una variable de habilidades (innatas), X es un vector de otras variables predeterminadas conocidas por el individuo al momento de elegir educación, como el nivel socieconómico familiar. Por otro lado, $\tau$ indica un período de tiempo (por ejemplo el año de la elección de educación). Se asume a su vez: $\frac{\partial f}{\partial A} \geq 0,  \frac{\partial f}{\partial \theta} \geq 0$

Los costos de estudiar para cada persona dependen de condiciones reflejadas en un vector de variables Z, potencialmente de $\theta$, X, $\tau$, y un indicador s que es un score que podría hacerlo elegible o no para una beca. De modo que: 

$ c = g(\theta, s, Z, X, \tau)

Asumimos que el individuo decide su educación para maximizar el valor presente de su ingreso tal que: 

$\displaystyle \max_{d \in {0,1}} f(d, \theta, X, \tau) - d g(\theta, s, Z, X, \tau)$

Conluimos entonces que un individuo decide educarse siempre que: 

$f(1, \theta, X, \tau) - g(\theta, s, Z, X, \tau) \geq f(0, \theta, X, \tau)$

Para pensar una contraparte empírica de este modelo reescribimos las ecuaciones: 

- Asumimos funciones lineales (para la posterior regresión)
- Asumimos erros (con media cero) inobservables para el econometrista 
- Asumimos que los efectos de las variables X y Z son comunes a todos los individuos pero que los efectos de la educación dependen de $\theta$

(notar que si no observamos $\theta$ que suena natural dada la ambiguedad de la variable, no se puede separa el efecto de la educación del efecto de tener más habilidades ($\theta$ más  alto). Es decir, tenemos un problema de variables omitidas ya que $\theta$ no es independiente en media a la educación. La intereacción, para ambos lados, entre la habilidad innata y la educación es innegable)

##### El modelo causal de Rubin: respuestas potenciales 

Para cada individuo hay respuestas potenciales (potential outcomes) según sea tratado o no tratado. Podemos específica: 

$ y_i^1 = \beta + \alpha_i + u_i $ si el individuo es tratado ($d_i = 1$) 

$y_i^0 = \beta + u_i$ si el individuo no es tratado ($d_i = 0$)

Donde $\beta$ es un nivel común a todos los individuos, $\alpha_i$ es el efecto individual y $u_i$ es un componente aleatorio de cada individuo. La variable binaria d identifica al tratado (d=1). 

El efecto del tratamiento para el individuo i es: 

$\alpha_i = y_i^1 - y_i^0$ 

Se explicita así que el efecto del tratamiento puede ser heterogéneo entre las personas (el subíndice i en el parámetro). Cada individuo tiene dos posibles resultados dependiendo de si se lo trata o no. Pero nosotros solo podemos ver uno de los posibles casos, luego veremos como solucionarlo. 

El individuo tendrá entonces: 

$y_i = d_iy_i^1 + (1-d_i)y_i^0 $

$y_i = \beta + \alpha_i d_i + u_i $

A su vez, el tratamiento depende de la variable Z y un inobservable (para el econometrista) v, de forma tal que 

$f(x)= \left\{ \begin{array}{lcc}
             1 &   si  & g(Z_i, v_i) \geq 0 \\
             \\ 0 &  si & g(Z_i, v_i) \leq 0\\
             \end{array}
   \right.$

Ser tatado o no (universidad o no) depende de ciertas caracteristicas de cada una de las personas. 

##### Missing data problem: 

El problema central es que no es factible observar $y_i^0$ e $y_i^1$ a la vez (si observarámos ambos valores podríamos observar el $\alpha_i$ para cada individuo, la situación individual). A este problema se le suele llamar missing data problem. El desafio de la estimación del efecto de d sobre y es el de conseguir un contrafactual (una aproximación a $y^0$ para los tratados) lo más adecuada posible. Los métodos que buscan atribuir un efecto causal del impacto de un programa o "tratamiento" d sobre un resultado y los denominamos métodos de evaluación de impacto. 

La información disponible permite construir diferentes parámetros del impacto de ltratamiento. (por ahora nos concetraremos en las definiciones más importantes y veremos las otras más adeltante)

Aquí damos la versión poblacional (la expresión muestral tendrá promedios en lugar de esperanzas)

El efecto promedio en la población (average treatment effect)

$\alpha^{ATE} = E[\alpha_i]$

Este parámetro es el efecto promedio del tratamiento, tanto de los que fueron tratados como de los que no fueron tratados. Es un indicador amplio y general. Sirve para responder la pregunta cuál sería el diferencial del ingreso por educarse esperado de un individuo al azar 

El efecto para los tratados (average treatmen on the treated): 

$\alpha^{ATT} = E[\alpha_i | d_i =1]$

Este parámetro se concentra solo en el efecto sobre los tratados. Si los tratados son un grupo particular, con efectos particularmente altos, entonces el efecto esperable sobre otros grupos de individuos será menor. Sirve para estimar cuál sería el diferencial por educarse esperado de un individuo que estudió elegido al azar 

El efecto promedio de los asignados al tratamiento (itention to treat effect): 

$\alpha^{ITT} = E[y_i | z_i = 1] - E[y_i | z_i = 0]$ 

cuando $d_i = 1\{z_i = 1 \space \text{o} \space v_i > v*\}$ y $z_i \in \{0,1\}$

La utilización más frecuente de este parámtro es cuando hay una asignación Z exógena o aleatoria al tratamiento, pero en donde el tratamiento puede no tener cumplimiento perfecto. Por ejemplo, se brinda una beca de educación aleatoriamente a unos estudiantes y aotros no, pero de los elegidos para la beca, algunos deciden no educarse. en ese caso, lo que se mide no es el efecto de la educación, sino el efecto de la beca sobre el ingreso (teniendo en cuenta que algunos que reciben la beca no se educarán)

##### Regresión: 

$y_i = \beta + \alpha_i d_i + u_i + \alpha^{ATE} d_i - \alpha^{ATE} d_i $

$y_i = \beta + \alpha^{ATE} d_i + u_i + (\alpha_i - \alpha^{ATE}) d_i $ 

$E[y_i | d_i] = \beta + \alpha^{ATE} d_i + E[u_i |d_i] + E[\alpha_i - \alpha^{ATE} | d_i] d_i$

$ E[y_i | d_i = 1] = \beta + \alpha^{ATE} + E[u_i |d_i = 1] + E[\alpha_i - \alpha^{ATE} | d_i = 1] $

$E[y_i | d_i = 1] = \beta + E[u_i |d_i = 1]  $

$\implies \alpha^{OLS} = E[y_i | d_i = 1] - E[y_i | d_i = 0] = \alpha^{ATE} + E[u_i | d_i = 1] - E[u_i | d_i = 0] + E[\alpha_i - \alpha^{ATE} | d_i = 1]$

La diferencia entre el alpha de mínimos cuadrados clásicos y el de ATE viene por dos lados: el primero, el término de error puede tener endogeneidad de modo que no se anule, el segundo es que sabemos que va a haber una difrerencia antre el valor de un i tratado y el de ATE. 

Si nos sacamos de encima el problema de endogeneidad recuperamos el ATT: 

$\alpha^{OLS} =  \alpha^{ATE} +  E[\alpha_i | d_i = 1] - E[\alpha^{ATE} | d_i = 1] = E[\alpha_i | d_i = 1] = \alpha^{ATT}$
$

Si definimos $e_i = u_i + (\alpha_i - \alpha^{ATE}) d_i$ podemos sacar las siguientes conclusiones: 

- El estimador OLS será un $\alpha^{ATE}$ en la medida en que $e_i$ no esté correlacionado con $d_i$

- Por otro lado, el estimador OLS será un $\alpha^{ATT} en la medida en que $u_i$ no esté correlacionado con $d_i$ 

- Las definiciones no se modifican si los efectos fueras homogéneos. Si asi fuera, no habría diferencias entre ellos 



##### Asginación aleatoria 

Asumimor que los datos se generan asignado el tratamiento de manera aleatoria. Veremos qué implica este supuesto y como podemos testear si los datos que estamos utilizando son consistentes con este supuesto. Veremos que un simple estimador de diferencia de medias (que se puede recuperar con una regresión) nos permite idéntificar el parámtro que buscamos. Discutiremos las potenciales problemas y limitaciones de esta aproximación 

Ante el problema de estimar un efecto o un parámetro una pregunta relevante es: ¿cuál sería el experimento ideal? El experimento ideal se plantea sin restricciones (ni presupuestarias, ni de relevamiento de información). Si bien el experimento ideal raramente está disponoble ni puede implementarse, es útlil pensarlo para: 1) definir que tipo de datos y de variaciones exógenas son necesarias para idéntificar el efecto, 2) para definir si se puede identificar el efecto (si no hay experimento ideal posible, entonces el efecto no está idéntificado). 

El ideal del experimento en economía sigue al ideal de los experimentos en medicina. El objetivo es estudiar ele efecto de una droga o un medicamento sobre un determinado grupo de población: 

- Tomamos un grupo grande de personas (los afectados por una gripe) 
- Le comunicamos a todo el grupo que van a participar de un experimento para una nueva droga. Van a tener qeu tomar una pastilla después de cada comdia durante una semana 
- Aleatoriamente se toma a la mitad de este grupo y se les da un blister con 28 pastillas redondas naranjas con la droga 
- La otra mitad se les da un blister con 28 pastilas redondas naranjas sin droga (un placebo) 
- Los participantes no saben si están tomando la droga o el placebo 
- A la semana nos aseguramos que todo el mundo tomó sus 28 pastillas 
-Comparamos el progreso entre ambos grupos como el efecto de la pastilla

Hace falta enfatizar algunos puntos importantes en este protocolo: 

1. El grupo es grande 
2. Se asigna aleatoriamente después de concoer el total del universo de las peronas que participan en el experimento 
3. Las personas no saben a que grupo están asignados 
4. Todo el mundo toma todas las pastillas y no toman otra cosa

Una asignación aleatoria al tratamiento puede generar un contrafactual correcto, evitando el sesgo de selección. Dos supuestos esenciales de la asignación aleatoria: 

$E[u_i|d_i=1] = E[u_i|d_i=0]$

$E[\alpha_i|d_i=1] = E[\alpha_i|d_i=0]$

Los supuestos indican que los grupos tratado y no tratado son iguales a cualquier respecto salvo el tratamiento. Estos dos supuestos son esenciales para recuperar $\alpha^{ATE}$. De este modo: 

$\hat{\alpha}^{ATE} = \overline{y^1} - \overline{y^0}$

Una vez asegurada la asignación aleatoria, el mismo coeficiente (y su intervalo de confianza) puede recuperarse de la regresión: 

$y_i = \beta_0 + \beta_1 d_i + \epsilon_i$ 

Donde $\hat{\alpha}^{ATE} = \hat{\beta_1}$


##### Potenciales problemas

Si bien este procedimientoe es muy directo y sencillo, la aplicación en la práctica está plagada de potenciales problemas y difícultades: 

1. La implementación de una asignación aleatoria suele chocar con problemas éticos (de privar a un grupo de personas del potencial beneficio del tratamiento), problemas legales y restriccioens prácticas (los funcionarios pueden estar en contra de una asignación aleatoria). En todo caso, la restricción presupuestaria suele ser un argumento muy realista que impide realizar una asignación a todos los elegibles, lo que podría salvar los problemas éticos. 

2. Un problema en la asignación aleatoria es la muestra pequeña. En este caso, podría ser que el tratamiento ye lecontrol estén afectos por cuestiones idiosincráticas o caracteristicas de las personas. Si la muestra es pequeña puede terminar habiendo, por ejemplo, más jóvenes en el tratamiento que en el control. Una forma de analizar este problema es mostrar el blanace entre control y tratamiento: mostrar que no haya diferencias significativas en las variables (observables) entre tratamiento y control. 

3. El grupo de tratamiento puede estar afectado por abandono o más en general cambios de composición. SI hay abandono la comparación no será entre tratados y no tratados, sino entre asignados y no asignados al tratamiento (se identifica un ITT y no un ATE). Este será un problema tanto más grave e incluirá potencialmente un sesgo fuere en la medida en qeu la tasa de abandono sea elevada. En la práctica debe seguirse a todos los asignados al tratamiento para tener información de todos los que abandonan. 

4. Otra froma de abandono es la de cumplir con el protocolo pero no proveer la información después del tratamiento (attrition). Si este comportamiento fuera completamente aleatorio no consituitría un problema, pero esto es difícil de asegurar. En la práctica debe tomarse información sobre todos los individios; si el attrition estuviera presente es importante en que medida puede ser aleatorio analizando las caracteristicas de los qeu no contestan. 

5. Puede haber contaminación por derrame del grupo de control. Hay varias fuentes de contaminación. La primera es que los tratados puedan afectar a los resultados de los no tratados. Si el tratamiento tiene estas características es conveniente realizar la asignación a otra escala: asignar ciudades de tratamiento y ciudades de control ya l interior de las ciudades de tratamiento asignar aleatoriamente unidades de tratamiento y unidades no tratadas. 

6. Puede haber contaminación por compensación del grupo de control. Este efecto surge del hecho de que los que no están en tratamiento compensan otro buscando otro tratamiento. Este tipo de contaminación es dificil de controlar, pero potencialmente puede medirse consultando al tratado y al control si participaron de otros programas a la vez. 

7. Puede haber contaminación por otras razones del grupo de control. En economía los individuos saben si están siedo asignados a control o a tratamiento, y esto, de por sí, peude gener un efecto. El hecho de que haya un tratado puede afectar el comportamiento de un no tratado. El haber sido adignado a control puede afectar las respuestas. Este tipo de contaminación es dificíl de controlar, pero pueden intenetar controlarse los detalles del protocolo para evitar lo más posible estos efectos (por ejemplo, brindando incentivos o compensaciones al control para que participe de las encuestas). 


##### Evaluación de impacto en general: fortalezas y debilidades 

La principal fortaleza de este esquema de evaluación de impacto es que se trata de un tratamiento exógeno este modo de identificar y medir efectos eliminando los sesgos de selección, aproximándose a una relación causal. 

Las limitaciones del método se vinculan con el hecho de que usualmente no puede identificar el mecanismo económico (no es el objetivo de este método) 

En la evaluación de impacto es siempre conveniente preguntarse por la validez externa. Esto es si el resultado es generalizable. En economía se suele extrapolar el impacto de una política a otras políticas similares; a otras condiciones; en otras etapas del ciclo económico; con otras dosis. En reaslidad los efectos no son lineales ni invariantes del contexto. 

La evalueación de impacto suele aplicarse en microdatos y en políticas de escala piloto. Usualmente no brinda herramientas par apensar en los potenciales cambios de equilibrio general si las políticas en gran escala tuvieran fuere impacto y relevancia 

Por estas razones puede ser conveniente complementar la evaluación de impacto con teoría o análisis económico 

