## 03 - Randomized Experiments

En este segundo módulo del curso vamos a presentar dos posibles acercamientos que nos permitirán estudiar la relación causal entre dos variables:  
las pruebas $A/B$ y los modelos generativos controlados. Antes de introducir estos conceptos y las hipótesis necesarias, será muy importante introducir las notaciones adecuadas para las variables contrafactuales que se utilizarán a lo largo del curso.

El estudio matemático de la causalidad proporciona un modelo para afirmaciones del tipo $X$ es causa de $Y$. Eventualmente estudiaremos los axiomas de la causalidad y los diagramas DAG, es decir, la causalidad à la Pearl. Pero por ahora trabajaremos en un modelo llamado **Potencial Outcomes**.
  
  

#### Variables Contrafacturales

-------------

Supongamos que tenemos dos variables binarias $X$ y $Y$. Para mayor comodidad,  
$$
\Omega_X = \{0, 2\} \quad \text{y} \quad \Omega_Y = \{-1, +1\}.
$$

Denotamos $Y^*(0)$ y $Y^*(2)$ a las variables aleatorias que corresponden al resultado de la variable $Y$ al cambiar cada registro de $X$ por el valor opuesto.

Notemos que al suponer que nuestro espacio de probabilidad $\Omega_X = \{0, 2\}$ es la realización de una base de datos real, cada uno de estos casos hipotéticos  
tiene algún resultado en $\{-1, +1\}$. Evidentemente no podemos suponer que  
lo conocemos por el momento.

|  $X$  |  $Y$  | $Y^*(0)$ | $Y^*(2)$ |
|:-----:|:-----:|:--------:|:--------:|
|   0   |  -1   |    -1    |    ?     |
|       |  +1   |    +1    |          |
|   2   |  -1   |    ?     |    -1    |
|       |  +1   |          |    +1    |

Observemos que en la tabla, es obvio que $Y^*(0)$ coincide exactamente con $Y$.

La variable $Y$ es la suma de dos variables que no podemos ver, pero de las cuales depende.  
La siguiente fórmula nos da alguna esperanza para despejar la ecuación anterior y recuperar información contrafactual de información observada.

$$
Y = \frac{X}{2} Y^*(2) + \left(1 - \frac{X}{2}\right) \cdot Y^*(0) \tag{03.1}
$$

**Ejemplo 01.1.** Supongamos que tenemos la base de datos $S = \{(x_i, y_i)\}_i$ de clientes de un servicio de streaming.

- $X = 0$: clientes a los que no le dimos una promoción.  
- $X = 2$: clientes a los que sí les dimos una promoción.  
- $Y = -1$: clientes que abandonaron el servicio.  
- $Y = +1$: clientes que continúan teniendo el servicio.  

$Y^*(2)$ corresponde al resultado de intervenir $X = 0$, respondiendo la pregunta:    

*¿Qué pasaría con el churn rate si a los clientes a los que no les habíamos ofrecido una promoción, de pronto la ponemos a su alcance
mientras que a los clientes que ya les habíamos ofrecido la promoción
también se las mantenemos?*  


#### A/B testing

-------------

En el mismo caso del problema anterior supongamos que hemos observado  
la siguiente cantidad no causal:

$$
P(Y = 1 \mid X = 2) > P(Y = 1 \mid X = 0) \tag{03.2}
$$

¿Es enviarles la promoción a los clientes la causa por la que dejan de abandonar el servicio?  
Nos encantaría contestar positivamente a esa pregunta sin embargo esto solo nos lo podría confirmar las variables contrafactuales.  
Vamos a suponer el siguiente caso en el que por arte de magia conocemos a la variable $Y^*(0)$.  
  
Hemos señalado con negritas a los últimos registros imaginando que son clientes que están extremadamente convencidos de nuestro producto:

| $X$ | $Y$ | $Y^*(0)$ |
|:---:|:-------:|:--------:|
|  0  | -1  |    -1    |
|  0  | -1  |    -1    |
|  0  |  1  |     1    |
| 2   | -1   |    -1    |
| 2   | -1   |    +1    |
| **2** | **1** |  **1**   |
| **2** | **1** |  **1**   |
| **2** | **1** |  **1**   |


Inmediatamente notamos que se cumple lo que habíamos supuesto sobre la variable observada:

$$
P(Y = 1 \mid X = 0) = \frac{1}{3} < P(Y = 1 \mid X = 2) = \frac{4}{5}
$$

Otro aspecto a considerar es que por alguna razón que desconocemos se les ha enviado un correo a más personas de las que no se les ha enviado un correo.  
¿Podría ser que el equipo de ventas está atrasado en cumplir sus metas mensuales?

Gracias a que tenemos acceso a la variable contrafactual, también podemos observar que los tres registros del final están completamente enganchados al producto y no nos dejarán.

Un aspecto fundamental de esta base de datos relacionada con el desbalance en la manera como se enviaron las promociones es la siguiente ecuación:

$$
P\left(Y^*(0) = 1 \mid X = 0\right) = \frac{1}{3} < P\left(Y^*(0) = 1 \mid X = 2\right) = \frac{3}{5} \tag{03.3}
$$


En un ensayo aleatorizado nos gustaría que ambas cantidades fueran muy parecidas, un poco más adelante hablaremos del porqué.  
Una manera como podríamos lograr que ambas cantidades sean parecidas es por ejemplo modificando nuestras encuestas y no enviándole al último registro un correo electrónico como lo muestra en la siguiente tabla.  

Esta nueva encuesta a la que denotaremos por $X^*$ podría perfectamente ser el resultado de una prueba A/B en la que de la manera más aleatoria posible se les enviará o no una promoción a los clientes (sin tomar en cuenta el sesgo ocasionado por la prisa del equipo de ventas).  
Fijémonos en el último registro al que en esta nueva encuesta ya no le enviamos la promoción.

| $X$ | $Y$ | $Y^*(0)$ |
|:---:|:-------:|:--------:|
|  0  | -1  |    -1    |
|  0  | -1  |    -1    |
|  0  |  1  |     1    |
| 2   | -1   |    -1    |
| 2   | -1   |    +1    |
| **2** | **1** |  **1**   |
| **2** | **1** |  **1**   |
| **2** | **1** |  **1**   |
|   **0**   |  **1**  |     **1**    |

Notemos que ahora la última desigualdad ha cambiado:

$$
P\left(Y^*(0) = 1 \mid X = 0\right) = \frac{2}{4} = P\left(Y^*(0) = 1 \mid X = 2\right) = \frac{2}{4}
$$

Ahora la muestra que tenemos en nuestra base de datos se ha hecho de tal manera que tanto el grupo de los que han recibido la promoción como el grupo de los que no la han recibido tienen la misma probabilidad de aceptar en las variables contrafactuales.  


Es muy importante resaltar que este balance entre las variables contrafactuales no necesariamente implica que haya balance entre las variables observadas, pues si lo hubiera entonces no serviría de nada el experimento. En nuestro caso:

$$
P(Y = 1 \mid X = 0) = \frac{2}{4} < P(Y = 1 \mid X = 2) = \frac{3}{4}
$$

Lo anterior tiene más posibilidades de indicar que efectivamente las promociones están ayudando a que los clientes sigan siéndolo.


### La hipótesis de independencia y el teorema fundamental

-----------

De acuerdo al razonamiento mostrado en la sección anterior, si fuéramos capaces de elegir de la manera más aleatoria posible a quiénes se les envían los correos, habrán más posibilidades de que se cumpla la siguiente ecuación sobre las variables contrafactuales:

$$
P(Y^*(0) \mid X = 0) = P(Y^*(0) \mid X = 2), \quad P(Y^*(2) \mid X = 0) = P(Y^*(2) \mid X = 2) \tag{03.4}
$$

Esta ecuación es una consecuencia del siguiente enunciado conocido en la teoría de la causalidad como la **hipótesis de independencia**, también conocida como **hipótesis de ignorabilidad**.  
Esta hipótesis requiere que los resultados potenciales $Y^*(0)$ y $Y^*(2)$ sean independientes del tratamiento recibido, es decir, de $X$:

$$
Y^*(0), Y^*(2) \perp X \tag{03.5}
$$


  
Efectivamente, gracias a la independencia podemos deducir las dos igualdades anteriores:

$$
P(Y^*(0) \mid X = 0) = P(Y^*(0)) = P(Y^*(0) \mid X = 2)
$$

$$
P(Y^*(2) \mid X = 0) = P(Y^*(2)) = P(Y^*(2) \mid X = 2)
$$

Es decir, los clientes que tendrán un resultado potencial $Y^* = +1$ tienen la misma probabilidad de estar en el grupo $X = 0$ o en $X = 2$, que los clientes que tendrían un resultado potencial opuesto $Y^* = -1$.

Los lectores no deberían confundir esta hipótesis con la afirmación $Y \perp X$, pues si esto ocurriera entonces estaríamos suponiendo que no existe ni siquiera una relación estadística entre las variables observadas, lo cual de ninguna manera podemos suponer.

La consecuencia más importante de la hipótesis de independencia es poder calcular efectos causales únicamente utilizando cantidades observables, como lo vamos a mostrar a continuación. Comencemos calculando la siguiente cantidad estadística causal que mide en promedio la diferencia entre las dos variables contrafactuales:

$$
E\bigl[Y^*(2) - Y^*(0)\bigr] = E\bigl[Y^*(2)\bigr] - E\bigl[Y^*(0)\bigr] = E\bigl[Y^*(2) \mid X=2\bigr] - E\bigl[Y^*(0) \mid X=0\bigr]
$$

La primera igualdad es gracias a la aditividad del valor esperado, mientras que la segunda es gracias a la hipótesis de independencia.  

Además, recordemos que las variables contrafactuales que intervienen con el valor 0 o 2 son idénticas a la variable observada $Y$ en el subconjunto de los registros donde $X=0$ y $X=2$ respectivamente (fuera de esos conjuntos no las conocemos).  

Gracias a este argumento y a la última ecuación podemos deducir que:

$$
E\bigl[Y^*(2) - Y^*(0)\bigr] = E[Y \mid X=2] - E[Y \mid X=0]
$$

Dicho de otra manera:

**Theorem 03.1.** Si las dos variables contrafactuales satisfacen la hipótesis de independencia con respecto a la variable del tratamiento $X$, entonces la siguiente estadística causal puede calcularse utilizando únicamente datos observados en nuestra base de datos $(X, Y)$. A esta cantidad le llamaremos el *Efecto del Tratamiento Promedio* (ATE):

$$
E\bigl[Y^*(2) - Y^*(0)\bigr]
$$

---

### Sobre el Efecto Promedio del Tratamiento (ATE)

El **Efecto Promedio del Tratamiento (ATE)** es un concepto fundamental en estadística y en inferencia causal que cuantifica el efecto promedio de un tratamiento o intervención sobre una variable de resultado en una población. En términos simples, mide la diferencia en los resultados esperados entre las personas que reciben un tratamiento y las que no, proporcionando una métrica clara para evaluar la eficacia de intervenciones.

Matemáticamente, el ATE se expresa como:

$$
ATE = E[Y(1)] - E[Y(0)]
$$

donde $E[Y(1)]$ es el resultado esperado para el grupo tratado y $E[Y(0)]$ para el grupo de control.  

El desafío radica en que sólo podemos observar uno de estos resultados para cada individuo, lo que requiere técnicas estadísticas para estimar los resultados potenciales no observados.

---

**Referencias:**  
- El ATE es clave para determinar relaciones causales y evaluar políticas o tratamientos en medicina, economía y ciencias sociales.  
- Métodos para estimar ATE incluyen ensayos controlados aleatorios (ECA), emparejamiento por puntuación de propensión, diseños cuasi-experimentales, entre otros.  
- La hipótesis de independencia (ignorabilidad) es fundamental para poder estimar ATE usando datos observados.


### Las hipótesis para el caso multivariado
--------------

En el resto del curso vamos a continuar estudiando el caso anterior cuando estamos en presencia de más variables explicativas y no solo la variable $X$ que utilizamos en esta sección.  
La notación que utilizaremos para las otras variables será el vector $Z$. En el siguiente capítulo daremos un ejemplo de este caso.

La **hipótesis de independencia** en este caso multivariado se escribe de la siguiente manera:

$$
Y^* \perp_{Z} X
$$

Es decir, las variables contrafactuales siguen siendo independientes del tratamiento a pesar de que condicionemos a las distintas subpoblaciones determinadas por las variables $Z$.  

Nuevamente, es posible demostrar un teorema parecido al de la sección anterior, solo que en este caso requerirá un poco más de trabajo.

Otra hipótesis importante que agregaremos en este caso, y que se estudiará en el caso de uso de esta semana, es la siguiente:

$$
0 < P(X \mid Z) < 1
$$

A esta hipótesis se le conoce como la **hipótesis de positividad** y esencialmente está diciendo que, a pesar de condicionar con las variables de $Z$, la proporción de los registros en $X$ sigue siendo no cero, es decir, que siguen existiendo casos en ambos grupos para cada valor de $Z$.

---

**Resumen:**

| Hipótesis                  | Descripción                                                                                       |
|----------------------------|-------------------------------------------------------------------------------------------------|
| Independencia multivariada | $Y^* \perp_{Z} X$ — Las variables contrafactuales son independientes del tratamiento condicionando en $Z$. |
| Hipótesis de positividad    | $0 < P(X \mid Z) < 1$ — Para cada valor de $Z$, existe una probabilidad positiva de estar en cada grupo de tratamiento. |

Estas hipótesis son fundamentales para extender el análisis causal a contextos con múltiples variables explicativas y para garantizar que las estimaciones causales sean válidas y generalizables.
