<a href="https://colab.research.google.com/github/RAFS20/causal-inference/blob/main/Causal_Inference.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Cuaderno de: Ricardo Alonzo Fernández Salguero

"Statistics and Causal Inference" por Paul W. Holland, profundiza en la diferencia entre inferencia asociativa e inferencia causal y presenta un modelo detallado para la inferencia causal basado en el trabajo de Rubin.

La inferencia causal a menudo se contrasta con la inferencia asociativa. Mientras que la inferencia asociativa se centra en descubrir cómo los valores de una variable están asociados con los valores de otra, la inferencia causal busca medir el efecto de las causas.

### 1. Modelos de Inferencia

La **Inferencia Asociativa** se describe con variables $A$ y $Y$, donde $A$ es un atributo de las unidades en un universo $U$ y $Y$ es la variable de respuesta. La relación entre estas dos variables se modela utilizando probabilidades y expectativas calculadas sobre el universo $U$.

La relación puede ser expresada como:
$$
\text{Pr}(Y = y \,|\, A = a) = \frac{\text{Pr}(Y = y \,\&\, A = a)}{\text{Pr}(A = a)}
$$

Donde:
- $\text{Pr}(Y = y \,|\, A = a)$ representa la probabilidad condicional de $Y$ dado $A$.
- $\text{E}(Y \,|\, A=a)$ representa la expectativa de $Y$ dado $A=a$, también conocido como la regresión de $Y$ en $A$.

En la **Inferencia Causal** basada en el modelo de Rubin, introducimos la idea de dos variables potenciales de respuesta $Y_t$ y $Y_c$, donde $t$ indica el tratamiento y $c$ el control. La diferencia $Y_t(u) - Y_c(u)$ representa el efecto causal del tratamiento sobre la unidad $u$.

La **Diferencia Causal** se define como:
$$
\tau = Y_t(u) - Y_c(u)
$$

Sin embargo, enfrentamos el **Problema Fundamental de la Inferencia Causal**: es imposible observar ambos $Y_t(u)$ y $Y_c(u)$ en la misma unidad. Por lo tanto, necesitamos métodos para estimar el efecto causal promedio a través de una población.

### 2. Estimación del Efecto Causal

La **Solución Estadística** al problema fundamental implica el uso de la expectativa sobre el universo de unidades $U$ para definir el efecto causal promedio ($\tau$) como:
$$
\tau = \text{E}(Y_t - Y_c)
$$

La **Independencia** es crucial para la inferencia causal en experimentos aleatorizados. Si las unidades son asignadas al azar a tratamientos, podemos asumir que:
$$
\text{E}(Y_t) = \text{E}(Y_t \,|\, S = t) \quad \text{y} \quad \text{E}(Y_c) = \text{E}(Y_c \,|\, S = c)
$$

Esto permite estimar el efecto causal promedio ($\tau$) como la diferencia entre las medias observadas de las respuestas para cada grupo de tratamiento.

### 3. Aplicación a Estudios No Aleatorizados

En situaciones donde no es posible realizar un experimento aleatorizado, se pueden emplear técnicas de **ignorabilidad fuerte** para ajustar por las variables de confusión y estimar el efecto causal mediante el modelado de la asignación del tratamiento como si fuera aleatoria, dado un conjunto de covariables pre-tratamiento.

La inferencia causal es una parte fundamental de la estadística que permite ir más allá de las asociaciones para identificar relaciones de causa y efecto. El modelo de Rubin proporciona un marco teórico para abordar estos problemas, aunque la aplicación práctica requiere cuidadosa consideración de los supuestos y la estructura de los datos.

In [1]:
import numpy as np

# Parámetros de simulación
n_units = 1000  # Número de unidades (ej., personas) en cada grupo
true_effect = 5  # Efecto verdadero del tratamiento
np.random.seed(42)  # Semilla para reproducibilidad

# Generar datos simulados
control_group = np.random.normal(50, 10, n_units)  # Grupo control con media 50 y desviación estándar 10
treatment_group = control_group + true_effect + np.random.normal(0, 1, n_units)  # Grupo tratamiento con efecto causal

# Cálculo del efecto causal promedio
estimated_effect = treatment_group.mean() - control_group.mean()

print(f"Verdadero efecto del tratamiento: {true_effect}")
print(f"Efecto causal promedio estimado: {estimated_effect}")

Verdadero efecto del tratamiento: 5
Efecto causal promedio estimado: 5.0708362372491464


In [2]:
import numpy as np
from scipy import stats

# 1. Generar datos simulados
np.random.seed(42)  # Para reproducibilidad

# Tamaño de la muestra
n = 1000

# Variable de tratamiento (binaria: 0 o 1)
treatment = np.random.randint(2, size=n)

# Covariables (variables que podrían afectar tanto al tratamiento como a la respuesta)
covariate_1 = np.random.normal(0, 1, n)
covariate_2 = np.random.normal(0, 1, n)

# Efecto causal del tratamiento
effect = 2.0

# Variable de respuesta potencial para el tratamiento
response_treatment = 3 + effect * treatment + 0.5 * covariate_1 + np.random.normal(0, 1, n)

# Variable de respuesta potencial para el control
response_control = 3 + 0.5 * covariate_1 + np.random.normal(0, 1, n)

# 2. Calcular el efecto causal promedio
tau = np.mean(response_treatment - response_control)

# 3. Prueba de hipótesis para la significancia del efecto causal
# Usando t-test de muestras independientes
t_stat, p_value = stats.ttest_ind(response_treatment, response_control)

print("Efecto causal promedio estimado (tau):", tau)
print("Estadística t:", t_stat)
print("Valor p:", p_value)

Efecto causal promedio estimado (tau): 1.0698260383475064
Estadística t: 17.995378322480853
Valor p: 3.218348525231323e-67


El resultado obtenido muestra un efecto causal promedio estimado (τ) de aproximadamente 1.07, lo que indica que, en promedio, el tratamiento tiene un efecto positivo en la variable de respuesta en comparación con el grupo de control. La estadística t es significativamente alta, con un valor de aproximadamente 18, lo que sugiere que existe una diferencia significativa entre los grupos de tratamiento y control en términos de respuesta. Además, el valor p es extremadamente bajo (aproximadamente 3.22e-67), lo que indica una fuerte evidencia en contra de la hipótesis nula de que no hay diferencia entre los grupos. En resumen, estos resultados sugieren que el tratamiento tiene un efecto causal significativo en la variable de respuesta.