# ATE, ATT, ATU condicionais, e os *MetaLearners*

Prof. Daniel de Abreu Pereira Uhr


### Estrutura da aula

* ATE, ATT, ATU condicionais
* MetaLearners 
  * SLearner, DRLearner, XLearner
  * CATE, CATT e CATU
  * MetaLearners com Variáveis Instrumentais

### Referências

* Cunningham, S. W. (2013). Causal inference: The mixtape. https://www.scunning.com/mixtape.html
* Facure, Matheus. Causal Inference for The Brave and True. https://matheusfacure.github.io/python-causality-handbook/landing-page.html 
* Joshua D. Angrist and Jörn-Steffen Pischke (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
* Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press.
* Itau Social (2018). Avaliação Econômica de Projetos Sociais. https://www.itausocial.org.br/wp-content/uploads/2018/05/avaliacao-economica-3a-ed_1513188151.pdf 
* Notas próprias


**Observações:** O material apresentado aqui é uma adaptação do material de aula do Prof. Daniel de Abreu Pereira Uhr, e não deve ser utilizado para fins comerciais. O material é disponibilizado para fins educacionais e de pesquisa, e não deve ser reproduzido sem a devida autorização do autor. Este material pode conter erros e imprecisões. O autor não se responsabiliza por quaisquer danos ou prejuízos decorrentes do uso deste material. O uso deste material é de responsabilidade exclusiva do usuário. Caso você encontre erros ou imprecisões neste material, por favor, entre em contato com o autor para que possam ser corrigidos. O autor agradece qualquer *feedback* ou sugestão de melhoria.

---

## ATE, ATT e ATU Condicionais

### Conditional Average Treatment Effect (CATE)

O **CATE** é a extensão natural do ATE para ***subpopulações específicas***, definidas pelas covariáveis observáveis $X$.  
Formalmente:

$$
\beta^{CATE}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x].
$$

Ou, equivalentemente:

$$
\beta^{CATE}(x) = \mathbb{E}[\tau_i \mid X_i = x],
$$

onde $\tau_i = Y_i(1) - Y_i(0)$ é o efeito causal individual (ITE - *Individual Treatment Effect*). O CATE captura a **heterogeneidade de tratamento**, lembre que diferentes indivíduos podem apresentar diferentes ganhos ou perdas, dependendo de suas características.


### Conditional ATT (CATT)

O **CATT** restringe o efeito médio condicional à subpopulação dos tratados:

$$
\beta^{CATT}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x, D_i = 1].
$$

Interpretação: *entre os indivíduos com características $X=x$ que receberam o tratamento, qual foi o efeito médio observado?*



### Conditional ATU (CATU)

Analogamente, podemos definir o efeito médio condicional para os **não tratados**:

$$
\beta^{CATU}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x, D_i = 0].
$$

Interpretação: *entre os indivíduos com características $X=x$ que não receberam o tratamento, qual teria sido o efeito médio caso fossem tratados?*


### Por que Condicionar em $X$?

- **Relevância prática**: Políticas públicas raramente impactam a população de forma homogênea. O condicionamento permite identificar *quem mais se beneficia* e *quem menos se beneficia* do tratamento.  
- **Identificação de heterogeneidade**: Ao estimar o CATE, abrimos caminho para estudar efeitos diferenciais (por idade, renda, região, escolaridade, etc.).  
- **Construção de políticas direcionadas**: O CATT pode informar a continuidade do programa nos grupos atendidos, enquanto o CATU pode prever o impacto de expandir a intervenção a grupos ainda não tratados.  


### Hipóteses de Identificação do CATE

Para identificar o CATE a partir dos dados observados, precisamos assumir condições similares às do ATE, porém aplicadas de forma condicional:

1. **Ignorabilidade Condicional (ou Unconfoundedness):**

$$
(Y_i(0), Y_i(1)) \perp D_i \mid X_i
$$

Os resultados potenciais são independentes da designação ao tratamento, condicionalmente a $X_i$.

2. **Positividade (Overlap):**

$$
0 < P(D_i = 1 \mid X_i = x) < 1, \quad \forall x
$$

Todo subconjunto definido por $X$ deve ter probabilidade positiva de conter tratados e não tratados.

3. **Consistência:**

$$
Y_i = Y_i(D_i)
$$

O resultado observado corresponde ao resultado potencial associado ao status de tratamento efetivamente recebido.


### Relações com o ATE

O **ATE** pode ser expresso como média ponderada dos CATEs:

$$
ATE = \mathbb{E}[\beta^{CATE}(X)].
$$

De modo análogo:

$$
ATT = \mathbb{E}[\beta^{CATT}(X) \mid D=1],
\qquad
ATU = \mathbb{E}[\beta^{CATU}(X) \mid D=0].
$$

Ou seja, os efeitos médios populacionais (ATE, ATT, ATU) são agregações dos efeitos condicionais.



### Meta-Learners e o CATE

O termo **Meta-Learner** surgiu na interface entre **estatística, aprendizado de máquina e econometria aplicada**. A ideia central é tratar o problema de estimar efeitos causais heterogêneos como um **problema de aprendizado supervisionado em duas camadas** (*meta* = sobre algo).  

A intuição é simples: se pudermos aprender bem as funções de resposta ao tratamento e ao controle,

$$
\mu_1(x) = \mathbb{E}[Y \mid D=1, X=x], \qquad \mu_0(x) = \mathbb{E}[Y \mid D=0, X=x],
$$

então podemos estimar o efeito condicional como:

$$
\hat{\tau}(x) = \hat{\mu}_1(x) - \hat{\mu}_0(x).
$$


- **Künzel, Sekhon, Bickel & Yu (2019)**. *Metalearners for estimating heterogeneous treatment effects using machine learning*.  
  - Propuseram uma taxonomia clara de *T-Learner, S-Learner e X-Learner*.  
  - Mostraram como diferentes algoritmos de ML podem ser usados como “base learners” dentro dessas arquiteturas.  
  - Este artigo é considerado o marco fundamental do campo.


#### Meta-Learners

Os *Meta-Learners* não são algoritmos em si, mas **estruturas de aprendizado**:  
- Cada *Meta-Learner* fornece uma *estratégia* para decompor o problema causal em subproblemas de predição.  
- A flexibilidade vem do fato de que qualquer algoritmo de machine learning pode ser usado como **base learner** (regressão linear, random forests, boosting, redes neurais etc.).  

Veremos:
* T-Learner
* S-Learner
* X-Learner
* DR-Learner

#### T-Learner

Recebe seu nome de "Two Learner" por estimar dois modelos separados para os grupos de tratamento e controle.

- **Ideia**: Estimar dois modelos separados, um para tratados e outro para não tratados.  
- **Etapas**:
  1. Ajustar $\hat{\mu}_1(x)$ usando apenas a amostra dos tratados.
  2. Ajustar $\hat{\mu}_0(x)$ usando apenas a amostra dos não tratados.
  3. Estimar o CATE como $\hat{\tau}(x) = \hat{\mu}_1(x) - \hat{\mu}_0(x)$.  

- **Força**: Flexibilidade em cada grupo.  
- **Limitação**: Pode ter alta variância se os grupos forem desbalanceados.


#### S-Learner

Recebe seu nome de "Single Learner" por estimar um único modelo para ambos os grupos.

- **Ideia**: Usar um único modelo para estimar $\mathbb{E}[Y \mid X, D]$, tratando $D$ como covariável.  
- **Etapas**:
  1. Ajustar um modelo $\hat{\mu}(x,d)$ sobre toda a amostra.
  2. Estimar o CATE como $\hat{\tau}(x) = \hat{\mu}(x,1) - \hat{\mu}(x,0)$.  

- **Força**: Usa toda a amostra de forma conjunta.  
- **Limitação**: Pode subestimar heterogeneidade se o modelo não interagir adequadamente $X$ e $D$.

#### X-Learner

Recebe seu nome de "Cross Learner" por combinar informações de ambos os grupos.

- **Ideia**: Combinar o melhor do T e do S-Learner, útil especialmente quando há **desbalanceamento** entre grupos.  
- **Etapas**:
  1. Usar o T-Learner para obter $\hat{\mu}_1(x)$ e $\hat{\mu}_0(x)$.
  2. Construir pseudo-efeitos:  
     - Para tratados: $\hat{\tau}_i^T = Y_i - \hat{\mu}_0(X_i)$.  
     - Para não tratados: $\hat{\tau}_i^C = \hat{\mu}_1(X_i) - Y_i$.  
  3. Estimar funções $\tau_T(x)$ e $\tau_C(x)$ a partir dos pseudo-efeitos.
  4. Combinar com pesos baseados na propensão $p(X)$.

- **Força**: Melhor desempenho em dados desbalanceados.  
- **Limitação**: Requer duas camadas de modelagem.

#### DR-Learner

Recebe seu nome de "Doubly Robust Learner" por combinar dois modelos.

- **Ideia**: Baseado na fórmula **duplamente robusta** (AIPW), corrige erros de especificação de modelos de resposta ou de propensão.  
- **Etapas**:
  1. Estimar $\hat{\mu}_1(x)$, $\hat{\mu}_0(x)$ e $\hat{p}(x)$.
  2. Construir pseudo-outcomes:

     $$
     \tilde{Y}_i = \hat{\mu}_1(X_i) - \hat{\mu}_0(X_i) \;+\; \frac{D_i}{\hat{p}(X_i)}(Y_i - \hat{\mu}_1(X_i)) - \frac{1-D_i}{1-\hat{p}(X_i)}(Y_i - \hat{\mu}_0(X_i)).
     $$

  3. Regressar $\tilde{Y}_i$ sobre $X_i$ para estimar $\tau(x)$.  

- **Força**: Consistência se pelo menos um dos modelos estiver correto.  
- **Limitação**: Computacionalmente mais exigente.

#### Síntese

- Todos os *Meta-Learners* têm como objetivo **recuperar o CATE**.  
- O **ATE, ATT e ATU** podem ser obtidos como médias ponderadas dos CATEs:  

$$
ATE = \mathbb{E}[\tau(X)], \quad
ATT = \mathbb{E}[\tau(X) \mid D=1], \quad
ATU = \mathbb{E}[\tau(X) \mid D=0].
$$



***DR-Learner***
* É um meta-algoritmo de Machine Learning (Chernozhukov et al., 2018; Nie & Wager, 2021), que usa a ideia de dupla robustez junto com algoritmos de ML para estimar Conditional Average Treatment Effects (CATE). O DR-Learner aproveita a estrutura AIPW (score de influência duplamente robusto) e depois ajusta modelos de ML em cima disso para obter heterogeneidade do efeito. Portanto, DR-Learner é um desdobramento moderno do AIPW aplicado à estimação de efeitos condicionais (CATE), não sinônimo.
