# CATE, CATT, CATU, e os *MetaLearners*

Prof. Daniel de Abreu Pereira Uhr


### Estrutura da aula

* CATE, CATT, CATU
* MetaLearners 
  * SLearner, DRLearner, XLearner
  * Obtendo CATE, CATT e CATU com os MetaLearners
  * MetaLearners com Variáveis Instrumentais
* Diretrizes para Aplicação de Meta-Learners em Pesquisas Científicas

### Referências

* Facure, Matheus. Causal Inference for The Brave and True. https://matheusfacure.github.io/python-causality-handbook/landing-page.html 
* Cunningham, S. W. (2013). Causal inference: The mixtape. https://www.scunning.com/mixtape.html
* Joshua D. Angrist and Jörn-Steffen Pischke (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
* Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press.
* Itau Social (2018). Avaliação Econômica de Projetos Sociais. https://www.itausocial.org.br/wp-content/uploads/2018/05/avaliacao-economica-3a-ed_1513188151.pdf 
* Notas próprias


**Observações:** O material apresentado aqui é uma adaptação do material de aula do Prof. Daniel de Abreu Pereira Uhr, e não deve ser utilizado para fins comerciais. O material é disponibilizado para fins educacionais e de pesquisa, e não deve ser reproduzido sem a devida autorização do autor. Este material pode conter erros e imprecisões. O autor não se responsabiliza por quaisquer danos ou prejuízos decorrentes do uso deste material. O uso deste material é de responsabilidade exclusiva do usuário. Caso você encontre erros ou imprecisões neste material, por favor, entre em contato com o autor para que possam ser corrigidos. O autor agradece qualquer *feedback* ou sugestão de melhoria.

---

## CATE, CATT e CATU

Anteriormente, estávamos assumindo que o efeito do tratamento era homogêneo. Isto é, o efeito estimado (ATE, ATT, e ATU) era o mesmo para todos os indivíduos. No entanto, pode ser que o pesquisador tenha dúvidas sobre essa presuposição de homogeneidade. Assim, o efeito do tratamento poderia variar entre diferentes grupos ou indivíduos, dependendo de suas características observáveis ($X$). Por exemplo, um tratamento pode ser mais eficaz para indivíduos mais jovens do que para indivíduos mais velhos; Ou um programa de treinamento pode beneficiar mais aqueles com maior nível educacional, ou, ainda, uma política pública pode ter impactos diferenciados conforme a região geográfica.

Esse tipo de desdobramento do impactoo do tratamento é conhecido como **heterogeneidade de tratamento**. Para capturar essa heterogeneidade, podemos definir efeitos médios condicionais, que nos permitem entender como o efeito do tratamento varia conforme as características observáveis dos indivíduos.

* **Conditional Average Treatment Effect (CATE)**
* **Conditional Average Treatment Effect on the Treated (CATT)**
* **Conditional Average Treatment Effect on the Untreated (CATU)**


### Conditional Average Treatment Effect (CATE)

O **CATE** é a extensão natural do ATE para ***subpopulações específicas***, definidas pelas covariáveis observáveis $X$.  
Formalmente:

$$
\beta^{CATE}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x].
$$

Ou, equivalentemente:

$$
\beta^{CATE}(x) = \mathbb{E}[\tau_i \mid X_i = x],
$$

onde $\tau_i = Y_i(1) - Y_i(0)$ é o efeito causal individual (ITE - *Individual Treatment Effect*). 

O CATE captura a **heterogeneidade de tratamento**, lembre que diferentes indivíduos podem apresentar diferentes ganhos ou perdas, dependendo de suas características.


### Conditional ATT (CATT)

O **CATT** restringe o efeito médio condicional à ***subpopulação dos tratados***:

$$
\beta^{CATT}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x, D_i = 1].
$$

Interpretação: *entre os indivíduos com características $X=x$ **que receberam o tratamento**, qual foi o efeito médio observado?*



### Conditional ATU (CATU)

Analogamente, podemos definir o efeito médio condicional para à subpopulação dos **não tratados**:

$$
\beta^{CATU}(x) = \mathbb{E}[Y_i(1) - Y_i(0) \mid X_i = x, D_i = 0].
$$

Interpretação: *entre os indivíduos com características $X=x$ que não receberam o tratamento,* ***qual teria sido o efeito médio caso fossem tratados?***


### Por que Condicionar em $X$?

Vamos ressaltar a importância em análisar o efeito médio na condição específica:

- **Relevância prática**: Políticas públicas raramente impactam a população de forma homogênea. O condicionamento permite identificar *quem mais se beneficia* e *quem menos se beneficia* do tratamento.  
- **Identificação de heterogeneidade**: Ao estimar o CATE, por exemplo, abrimos caminho para estudar efeitos diferenciais (por idade, renda, região, escolaridade, etc.).  
- **Construção de políticas direcionadas**: O CATT pode informar a continuidade do programa nos grupos atendidos, enquanto o CATU pode prever o impacto de expandir a intervenção a grupos ainda não tratados.  


### Hipóteses de Identificação do CATE

Para identificar o CATE a partir dos dados observados, precisamos assumir condições similares às do ATE, porém aplicadas de forma condicional:

1. **Ignorabilidade Condicional (ou Unconfoundedness):**

$$
(Y_i(0), Y_i(1)) \perp D_i \mid X_i
$$

Os resultados potenciais são independentes da designação ao tratamento, condicionalmente a $X_i$.

2. **Positividade (Overlap):**

$$
0 < P(D_i = 1 \mid X_i = x) < 1, \quad \forall x
$$

Todo subconjunto definido por $X$ deve ter probabilidade positiva de conter tratados e não tratados.

3. **Consistência:**

$$
Y_i = Y_i(D_i)
$$

O resultado observado corresponde ao resultado potencial associado ao status de tratamento efetivamente recebido.


### Relações com o ATE

O **ATE** pode ser expresso como média ponderada dos CATEs:

$$
ATE = \mathbb{E}[\beta^{CATE}(X)].
$$

De modo análogo:

$$
ATT = \mathbb{E}[\beta^{CATT}(X) \mid D=1],
\qquad
ATU = \mathbb{E}[\beta^{CATU}(X) \mid D=0].
$$

Ou seja, os efeitos médios populacionais (ATE, ATT, ATU) são agregações dos efeitos condicionais.



### Exemplo ilustrativo em python

Vamos criar um dataframe com 10 unidades, onde 5 unidades são tratadas ($D=1$) e 5 não tratadas ($D=0$). E esses individuos possuem covariáveis X, onde para alguns elas se repentem. E eles apresentam como resultado, $Y$.

| n | Y | D | X |
|---|---|---|---|
| 1 | 20 | 1 | 9 |
| 2 | 16 | 1 | 9 |
| 3 | 17 | 1 | 7 |
| 4 | 12 | 1 | 6 |
| 5 | 10 | 1 | 6 |
| 6 | 2 | 0 | 2 |
| 7 | 1 | 0 | 2 |
| 8 | 3 | 0 | 3 |
| 9 | 4 | 0 | 4 |
| 10| 5 | 0 | 6 |

Vamos aplicar o Outcome regression bilateral, e calcular o CATE.

In [5]:
import pandas as pd

# Criando o DataFrame a partir de um dicionário
data = {
    "Y": [20, 16, 17, 12, 10, 2, 1, 3, 4, 5],
    "D": [1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
    "X": [9, 9, 7, 6, 6, 2, 6, 3, 4, 6]
}
df = pd.DataFrame(data)

In [6]:
df

Unnamed: 0,Y,D,X
0,20,1,9
1,16,1,9
2,17,1,7
3,12,1,6
4,10,1,6
5,2,0,2
6,1,0,6
7,3,0,3
8,4,0,4
9,5,0,6


In [7]:
import statsmodels.formula.api as smf

reg1 = smf.ols('Y ~ X', data=df[df['D'] == 1]).fit()
df['mu_1']= reg1.predict(df)

reg0 = smf.ols('Y ~ X', data=df[df['D'] == 0]).fit()
df['mu_0']= reg0.predict(df)

df['ITE'] = df['mu_1'] - df['mu_0']

In [8]:
df

Unnamed: 0,Y,D,X,mu_1,mu_0,ITE
0,20,1,9,18.478261,3.75,14.728261
1,16,1,9,18.478261,3.75,14.728261
2,17,1,7,14.130435,3.4375,10.692935
3,12,1,6,11.956522,3.28125,8.675272
4,10,1,6,11.956522,3.28125,8.675272
5,2,0,2,3.26087,2.65625,0.60462
6,1,0,6,11.956522,3.28125,8.675272
7,3,0,3,5.434783,2.8125,2.622283
8,4,0,4,7.608696,2.96875,4.639946
9,5,0,6,11.956522,3.28125,8.675272


O CATE é média dos efeitos para aqueles indivíduos que têm a mesma condição, por exemplo $X=6$.

seria fazer a média entre os 4 indivíduos com $X=6$:
$$ \frac{(8.6752 + 8.6752 + 8.6752 + 8.6752)}{4} = 8.6752 $$

In [30]:
# CATE para x = 6
df[df['X'] == 6]['ITE'].mean()

8.675271739130437

Para estimar o CATT e o CATU, basta fazer a média condicional no grupo dos tratados e não tratados, respectivamente.

In [31]:
# CATT para x = 6 (Causal Average Treatment Effect on the Treated) avaliamos no grupo dos tratados
df[(df['X'] == 6) & (df['D'] == 1)]['ITE'].mean()

8.675271739130437

In [32]:
# CATU para x = 6 (Causal Average Treatment Effect on the Untreated) avaliamos no grupo dos não tratados
df[(df['X'] == 6) & (df['D'] == 0)]['ITE'].mean()

8.675271739130437

Nesse exemplo os valores são iguais devido a simplicidade do dataset (Minha intenção foi mostrar o procedimento de cálculo do CATE). No entanto, em um cenário com uma amostra maior e mais variada, é provável que os efeitos variem entre os indivíduos, e o CATE nos permite capturar essa heterogeneidade.



### CATE e os Meta-Learners

O termo **Meta-Learner** surgiu na interface entre **estatística, aprendizado de máquina e econometria aplicada**. A ideia central é tratar o problema de estimar efeitos causais heterogêneos como um **problema de aprendizado supervisionado em duas camadas** (*meta* = sobre algo). Observação, o OLS utilizado anteriormente é um exemplo de um modelo de aprendizado supervisionado.

A intuição é simples: se pudermos aprender bem as funções de resposta ao tratamento e ao controle:

$$
\mu_1(x) = \mathbb{E}[Y \mid D=1, X=x], \qquad \mu_0(x) = \mathbb{E}[Y \mid D=0, X=x],
$$

então podemos estimar o efeito condicional como:

$$
\hat{\tau}(x) = \hat{\mu}_1(x) - \hat{\mu}_0(x).
$$

O marco fundamental é dado por:

- **Künzel, Sekhon, Bickel & Yu (2019)**. *Metalearners for estimating heterogeneous treatment effects using machine learning*.  
  - Propuseram uma taxonomia clara de *T-Learner, S-Learner e X-Learner*.  
  - Mostraram como diferentes algoritmos de ML podem ser usados como “base learners” dentro dessas arquiteturas. 



#### Meta-Learners

Os *Meta-Learners* não são algoritmos em si, mas **estruturas de aprendizado**:  
- Cada *Meta-Learner* fornece uma *estratégia* para ***decompor o problema causal em subproblemas de predição***.  
- A flexibilidade vem do fato de que qualquer algoritmo de *machine learning* pode ser usado como **base learner** (regressão linear, random forests, boosting, redes neurais, etc.).  

Vejamos:

* S-Learner
* T-Learner
* X-Learner
* DR-Learner

#### S-Learner

Recebe seu nome de "*Single Learner*" por estimar um único modelo para ambos os grupos.

- **Ideia**: Usar um único modelo para estimar $\mathbb{E}[Y \mid X, D]$, tratando $D$ como covariável.  
- **Etapas**:
  1. Ajustar um modelo $\hat{\mu}(x,d)$ sobre toda a amostra.
  2. Estimar o CATE como $\hat{\tau}(x) = \hat{\mu}(x,1) - \hat{\mu}(x,0)$.  

- **Força**: Usa toda a amostra de forma conjunta.  
- **Limitação**: Pode subestimar heterogeneidade se o modelo não interagir adequadamente $X$ e $D$.
  - Em um modelo linear, o modelo assume que o efeito do tratamento é o mesmo para todos os indivíduos (homogêneio). 
  - Em modelos não lineares, a interação entre $X$ e $D$ pode ser capturada de forma mais flexível.


#### T-Learner

Recebe seu nome de "*Two Learner*" por estimar dois modelos separados para os grupos tratado e não tratado.

- **Ideia**: Estimar dois modelos separados, um para tratados e outro para não tratados.  
- **Etapas**:
  1. Ajustar $\hat{\mu}_1(x)$ usando apenas a amostra dos tratados.
  2. Ajustar $\hat{\mu}_0(x)$ usando apenas a amostra dos não tratados.
  3. Estimar o CATE como $\hat{\tau}(x) = \hat{\mu}_1(x) - \hat{\mu}_0(x)$.  

- **Força**: Flexibilidade em cada grupo.  
- **Limitação**: Pode ter alta variância se os grupos forem desbalanceados.


#### X-Learner

Recebe seu nome de "*Cross Learner*" por combinar informações de ambos os grupos.

- **Ideia**: Combinar o melhor do T e do S-Learner, útil especialmente quando há **desbalanceamento** entre grupos.  
- **Etapas**:
  1. Estimar funções de resultado (como no T-Learner): $\hat{\mu}_1(x)$ e $\hat{\mu}_0(x)$.
  2. Construir pseudo-efeitos:
      1. Para cada tratado, pergunto: “O quanto ele se saiu melhor do que se fosse controle?”
         1. $\hat{\tau}_i^T = Y_i - \hat{\mu}_0(X_i)$.
      2. Para cada controle, pergunto: “O quanto ele se saiu pior do que se fosse tratado?”
         1. $\hat{\tau}_i^C = \hat{\mu}_1(X_i) - Y_i$.
  3. Modelar os pseudo-efeitos separadamente:
      1. Estimo $\tau_T(x)$ usando os pseudo-efeitos dos tratados.
      2. Estimo $\tau_C(x)$ usando os pseudo-efeitos dos controles.
      3. Combinar os dois modelos com pesos baseados no propensity score $p(X)$:
         1. Se $p(X)$ for alto (indivíduo tem mais chance de ser tratado), confio mais em $\tau_T(x)$.
         2. Se $p(X)$ for baixo (mais chance de ser controle), confio mais em $\tau_C(x)$.
      4. Assim, o estimador final é uma média ponderada:
      5. $ \hat{\tau}(x) = g(x) \hat{\tau}_T(x) + (1-g(x)) \hat{\tau}_C(x)$
         1. onde $g(x)$ geralmente é escolhido como $p(X)$.

- **Força**: Melhor desempenho em dados desbalanceados.  
- **Limitação**: Requer duas camadas de modelagem.

#### DR-Learner

Recebe seu nome de "*Doubly Robust Learner*" por combinar dois modelos.

- **Ideia**: Baseado na fórmula **duplamente robusta** (AIPW), corrige erros de especificação de modelos de resposta ou de propensão.  
- **Etapas**:
  1. Estimar $\hat{\mu}_1(x)$, $\hat{\mu}_0(x)$ e $\hat{p}(x)$.
  2. Construir pseudo-outcomes:

     $$
     \tilde{Y}_i = \hat{\mu}_1(X_i) - \hat{\mu}_0(X_i) \;+\; \frac{D_i}{\hat{p}(X_i)}(Y_i - \hat{\mu}_1(X_i)) - \frac{1-D_i}{1-\hat{p}(X_i)}(Y_i - \hat{\mu}_0(X_i)).
     $$

  3. Regressar $\tilde{Y}_i$ sobre $X_i$ para estimar $\tau(x)$.  

- **Força**: Consistência se pelo menos um dos modelos estiver correto.  
- **Limitação**: Computacionalmente mais exigente.

#### Síntese

- Todos os *Meta-Learners* têm como objetivo **recuperar o CATE** (o ATE, e os demais).  
- O **ATE, ATT e ATU** podem ser obtidos como médias ponderadas dos CATEs:  

$$
ATE = \mathbb{E}[\tau(X)], \quad
ATT = \mathbb{E}[\tau(X) \mid D=1], \quad
ATU = \mathbb{E}[\tau(X) \mid D=0].
$$


### Aplicação em Python

Aqui eu criei um ***ambiente virtual*** para rodar o código com a biblioteca `econml`, que implementa os Meta-Learners.

* Terminal: `cd "C:\Users\danie\OneDrive\00000 - 2025\0_Python_Estimators"`
* Terminal (PowerShell): `python -m venv econml-env`
* Terminal (PowerShell): `.\econml-env\Scripts\Activate`
* pacotes:
  * pip install -U pip wheel setuptools
  * pip install econml scikit-learn lightgbm xgboost matplotlib seaborn pandas
  * pip install -U "numba>=0.61.2" "llvmlite>=0.44.0"
* pip install ipykernel
* python -m ipykernel install --user --name=econml-env --display-name "Python (econml-env)"

Ativar o ambiente virtual (PowerShell):
* Terminal (powershell): `cd "C:\Users\danie\OneDrive\00000 - 2025\0_Python_Estimators\econml-env"`
* Terminal (powershell): `.\Scripts\Activate`
* Terminal (powershell): `pip install -U ipykernel`
* Registrar o kernel: `python -m ipykernel install --user --name=econml-env --display-name "Python (econml-env)"`
* Verificar se foi registrado: `jupyter kernelspec list`

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression, LogisticRegression

from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from lightgbm import LGBMRegressor

from econml.metalearners import SLearner, TLearner, XLearner
from econml.dr import DRLearner
from econml.inference import BootstrapInference

import warnings
warnings.filterwarnings("ignore", message="'force_all_finite'")

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# DataFrame "data"
data = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta")

In [4]:
data

Unnamed: 0,bweight,mmarried,mhisp,fhisp,foreign,alcohol,deadkids,mage,medu,fage,...,order,msmoke,mbsmoke,mrace,frace,prenatal,birthmonth,lbweight,fbaby,prenatal1
0,3459,married,0,0,0,0,0,24,14,28,...,2,0 daily,nonsmoker,1,1,1,12,0,No,Yes
1,3260,notmarried,0,0,1,0,0,20,10,0,...,3,0 daily,nonsmoker,0,0,1,7,0,No,Yes
2,3572,married,0,0,1,0,0,22,9,30,...,3,0 daily,nonsmoker,1,1,1,3,0,No,Yes
3,2948,married,0,0,0,0,0,26,12,30,...,2,0 daily,nonsmoker,1,1,1,1,0,No,Yes
4,2410,married,0,0,0,0,0,20,12,21,...,1,0 daily,nonsmoker,1,1,1,3,1,Yes,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4637,3317,notmarried,0,0,0,0,0,21,12,24,...,1,1-5 daily,smoker,1,1,2,10,0,Yes,No
4638,3030,married,0,0,0,1,1,30,12,23,...,2,11+ daily,smoker,1,1,2,2,0,No,No
4639,2950,notmarried,0,0,0,0,0,23,12,0,...,1,0 daily,nonsmoker,0,0,1,5,0,Yes,Yes
4640,3969,married,0,0,0,0,0,23,12,25,...,1,0 daily,nonsmoker,1,1,1,2,0,Yes,Yes


In [5]:
#Filtragem dos dados

# Criar a variável de resultado
data['Y'] = data['bweight']

# Crie a variável 'D' ("Treated" ou tratado) com valor inicial de 0
data['D'] = 0
# Recodifique 'D' para 1 se 'mbsmoke' for igual a 'smoker'
data.loc[data['mbsmoke'] == 'smoker', 'D'] = 1

# Criar variáveis de controle
data['Mmarried'] = 0
data.loc[data['mmarried'] == 'married', 'Mmarried'] = 1
data['casada'] = 0
data.loc[data['mmarried']=='married', 'casada'] = 1

Vamos utilizar os MetaLearners do EconML.

* `SLearner` - é o mesmo que a regressão linear.
* `TLearner` - é o que fizemos manualmente.
* `XLearner` - é uma combinação de `S` e `T`.
* `DRLearner` - é uma abordagem de dupla robustez.

Variáveis à serem utilizadas nos modelos

In [6]:
y = data['Y']
t = data['D']
X = data[['casada', 'mage', 'medu', 'fage', 'fedu', 'nprenatal']]

***S-Learner***

Estimador S-Learner linear

In [7]:
# Estimador com inferência bootstrap
s_learner_inf = SLearner(overall_model=LinearRegression())
s_learner_inf.fit(y, t, X=X, inference=BootstrapInference(n_bootstrap_samples=500))

res_slearner_linear = s_learner_inf.ate_inference(X=X)
print(res_slearner_linear)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -207.022      22.664 -9.134    0.0      -251.443        -162.6
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
      0.0        -207.022        -207.022
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      22.664       -251.443         -162.6
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


`std_point = 0.0`: indica que, com `LinearRegression()` no S-Learner, o CATE é constante (sem heterogeneidade), então não há dispersão dos efeitos individuais; Como esperado.

In [29]:
# Estimador com inferência bootstrap
s_learner_inf_LGBM = SLearner(overall_model=LGBMRegressor())
s_learner_inf_LGBM.fit(y, t, X=X, inference=BootstrapInference(n_bootstrap_samples=50))

res_slearner_LGBM = s_learner_inf_LGBM.ate_inference(X=X)
print(res_slearner_LGBM)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0,000115 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 139
[LightGBM] [Info] Number of data points in the train set: 4642, number of used features: 8
[LightGBM] [Info] Start training from score 3361,679879
               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -218.616     132.185 -1.654  0.098      -477.694        40.462
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
  151.422        -506.063         125.467
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
     201.001       -628.803        19

Conforme esperado, agora temos efeitos heterogêneos com `LGBMRegressor()` no S-Learner. Devido à não linearidade do estimador.

Suponha que queremos verificar o CATE das gestantes casadas. Será que o efeito é diferente para elas?


In [30]:
# CATE S-learner RF para as gestântes casadas.
# Vamos definir as colunas das covariáveis novamente:
cols_X = ['casada', 'mage', 'medu', 'fage', 'fedu', 'nprenatal']

# Vamos Filtrar somente casadas e manter as MESMAS colunas usadas no fit
X_cas = data.loc[data['casada'] == 1, cols_X]

In [31]:
# verificar as estatísticas descritivas das variáveis
data[cols_X].describe()

Unnamed: 0,casada,mage,medu,fage,fedu,nprenatal
count,4642.0,4642.0,4642.0,4642.0,4642.0,4642.0
mean,0.699698,26.504524,12.689573,27.267126,12.307195,10.758078
std,0.458438,5.619026,2.520661,9.354411,3.684028,3.681084
min,0.0,13.0,0.0,0.0,0.0,0.0
25%,0.0,22.0,12.0,24.0,12.0,9.0
50%,1.0,26.0,12.0,28.0,12.0,11.0
75%,1.0,30.0,14.0,33.0,14.0,13.0
max,1.0,45.0,17.0,60.0,17.0,40.0


In [32]:
# Agora vamos calcular o CATE para as gestantes casadas com "s_learner_inf_LGBM" calculado anteriormente
cate_cas_Slearner_LGBM = s_learner_inf_LGBM.effect(X_cas)
res_cate_casadas_Slearner_LGBM = s_learner_inf_LGBM.ate_inference(X=X_cas)

print(res_cate_casadas_Slearner_LGBM)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -248.169     130.897 -1.896  0.058      -504.723         8.384
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
  125.088        -516.092         -16.341
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
     181.055       -642.574         88.007
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


***T-Learner***

Agora vamos aplicar o T-Learner, que estima dois modelos separados para os grupos tratado e não tratado.

In [33]:
# TLearner com dois modelos lineares (um para D=0 e outro para D=1)
t_learner = TLearner(models=[LinearRegression(), LinearRegression()])

# Inference por bootstrap
t_learner.fit(y, t, X=X, inference=BootstrapInference(n_bootstrap_samples=500))

# 1) ATE global + IC/z/p
t_learner.ate_inference(X=X)

mean_point,stderr_mean,zstat,pvalue,ci_mean_lower,ci_mean_upper
-227.128,54.101,-4.198,0.0,-333.163,-121.092

std_point,pct_point_lower,pct_point_upper
90.112,-394.646,-48.308

stderr_point,ci_point_lower,ci_point_upper
105.105,-434.093,-14.942


* *Uncertainty of Mean Point Estimate*: mede a incerteza do ATE por amostragem (bootstrap).
  * Para reportar o ATE (efeito médio)
  * ATE ≈ −227 g (fumar reduz o peso ao nascer em ~227 g).
  * IC 95%: [−336.9, −117.3] (significativo).
* *Distribution of Point Estimate*: mede distribuição dos CATEs entre os indivíduos (heterogeneidade)
  * Para mostrar heterogeneidade dos efeitos
  * Diferente do S-Learner com regressão linear (que dá CATE constante), aqui o efeito pode variar com X.
* *Total Variance of Point Estimate*: Combina heterogeneidade + incerteza do ATE para um “efeito de um indivíduo aleatório”
  * Para um “efeito de um indivíduo aleatório”

Podemos testar uma heterogeneidade específica dos efeitos do tratamento em subgrupos da população.

Vejamos se o efeito muda para mulheres casadas/solteiras.

In [34]:
# CATE T-learner das gestantes casadas
cate_cas = t_learner.effect(X_cas)
res_cate_casadas = t_learner.ate_inference(X=X_cas)

print(res_cate_casadas)

               Uncertainty of Mean Point Estimate              
mean_point stderr_mean zstat pvalue ci_mean_lower ci_mean_upper
---------------------------------------------------------------
  -259.239      49.287 -5.26    0.0      -355.839      -162.639
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
     70.5        -402.927        -126.731
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
       86.02       -440.948        -97.081
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


E se quiséssemos verificar o CATE das gestantes casadas com 26 anos de idade? Ou seja, como condicionar em mais de uma covariável?


In [35]:
# Lembre que já temos a variável "cols_x" com todas as covariáveis
cols_X = ['casada', 'mage', 'medu', 'fage', 'fedu', 'nprenatal']

# Queremos um subgrupo para calcular o CATE: casadas==1 E mage == 26
mask = (data['casada'] == 1) & (data['mage'] == 26)
# então, filtramos os dados para que cumpra a restrição e demais variáveis:
X_cas_26 = data.loc[mask, cols_X]

# CATEs do subgrupo
cate_cas_26 = t_learner.effect(X_cas_26)

# ATE condicional + IC/z/p para o subgrupo
res_cate_casadas_26 = t_learner.ate_inference(X=X_cas_26)
print(res_cate_casadas_26)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -232.285      41.031 -5.661    0.0      -312.704      -151.866
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   28.895        -290.261        -175.677
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      50.184        -329.96       -128.904
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


Poderíamos restringir ainda mais? Quem sabe definindo intervalos de covariáveis?

In [36]:
cols_X = ['casada','mage','medu','fage','fedu','nprenatal']

mask = (
    (data['casada'] == 1) &
    (data['mage'].between(25,27)) &
    (data['medu'].between(10,12)) &
    (data['fage'].between(20,27)) &
    (data['fedu'].between( 8,12)) &
    (data['nprenatal'].between(5,10))
)

X_sub = data.loc[mask, cols_X]

cate_sub = t_learner.effect(X_sub)
res_sub  = t_learner.ate_inference(X=X_sub)
print(res_sub)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -212.721      35.379 -6.013    0.0      -282.062      -143.381
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   14.933        -239.168        -186.846
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      38.401       -285.193       -133.902
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


***X-Learner***

O estimador X-Learner é uma combinação dos estimadores S e T, projetado para melhorar a eficiência em situações de desbalanceamento entre grupos tratado e controle. Ele é particularmente útil quando um dos grupos é significativamente menor que o outro.

In [38]:
x_learner = XLearner(
    models=LinearRegression(),          # modelos para E[Y|X,D=d]
    cate_models=LinearRegression(),     # modelos finais para tau(X)
    propensity_model=LogisticRegression(max_iter=1000)  # p(D=1|X)
)

x_learner.fit(
    y, t, X=X,
    inference=BootstrapInference(n_bootstrap_samples=500)
)


<econml.metalearners._metalearners.XLearner at 0x13197662250>

In [39]:
# Estimação Geral
cate_all = x_learner.effect(X)
res_CATE_xlearner = x_learner.ate_inference(X=X)
print(res_CATE_xlearner)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -227.128      56.324 -4.032    0.0      -337.521      -116.734
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   90.112        -394.646         -48.308
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
     106.267       -435.461        -13.844
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


In [40]:
res_CATE_xlearner_casada = x_learner.ate_inference(X=X_cas)
print(res_CATE_xlearner_casada)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -259.239      51.993 -4.986    0.0      -361.145      -157.334
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
     70.5        -402.927        -126.731
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      87.599       -444.872        -93.619
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


***DR-Learner***

O Double Robust Learner (DR-Learner) é uma abordagem que combina características de modelos de aprendizado de máquina e métodos de inferência causal. Ele é projetado para estimar efeitos causais de tratamentos em dados observacionais, oferecendo robustez contra especificações incorretas do modelo.

A ideia central do DR-Learner é usar dois modelos: um para prever os resultados potenciais sob tratamento e outro para prever a probabilidade de tratamento. Essa abordagem permite que o DR-Learner seja "duplamente robusto", ou seja, ele pode fornecer estimativas consistentes mesmo se um dos modelos estiver incorreto.

O DR-Learner é particularmente útil em situações em que a aleatorização não é possível e os pesquisadores precisam lidar com viés de seleção e confusão. Ele tem sido aplicado em diversas áreas, incluindo economia, ciências sociais e saúde pública.


In [43]:
# DRLearner com regressão linear e inferência bootstrap
dr_learner = DRLearner(
    model_propensity=LogisticRegression(max_iter=1000),
    model_regression=LinearRegression(),
    model_final=LinearRegression()
)

# Ajustar nos dados
dr_learner.fit(
    y, t, X=X,
    inference=BootstrapInference(n_bootstrap_samples=500)
)


<econml.dr._drlearner.DRLearner at 0x1319897b910>

Agora vamos estimar o ATE

In [44]:
res_DR = dr_learner.ate_inference(X=X)
print(res_DR)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -220.466      60.007 -3.674    0.0      -338.077      -102.854
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   90.542        -405.503         -48.403
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
     108.622       -446.759        -11.353
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


Estimar o CATE para as casadas:

In [45]:
res_DR_casadas = dr_learner.ate_inference(X=X_cas)
print(res_DR_casadas)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -243.885      53.439 -4.564    0.0      -348.624      -139.147
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   75.681        -404.699        -110.659
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      92.646       -443.963        -74.648
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


***CATT e CATU***

* Para obter o CATT você precisa restringir essa inferência apenas às observações tratadas.
* Para o CATU, restrinja às observações não tratadas.

In [48]:
res_catt = dr_learner.ate_inference(X=X[t == 1])
print(res_catt)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -209.679      66.425 -3.157  0.002       -339.87       -79.488
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   95.588        -411.793         -34.575
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
     116.402       -454.144          4.257
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


O fumo durante a gestação reduz o peso dos bebês ao nascer, em média, em cerca de 209.7 gramas para as gestantes fumantes.

In [49]:
res_catu = dr_learner.ate_inference(X=X[t == 0])
print(res_catu)

               Uncertainty of Mean Point Estimate               
mean_point stderr_mean zstat  pvalue ci_mean_lower ci_mean_upper
----------------------------------------------------------------
  -222.932       58.44 -3.815    0.0      -337.473      -108.392
      Distribution of Point Estimate     
std_point pct_point_lower pct_point_upper
-----------------------------------------
   89.165        -404.277         -52.438
     Total Variance of Point Estimate     
stderr_point ci_point_lower ci_point_upper
------------------------------------------
      106.61       -443.265        -17.033
------------------------------------------

Note: The stderr_mean is a conservative upper bound.


O fumo também teria um efeito negativo significativo sobre as gestantes não fumantes se elas tivessem fumado. Isso sugere um efeito médio semelhante entre tratados e não tratados, indicando pouca heterogeneidade no efeito médio.

### Diretrizes para Aplicação de Meta-Learners em Pesquisas Científicas

Ao utilizar Meta-Learners em um trabalho científico (como artigos, dissertações ou teses), recomenda-se seguir uma estrutura sistemática, embasada nas melhores práticas da literatura de inferência causal com machine learning. Abaixo estão algumas orientações práticas:

1. Defina claramente o objetivo do estudo
  * Antes de aplicar qualquer Meta-Learner, seja claro quanto ao seu foco:
  * Estimar o Efeito Médio do Tratamento (ATE)?
  * Comparar efeitos heterogêneos (CATE)?
  * Estimar o CATT (efeito médio para os tratados)?
Essa definição orientará a escolha do modelo e as métricas de avaliação.


2. Escolha e compare os modelos de machine learning para as funções de regressão
* Cada Meta-Learner utiliza modelos auxiliares para estimar funções como:
  * E[Y | X, D=0] e E[Y | X, D=1]
  * P(D=1 | X)
* Sugestão de procedimento comparativo:
* Teste pelo menos dois modelos: Regressão Linear (baseline) e LGBMRegressor (não-linear).
* Avalie o Erro Quadrático Médio (MSE) de predição usando validação cruzada (cross-validation):
  * No grupo de controle: para estimar E[Y | X, D=0]
  * No grupo tratado: para estimar E[Y | X, D=1]
  * Em toda a amostra com D como covariável: para o S-Learner

Critério de escolha: Use o modelo com menor MSE para cada função de regressão. Isso melhora a precisão da estimativa do efeito causal.

3. Utilize validação cruzada ou divisão treino-teste
* Evite overfitting das funções auxiliares e garanta generalização:
  * Divida sua amostra em folds (e.g., 5-fold CV) ou em conjuntos de treino e teste.
  * Utilize cross-fitting (validação cruzada dentro do learner) sempre que possível para garantir independência entre os passos de estimação.

4. Documente todas as escolhas metodológicas
* Para manter a transparência e reprodutibilidade.