### Efficient Influence Function (EIF)

Daniel de Abreu Pereira Uhr



A **Efficient Influence Function (EIF)** (ou **Função de Influência Eficiente**) é o **objeto matemático fundamental** que define:

1. o **estimador mais eficiente possível** de um parâmetro causal (como o ATE),
2. e as condições sob as quais esse estimador é **sem viés em primeira ordem** mesmo quando usamos ML flexível nas etapas auxiliares.

Quando queremos estimar um parâmetro causal, por exemplo o efeito médio do tratamento (ATE):

$$
\psi_0 = E[m_1(X) - m_0(X)]
$$

onde ($m_d(X) = E[Y|D=d, X]$),

temos duas fontes de incerteza:

* o erro de amostragem (ruído estatístico);
* e o erro de estimação dos “nuisance functions” (os modelos de ($E[Y|D,X]$) e ($P(D|X)$)).


**Definição**

A **Efficient Influence Function (EIF)** é uma função ($\phi(W; \psi_0)$) que mede **como o erro em cada observação influencia o erro total do estimador** de forma linearizada.

Considere o espaço de todas as distribuições ($P$) para os dados ($W=(Y,D,X)$). O parâmetro de interesse é uma função ($\psi(P)$) (por exemplo, o ATE).

A **influence function** (IF) é definida como:

$$
\phi(W; P) = \left. \frac{d}{d\epsilon} \psi(P_\epsilon) \right|_{\epsilon=0}
$$

onde ($P_\epsilon = (1 - \epsilon) P + \epsilon \delta_W$).

***Interpretação:***

É a **sensibilidade infinitesimal** do estimando ($\psi(P)$) a pequenas perturbações na distribuição amostral em torno de ($P$).

A **Efficient Influence Function (EIF)** é a **influence function com menor variância** entre todas as IFs válidas (isto é, todas que têm esperança zero e derivam corretamente ($\psi(P)$)).
Essa variância mínima define o **semiparametric efficiency bound**.

**Exemplo**

Para ($D \in {0,1}$), o EIF do ATE é:

$$
\phi(W; \eta) =
\left[
\frac{D}{p(X)} - \frac{1-D}{1-p(X)}
\right](Y - m(D,X)) + [m(1,X) - m(0,X)] - \psi
$$

onde:

* ($p(X) = P(D=1|X)$) é o propensity score,
* ($m(d,X) = E[Y|D=d, X]$) é o outcome regression,
* ($\eta = (m, p)$) é o vetor dos “nuisance parameters”.

Esse objeto é importante porque:

* ($E[\phi(W; \eta_0)] = 0$) no ponto verdadeiro;
* Ele é **ortogonal**: pequenas variações em ($m$) ou ($p$) não alteram ($\psi$) em primeira ordem;
* E ele **gera todos os estimadores eficientes** possíveis (TMLE, AIPW, DR-DML, etc).

A EIF serve como a **base de construção** de todos os estimadores modernos de efeito causal:

| Estimador                | Como usa a EIF                                                            |
| ------------------------ | ------------------------------------------------------------------------- |
| **AIPW (Augmented IPW)** | Substitui ($m, p$) por ML e usa a média de ($\phi(W; \hat\eta)$)              |
| **TMLE**                 | Ajusta ($m$) até que a média de ($\phi(W; \hat\eta^*) = 0$)                   |
| **DR-DML**               | Usa cross-fitting e estima ($\psi$) resolvendo ($E_n[\phi(W; \hat\eta)] = 0$) |
| **Causal Forests**       | Aproximam o EIF localmente em cada folha                                  |
| **G-formula**            | Implícita, sem ajuste pela EIF (por isso é menos robusta)                 |


***Propriedades***

1. **Esperança zero:**
   $$
   E[\phi(W; \eta_0)] = 0
   $$

2. **Ortogonalidade:**
   $$
   \frac{\partial E[\phi(W; \eta)]}{\partial \eta}\Big|_{\eta_0} = 0
   $$
   → pequenos erros em ML não afetam ($\hat\psi$).

3. **Variância mínima:**
   $$
   Var(\phi(W; \eta_0)) = \text{Semiparametric Efficiency Bound}
   $$

4. **Inferência assintótica:**
   $$
   \sqrt{n}(\hat\psi - \psi_0) \to N(0, Var(\phi(W; \eta_0)))
   $$
   → Intervalos de confiança vêm diretamente da EIF.

***Relação entre TMLE, DR e DML***

* **TMLE**: constrói um modelo para ($m(D,X)$) e ajusta via *targeting* até satisfazer ($E_n[\phi(W;\hat\eta)] = 0$).
* **DR-DML**: usa cross-fitting e resolve a mesma equação, mas sem targeting iterativo.
* **Ambos estimam o mesmo parâmetro** — o ATE — definido exatamente pela EIF acima.


***Interpretação intuitiva***

Pense na EIF como o **"peso ótimo"** que cada observação deve ter para corrigir viés de confusão.

* O termo ($\frac{D}{p(X)} - \frac{1-D}{1-p(X)}$) ajusta o desequilíbrio de propensão;
* O termo ($Y - m(D,X)$) corrige a predição;
* E ($m(1,X) - m(0,X)$) dá o componente contrafactual esperado.

A média ponderada desses componentes é o **efeito causal eficiente**.