# DAGs, Causalidade e Previsão

Prof. Daniel de Abreu Pereira Uhr


## Conteúdo

* Modelos Causais em Grafos (Directed Acyclic Graph - DAG´s) 
* Independência e Independência Condicional
* Estruturas básicas das DAGs
* Critérios de Identificação Causal (Back-Door Criterion)
* Procedimentos para Estimação Causal
* Viéses na Análise Causal
* DAG como representação de experimentos
* Praticando com DAGs no Python
* Covariáveis e Variáveis de Controle
* Previsão e Causalidade


## Referências

* Pearl, J. (2009). Causality: Models, reasoning and inference. Cambridge university press.
* Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, prediction, and search. MIT press.
* Joshua D. Angrist and Jörn-Steffen Pischke (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
* Morgan, S. L., & Winship, C. (2014). Counterfactuals and causal inference: Methods and principles for social research. Cambridge University Press. 
* Cunningham, S. W. (2013). Causal inference: The mixtape. https://www.scunning.com/mixtape.html
* Facure, Matheus. Causal Inference for Brave and True. https://matheusfacure.github.io/python-causality-handbook/landing-page.html 
* Hernan, M. Causal Inference: What If (the book). https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/ 
* Matsueda, Ross L. 2012. “Handbook of Structural Equation Modeling.” In. Guilford Press.
* Heckman, James, and Rodrigo Pinto. 2015. “Causal Analysis After Haavelmo.” Econometric Theory 31 (1): 115–51.
* Imbens, Guido W. 2019. “Potential Outcome and Directed Acyclic Graph Approaches to Causality: Relevance for Empirical Practices in Economics.” NBER Working Paper Series. https://doi.org/10.3386/w26104.

## Introdução

**Definição Geral**

Um grafo acíclico direcionado (DAG) é uma representação conceitual de uma série de variáveis. A ordem das variáveis é representada por um grafo, que é apresentado visualmente como um conjunto de círculos, cada um representando uma variável, alguns dos quais conectados por linhas, que representam o fluxo de uma para outra. Cada círculo é conhecido como “vértice” (nódulo) e cada linha é conhecida como “aresta” (setas direcionais). “Dirigido” significa que cada aresta (seta) tem uma direção definida, portanto cada aresta representa necessariamente um único fluxo direcional de um vértice para outro. “Acíclico” significa que não há *loops* (ou seja, “ciclos”) no grafo, de modo que para qualquer vértice, se você seguir uma aresta que conecta esse vértice a outro, não haverá caminho no grafo para voltar.

**DAG´s na Econometria**

Judea Pearl (2009) desenvolveu um conjunto de regras para representar o relacionamento econométrico causal com teoria dos grafos. E um **modelo de grafo causal** é uma forma de representar como a causalidade funciona em termos do que causa o quê. O critério de avaliação de Pearl (2000) para estratégias de condicionamento é uma **generalização de diversas tradições** para resolver problemas associados ao viés de variáveis omitidas (fatores de confusão). A teoria moderna de diagramas para inferência causal surgiu dentro das disciplinas de ciência da computação e inteligência artificial.

Importante, os DAGs explicam a causalidade em termos de **contrafactuais**. Ou seja, um efeito causal é definido como uma **comparação entre dois estados do mundo** um estado que realmente aconteceu quando alguma intervenção assumiu algum valor e outro estado que não aconteceu (o “contrafactual”) sob alguma outra intervenção. Veremos de forma mais detalhada o que são contrafactuais posteriormente.

**Sumarizando a estrutura dos DAGs**
* A estrutura de modelagem de grafos não permite a representação de causa simultânea.
* Um **circulo solido** (nódulo) representa uma **variável aleatória observável**.
* Um **círculo não solido** representa uma **variável aleatória não observada**.
* **Causas** são representadas pelas **setas direcionais**.
* As **curvas pontilhadas bidirecionais** representam que as duas variáveis são **mutuamente dependentes de alguma causa comum** (usualmente não observada).

**Observação:** Existem semestres inteiros em modelos de grafos. Essa aula não tem a intenção de compreender em profundidade os modelos de grafos causais. Apenas apresentar os elementos básicos para relacionar a representação em grafos e o uso das técnicas econométricas de identificação causal.


### Independência e Independência Condicional

**Independência**

**A independência entre duas variáveis aleatórias (ou eventos) significa que o conhecimento sobre o valor de uma delas não fornece nenhuma informação sobre a outra. Em termos simples, duas variáveis são independentes se o conhecimento sobre o valor de uma não altera a probabilidade de diferentes valores para a outra.**

Em termos matemáticos, duas variáveis aleatórias (eventos), A e B, são independentes se **a probabilidade de A ocorrer não é afetada pela ocorrência de B** (e vice-versa):

$$
P(A \cap B) = P(A) \times P(B)
$$

**Independência Condicional**

A independência condicional ocorre quando **a relação de independência entre duas variáveis aleatórias é mantida, considerando uma terceira variável**. A independência condicional implica que, dado o valor de uma terceira variável, as duas variáveis originais são independentes. 

Então, em termos matemáticos, A e B são **independentes condicionalmente a uma terceira variável C** se, dadas as informações sobre C, a ocorrência de A não afeta a probabilidade de B e vice-versa:

$$
P(A \cap B | C) = P(A|C) \times P(B|C)
$$


**Representação Econométrica**

Suponha uma variável de resposta $Y$, uma variável que representa o resultado de interesse. A variável de resposta pode assumir dois estados da natureza, resultado caso o indivíduo tenha sido tratado ($Y_1$), ou um resultado caso o indivíduo não tenha sido tratado ($Y_0$). Caso a atribuição do tratamento ocorresse de forma independente sobre os indivíduos da amostra, dizemos que $D$ é independente de $Y_0$ e $Y_1$, ou seja, $D$ é independente de $Y$:

$$
(Y_0, Y_1) \perp D
$$

Em outras palavras, o potencial resultado na ausência e na presença do tratamento é independente da própria aplicação do tratamento. 


Vejamos agora o conceito de **independência condicional**. Considere que a variável de resposta $Y$ pode assumir um resultado caso o indivíduo seja tratado ($D=1$) ou não ($D=0$). A independência condicional à variável $X$ significa que o efeito do tratamento $D$ sobre $Y$ é o mesmo para todos os valores (todas as condições) de $X$. Ou seja, $Y_0$ e $Y_1$ são independentes de $D$ condicionado a $X$. Formalmente:

$$
(Y_0, Y_1) \perp D | X
$$

implica que os resultados potenciais $Y_0$ e $Y_1$ são independentes da variável de tratamento $D$ quando consideramos a informação contida na variável $X$. Em outras palavras, o potencial resultado na ausência e na presença do tratamento é independente da aplicação do tratamento, dada a informação contida em $X$.

A **independência** e a **independência condicional** são **centrais para a inferência causal**. No entanto, pode ser bastante desafiador entendê-los. Mas isto pode mudar se usarmos a linguagem correta para descrever este problema. É aqui que entram os modelos de grafos causais. Logo, vamos nos aprofundar nos modelos de grafos causais para entender a relação entre independência e independência condicional.

### Estruturas básicas das DAGs

Na figura abaixo (Figure 3.2.) os dois grafos apresentados nos painéis (a) e (b) da Figura 3.2 são equivalentes. A forma abreviada de representação em (a) pode ser útil para suprimir um conjunto complexo de relações causais que seriam irrelevantes para alguma a análise empírica.


<div style="text-align:center;">
    <img src="images\DAG32.png"  alt="Imagem" style="width: 500px;"/>
</div>


A Figura 3.3 apresenta os **três padrões básicos de relações causais** que seriam observados para **três variáveis relacionadas entre si**: uma *cadeia de mediação*, *dependência mútua* e *causalidade mútua*. A análise de Pearl para os dois primeiros tipos de relacionamento é convencional. 

Para o grafo no painel (a), A afeta B por meio do efeito causal de A em C e do efeito causal de C em B. Esse tipo de cadeia causal torna as variáveis A e B incondicionalmente associadas (*"incondicional" porque não depende de outras condições ou variáveis*). 

Para o grafo no painel (b), A e B são ambos causados por C. Aqui, A e B também são incondicionalmente associados, mas agora é porque eles dependem mutuamente de C.

<div style="text-align:center;">
    <img src="images\DAG33.png"  alt="Imagem" style="width: 500px;"/>
</div>

Ainda pela Figura 3.3, C é chamada de **"variável de colisão"** (colisora ou "Collider"). Formalmente, uma variável é uma colisora ao longo de um caminho específico se tiver duas setas apontando para ela. Figurativamente, os efeitos causais de A e B "colidem" um com o outro em C. 

Variáveis colisoras são comuns em aplicações de ciências sociais: **Qualquer variável endógena que tenha duas ou mais causas é uma colisora** ao longo de algum caminho. A linguagem de Pearl é bastante útil aqui. **O caminho A→C←B não gera uma associação entre A e B** porque a variável colisora C "bloqueia" os possíveis efeitos causais de A e B um no outro.

A importância da variável colisora está relacionada à forma como ela pode afetar as relações causais e associações entre outras variáveis no contexto de análise causal. Quando você tem uma variável colisora, a associação entre as variáveis que a alimentam é bloqueada, **tornando-as condicionalmente dependentes uma da outra, dada a variável colisora**.

**Isso pode ser um problema se não for adequadamente considerado em uma análise causal**. Se não for tratada corretamente, **a presença de uma variável colisora pode levar a interpretações incorretas sobre a relação causal entre outras variáveis**. Um manuseio descuidado das variáveis colisoras pode criar dependências condicionais que podem afetar negativamente a análise causal e levar a conclusões equivocadas.

Portanto, é fundamental entender e considerar as variáveis colisoras de maneira apropriada ao realizar análises causais, para garantir interpretações corretas e precisas das relações causais entre as variáveis envolvidas. A consideração cuidadosa das variáveis colisoras é uma parte importante da metodologia de análise causal.



#### Exemplo 1

Neste DAG (Figure 3.5), temos três variáveis ​​aleatórias: $C$, $D$ e $Y$. Existe um caminho direto de $D→Y$ que representa um efeito causal. Mas há também um segundo caminho a partir de $D$ para $Y$ chamado de caminho da porta dos fundos ($D←C→Y$). Embora o caminho direto seja um efeito causal, o caminho backdoor não é causal. Pelo contrário, é um processo que cria correlações espúrias entre $D$ e $Y$ que são impulsionados apenas pelas flutuações na variável aleatória $C$.

Aqui chamamos $C$ de um **fator de confusão** (Confounding Variable) porque determina conjuntamente $D$ e $Y$.

<div style="text-align:center;">
    <img src="images\DAG34.png"  alt="Imagem" style="width: 500px;"/>
</div>



### Critérios de Identificação Causal (Back-Door Criterion)

Segundo Pearl, para que não haja viés nas estimações, o pesquisador deve **fechar os caminhos de portas-dos-fundos** entre $D$ e $Y$ ("Satisfy the Back-Door Criterion"). Considerando a figura 3.5 (Figure 3.5), temos um diagrama causal onde o efeito de $D$ é confundido por $C$. Ou seja:

$$Y \not \perp D$$



Nesse caso, satisfazer o critério de porta dos fundos significa que o pesquisador deve controlar $C$ para que o efeito de $D$ em $Y$ seja identificável (independente). Em outras palavras, **o pesquisador deve condicionar nas variáveis que bloqueiam todos os caminhos de porta dos fundos** entre $D$ e $Y$.


$$
Y \perp D | C
$$

***Recordando da modelagem de regressão linear***


Isso significa, por exemplo, que ao considerarmos a variável $C$ na regressão linear de $D$ em $Y$, fechamos todos os caminhos de portas dos fundos.

$$ Y = \alpha + \beta D + \gamma C + \epsilon $$

Logo, **controlamos** o caminho de porta dos fundos ao adicionar a covariável no modelo de regressão.


#### Exemplo 2

<div style="text-align:center;">
    <img src="images\DAG1.png"  alt="Imagem" style="width: 500px;"/>
</div>


Vimos que para identificar o efeico causal, devemos satisfazer o criério de porta dos fundos. Ou seja, o procedimento é controlar os caminhos de portas dos fundos! 


**Pergunta**: conseguimos estimar o efeito causal de $D$ sobre $Y$ (Figura 1.1.) se rodarmos as regressões abaixo?

$$ Y = \alpha + \beta D + \epsilon $$
$$ Y = \alpha + \beta D + \theta G + \epsilon $$
$$ Y = \alpha + \beta D + \theta G + \phi B + \epsilon $$

Qual sua opinião?

**Observação:** G é uma preditora de Y. No final da aula comentaremos detalhadamente sobre a definição e o uso das variáveis de controle.

Vimos que para identificar o efeico causal, devemos satisfazer o criério de porta dos fundos. Ou seja, o procedimento é controlar os caminhos de portas dos fundos! 


**Pergunta**: conseguimos estimar o efeito causal de $D$ sobre $Y$ (Figura 1.1.) se rodarmos as regressões abaixo?

$$ Y = \alpha + \beta D + \epsilon $$
$$ Y = \alpha + \beta D + \theta G + \epsilon $$
$$ Y = \alpha + \beta D + \theta G + \phi B + \epsilon $$

Qual sua opinião?

**Observação:** G é uma preditora de Y. No final da aula comentaremos detalhadamente sobre a definição e o uso das variáveis de controle.

<div style="text-align:center;">
    <img src="images\DAG1.png"  alt="Imagem" style="width: 500px;"/>
</div>

E se rodarmos as regressões:

$$ Y = \alpha + \beta D + \theta A + \epsilon $$
$$ Y = \alpha + \beta D + \rho F + \epsilon $$

O que você acha agora?

Considerando C um vetor de variáveis. Que tal utilizar o seguinte procedimento:

$$ D = \sigma + \rho C + \epsilon $$
$$ Y = \alpha + \beta \hat{D} + \epsilon $$

Será que resolve o problema de porta dos fundos? Teremos a identificação causal de D em Y?

### Procedimentos para Estimação Causal

**O ponto chave é que o condicionamento em variáveis que estão ao longo do caminho de porta dos fundos pode ser uma estratégia efetiva para identificação causal.**


Segundo Pearl, as 3 estratégias básicas para estimar o efeito causal são:

   * 1. **Condicionar nas variáveis** (matching, weighting, regressão) que bloqueiam todos os caminhos de portas dos fundos até $Y$.

   * 2. **Variação Exógena** com uma **variável instrumental** apropriada para isolar a covariância nas variáveis causais e de resultado.

   * 3. Estabelecer e isolar um **mecanismo completo** que relacione a variável causal para variável de resultado e então calcular o efeito causal e como isso se propaga dentro do mecanismo.

Então, esse arcabouço é importante em dois aspectos:
* Pesquisadores **não precisam condicionar em todas causas diretas omitidas** de uma variável de resultado para resolver o problema de variável omitida.
* Pesquisadores precisam **condicionar minimamente** o suficiente conjunto de variáveis que mantenham os caminhos de portas dos fundos bloqueados.

O condicionamento é uma estratégia poderosa para estimar efeitos causais, e é bem-sucedida e completamente transparente para exemplos simples como vimos. No entanto, é um procedimento muito mais complicado em geral do que é sugerido pela nossa breve descrição. As complicações surgem quando variáveis colisoras estão presentes, e Pearl explicou como resolver essas complicações.


**Em termos gerais**

Se um ou mais caminhos de porta dos fundos conectam a variável causal à variável de resultado, Pearl mostra que **o efeito causal é identificado ao condicionar em um conjunto de variáveis** $Z$ se e somente se os caminhos de porta dos fundos entre a variável causal e a variável de resultado são bloqueados após a condicionamento em $Z$. Ele então prova que todos os caminhos de porta dos fundos são bloqueados por Z se e somente se cada caminho de porta dos fundos: 

* 1. Contém dependência mútua $A←C→B$, onde a variável intermediária $C$ está em $Z$, ou 
* 2. Contém uma cadeia de mediação $A→C→B$, onde a variável intermediária $C$ está em $Z$, ou 
* 3. Contém causalidade mútua $A→C←B$, onde a variável intermediária $C$ e todos os descendentes de $C$ não estão em $Z$. 

A condição 1 é bem clara porque trata-se de controlar pelas variáveis confundidoras. A condição 2 indica o condicionamento nas variáveis mediadoras, essa condição deve ser feita com atenção. Já a condição 3 não é intuitiva, mas a recomendação é de não condicionar a análise em variáveis colisoras.


