# Framework de Resultados Potenciais e o Método Experimental em Ciências Socias Aplicadas
Prof. Daniel de Abreu Pereira Uhr

#### Conteúdo
* Introdução à causalidade
  * Associação vs. Causalidade
* *Framework* de Resultados Potencias (*Rubin Causal Model*)
  * Notações e Conceitos Iniciais
  * Efeito Médio do Tratamento
  * Efeito Médio do Tratamento sobre os Tratados
  * Efeito Médio do Tratamento sobre os Não Tratados
  * Decomposição de Médias
  * Estimador para o ATE
  * Diferenças do uso da SDO entre o ATE e o ATT
* Método Experimental
  * Suposição de Independência e Randomized Controlled Trials (RCTs - A/B-tests)
  * SUTVA
  * Randomized Controlled Trials (RCT) e Regressão Linear
  * RCT em termos de regressão linear
* Considerações Finais

#### Referências

* Cunningham, S. W. (2013). Causal inference: The mixtape. https://mixtape.scunning.com/ 
* Facure, Matheus. Causal Inference for Brave and True. https://matheusfacure.github.io/python-causality-handbook/landing-page.html ​​
* Joshua D. Angrist and Jörn-Steffen Pischke (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
* Hernan, M. Causal Inference: What If (the book). https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/ 
* [Avaliação Econômica de Projetos Sociais. Itaú Social, 2017](https://www.itausocial.org.br/wp-content/uploads/2018/05/avaliacao-economica-3a-ed_1513188151.pdf). Capítulos 1, 2 e 3. 
* Splawa-Neyman, J. (1923). On the Application of Probability Theory to Agricultural Experiments. Essay on Principles. Section 9. Statistical Science, 5(4), 465–472. https://www.jstor.org/stable/2245382
* Rubin D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701. https://doi.org/10.1037/h0037350
* Notas próprias.​

## Introdução à causalidade

### Associação vs. Causalidade

Associação e causalidade são conceitos fundamentais em estatística, ciências sociais aplicadas, ciências da saúde, e muitas outras áreas. E na academia é muito comum ouvir a frase "Associação não é Causalidade". Mas o que isso significa?

Para responder essa pergunda, primeiro precisamos começar com a definição de cada um dos conceitos.

* **Associação**: refere-se à relação estatística ou empírica entre duas variáveis, indicando como elas estão relacionadas ou se comportam juntas. Pode haver uma associação positiva, onde o aumento de uma variável está relacionado ao aumento da outra (e vice-versa), ou uma associação negativa, onde o aumento de uma variável está relacionado à diminuição da outra.

* **Causalidade**: refere-se à relação de causa e efeito entre duas variáveis, onde uma variável (a causa) influencia diretamente a outra (o efeito). É crucial entender que apenas porque duas variáveis estão associadas, não significa que uma cause a outra. Estabelecer causalidade requer uma análise mais profunda




<div style="text-align:center;">
    <img src="images\pombos.png"  alt="Imagem" style="width: 500px;"/>
</div>



**Exemplo**

Suponha que temos uma planilha do excel com 3 colunas, na primeira, o número de afogamentos nas praias brasileiras ($Y$), e na segunda, o número de sorvetes vendidos nas praias brasileiras ($X_{1}$), e na terceira, a temperatura ($X_{2}$). Suponha que você quer testar se os sorvetes estão causando afogamentos. Para isso, você roda uma regressão linear entre afogamentos ($Y$) e o número de sorvetes vendidos ($X_{1}$) e encontra um coeficiente positivo e significativo. 

* Pergunta: Essa medida encontrada evidencia a existência de relação de associação ou de causa-efeito entre as variáveis?

Um pesquisador mais ingênuo interpretaria como uma relação causal (ora, estou usando uma regressão linear, né?). Sua interpretação seria: quando o número de sorvetes vendidos aumenta, o número de afogamentos também aumenta. E o coeficiente beta associado à $X_{1}$ seria interpretado como o efeito causal de $X_{1}$ sobre $Y$. Esse pesquisador poderia extrapolar os resultados encontrados e dizer que o efeito encontrado é o mesmo para todas as praias do mundo, e, para piorar a situação, esse pesquisador iria sugerir que o governo deveria proibir a venda de sorvetes nas praias para diminuir o número de afogamentos (Seria uma política pública baseada em evidências!).

Aqui surge a pergunta clássica: "Associação é Causalidade?". Será que ele não está fazendo uma confusão entre associação e causalidade?

Para responder corretamente a pergunta de pesquisa do pesquisador, precisamos entender os mecanismos causais que relacionam as variáveis. Aqui entra a teoria e a representação gráfica dos mecanismos causais vistos na aula passada. Nesse caso, a temperatura é uma variável que causa o aumento no número de sorvetes vendidos e o aumento no número de afogamentos. Identificado isso, a temperatura é uma variável de confusão. Sob o critério de fechar o caminho de porta dos fundos, uma regressão sem controlar a temperatura seria uma regressão viesada (resultados seriam expúrios).

Provavelmente, ao colocarmos a variável de controle, o efeito de $X_{1}$ sobre $Y$ desapareceria. Desse modo, a relação encontrada entre $X_{1}$ e $Y$ é apenas uma relação de associação, e não de causalidade. Logo, associação não é causalidade.


Assim, para chegar na identificação de causalidade entre duas variáveis precisamos de duas coisas:

* Noção dos mecanismos causais que relacionam as variáveis (Aspectos teóricos da relação)
* Noção experimental

Na aula de hoje vamos aprofundar nosso conhecimento no segundo ponto.

## *Framework* de Resultados Potencias (*Rubin Causal Model*)

Embora a **notação de resultados potenciais** remonte a Splawa-Neyman ( 1923 ), obteve um grande impulso nas ciências sociais aplicadas com D. Rubin ( 1974 ). Atualmente, esse tipo de abordagem tomou o protagonismo nas principais revistas científicas. **Na tradição de resultados potenciais** (Splawa-Neyman 1923; D. Rubin 1974 ), **um efeito causal é definido como uma comparação entre dois estados do mundo**. 

* ***Factual***: resultado do que ocorreu na unidade no estado real observado (caso concreto).

* ***Contrafactual***: é o resultado que teria ocorrido para uma unidade (indivíduo, firma, município, etc.) em um estado alternativo do mundo que não foi observado (caso abstrato).

Ou seja, o contrafactual é a resposta à pergunta: “O que teria acontecido com esta unidade se ela não tivesse recebido o tratamento (ou se tivesse recebido, caso não tenha)?”

**Exemplo em imagens:**

* Considere o caso em que um estudante se depara com a decisão de estudar em uma universidade pública ou privada, sobre os seus salários no futuro. Para avaliar o efeito da escolha, temos que comparar a escolha fática (concreta) com o seu possível contrafactual (sua representação abstrata). Essa seria a forma mais apropriada para isolar corretamente o efeito da escolha do indivíduo, correto?

<div style="text-align:center;">
    <img src="images\Contrafactual_01.png"  alt="Imagem" style="width: 500px;"/>
</div>

<div style="text-align:center;">
    <img src="images\Contrafactual_02.png"  alt="Imagem" style="width: 500px;"/>
</div>

<div style="text-align:center;">
    <img src="images\Contrafactual_03.png"  alt="Imagem" style="width: 500px;"/>
</div>

Imagens de *Marginal Revolution* (https://www.youtube.com/watch?v=iPBV3BlV7jk)

***Exemplo para Firmas***

Considere que no primeiro estado do mundo (**estado "factual"** ou “real” do mundo), uma empresa adota uma nova tecnologia para automação do processo produtivo e um ano depois relata seu nível de produtividade. No segundo estado do mundo (**estado “contrafactual”** do mundo), essa mesma empresa não adota uma nova tecnologia para automação do processo produtivo e um ano depois relata seu nível de produtividade (abstração/mundo das ideias). 

Caso hipotético:

* Qual foi o efeito causal de uma tecnologia de automação industrial por parte das firmas adotantes? 

De acordo com a tradição dos resultados potenciais, **o efeito causal da tecnologia sobre o processo de produção** é a **diferença na produtividade entre dois estados do mundo**: um onde foi adotada a tecnologia (o estado **factual**/real do mundo) e outro onde ele nunca adotou a tecnologia (o estado **contrafactual** do mundo). A diferença na produtividade entre esses dois estados do mundo é o efeito causal da adoção da tecnologia. A ideia central é essa! 

Repare que estamos construindo um raciocínio comparativo entre a empresa que sofreu a intervenção, e *a mesma empresa* caso não tivesse sofrido a intervenção. (Por que?)

A literatura chama a impossibilidade de observar os dois estados do mundo para a mesma unidade como **problema fundamental da causalidade**. Essa dificuldade torna a identificação causal um desafio que pretendemos superar!

### Notações e conceitos iniciais

Vamos introduzir algumas notações e conceitos mais específicos:
* O ***Problema Fundamental da Inferência Causal***
* ***Individual Treatment Effect - ITE***
* ***Average Treatment Effect - ATE***
* ***Average Treatment Effect on the Treated - ATT***
* ***Average Treatment Effect on the Untreated - ATU***


**O Problema Fundamental da Inferência Causal**

Como diziamos, o problema fundamental da inferência causal é que, para cada unidade, só podemos observar um dos dois resultados potenciais. Ou seja, não podemos observar o mesmo indivíduo sob diferentes condições de tratamento.

$$ Y^{obs}_i(D)= 
\begin{cases}
Y_i(1), & \text{se } D=1 \\
Y_i(0), & \text{se } D=0
\end{cases}
$$

Ou seja, em termos de equação (switching equation):

$$ Y_{i} = D_{i}Y_{i}^{1} + (1-D_{i})Y_{i}^{0} $$


Onde $D_{i}$ é uma variável binária que indica se a unidade $i$ sofreu a intervenção ($D_{i}=1$) ou não ($D_{i}=0$). Observe a lógica da equação, quando $D_{i}=1$, o resultado observável é igual ao resultado potencial $Y_{i}^{1}$, e quando $D_{i}=0$, o resultado observável é igual ao resultado potencial $Y_{i}^{0}$.


**Individual Treatment Effect - ITE - $\beta_{i}^{ITE}$**

Podemos definir o efeito do tratamento individual (ITE) como a diferença entre os resultados potenciais. 

$$ 
ITE = \beta_{i} = Y_{i}^{1} - Y_{i}^{0} 
$$

O ITE é o efeito causal do tratamento sobre a unidade $i$. No entanto, como só podemos observar um dos dois resultados potenciais, não podemos calcular o ITE diretamente. É aqui que reside o **problema fundamental da inferência causal**: a certeza em torno dos efeitos causais requer acesso a dados que estão além do alcance do pesquisador.



**Average Treatment Effect - ATE - $\beta_{ATE}$**


O **Efeito Médio do Tratamento** (*Average Treatment Effect* - ATE) é a média dos efeitos causais individuais **da população**.

$$ ATE = E[\beta_{i}] = E[Y_{i}^{1} - Y_{i}^{0}] = E[Y_{i}^{1}] - E[Y_{i}^{0}] $$

O ATE, assim como o efeito causal individual do tratamento, não é uma quantidade que possa ser calculada. Mas poderá ser estimada!

* Repare que estamos assumindo que existem dois grupos de indivíduos na nossa discussão: um chamado de **grupo de tratamento** (são aqueles indivíduos que sofreram a intervenção), e outro grupo chamado de **grupo não tratado** (são aqueles indivíduos que não sofreram a intervenção).

**Efeito Médio do Tratamento sobre os Tratados - ATT - $\beta_{ATT}$**

O efeito médio do tratamento sobre o grupo de tratamento (*Average Treatment Effect on the Treated* - ATT), é simplesmente o efeito médio do tratamento para o grupo de unidades ao qual foi atribuído o tratamento. Ou seja, sobre uma parte da população (repare que analisaremos o efeito condicionando a amostra à apenas aqueles que foram tratados).

Formalmente, escrevemos o ATT como:

$$ ATT = E[\beta_{i}|D_{i}=1] = E[Y_{i}^{1} - Y_{i}^{0}|D_{i}=1] = E[Y_{i}^{1}|D_{i}=1] - E[Y_{i}^{0}|D_{i}=1] $$

Tal como o ATE, o ATT é incognoscível porque, tal como o ATE, também requer duas observações por unidade $i$ de tratamento.


**Efeito Médio do Tratamento sobre os Não Tratados - ATU - $\beta_{ATU}$**

O efeito médio do tratamento sobre o grupo não tratado (*Average Treatment Effect on the Untreated* - ATU/ ou ATNT - Average Treatment Effect on the Non-Treated) é o efeito médio do tratamento para o grupo de unidades que não foi tratado. Ou seja, é o efeito médio do tratamento para uma parte da população (repare que analisaremos o efeito condicionando a amostra à apenas aqueles que não foram tratados).


$$ ATU = E[\beta_{i}|D_{i}=0] = E[Y_{i}^{1} - Y_{i}^{0}|D_{i}=0] = E[Y_{i}^{1}|D_{i}=0] - E[Y_{i}^{0}|D_{i}=0] $$

Qual seria o efeito médio do tratamento se os não tratados fossem tratados? O ATU é incognoscível porque, tal como o ATE e o ATT, também requer duas observações por unidade $i$ de tratamento.

Dependendo da questão de investigação, um ou todos estes parâmetros são interessantes. Mas os dois de interesse mais comuns na literatura de avaliação de intervenção econômica são o ATE e o ATT. O ATE é utilizado quando estamos interessados ​​no **tratamento médio de toda a população**, enquanto o ATT é utilizado quando estamos interessados ​​apenas no **efeito médio do tratamento daqueles tratados**.

### Decomposição de Médias

Vamos criar um exemplo fictício para fixar os conceitos (lembre que não existe a possibilidade de um indivíduo apresentar os dois estados da natureza). Considere os dados da tabela para nosso exemplo de adoção de tecnologia nas firmas. A tabela apresenta os Resultados Potencias para 10 empresas que adotariam a tecnologia (reforçando, tenha em mente que esses dados são "ideais").

| Firm | $Y^{1}$ | $Y^{0}$ | $\beta_{i}$ |
|------|---------|---------|----------|
| 1    | 7       | 1       | 6        |
| 2    | 5       | 6       | -1       |
| 3    | 5       | 1       | 4        |
| 4    | 7       | 8       | -1       |
| 5    | 4       | 2       | 2        |
| 6    | 10      | 1       | 9        |
| 7    | 1       | 10      | -9       |
| 8    | 5       | 6       | -1       |
| 9    | 3       | 7       | -4       |
| 10   | 9       | 8       | 1        |
|------|---------|---------|----------|
|$\sum$| 56      | 50      | 6        |


Com essa matriz de dados, seria possível calcular o efeito médio do tratamento (ATE), porque o efeito médio seria simplesmente a diferença entre as médias de $Y^{1}$ e $Y^{0}$.

* $E[Y^{1}]$ = 5.6
* $E[Y^{0}]$ = 5

Isso significa que o **ATE é 0.6**. Ou seja, a adoção da tecnologia aumentaria a produtividade em 0,6. 

Um ponto importante a ser destacado é que a empresa 7 produz apenas mais uma unidade após a adoção da tecnologia. Isso é uma evidência de que nem todos se beneficiaram da adoção da tecnologia.

Vamos aumentar nossa ficção aqui, e supor que além de saber os resultados potenciais de cada empresa, podemos escolher as empresas que maximizam a produtividade para receber o tratamento (repare que estamos atribuindo o tratamento de forma não aleatória, logo, há geração desequilibrada dos resultados na nossa amostra). 

Logo, após a atribuição do tratamento, observamos o resultado real pós-tratamento (de fato observado, $Y$) de acordo com a equação de comutação comentada anteriormente:


| Firm | $Y^{1}$ | $Y^{0}$ | $\beta_{i}$ | $D$ | $Y$ |
|------|---------|---------|----------| -----| -----|
| 1    | 7       | 1       | 6        | 1    | 7    |
| 2    | 5       | 6       | -1       | 0    | 6    |
| 3    | 5       | 1       | 4        | 1    | 5    |
| 4    | 7       | 8       | -1       | 0    | 8    |
| 5    | 4       | 2       | 2        | 1    | 4    |
| 6    | 10      | 1       | 9        | 1    | 10   | 
| 7    | 1       | 10      | -9       | 0    | 10   |
| 8    | 5       | 6       | -1       | 0    | 6    |
| 9    | 3       | 7       | -4       | 0    | 7    |
| 10   | 9       | 8       | 1        | 1    | 9    |


Como conhecemos o processo gerador dos dados, os resultados potenciais para cada indivíduo nas duas situações possíves, nós podemos calcular o **efeito médio do tratamento para o grupo de tratamento** (ATT) e para o grupo não tratado (ATU):

* ATT = (6+4+2+9+1)/5 = 22/5 = 4,4
* ATU = [(-1)+(-1)+(-9)+(-1)+(-4)]/5 = -16/5 = -3,2

Anteriormente, vimos que o ATE era 0,6. Repare que o ATE é uma média ponderada entre o ATT e o ATU:

$$ ATE = \phi ATT + (1-\phi)ATU $$

Usualmente, $\phi$ é a proporção de tratados. E $(1 - \phi)$ é proporção de não tratados. Para o nosso caso específico,  $\phi$ de 0.5 .

$$ ATE = (0.5)4.4 + (1-0.5)(-3.2) = 0.6 $$

Ou seja, o efeito global é positivo, embora para alguns seja negativo. Repare que os resultados individuais mostram que existem ***efeitos heterogêneos*** (diferenciados entre os indivíduos). Alguns indivíduos apresentam um padrão de resultados positivos, enquanto outros apresentam um padrão de resultados negativos.

Certo, mas e para quê serve a definição arbitrária dos tratados ($D=1$) e não tratados ($D=0$) que fizemos? Vejamos o que isso implica.

### Estimador para o ATE

Podemos calcular o SDO (*Simple Difference in Outcomes*) para estimar o ATE. O SDO é uma estatística simples que calcula a diferença entre as médias dos resultados observados dos tratados e não tratados:

$$ SDO = E[Y∣D=1]−E[Y∣D=0] = E[Y^{1}|D=1] - E[Y^{0}|D=0]$$

Mas veja o problema:
* Costumamos estar interessados em estimar algo como $ATE=E[Y^{1} - Y^{0}]$ ou $ATT=E[Y^{1} - Y^{0}|D=1]$. 
* No entanto, não usamos contrafactuais, usamos grupos diferentes para cada parte: $Y^{1}$ vem dos tratados e $Y^{0}$ vem dos não tratados. 
* ***Se os grupos não forem comparáveis (isto é, se os tratados e não tratados já diferirem em seus resultados potenciais), o SDO estará enviesado.***

No nosso exemplo, SDO:

$$ SDO = E[Y^{1}|D=1] - E[Y^{0}|D=0] = \frac{1}{N_{T}}\sum_{i=1}^{n}(y_{i}|d_{i}=1) - \frac{1}{N_{C}}\sum_{i=1}^{n}(y_{i}|d_{i}=0)$$

* $E[Y^{1}|D=1]$ = (7+5+4+10+9)/5 = 35/5 = 7
* $E[Y^{0}|D=0]$ = (6+8+10+6+7)/5 = 37/5 = 7,4
* SDO = 7 - 7,4 = -0,4

Ou seja, considerando o contexto do exemplo, ***a adoção da tecnologia diminuiria a produtividade em 0.4 unidades***. **Embora a estatística seja verdadeira, observe como ela é enganosa**. Esta estatística sem a devida qualificação poderia facilmente ser usada para afirmar que, em média, a tecnologia é prejudicial, quando sabemos que isso não é verdade. É tendencioso porque as firmas estavam sendo classificadas de maneira ideal sua melhor opção de tratamento, criando diferenças sistemáticas entre o grupo de tratamento e o grupo de controle que são uma função direta dos próprios resultados potenciais.

**O que compõe o SDO? onde está o viés?**

Por que a estimativa ingênua do SDO está enviesada? Vamos decompor o SDO.

Definindo o estimador ingênuo (pela equação de comutação):

$$ SDO=E[Y∣D=1]−E[Y∣D=0] = E[Y^{1}|D=1] - E[Y^{0}|D=0] $$

Agora, Adicionando e subtraindo $E[Y^{0}|D=1]$ :

$$ SDO= E[Y^{1}|D=1] - E[Y^{0}|D=0] + (E[Y^{0}|D=1] - E[Y^{0}|D=1]) $$

rearranjando os termos, temos:

$$ SDO= (E[Y^{1}|D=1] - E[Y^{0}|D=1]) + (E[Y^{0}|D=1] - E[Y^{0}|D=0]) $$

* O primeiro termo é o ATT e o segundo termo é o viés de seleção (diferença entre o Contrafactual do Tratado e a média dos não tratados).

 
​$$ SDO= ATT + (E[Y^{0}|D=1] - E[Y^{0}|D=0]) $$


Relacionando ATT e ATE, sabemos que:

$$ ATE = \phi ATT + (1-\phi)ATU $$

onde $\phi = P(D=1)$. Logo, podemos substituir o ATT por $ATE$ e $ATU$:

$$ ATT = \frac{ATE - (1-\phi)ATU}{\phi} $$


Mas queremos expressar o erro por heterogeneidade. Subtraindo ATE de ATT (nos dois lados da igualdade):

$$ ATT - ATE = \frac{ATE - (1-\phi)ATU}{\phi} - ATE = \frac{(1- \phi )ATE - (1-\phi)ATU }{\phi} = \frac{(1-\phi)}{\phi}(ATE - ATU) $$

$$ ATT - ATE = \frac{(1-\phi)}{\phi}( [\phi ATT + (1- \phi) ATU)] - ATU) = (1-\phi)(ATT - ATU) $$

Então:

$$ ATT = ATE + (1-\phi)(ATT - ATU) $$

Voltanto a SDO:
 
​$$ SDO= ATT + (E[Y^{0}|D=1] - E[Y^{0}|D=0]) $$

E substituindo o ATT por $ATE + (1-\phi)(ATT - ATU)$:

$$ \frac{1}{N_{T}}\sum_{i=1}^{n}(y_{i}|d_{i}=1) - \frac{1}{N_{C}}\sum_{i=1}^{n}(y_{i}|d_{i}=0) = \underbrace{E[Y^{1}] - E[Y^{0}]}_{ATE} + \underbrace{E[Y^{0}|D=1] - E[Y^{0}|D=0]}_{Selection Bias} + \underbrace{(1 - \phi)(ATT-ATU)}_{Heterogeneous Treatment Effect Bias} $$

* O ***"Selection Bias"*** diferente de zero mostra que os tradados caso não tivessem recebido o tratamento são, em média, sistematicamente diferentes da média dos não tratados. em outras palavras, é a diferença inerente entre os dois grupos se ambos não recebecem tratamento.
* O ***"Heterogeneous Treatment Effect Bias"*** refere-se a um tipo de viés que pode ocorrer na estimativa dos efeitos do tratamento quando não é levada em consideração a heterogeneidade dos efeitos do tratamento em subgrupos de uma população. Esse viés ocorre quando os pesquisadores tratam a população como homogênea em termos de resposta ao tratamento, ignorando que diferentes grupos ou indivíduos podem responder de maneira diferente ao tratamento.


Voltando ao nosso exemplo, o lado esquerdo é a simples diferença nos resultados médios, e já sabemos que é igual a -0,4. 

* O primeiro termo é o efeito médio do tratamento, que é o parâmetro de interesse, e sabemos que é igual a 0,6. Assim, os dois termos restantes devem ser a fonte do viés que faz com que a simples diferença nas médias seja negativa.
* O segundo termo é o viés de seleção. Podemos calcular esta diferença aqui porque temos os resultados potenciais completos na Tabela. Essa diferença é igual a -4,8.
* O terceiro termo é uma forma de viés menos conhecida (viés do efeito heterogêneo do tratamento). Ele consiste nos diferentes retornos da tecnologia para os dois grupos multiplicados pela parcela da população que está no grupo de controle. (repare que $\phi$ é 0.5 porque 5 em cada 10 unidades estão no grupo de controle), logo, 0.5 X (4.4 - (-3.2)) = 3.8.

Agora que temos todos os três parâmetros no lado direito, podemos ver por que a simples diferença nos resultados médios é igual a

$$ -0,4 = 0,6 + (-4,8) + 3,8 $$
$$ -0,4 = -0,4 $$

**Considerações**

A simples diferença nos resultados (SDO), em última análise, nada mais é do que um número. E esse número é a soma das três partes, mas não podemos calcular cada parte individual porque **não temos dados sobre os resultados contrafactuais** subjacentes necessários para fazer os cálculos. O problema é que esse parâmetro de interesse foi mascarado por duas formas de viés, o **viés de seleção** e o **viés de efeito de tratamento heterogêneo**. 

Desenvolvemos estratégias para mitigar estes enviesamentos, mas não podemos calculá-los diretamente, tal como não podemos calcular diretamente o ATE, uma vez que estes enviesamentos dependem de contrafactuais não observáveis.

O problema também não é causado unicamente pela suposição de heterogeneidade. Podemos fazer a suposição forte de que os efeitos do tratamento são constantes $\delta_{i} = \delta$ $\forall i$ (homogêneos), o que causará $ATU=ATT$ e fazer $SDO= ATE + Selection Bias$. Mas ainda teríamos o desagradável *viés de seleção* estragando tudo.

Poderíamos argumentar que todo o empreendimento de **inferência causal** consiste no **desenvolvimento de uma estratégia** razoável para **negar o papel que o viés de seleção desempenha nos efeitos causais estimados**.

## Método Experimental

### Suposição de Independência e *Randomized Controlled Trials (RCTs)*

A ***situação mais confiável para usar SDO para estimar ATE*** é quando o tratamento em si for atribuído às empresas independentemente de seus resultados potenciais.

$$ (Y^{1}, Y^{0}) \perp D $$

Ou seja, a tecnologia ($D$) é atribuída à cada empresa por razões que nada tiveram a ver com os ganhos da tecnologia (de forma exógena). No nosso exemplo anterior, sabemos que essa suposição foi violada porque a escolha dos grupos de tratado e controle foi feita com base nos resultados potenciais (recebeu se $Y^{1}$ > $Y^{0}$, e não recebeu se $Y^{1}$ < $Y^{0}$), logo $D$ dependia de $Y^{1}$ e $Y^{0}$.	Nas ciências sociais aplicadas, as decisões são realizadas por pessoas, logo, provavelmente, a atribuição de tratamentos deve violar a suposição de independência.

**E se o processo de adoção da tecnologia fosse aleatório? (*randomizado*)** 

Nesse caso, a atribuição do tratamento seria independente dos resultados potenciais. Ou seja:

$$ \underbrace{E[Y^{1}|D=1]}_{Observável} - \underbrace{E[Y^{1}|D=0]}_{Contrafactual} =0 $$
$$ \underbrace{E[Y^{0}|D=1]}_{Contrafactual} - \underbrace{E[Y^{0}|D=0]}_{Observável} =0 $$

Significa que o resultado potencial médio para $Y^{1}$ e $Y^{0}$ seria o mesmo para os tratados e não tratados.

Este tipo de randomização da atribuição do tratamento eliminaria tanto o viés de seleção quanto o viés do efeito heterogêneo do tratamento. Vejamos, ***o viés de seleção é zerado da seguinte forma:***

$$ \underbrace{E[Y^{0}|D=1] - E[Y^{0}|D=0]}_{Selection Bias} =  0 $$

Reescreva ATT e ATU:

$$ ATT = E[Y^{1}|D=1] - E[Y^{0}|D=1] $$
$$ ATU = E[Y^{1}|D=0] - E[Y^{0}|D=0] $$

então, ATT - ATU:

$$ ATT - ATU =  (E[Y^{1}|D=1] - E[Y^{0}|D=1]) - (E[Y^{1}|D=0] - E[Y^{0}|D=0]) $$


Logo, se o tratamento for independente dos resultados potenciais, e a amostra for representativa da população, então:

$$ \underbrace{\frac{1}{N_{T}}\sum_{i=1}^{n}(y_{i}|d_{i}=1) - \frac{1}{N_{C}}\sum_{i=1}^{n}(y_{i}|d_{i}=0)}_{SDO} = \underbrace{E[Y^{1}] - E[Y^{0}]}_{ATE} + 0 + 0 $$



O que é necessário nesta situação é simplesmente:

* (a) dados sobre resultados observáveis, 
* (b) dados sobre a atribuição do tratamento e 
* (c) a suposição de que a atribuição do tratamento é independente dos resultados potenciais.


**OBS Importante**: A escolha racional dos indivíduos que compõem as amostras está sempre contrariando a suposição de independência e, portanto, na prática, a simples comparação de médias não aproximará o verdadeiro efeito causal. Precisamos de randomização unitária para comparações simples que nos ajudem a compreender os efeitos causais em jogo. 

### SUTVA

Rubin argumenta que há um conjunto de suposições por trás desse tipo de cálculo e ele chama essas suposições de **suposição de valor de tratamento unitário estável**, ou "Stable Unit Treatment Value Assumption" - SUTVA.

Essa suposição implica que o efeito de tratamento para um indivíduo (ou uma unidade) é constante e não é afetado pelas ações ou resultados de outros indivíduos. Em outras palavras, a SUTVA pressupõe que o tratamento recebido por uma unidade não tem impacto sobre o tratamento ou os resultados de outras unidades, e que não há interferência entre as unidades no estudo.

A suposição de SUTVA é importante porque, sem ela, a interpretação e a estimativa dos efeitos de tratamento se tornam complicadas. Ela permite que os pesquisadores calculem de maneira confiável o ATE (Average Treatment Effect) e o ATT (Average Treatment Effect on the Treated) e forneçam estimativas sólidas sobre o impacto de um tratamento em um estudo.


Em outras palavras, essas limitações são que cada unidade recebe a mesma dose, sem repercussões (“externalidades”) para os resultados potenciais de outras unidades quando uma unidade é exposta a algum tratamento, e sem efeitos de equilíbrio geral.

### *Randomized Controlled Trials (RCT)* e Regressão Linear

Qual a imagem mental que temos dos termos: “cientista”, “ciência”, e “experimento”?


<div style="text-align:center;">
    <img src="images\Lab.png"  alt="Imagem" style="width: 500px;"/>
</div>


* 1. O que podemos observar nessas fotos? Quais as características do ambiente e do que é estudado?
* 2. Como é realizado o processo de estudo?

 

**Exemplo**

* Suponha o seguinte experimento: Queremos testar o efeito de estudar técnicas econométricas avançadas sobre o nível de emprego dos estudantes.

* Desenho básico do experimento:
    * Vamos selecionamos aleatoriamente alunos para estudar técnicas econométricas avançadas.
    * Separamos esses alunos elegíveis em 2 grupos.
        * Grupo tratado: aplicamos o tratamento (aulas de econometria avançada).
        * Grupo controle: seguem cursando as demais disciplinas.
* Depois que eles terminam o curso e obtém o diploma, comparamos as taxas de aprovação de emprego / salários.



<div style="text-align:center;">
    <img src="images\Lab2.png"  alt="Imagem" style="width: 500px;"/>
</div>




O método de aleatorização (experimental) é o **“padrão-ouro”** da área CIENTÍFICA porque é baseado na seleção aleatória dos indivíduos que farão parte de cada grupo, fornecendo o balanceamento tanto das **características observadas** quanto **não observadas**. Assim, as características observadas e não observadas são distribuídas de forma aleatória entre os grupos de tratamento e controle, e, portanto, não há viés de seleção nem viés de efeito heterogêneo do tratamento. Em outras palavras, os indivíduos não se auto-selecionam pelo tratamento (ou grupo de controle) e não há efeitos de tratamento heterogêneos entre os indivíduos.

Então, o impacto (efeito causal médio) se resume à diferença entre a média da variável de interesse (resultado) do grupo tratado e do grupo de controle. Caso a amostra seja representativa, temos uma estimativa para o  ATE. 

#### RCT em termos de regressão linear

A aleatorização garante que aintervenção seja independente das características não observadas (e observadas). Isso significa que $E[\epsilon_{i}|D]=0 $, a velha hipótese de exogeneidade estrita volta a tona. Assim, podemos estimar o efeito causal médio do tratamento (ATE) por meio de uma regressão linear simples:

$$ Y_{i} = \beta_{0} + \beta_{1}D_{i} + \epsilon_{i} $$

Mas podemos mesclar nosso entendimento com a linguagem de resultados potenciais. Vamos aplicar o operador de esperança condicional:

$$ E[Y|D=1] = \beta_{0} + \beta_{1}.(1) + E[\rho|D=1] $$
$$ E[Y|D=0] = \beta_{0} + \beta_{1}.(0) + E[\theta|D=0] $$

Subtraindo as duas equações:

$$ E[Y|D=1] - E[Y|D=0] = \beta_{1} + [E[\rho|D=1]-E[\theta|D=0]]$$


Está relacionado com o que vimos anteriormente, 

$$ \underbrace{E[Y|D=1] - E[Y|D=0]}_{SDO} = \underbrace{\beta_{1}}_{ATE} + \underbrace{[E[\rho|D=1]-E[\theta|D=0]]}_{Viés} $$



Como o tratamento foi realizado por um processo aleatório, logo $E[\rho|D=1]=E[\theta|D=0]=0$, então:

$$ E[Y|D=1] - E[Y|D=0] = \beta_{1}$$

## Considerações Finais

* Queremos estimar o efeito causal médio do tratamento (ATE) ou o efeito causal médio do tratamento para os tratados (ATT)?
    * ATE: queremos verificar o efeito do tratamento sobre a população, e entendemos que a amostra é representativa da população.
    * ATT: queremos verificar o efeito do tratamento sobre os tratados, ou seja, comparar os tratados com seus contrafactuais (caso não tivessem sido tratados).

* O método experimental garante que a atribuição do tratamento seja independente dos resultados potenciais. 
    * Caso tenhamos uma amostra representativa da população, podemos usar a SDO para estimar o ATE.
    * Caso não tenhamos uma amostra representativa dos tratados, é possível usar a SDO para estimar o ATT.

* O SDO tem que apresentar resultado ATT= ATE?
    * Não. A igualdade entre ATT e ATE a partir de estimativas de SDO é uma ocorrência rara e geralmente pressupõe condições especiais, como a randomização completa e a homogeneidade dos efeitos do tratamento.
        * 1. **Randomização Completa:** Se a atribuição ao tratamento for realizada de forma totalmente aleatória e independente, então os grupos de tratamento e controle serão comparáveis em termos de características observadas e não observadas, e não haverá viés de seleção. Nesse caso, a diferença simples nas médias dos resultados entre o grupo de tratamento e o grupo de controle (SDO) será igual ao ATE.
        * 2. **Homogeneidade dos Efeitos do Tratamento:** Se os efeitos do tratamento forem homogêneos em toda a população, o que significa que o tratamento tem o mesmo efeito em todos os indivíduos, então o ATT será igual ao ATE. Isso ocorre porque, se não houver heterogeneidade nos efeitos, qualquer subgrupo dentro do grupo tratado terá um efeito médio idêntico ao efeito médio de toda a população, que é o ATE.

Os métodos mais avançados de análise causal são frequentemente usados para lidar com viés de seleção e heterogeneidade nos efeitos do tratamento. Veremos esses métodos nas próximas aulas.