### titanic

Exemplo prático do livro "Causal Inference: The Mixtape" referente ao capítulo tratando sobre Subclassificação.

In [1]:
# Importando os pacotes necessários
import numpy as np 
import pandas as pd 
import statsmodels.api as sm 
import statsmodels.formula.api as smf 
from itertools import combinations 
import plotnine as p
import ssl
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Criando uma função de importação/leitura dos dados
ssl._create_default_https_context = ssl._create_unverified_context
def read_data(file):
    return pd.read_stata("https://github.com/scunning1975/mixtape/raw/master/" + file) 

In [3]:
## Calculando a Diferença Simples nos Resultados Médios (DSRM)
# Importando a base direto do github do autor usando a função criada acima
titanic = read_data("titanic.dta")
# Tratando os dados
titanic['d'] = 0 # Criando nossa variável de tratamento, que corresponde a "estar na 1ª classe"
titanic.loc[titanic['class']=='1st class', 'd'] = 1 # Dummy que assume valor 1 se o passageiro estava na 1ª classe, e 0 cc

titanic['sex_d'] = 0 # Criando uma dummy que indique o sexo dos passageiros
titanic.loc[titanic['sex']=='man', 'sex_d'] = 1 # Dummy que assume valor 1 se o passageiro era do sexo masculino, e 0 cc

titanic['age_d'] = 0 # Criando uma dummy que indique a faixa etária dos passageiros
titanic.loc[titanic['age']=='adults', 'age_d'] = 1 # Dummy que assume valor 1 se o passgeiro era adulto, e 0 cc

titanic['survived_d'] = 0 # Criando nossa variável de resultado de interesse, que corresponde a "ter sobrevivido"
titanic.loc[titanic['survived']=='yes', 'survived_d'] = 1 # Dummy que assume valor 1 se o passageiro sobreviveu, e 0 cc

# Calculando os efeitos médios para os grupos de tratamento e controle
ey0 = titanic.loc[titanic['d']==0, 'survived_d'].mean()
ey1 = titanic.loc[titanic['d']==1, 'survived_d'].mean()

# Tirando a DSRM
sdo = ey1 - ey0

# Printando o resultado
print("A diferença simples no resultado de interesse é {:.2%}".format(sdo))

A diferença simples no resultado de interesse é 35.38%


### titanic_subclassification

Vamos agora calcular o Efeito Médio Ponderado do Tratamento (EMPT), de modo a controlar nossa estimativa para os fatores de confusão observáveis sexo e faixa etária. Este processo será feito em 4 etapas, que se seguem:
1. Vamos estratificar nossa base em quatro grupos (homens jovens, mulheres jovens, homens adultos e mulheres adultas);
2. Vamos calcular a diferença nas probabilidades de sobrevivência para cada grupo;
3. Vamos calcular o nº de pessoas que não estava na 1ª classe em cada grupo e depois dividir pelo nº total populacional de pessoas que não estavam na 1ª classe. Estes serão nossos pesos específicos de estrato;
4. Vamos calcular a taxa de sobrevivência média ponderada usando os pesos de estrato.

In [4]:
## Calculando o Efeito Médio Ponderado do Tratamento
# Etapa 1
titanic['s'] = 0 
titanic.loc[(titanic.sex_d == 0) & (titanic.age_d==1), 's'] = 1 # mulheres adultas
titanic.loc[(titanic.sex_d == 0) & (titanic.age_d==0), 's'] = 2 # mulheres jovens
titanic.loc[(titanic.sex_d == 1) & (titanic.age_d==1), 's'] = 3 # homens adultos
titanic.loc[(titanic.sex_d == 1) & (titanic.age_d==0), 's'] = 4 # homens jovens
obs = titanic.loc[titanic.d == 0].shape[0] # nº de observações no grupo de controle
obs

1876

In [5]:
# Criando uma função para realizar as etapas restantes
def weighted_avg_effect(df):
    diff = df[df.d==1].survived_d.mean() - df[df.d==0].survived_d.mean() # Etapa 2
    weight = df[df.d==0].shape[0]/obs # Etapa 3
    return diff*weight # Etapa 4

In [6]:
# Gerando nosso EMPT, que no inglês se torna "WATE" (Weighted Average Treatment Effect)
wate = titanic.groupby('s').apply(weighted_avg_effect).sum()
print("O efeito médio ponderado do tratamento estimado é {:.2%}".format(wate)) # Printando seu valor

O efeito médio ponderado do tratamento estimado é 18.88%
