# An√°lise Causal: O Impacto da Escola em Tempo Integral na Renda e Emprego

**Autor:** Seu Nome
**Data:** 15 de julho de 2025

## 1. Entendimento do Neg√≥cio e da Quest√£o Causal

Este notebook implementa uma an√°lise de infer√™ncia causal para estimar o impacto da expans√£o das Escolas de Tempo Integral (ETI) no Brasil sobre os resultados dos jovens no mercado de trabalho.

**Objetivo:** Ir al√©m da correla√ß√£o e estimar o **efeito causal** de frequentar uma ETI na probabilidade de emprego formal e na renda de jovens adultos.

**Metodologia:** Utilizaremos um modelo de **Diferen√ßas em Diferen√ßas (DiD)**, aplicando-o a um painel de dados constru√≠do a partir dos microdados da PNAD Cont√≠nua. Esta abordagem nos permite simular um experimento, comparando a trajet√≥ria de resultados de um "grupo de tratamento" (exposto √† pol√≠tica) com um "grupo de controle".

**Estrutura CRISP-DM:**
1.  **Entendimento do Neg√≥cio:** Definir a quest√£o causal.
2.  **Entendimento dos Dados:** Explorar a PNAD Cont√≠nua.
3.  **Prepara√ß√£o dos Dados:** Limpar, transformar e construir o painel.
4.  **Modelagem:** Estimar o modelo DiD e validar suas premissas.
5.  **Avalia√ß√£o:** Interpretar os resultados e suas limita√ß√µes.
6.  **Implanta√ß√£o:** Preparar os dados para um dashboard em Streamlit.

In [None]:
# Instala√ß√£o das bibliotecas necess√°rias para o projeto.
# - pandas: para manipula√ß√£o e an√°lise de dados.
# - statsmodels: para modelos estat√≠sticos, incluindo regress√£o com pesos e erros clusterizados.
# - plotnine: para visualiza√ß√µes de dados elegantes baseadas na "grammar of graphics".
# - basedosdados: para facilitar o acesso a dados p√∫blicos brasileiros (alternativa ao download manual).

print("Instalando bibliotecas...")
!pip install pandas statsmodels plotnine basedosdados -q
print("Instala√ß√£o conclu√≠da.")

Instalando bibliotecas...
Instala√ß√£o conclu√≠da.


In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
from plotnine import ggplot, aes, geom_line, geom_vline, labs, theme_minimal, scale_color_manual, geom_ribbon
import basedosdados as bd
import warnings

# Configura√ß√µes de visualiza√ß√£o e avisos
warnings.filterwarnings('ignore')
pd.set_option('display.float_format', lambda x: '%.3f' % x)

print("Bibliotecas importadas com sucesso.")

Bibliotecas importadas com sucesso.


In [None]:
# Substitua pelo ID do seu projeto no Google Cloud Platform
BILLING_PROJECT_ID = "gen-lang-client-0926041388"

# Query para selecionar as vari√°veis de interesse da PNAD Cont√≠nua de 2016 a 2023 (4¬∫ trimestre de cada ano)
query = """
SELECT
    ano,
    sigla_uf,
    V2009 AS idade,
    V2007 AS sexo,
    V2010 AS cor_raca,
    V1028 AS peso_amostral,
    VD4002 AS condicao_ocupacao,
    VD4035 AS rendimento_trabalho_habitual
FROM
    `basedosdados.br_ibge_pnadc.microdados`
WHERE
    ano BETWEEN 2016 AND 2023
    AND trimestre = 4
    AND V2009 BETWEEN 20 AND 25
"""

print("Carregando dados da PNADc... Isso pode levar alguns minutos.")
df_pnad = bd.read_sql(query, billing_project_id=BILLING_PROJECT_ID)
print("Dados carregados com sucesso!")
print(f"Dimens√µes do DataFrame: {df_pnad.shape}")
df_pnad.head(100)

Carregando dados da PNADc... Isso pode levar alguns minutos.
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
Dados carregados com sucesso!
Dimens√µes do DataFrame: (350144, 8)


Unnamed: 0,ano,sigla_uf,idade,sexo,cor_raca,peso_amostral,condicao_ocupacao,rendimento_trabalho_habitual
0,2018,BA,23,1,4,48.898,,
1,2018,BA,21,2,4,48.898,,
2,2018,BA,24,2,4,55.716,,
3,2018,BA,23,1,4,57.752,,
4,2018,BA,21,1,4,85.379,,


In [None]:
df_pnad.head(100)

Unnamed: 0,ano,sigla_uf,idade,sexo,cor_raca,peso_amostral,condicao_ocupacao,rendimento_trabalho_habitual
0,2018,BA,23,1,4,48.898,,
1,2018,BA,21,2,4,48.898,,
2,2018,BA,24,2,4,55.716,,
3,2018,BA,23,1,4,57.752,,
4,2018,BA,21,1,4,85.379,,
...,...,...,...,...,...,...,...,...
95,2018,BA,24,2,4,349.126,2,
96,2018,BA,25,1,4,309.792,2,
97,2018,BA,22,2,4,327.640,,
98,2018,BA,20,1,2,359.319,,


## 3. Prepara√ß√£o dos Dados

Esta √© a fase mais cr√≠tica. Aqui, vamos:
1.  Limpar os dados e criar as vari√°veis de resultado.
2.  Definir os grupos de tratamento e controle de forma simulada, como seria feito ao cruzar com dados do Censo Escolar.
3.  Criar as vari√°veis `treat`, `post` e a intera√ß√£o `did_interaction`.

* Limpeza e Cria√ß√£o de Vari√°veis

In [None]:
# Copiando para evitar SettingWithCopyWarning
df_prep = df_pnad.copy()

# 1. Criar vari√°vel de resultado: Emprego Formal
# VD4002 == 1 significa "Ocupado"
df_prep['emprego_formal'] = np.where(df_prep['condicao_ocupacao'] == 1, 1, 0)

# 2. Criar vari√°vel de resultado: Log da Renda
# Removemos valores nulos e rendas iguais a zero para aplicar o log
df_prep = df_prep.dropna(subset=['rendimento_trabalho_habitual'])
df_prep = df_prep[df_prep['rendimento_trabalho_habitual'] > 0]
df_prep['log_renda'] = np.log(df_prep['rendimento_trabalho_habitual'])

# 3. Simula√ß√£o da Defini√ß√£o dos Grupos de Tratamento e Controle
# Em um projeto real, cruzar√≠amos com dados do Censo Escolar por UF.
# Aqui, vamos SIMULAR que um grupo de estados (ex: Nordeste) expandiu as ETIs ("tratamento")
# e outro grupo (ex: Sul) n√£o ("controle").
estados_tratamento = ['MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'SE', 'BA']
estados_controle = ['PR', 'SC', 'RS']

# Filtrar o dataframe para incluir apenas os estados definidos
df_prep = df_prep[df_prep['sigla_uf'].isin(estados_tratamento + estados_controle)]

# Criar a vari√°vel 'treat'
df_prep['treat'] = np.where(df_prep['sigla_uf'].isin(estados_tratamento), 1, 0)

# 4. Criar a vari√°vel 'post' (p√≥s-tratamento)
# Definimos o ano de in√≠cio da pol√≠tica como 2020
df_prep['post'] = np.where(df_prep['ano'] >= 2020, 1, 0)

# 5. Selecionar colunas finais
colunas_finais = ['ano', 'sigla_uf', 'log_renda', 'emprego_formal', 'treat', 'post', 'idade', 'sexo', 'cor_raca', 'peso_amostral']
df_clean = df_prep[colunas_finais].dropna()

print("Dados preparados para an√°lise.")
print(f"Dimens√µes finais: {df_clean.shape}")
df_clean.head()

Dados preparados para an√°lise.
Dimens√µes finais: (94665, 10)


Unnamed: 0,ano,sigla_uf,log_renda,emprego_formal,treat,post,idade,sexo,cor_raca,peso_amostral
302,2018,BA,3.784,0,1,0,20,1,4,114.387
303,2018,BA,3.784,0,1,0,24,1,4,150.915
304,2018,BA,3.689,0,1,0,24,2,1,254.019
305,2018,BA,3.784,0,1,0,24,1,4,189.972
306,2018,BA,3.689,0,1,0,25,1,4,296.271


## 4. Modelagem: Validando a Premissa Crucial

Antes de estimar o modelo, precisamos verificar a premissa mais importante do DiD: as **tend√™ncias paralelas**. Ela assume que, na aus√™ncia da pol√≠tica, os grupos de tratamento e controle teriam seguido trajet√≥rias paralelas.

Vamos visualizar as tend√™ncias da `log_renda` m√©dia para ambos os grupos no per√≠odo **pr√©-tratamento** (2016-2019).

* Visualiza√ß√£o das Tend√™ncias Paralelas

In [None]:
# Calcular a m√©dia ponderada da log_renda por ano e grupo
df_trends = df_clean.copy()
df_trends['renda_ponderada'] = df_trends['log_renda'] * df_trends['peso_amostral']

summary_trends = df_trends.groupby(['ano', 'treat']) \
                          .agg(renda_ponderada_sum=('renda_ponderada', 'sum'),
                               peso_sum=('peso_amostral', 'sum')) \
                          .reset_index()

summary_trends['log_renda_media'] = summary_trends['renda_ponderada_sum'] / summary_trends['peso_sum']

# Gr√°fico de Tend√™ncias Paralelas
plot_trends = (
    ggplot(summary_trends, aes(x='ano', y='log_renda_media', color='factor(treat)'))
    + geom_line(size=1.5)
    + geom_vline(xintercept=2019.5, linetype='dashed', color='red', size=1)
    + labs(
        title="Verifica√ß√£o da Premissa de Tend√™ncias Paralelas (Per√≠odo Pr√©-Tratamento)",
        subtitle="Log da Renda M√©dia Ponderada (2016-2023)",
        x="Ano",
        y="Log da Renda M√©dia",
        color="Grupo"
    )
    + theme_minimal()
    + scale_color_manual(values=['#0072B2', '#D55E00'], labels=['Controle', 'Tratamento'])
)

print(plot_trends)

<ggplot: (640 x 480)>


### Implementando o Modelo de Diferen√ßas em Diferen√ßas

Com evid√™ncias visuais de que as tend√™ncias s√£o razoavelmente paralelas no per√≠odo pr√©-tratamento, podemos prosseguir com a estima√ß√£o do modelo de regress√£o.

A equa√ß√£o √©:
$$Y_{it} = \beta_0 + \beta_1 \cdot \text{Treat}_i + \beta_2 \cdot \text{Post}_t + \delta \cdot (\text{Treat}_i \times \text{Post}_t) + \gamma \cdot X_{it} + \epsilon_{it}$$

O coeficiente de interesse √© **Œ¥ (delta)**, associado √† vari√°vel de intera√ß√£o `treat:post`. Ele captura o efeito causal da pol√≠tica.

**Importante:** Usaremos Regress√£o Ponderada (WLS) para incorporar os pesos amostrais da PNAD e calcularemos erros-padr√£o clusterizados por UF para corrigir a correla√ß√£o intra-grupo.

* Estima√ß√£o do Modelo DiD


In [None]:
# F√≥rmula do modelo DiD com covari√°veis
# C() trata as vari√°veis como categ√≥ricas
formula_did = 'log_renda ~ treat * post + idade + C(sexo) + C(cor_raca)'

# Estima√ß√£o do modelo WLS (Weighted Least Squares)
# cov_type='cluster' e cov_kwds={'groups': df_clean['UF']} s√£o cruciais para erros-padr√£o corretos
did_model = smf.wls(
    formula=formula_did,
    data=df_clean,
    weights=df_clean['peso_amostral']
).fit(
    cov_type='cluster',
    cov_kwds={'groups': df_clean['sigla_uf']}
)

# Exibindo os resultados
print("--- RESULTADOS DO MODELO DE DIFEREN√áAS EM DIFEREN√áAS (DiD) ---")
print(did_model.summary())

--- RESULTADOS DO MODELO DE DIFEREN√áAS EM DIFEREN√áAS (DiD) ---
                            WLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.043
Model:                            WLS   Adj. R-squared:                  0.043
Method:                 Least Squares   F-statistic:                     86.25
Date:                Tue, 15 Jul 2025   Prob (F-statistic):           5.58e-09
Time:                        11:53:22   Log-Likelihood:                -75267.
No. Observations:               94665   AIC:                         1.506e+05
Df Residuals:                   94654   BIC:                         1.507e+05
Df Model:                          10                                         
Covariance Type:              cluster                                         
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------

## 5. Avalia√ß√£o dos Resultados

O coeficiente da intera√ß√£o `treat:post` √© o nosso **estimador DiD**.

**Interpreta√ß√£o:**
* **Coeficiente (`coef`):** O valor estimado para `treat:post` (Œ¥) representa a mudan√ßa percentual na renda causada pela pol√≠tica. Se for 0.08, por exemplo, indica um aumento de aproximadamente 8% na renda para o grupo tratado.
* **Signific√¢ncia Estat√≠stica (`P>|z|`):** Um valor-p baixo (tipicamente < 0.05) sugere que o efeito estimado n√£o √© apenas ru√≠do estat√≠stico.
* **Intervalo de Confian√ßa (`[0.025, 0.975]`):** Fornece uma faixa de valores plaus√≠veis para o efeito real. Se o intervalo n√£o inclui o zero, refor√ßa a conclus√£o de que o efeito √© estatisticamente significativo.

## 6. Implanta√ß√£o: Salvando Dados para o Dashboard

A an√°lise est√° completa. O passo final no notebook √© salvar o dataframe limpo e processado. Este arquivo ser√° a fonte de dados para nosso dashboard interativo em Streamlit.

* Salvando o Arquivo Final

In [None]:
# Salvar o dataframe limpo para ser usado no aplicativo Streamlit
output_filename = 'pnad_did_para_dashboard.csv'
df_clean.to_csv(output_filename, index=False)

print(f"Arquivo '{output_filename}' salvo com sucesso!")

Arquivo 'pnad_did_para_dashboard.csv' salvo com sucesso!


# Constru√ß√£o do Dashboard Profissional com Streamlit
Agora, vamos criar o dashboard. Crie uma pasta no seu computador para o projeto. Dentro dela, crie um arquivo chamado app.py e uma subpasta chamada pages.

Estrutura de Arquivos:

Projeto_did_PNAD/
‚îÇ
‚îú‚îÄ‚îÄ app.py                  # P√°gina principal do dashboard
‚îú‚îÄ‚îÄ pnad_did_para_dashboard.csv  # Os dados que voc√™ salvou do Colab
‚îÇ
‚îî‚îÄ‚îÄ pages/
    ‚îú‚îÄ‚îÄ 1_üìä_An√°lise_Descritiva.py
    ‚îî‚îÄ‚îÄ 2_üí°_O_Efeito_Causal.py
Arquivo app.py (P√°gina Principal)


In [None]:
import streamlit as st
import pandas as pd
import plotly.express as px

# --- Configura√ß√£o da P√°gina ---
st.set_page_config(
    page_title="An√°lise Causal | ETI",
    page_icon="üéì",
    layout="wide",
    initial_sidebar_state="expanded"
)

# --- Carregamento dos Dados ---
@st.cache_data
def load_data():
    return pd.read_csv('pnad_did_para_dashboard.csv')

df = load_data()

# --- Barra Lateral ---
st.sidebar.title("Sobre o Projeto")
st.sidebar.info(
    """
    Este dashboard apresenta uma an√°lise de **infer√™ncia causal** sobre o impacto
    das Escolas de Tempo Integral (ETI) na renda de jovens adultos no Brasil.

    A an√°lise utiliza um modelo de **Diferen√ßas em Diferen√ßas (DiD)**
    com microdados da PNAD Cont√≠nua (2016-2023).

    **Navegue pelas p√°ginas para explorar a an√°lise.**
    """
)
st.sidebar.markdown("---")
st.sidebar.write("Desenvolvido com base em metodologias de n√≠vel PhD.")

# --- Conte√∫do da P√°gina Principal ---
st.title("üéì Impacto Causal da Escola em Tempo Integral")
st.markdown("### Uma avalia√ß√£o de pol√≠ticas p√∫blicas atrav√©s da ci√™ncia de dados")
st.markdown("---")

st.header("O Desafio: Medir o Verdadeiro Impacto de uma Pol√≠tica")
st.markdown(
    """
    O Brasil tem investido na expans√£o das **Escolas de Tempo Integral (ETI)** como uma
    estrat√©gia para melhorar a educa√ß√£o e os resultados futuros dos alunos. Mas como saber
    se o programa realmente funciona?

    Uma simples compara√ß√£o entre ex-alunos de ETI e de escolas de tempo parcial pode ser enganosa.
    Alunos mais motivados ou de fam√≠lias com mais recursos podem ter maior probabilidade de se matricular
    em uma ETI, e esses fatores, n√£o a escola em si, poderiam explicar seu sucesso futuro.
    Isso √© o que chamamos de **vi√©s de sele√ß√£o**.

    Para superar esse desafio, usamos uma abordagem quasi-experimental chamada **Diferen√ßas em Diferen√ßas (DiD)**.
    Esta t√©cnica nos permite isolar o **efeito causal** da pol√≠tica, nos aproximando de uma resposta confi√°vel.
    """
)

st.image(
    "https://placehold.co/1200x400/0072B2/FFFFFF?text=Visualiza%C3%A7%C3%A3o+da+Narrativa+Causal",
    caption="A jornada da correla√ß√£o para a causalidade."
)

st.info("Use o menu √† esquerda para navegar pelas etapas da nossa an√°lise.", icon="üëà")

In [None]:
!streamlit run app.py


Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8502[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8502[0m
[34m  External URL: [0m[1mhttp://35.201.162.230:8502[0m
[0m
[34m  Stopping...[0m
[34m  Stopping...[0m
