# üìò descricao_dados
### **Objetivo:**
- Descrever campos, tipos, exemplos e significado dos dados coletados.


In [2]:
# üìò 02_descricao_dados.ipynb
# ----------------------------------------------------------
# Descri√ß√£o dos datasets utilizados na pesquisa de assiduidade parlamentar
# ----------------------------------------------------------

import pandas as pd
import json

# Caminhos
DIR = "../data/processed/"

# ----------------------------------------------------------
# 1Ô∏è‚É£ Carregar datasets
# ----------------------------------------------------------
deputados = pd.read_json(DIR + "deputados.json")
freq_eventos = pd.read_csv(DIR + "freq_eventos.csv")
votos_deputados = pd.read_csv(DIR + "votos_deputados.csv")
ocupacoes = pd.read_csv(DIR + "ocupacoes.csv")
eventos_sessoes = pd.read_csv(DIR + "eventos_sessoes.csv")

with open(DIR + "cod_situacao_deputados.json", "r", encoding="utf-8") as f:
    cod_situacao = json.load(f)

# ----------------------------------------------------------
# 2Ô∏è‚É£ Estrutura b√°sica
# ----------------------------------------------------------
print("üì¶ Deputados:", deputados.shape)
deputados.info()
print("üì¶ Frequ√™ncia de eventos:", freq_eventos.shape)
freq_eventos.info()
print("üì¶ Votos por deputado:", votos_deputados.shape)
votos_deputados.info()
print("üì¶ Ocupa√ß√µes:", ocupacoes.shape)
ocupacoes.info()
print("üì¶ Eventos de sess√µes:", eventos_sessoes.shape)
eventos_sessoes.info()
# ----------------------------------------------------------
# 3Ô∏è‚É£ Fun√ß√£o de descri√ß√£o de dataset
# ----------------------------------------------------------
def descrever_dataset(df, nome):
    desc = pd.DataFrame({
        "coluna": df.columns,
        "tipo_dado": [df[c].dtype for c in df.columns],
        "nulos": [df[c].isna().sum() for c in df.columns],
        "exemplo": [df[c].dropna().astype(str).head(1).values[0] if df[c].dropna().size > 0 else "-" for c in df.columns],
    })
    print(f"\nüìò {nome}")
    display(desc)
    return desc

# ----------------------------------------------------------
# 4Ô∏è‚É£ Descrever cada dataset
# ----------------------------------------------------------
desc_deputados = descrever_dataset(deputados, "deputados.json")
desc_freq_eventos = descrever_dataset(freq_eventos, "freq_eventos.csv")
desc_votos_deputados = descrever_dataset(votos_deputados, "votos_deputados.csv")
desc_ocupacoes = descrever_dataset(ocupacoes, "ocupacoes.csv")
desc_eventos_sessoes = descrever_dataset(eventos_sessoes, "eventos_sessoes.csv")

# cod_situacao √© JSON simples, criar DataFrame manual
desc_cod_situacao = pd.DataFrame(cod_situacao["dados"] if "dados" in cod_situacao else cod_situacao)
print("\nüìò cod_situacao_deputados.json")
display(desc_cod_situacao.head())

# ----------------------------------------------------------
# 5Ô∏è‚É£ Resumo geral dos datasets
# ----------------------------------------------------------
resumo = pd.DataFrame([
    ["deputados.json", len(deputados), "Identifica√ß√£o e dados biogr√°ficos dos deputados"],
    ["freq_eventos.csv", len(freq_eventos), "N√∫mero de eventos associados a cada deputado"],
    ["votos_deputados.csv", len(votos_deputados), "Vota√ß√µes nominais e participa√ß√£o parlamentar"],
    ["ocupacoes.csv", len(ocupacoes), "Cargos, comiss√µes e fun√ß√µes exercidas pelos deputados"],
    ["eventos_sessoes.csv", len(eventos_sessoes), "Sess√µes deliberativas (dias de trabalho)"],
    ["cod_situacao_deputados.json", len(desc_cod_situacao), "Tabela de refer√™ncia de situa√ß√£o parlamentar"],
], columns=["Arquivo", "N¬∫ Linhas", "Descri√ß√£o"])

print("\nüìä Resumo geral:")
display(resumo)

# ----------------------------------------------------------
# 6Ô∏è‚É£ (Opcional) Salvar resumo em CSV para docs
# ----------------------------------------------------------
resumo.to_csv(DIR + "../quality/descricao_arquivos.csv", index=False, encoding="utf-8")
print("‚úÖ Descri√ß√£o salva em data/quality/descricao_arquivos.csv")


üì¶ Deputados: (513, 9)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             513 non-null    int64 
 1   uri            513 non-null    object
 2   nome           513 non-null    object
 3   siglaPartido   513 non-null    object
 4   uriPartido     513 non-null    object
 5   siglaUf        513 non-null    object
 6   idLegislatura  513 non-null    int64 
 7   urlFoto        513 non-null    object
 8   email          513 non-null    object
dtypes: int64(2), object(7)
memory usage: 36.2+ KB
üì¶ Frequ√™ncia de eventos: (513, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   id_deputado  513 non-null    int64
 1   num_eventos  513 non-null    int64
dtypes: int64(2)
memory usage: 8.1 KB
üì¶ Vo

Unnamed: 0,coluna,tipo_dado,nulos,exemplo
0,id,int64,0,204379
1,uri,object,0,https://dadosabertos.camara.leg.br/api/v2/depu...
2,nome,object,0,Ac√°cio Favacho
3,siglaPartido,object,0,MDB
4,uriPartido,object,0,https://dadosabertos.camara.leg.br/api/v2/part...
5,siglaUf,object,0,AP
6,idLegislatura,int64,0,57
7,urlFoto,object,0,https://www.camara.leg.br/internet/deputado/ba...
8,email,object,0,dep.acaciofavacho@camara.leg.br



üìò freq_eventos.csv


Unnamed: 0,coluna,tipo_dado,nulos,exemplo
0,id_deputado,int64,0,204379
1,num_eventos,int64,0,908



üìò votos_deputados.csv


Unnamed: 0,coluna,tipo_dado,nulos,exemplo
0,id_votacao,object,0,1198512-250
1,id_deputado,int64,0,204379
2,tipo_voto,float64,82709,-
3,dataHoraRegistro,float64,82709,-



üìò ocupacoes.csv


Unnamed: 0,coluna,tipo_dado,nulos,exemplo
0,id_deputado,int64,0,204379
1,titulo,object,225,Conselheira - Membro do Conselho Curador
2,dataInicio,float64,1317,-
3,dataFim,float64,1317,-



üìò eventos_sessoes.csv


Unnamed: 0,coluna,tipo_dado,nulos,exemplo
0,id_evento,int64,0,58552
1,dataHoraInicio,object,0,2020-02-18T10:36
2,dataHoraFim,object,2704,2020-02-18T12:41
3,id_orgao,float64,14319,-
4,descricaoTipo,float64,14319,-



üìò cod_situacao_deputados.json


Unnamed: 0,cod,sigla,nome,descricao
0,,A,Afastado,
1,,C,Convocado,
2,,E,Exerc√≠cio,
3,,F,Fim de Mandato,
4,,L,Licen√ßa,



üìä Resumo geral:


Unnamed: 0,Arquivo,N¬∫ Linhas,Descri√ß√£o
0,deputados.json,513,Identifica√ß√£o e dados biogr√°ficos dos deputados
1,freq_eventos.csv,513,N√∫mero de eventos associados a cada deputado
2,votos_deputados.csv,82709,Vota√ß√µes nominais e participa√ß√£o parlamentar
3,ocupacoes.csv,1317,"Cargos, comiss√µes e fun√ß√µes exercidas pelos de..."
4,eventos_sessoes.csv,14319,Sess√µes deliberativas (dias de trabalho)
5,cod_situacao_deputados.json,8,Tabela de refer√™ncia de situa√ß√£o parlamentar


‚úÖ Descri√ß√£o salva em data/quality/descricao_arquivos.csv
