Configurações

In [1]:
# CONFIGURAÇÕES INICIAIS

import os
import pandas as pd
import json

# Caminho certo para acessar os dados, voltando um nível
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), ".."))
RAW_DIR = os.path.join(BASE_DIR, "dados", "raw")
PROCESSED_DIR = os.path.join(BASE_DIR, "dados", "processed")
os.makedirs(PROCESSED_DIR, exist_ok=True)

# Ano de referência
ANO = 2023

print(f"RAW_DIR: {RAW_DIR}")
print(f"PROCESSED_DIR: {PROCESSED_DIR}")

RAW_DIR: /Users/luizfelipebessa/Documents/Faculdade/ML/dados/raw
PROCESSED_DIR: /Users/luizfelipebessa/Documents/Faculdade/ML/dados/processed


## 1. Tratamento de Deputados

In [19]:
# 1. Deputados
print("[INICIANDO] Tratamento - deputados")

path = os.path.join(RAW_DIR, "deputados.csv")
df = pd.read_csv(path)

# Renomeia colunas para manter padrão
renomear = {
    "id": "id_deputado",
    "nome": "nome_deputado"
}
df = df.rename(columns=renomear)

# Remove URIs e URLs (como uriPartido, urlFoto)
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower() or "url" in col.lower()], errors="ignore")

# Salva tratado
output_path = os.path.join(PROCESSED_DIR, "deputados.csv")
df.to_csv(output_path, index=False)
print("[FINALIZADO] deputados.csv salvo!")
df.head()

[INICIANDO] Tratamento - deputados
[FINALIZADO] deputados.csv salvo!


Unnamed: 0,id_deputado,nome_deputado,siglaPartido,siglaUf,idLegislatura,email
0,204379,Acácio Favacho,MDB,AP,57,dep.acaciofavacho@camara.leg.br
1,220714,Adail Filho,REPUBLICANOS,AM,57,dep.adailfilho@camara.leg.br
2,221328,Adilson Barroso,PL,SP,57,dep.adilsonbarroso@camara.leg.br
3,204560,Adolfo Viana,PSDB,BA,57,dep.adolfoviana@camara.leg.br
4,204528,Adriana Ventura,NOVO,SP,57,dep.adrianaventura@camara.leg.br


## 2. Tratamento de Partidos

In [21]:
# 2. Partidos
print("[INICIANDO] Tratamento - partidos")

path = os.path.join(RAW_DIR, "partidos.csv")
df = pd.read_csv(path)

# Renomeia colunas para manter padrão
renomear = {
    "id": "id_partido",
    "sigla": "sigla_partido",
    "nome": "nome_partido"
}
df = df.rename(columns=renomear)

# Remove colunas com URIs
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

# Salva tratado
output_path = os.path.join(PROCESSED_DIR, "partidos.csv")
df.to_csv(output_path, index=False)
print("[FINALIZADO] partidos.csv salvo!")
df.head()

[INICIANDO] Tratamento - partidos
[FINALIZADO] partidos.csv salvo!


Unnamed: 0,id_partido,sigla_partido,nome_partido
0,36898,AVANTE,Avante
1,37905,CIDADANIA,Cidadania
2,36899,MDB,Movimento Democrático Brasileiro
3,37901,NOVO,Partido Novo
4,36779,PCdoB,Partido Comunista do Brasil


## 3. Tratamento de Despesas

In [4]:
# 3. Despesas
print("[INICIANDO] Tratamento - despesas")

path = f"{RAW_DIR}/despesas_{ANO}.csv"
df = pd.read_csv(path)

# Nenhuma coluna de URI — ok.
df.to_csv(f"{PROCESSED_DIR}/despesas_{ANO}.csv", index=False)
print("[FINALIZADO] despesas_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - despesas
[FINALIZADO] despesas_{ANO}.csv salvo!


Unnamed: 0,id_deputado,nome_deputado,tipo_despesa,fornecedor,valor,data,documento
0,204379,Acácio Favacho,DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.,I. RODRIGUES DE ALMEIDA,25000.0,2023-03-14T00:00:00,315
1,204379,Acácio Favacho,TELEFONIA,CELULAR FUNCIONAL,353.7,2023-02-15T00:00:00,7526639
2,204379,Acácio Favacho,TELEFONIA,CELULAR FUNCIONAL,116.43,2023-02-14T00:00:00,7526961
3,204379,Acácio Favacho,LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES,E VIEGAS FERREIRA LTDA,10000.0,2023-02-02T00:00:00,202300000000280
4,204379,Acácio Favacho,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,EDVALDO FRANCISCO DE OLIVEIRA 49191160120,809.6,2023-03-28T00:00:00,42


## 4. Tratamento de Proposições

In [31]:
# 4. Proposições
print("[INICIANDO] Tratamento - proposicoes")

path = os.path.join(RAW_DIR, f"proposicoes_{ANO}.csv")
df = pd.read_csv(path)

# Renomeia colunas para manter padrão
renomear = {
    "id": "id_proposicao",
    "siglaTipo": "sigla_tipo",
    "codTipo": "cod_tipo",
    "numero": "numero_proposicao"
}
df = df.rename(columns=renomear)

# Remove colunas com URI
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

# Salva tratado
output_path = os.path.join(PROCESSED_DIR, f"proposicoes_{ANO}.csv")
df.to_csv(output_path, index=False)
print(f"[FINALIZADO] proposicoes_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - proposicoes
[FINALIZADO] proposicoes_2023.csv salvo!


Unnamed: 0,id_proposicao,sigla_tipo,cod_tipo,numero_proposicao,ano,ementa
0,618609,PL,139,6155,2023,"Institui o dia 25 de julho como o ""Dia Naciona..."
1,1197773,PL,139,4015,2023,"Altera o art. 121 do Decreto-Lei nº 2.848, de ..."
2,1198010,PL,139,2234,2023,Altera redação de dispositivos do artigo 4° da...
3,2074843,PL,139,6064,2023,Dispõe sobre direito a dano moral e concessão ...
4,2115253,PL,139,2721,2023,Dispõe sobre a prestação de serviços postais a...


## 5. Tratamento de Votações das Proposições

In [36]:
# 5. Votações por Proposição
print("[INICIANDO] Tratamento - votacoes_proposicoes")

path = os.path.join(RAW_DIR, f"votacoes_proposicoes_{ANO}.csv")
df = pd.read_csv(path)

# Renomeia colunas para manter padrão
df = df.rename(columns={
    "id": "id_votacao",
    "siglaOrgao": "sigla_orgao",
    "dataHoraRegistro": "data_hora_registro",
    "proposicaoObjeto": "descricao_proposicao"  # opcional
})

# Remove colunas com URIs
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

# Reorganiza colunas: move 'id_proposicao' para ser a segunda
cols = df.columns.tolist()
if "id_proposicao" in cols:
    cols.insert(1, cols.pop(cols.index("id_proposicao")))
    df = df[cols]

# Salva tratado
output_path = os.path.join(PROCESSED_DIR, f"votacoes_proposicoes_{ANO}.csv")
df.to_csv(output_path, index=False)
print(f"[FINALIZADO] votacoes_proposicoes_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - votacoes_proposicoes
[FINALIZADO] votacoes_proposicoes_2023.csv salvo!


Unnamed: 0,id_votacao,id_proposicao,data,data_hora_registro,sigla_orgao,descricao_proposicao,descricao,aprovacao
0,2345493-64,2345493,2023-05-31,2023-06-01T00:26:58,PLEN,,Aprovada a Redação Final assinada pelo Relator...,1.0
1,2345493-62,2345493,2023-05-31,2023-06-01T00:26:24,PLEN,,"Aprovadas as Emenda de Redação nºs 2, 3, 4, 5 ...",1.0
2,2345493-52,2345493,2023-05-31,2023-06-01T00:15:40,PLEN,,Suprimido o texto.,
3,2345493-50,2345493,2023-05-31,2023-06-01T00:14:11,PLEN,,Rejeitada a Emenda de Comissão nº 14. Sim: 182...,0.0
4,2345493-47,2345493,2023-05-31,2023-05-31T23:56:17,PLEN,,Mantido o texto. Sim: 260; não: 186; abstenção...,


## 6. Tratamento de Votos Individuais

In [29]:
import ast

# Carrega o CSV
path_votos = os.path.join(RAW_DIR, f"votos_individuais_proposicoes_{ANO}.csv")
df = pd.read_csv(path_votos)

# Renomeia a coluna se necessário
if "deputado_" in df.columns:
    df = df.rename(columns={"deputado_": "deputado"})

# Expande o "deputado" corrigindo o problema de aspas simples
def safe_parse(x):
    try:
        return ast.literal_eval(x)
    except Exception as e:
        print(f"[ERRO] Erro ao interpretar linha: {x[:30]}... — {e}")
        return {}

deputado_expandido = df["deputado"].apply(safe_parse).apply(pd.Series)

# Junta as colunas expandidas com as demais
df = pd.concat([df.drop(columns=["deputado"]), deputado_expandido], axis=1)

# Dropa colunas desnecessárias
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower() or "url" in col.lower()], errors="ignore")
df = df.drop(columns=["nome", "siglaPartido", "siglaUf", "idLegislatura", "email"], errors="ignore")

# Renomeia colunas para padronização
if "id" in df.columns:
    df = df.rename(columns={"id": "id_deputado"})

# Converte tipoVoto para binário
df["tipoVoto"] = df["tipoVoto"].map({"Sim": 1, "Não": 0}).fillna(df["tipoVoto"])

# Ordena colunas finais
col_order = ["id_votacao", "id_deputado", "tipoVoto", "dataRegistroVoto"]
df = df[[col for col in col_order if col in df.columns]]

# Salva o arquivo tratado
output_path = os.path.join(PROCESSED_DIR, f"votos_individuais_proposicoes_{ANO}.csv")
df.to_csv(output_path, index=False)
print(f"[OK] Arquivo tratado salvo em {output_path}")

df.head()

[OK] Arquivo tratado salvo em /Users/luizfelipebessa/Documents/Faculdade/ML/dados/processed/votos_individuais_proposicoes_2023.csv


Unnamed: 0,id_votacao,id_deputado,tipoVoto,dataRegistroVoto
0,2345493-50,220666,1.0,2023-06-01T00:12:10
1,2345493-50,178896,0.0,2023-06-01T00:12:09
2,2345493-50,220689,1.0,2023-06-01T00:12:05
3,2345493-50,178954,1.0,2023-06-01T00:11:55
4,2345493-50,204563,1.0,2023-06-01T00:11:54


### Tipo Voto
1 -> SIM
0 -> Não

## 7. Tratamento de Orientações

In [9]:
# 7. Orientações Partidárias
print("[INICIANDO] Tratamento - orientacoes_partidarias")

path = f"{RAW_DIR}/orientacoes_partidarias_proposicoes_{ANO}.csv"
df = pd.read_csv(path)

df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

df.to_csv(f"{PROCESSED_DIR}/orientacoes_partidarias_proposicoes_{ANO}.csv", index=False)
print("[FINALIZADO] orientacoes_partidarias_proposicoes_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - orientacoes_partidarias
[FINALIZADO] orientacoes_partidarias_proposicoes_{ANO}.csv salvo!


Unnamed: 0,orientacaoVoto,codTipoLideranca,siglaPartidoBloco,codPartidoBloco,id_votacao
0,Sim,B,Maioria,,2345493-35
1,Sim,B,Fdr PSOL-REDE,,2345493-35
2,Sim,B,Bl UniPpFdrPsdbCid...,,2345493-35
3,Não,P,PL,37906.0,2345493-35
4,Sim,B,Fdr PT-PCdoB-PV,,2345493-35


## 8. Tratamento de Autores

In [26]:
# 8. Autores das Proposições
print("[INICIANDO] Tratamento - autores_proposicoes")

path = f"{RAW_DIR}/autores_proposicoes_{ANO}.csv"
df = pd.read_csv(path)

# Remove colunas com URIs
df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

# Renomeia coluna nome → nome_autor
if "nome" in df.columns:
    df = df.rename(columns={"nome": "nome_autor"})

# Salva arquivo tratado
df.to_csv(f"{PROCESSED_DIR}/autores_proposicoes_{ANO}.csv", index=False)
print(f"[FINALIZADO] autores_proposicoes_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - autores_proposicoes
[FINALIZADO] autores_proposicoes_2023.csv salvo!


Unnamed: 0,nome_autor,codTipo,tipo,ordemAssinatura,proponente,id_proposicao
0,Giovani Cherini,10000,Deputado(a),1,1,618609
1,Poder Executivo,30000,Órgão do Poder Executivo,1,1,2345493
2,Mara Gabrilli,10000,Deputado(a),1,1,2074843
3,Efraim Filho,10000,Deputado(a),1,1,1198010
4,Poder Executivo,30000,Órgão do Poder Executivo,1,1,2345487


## 9. Tratamento de Temas

In [27]:
# 9. Temas das Proposições
print("[INICIANDO] Tratamento - temas_proposicoes")

path = f"{RAW_DIR}/temas_proposicoes_{ANO}.csv"
df = pd.read_csv(path)

df = df.drop(columns=[col for col in df.columns if "uri" in col.lower()], errors="ignore")

df.to_csv(f"{PROCESSED_DIR}/temas_proposicoes_{ANO}.csv", index=False)
print("[FINALIZADO] temas_proposicoes_{ANO}.csv salvo!")
df.head()

[INICIANDO] Tratamento - temas_proposicoes
[FINALIZADO] temas_proposicoes_{ANO}.csv salvo!


Unnamed: 0,codTema,tema,relevancia,id_proposicao
0,34,Administração Pública,0,2345485
1,52,Previdência e Assistência Social,0,2074843
2,56,Saúde,0,2074843
3,57,Defesa e Segurança,0,1198010
4,72,Homenagens e Datas Comemorativas,0,618609
