In [1]:
import pandas as pd

---
## Leitura dos Dados

Primeiramente, são lidos os dados originais disponibilizados pelo portal do TSE no formato de arquivos .csv. Após, são identificados os dados verdadeiramente relevantes ao projeto.

Conforme constatado em uma breve análise das questões a serem respondidas, foi identificado que diversos atributos que compõem os datasets são irrelevantes para a completude do objetivo do projeto. Assim, foi decidido pela eliminação dessas colunas visando maior otimização (em questões relacionadas à memória) e melhor apresentação dos dados. Também, como o foco da pesquisa está centrado em determinados cargos políticos, foram retirados os registros que não competem à condidatos concorrendos a eles.

In [2]:
df_bens     = pd.read_csv('data/datasets/bens_candidatos_brasil.csv', sep=';', encoding='latin-1')
df_despesas = pd.read_csv('data/datasets/despesas_candidatos_brasil.csv', sep=';', encoding='latin-1')
df_votacao  = pd.read_csv('data/datasets/votacao_nominal_brasil.csv', sep=';', encoding='latin-1')

Abaixo, estão definidos os atributos relevantes do dataset de `bens dos candidatos`:

- SG_UF
- SG_UE
- NM_UE
- SQ_CANDIDATO
- CD_TIPO_BEM_CANDIDATO
- DS_TIPO_BEM_CANDIDATO
- VR_BEM_CANDIDATO

In [3]:
df_bens.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO', 'SG_UF',
       'SG_UE', 'NM_UE', 'SQ_CANDIDATO', 'NR_ORDEM_BEM_CANDIDATO',
       'CD_TIPO_BEM_CANDIDATO', 'DS_TIPO_BEM_CANDIDATO', 'DS_BEM_CANDIDATO',
       'VR_BEM_CANDIDATO', 'DT_ULT_ATUAL_BEM_CANDIDATO',
       'HH_ULT_ATUAL_BEM_CANDIDATO'],
      dtype='object')

Abaixo, estão definidos os atributos relevantes do dataset de `despesas dos candidatos`:

- ST_TURNO
- SG_UF
- SG_UE
- SQ_CANDIDATO
- CD_ORIGEM_DESPESA
- DS_ORIGEM_DESPESA
- DS_DESPESA
- VR_DESPESA_CONTRATADA

In [4]:
df_despesas.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO', 'ST_TURNO',
       'TP_PRESTACAO_CONTAS', 'DT_PRESTACAO_CONTAS', 'SQ_PRESTADOR_CONTAS',
       'SG_UF', 'SG_UE', 'NM_UE', 'NR_CNPJ_PRESTADOR_CONTA', 'CD_CARGO',
       'DS_CARGO', 'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO',
       'NR_CPF_CANDIDATO', 'NR_CPF_VICE_CANDIDATO', 'NR_PARTIDO', 'SG_PARTIDO',
       'NM_PARTIDO', 'CD_TIPO_FORNECEDOR', 'DS_TIPO_FORNECEDOR',
       'CD_CNAE_FORNECEDOR', 'DS_CNAE_FORNECEDOR', 'NR_CPF_CNPJ_FORNECEDOR',
       'NM_FORNECEDOR', 'NM_FORNECEDOR_RFB', 'CD_ESFERA_PART_FORNECEDOR',
       'DS_ESFERA_PART_FORNECEDOR', 'SG_UF_FORNECEDOR',
       'CD_MUNICIPIO_FORNECEDOR', 'NM_MUNICIPIO_FORNECEDOR',
       'SQ_CANDIDATO_FORNECEDOR', 'NR_CANDIDATO_FORNECEDOR',
       'CD_CARGO_FORNECEDOR', 'DS_CARGO_FORNECEDOR', 'NR_PARTIDO_FORNECEDOR',
       'SG_PARTIDO_FORNECEDOR', 'NM_PARTIDO_FORNECEDOR', 'DS_TIPO_DOCUMENTO',
     

Abaixo, estão definidos os atributos relevantes do dataset de `votação nominal`:

- NR_TURNO
- SG_UF
- SG_UE
- NM_UE
- CD_CARGO
- DS_CARGO
- SQ_CANDIDATO
- NM_CANDIDATO
- NM_URNA_CANDIDATO
- SG_PARTIDO
- NM_PARTIDO
- QT_VOTOS_NOMINAIS
- QT_VOTOS_NOMINAIS_VALIDOS
- CD_SIT_TOT_TURNO
- DS_SIT_TOT_TURNO

In [5]:
df_votacao.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'NR_ZONA', 'CD_CARGO', 'DS_CARGO', 'SQ_CANDIDATO',
       'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'CD_SITUACAO_CANDIDATURA',
       'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND',
       'DS_DETALHE_SITUACAO_CAND', 'CD_SITUACAO_JULGAMENTO',
       'DS_SITUACAO_JULGAMENTO', 'CD_SITUACAO_CASSACAO',
       'DS_SITUACAO_CASSACAO', 'CD_SITUACAO_DIPLOMA', 'DS_SITUACAO_DIPLOMA',
       'TP_AGREMIACAO', 'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO',
       'NR_FEDERACAO', 'NM_FEDERACAO', 'SG_FEDERACAO',
       'DS_COMPOSICAO_FEDERACAO', 'SQ_COLIGACAO', 'NM_COLIGACAO',
       'DS_COMPOSICAO_COLIGACAO', 'ST_VOTO_EM_TRANSITO', 'QT_VOTOS_NOMINAIS',
       'NM_TIPO_DESTINACAO_VOTOS', 'QT_VOTOS_NOMINAIS_VALIDOS',
      

---
## Seleção de Atributos Relevantes

In [6]:
# Seleciona apenas os atributos relevantes
df_bens     = df_bens[["SG_UF","SG_UE","NM_UE","SQ_CANDIDATO","CD_TIPO_BEM_CANDIDATO","DS_TIPO_BEM_CANDIDATO","VR_BEM_CANDIDATO"]]
df_despesas = df_despesas[['ST_TURNO','SG_UF','SG_UE','SQ_CANDIDATO','CD_ORIGEM_DESPESA','DS_ORIGEM_DESPESA','DS_DESPESA','VR_DESPESA_CONTRATADA']]
df_votacao  = df_votacao[["NR_TURNO","SG_UF","SG_UE","NM_UE","CD_CARGO","DS_CARGO","SQ_CANDIDATO","NM_CANDIDATO","NM_URNA_CANDIDATO","SG_PARTIDO","NM_PARTIDO","QT_VOTOS_NOMINAIS","QT_VOTOS_NOMINAIS_VALIDOS","CD_SIT_TOT_TURNO","DS_SIT_TOT_TURNO"]]

In [7]:
# Verifica os valores possíveis para o atributo "CD_CARGO"
df_votacao["DS_CARGO"].unique()

array(['Deputado Estadual', 'Deputado Federal', 'Deputado Distrital',
       'Senador', 'Governador', 'Presidente'], dtype=object)

In [8]:
# Filtra os dados para manter apenas os candidatos a Governador, Deputado Federal e Presidente
df_votacao = df_votacao[(df_votacao["DS_CARGO"] == "Governador") | (df_votacao["DS_CARGO"] == "Deputado Federal") | (df_votacao["DS_CARGO"] == "Presidente")]

sq_candidatos = df_votacao["SQ_CANDIDATO"].unique()
df_bens = df_bens[df_bens["SQ_CANDIDATO"].isin(sq_candidatos)]
df_despesas = df_despesas[df_despesas["SQ_CANDIDATO"].isin(sq_candidatos)]

---
## Verificação de Valores Ausentes

In [9]:
idx_nan_votacao = df_votacao[df_votacao.isnull().any(axis=1)].index
idx_nan_despesas = df_despesas[df_despesas.isnull().any(axis=1)].index
idx_nan_bens    = df_bens[df_bens.isnull().any(axis=1)].index

In [10]:
if idx_nan_votacao.empty:
    print("Nenhum valor ausente encontrado no DataFrame de votos nominais.")
else:
    df_votacao.iloc[idx_nan_votacao]
    
if idx_nan_despesas.empty:
    print("Nenhum valor ausente encontrado no DataFrame de despesas de campanha.")
else:
    df_despesas.iloc[idx_nan_despesas]
    
if idx_nan_bens.empty:
    print("Nenhum valor ausente encontrado no DataFrame de bens dos candidatos.")
else:
    df_bens.iloc[idx_nan_bens]

Nenhum valor ausente encontrado no DataFrame de votos nominais.
Nenhum valor ausente encontrado no DataFrame de despesas de campanha.
Nenhum valor ausente encontrado no DataFrame de bens dos candidatos.


---
## Salvar Novos Datasets

In [11]:
df_bens.to_csv('data/cleaned/bens_candidatos_brasil.csv', sep=';', encoding='utf-8', index=False)
df_despesas.to_csv('data/cleaned/despesas_candidatos_brasil.csv', sep=';', encoding='utf-8', index=False)
df_votacao.to_csv('data/cleaned/votacao_nominal_brasil.csv', sep=';', encoding='utf-8', index=False)