In [1]:
import pandas as pd

---
## Leitura dos Dados

Primeiramente, são lidos os dados originais disponibilizados pelo portal do TSE no formato de arquivos .csv. Após, são identificados os dados verdadeiramente relevantes ao projeto.

Conforme constatado em uma breve análise das questões a serem respondidas, foi identificado que diversos atributos que compõem os datasets são irrelevantes para a completude do objetivo do projeto. Assim, foi decidido pela eliminação dessas colunas visando maior otimização (em questões relacionadas à memória) e melhor apresentação dos dados. Também, como o foco da pesquisa está centrado em determinados cargos políticos, foram retirados os registros que não competem à condidatos concorrendos a eles.

In [2]:
# Carrega o dataset de bens declarados dos candidatos

df_bens = pd.read_csv('data/datasets/bens_candidatos_brasil.csv', sep=';', encoding='latin-1')
df_bens.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,SG_UF,SG_UE,NM_UE,SQ_CANDIDATO,NR_ORDEM_BEM_CANDIDATO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,DS_BEM_CANDIDATO,VR_BEM_CANDIDATO,DT_ULT_ATUAL_BEM_CANDIDATO,HH_ULT_ATUAL_BEM_CANDIDATO
0,25/10/2024,03:37:26,2022,2,Eleição Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,PR,PR,PARANÁ,160001716106,10,99,OUTROS BENS E DIREITOS,99% DAS QUOTAS CAPITAL NA POLICLICICA RONDON L...,1980000,19/02/2024,14:44:44
1,25/10/2024,03:37:26,2022,2,Eleição Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,PR,PR,PARANÁ,160001716107,1,99,OUTROS BENS E DIREITOS,"INSTALACOES, EQUIPAMENTOS DE INFORMATICA COMPO...",3050000,12/09/2023,18:22:47
2,25/10/2024,03:37:26,2022,2,Eleição Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,PR,PR,PARANÁ,160001716107,2,99,OUTROS BENS E DIREITOS,ACOES DA TELEBRAS,73476,12/09/2023,18:22:47
3,25/10/2024,03:37:26,2022,2,Eleição Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,PR,PR,PARANÁ,160001716107,3,99,OUTROS BENS E DIREITOS,DISPONIBILIDADE FINANCEIRA JUNTADA AO VALOR DA...,2500000,12/09/2023,18:22:47
4,25/10/2024,03:37:26,2022,2,Eleição Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,PR,PR,PARANÁ,160001716107,4,99,OUTROS BENS E DIREITOS,DISPONIBILIDADE FINANCEIRA E BANCARIA,12500000,12/09/2023,18:22:47


In [3]:
# Carrega o dataset de despesas dos candidatos

df_despesas = pd.read_csv('data/datasets/despesas_candidatos_brasil.csv', sep=';', encoding='latin-1')
df_despesas.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,ST_TURNO,TP_PRESTACAO_CONTAS,...,SG_PARTIDO_FORNECEDOR,NM_PARTIDO_FORNECEDOR,DS_TIPO_DOCUMENTO,NR_DOCUMENTO,CD_ORIGEM_DESPESA,DS_ORIGEM_DESPESA,SQ_DESPESA,DT_DESPESA,DS_DESPESA,VR_DESPESA_CONTRATADA
0,25/10/2024,01:02:20,2022,2,Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,1,Final,...,#NULO,#NULO,Recibo,SN,20010000,Despesas com pessoal,50216685,09/09/2022,SERVIÇOS PRESTADOS NA CAMPANHA ELEITORAL 2022,121200
1,25/10/2024,01:02:20,2022,2,Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,1,Final,...,#NULO,#NULO,Nota Fiscal,12934E15024,20360000,Serviços próprios prestados por terceiros,51789580,25/08/2022,PRESTAÇÃO DE SERVIÇOS SOCIAL MIDIA,234900
2,25/10/2024,01:02:20,2022,2,Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,1,Final,...,#NULO,#NULO,Nota Fiscal,12934E15024,20360000,Serviços próprios prestados por terceiros,51789580,25/08/2022,PRESTAÇÃO DE SERVIÇOS SOCIAL MIDIA,234900
3,25/10/2024,01:02:20,2022,2,Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,1,Final,...,#NULO,#NULO,Outro,10,20600000,Cessão ou locação de veículos,48049823,29/08/2022,CHEVROLET S10 LS DS4 2016/2017 PERIO 29.08 A 0...,800000
4,25/10/2024,01:02:20,2022,2,Ordinária,546,Eleições Gerais Estaduais 2022,02/10/2022,1,Final,...,#NULO,#NULO,Outro,001,20800000,Atividades de militância e mobilização de rua,52011840,05/09/2022,ATIVIDADES DE MILITÂNCIA E MOBILIZAÇÃO,50000


In [4]:
# Carrega o dataset de votos nominais

df_votacao = pd.read_csv('data/datasets/votacao_nominal_brasil.csv', sep=';', encoding='latin-1')
df_votacao.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,ST_VOTO_EM_TRANSITO,QT_VOTOS_NOMINAIS,NM_TIPO_DESTINACAO_VOTOS,QT_VOTOS_NOMINAIS_VALIDOS,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
0,25/10/2024,03:39:09,2022,2,Eleição Ordinária,1,546,ELEIÇÕES GERAIS ESTADUAIS 2022,02/10/2022,E,...,#NULO#,130001681355,PARTIDO ISOLADO,UNIÃO,N,10,Válido,10,5,SUPLENTE
1,25/10/2024,03:39:09,2022,2,Eleição Ordinária,1,546,ELEIÇÕES GERAIS ESTADUAIS 2022,02/10/2022,E,...,#NULO#,130001681355,PARTIDO ISOLADO,UNIÃO,N,2977,Válido,2977,5,SUPLENTE
2,25/10/2024,03:39:09,2022,2,Eleição Ordinária,1,546,ELEIÇÕES GERAIS ESTADUAIS 2022,02/10/2022,E,...,#NULO#,130001681355,PARTIDO ISOLADO,UNIÃO,N,0,Válido,0,5,SUPLENTE
3,25/10/2024,03:39:09,2022,2,Eleição Ordinária,1,546,ELEIÇÕES GERAIS ESTADUAIS 2022,02/10/2022,E,...,#NULO#,130001681355,PARTIDO ISOLADO,UNIÃO,N,0,Válido,0,5,SUPLENTE
4,25/10/2024,03:39:09,2022,2,Eleição Ordinária,1,546,ELEIÇÕES GERAIS ESTADUAIS 2022,02/10/2022,E,...,#NULO#,130001681355,PARTIDO ISOLADO,UNIÃO,N,0,Válido,0,5,SUPLENTE


Abaixo, estão definidos os atributos relevantes do dataset de `bens dos candidatos`:

- SG_UF
- SG_UE
- NM_UE
- SQ_CANDIDATO
- CD_TIPO_BEM_CANDIDATO
- DS_TIPO_BEM_CANDIDATO
- VR_BEM_CANDIDATO

In [5]:
df_bens.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO', 'SG_UF',
       'SG_UE', 'NM_UE', 'SQ_CANDIDATO', 'NR_ORDEM_BEM_CANDIDATO',
       'CD_TIPO_BEM_CANDIDATO', 'DS_TIPO_BEM_CANDIDATO', 'DS_BEM_CANDIDATO',
       'VR_BEM_CANDIDATO', 'DT_ULT_ATUAL_BEM_CANDIDATO',
       'HH_ULT_ATUAL_BEM_CANDIDATO'],
      dtype='object')

Abaixo, estão definidos os atributos relevantes do dataset de `despesas dos candidatos`:

- ST_TURNO
- SG_UF
- SG_UE
- SQ_CANDIDATO
- CD_ORIGEM_DESPESA
- DS_ORIGEM_DESPESA
- DS_DESPESA
- VR_DESPESA_CONTRATADA

In [6]:
df_despesas.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO', 'ST_TURNO',
       'TP_PRESTACAO_CONTAS', 'DT_PRESTACAO_CONTAS', 'SQ_PRESTADOR_CONTAS',
       'SG_UF', 'SG_UE', 'NM_UE', 'NR_CNPJ_PRESTADOR_CONTA', 'CD_CARGO',
       'DS_CARGO', 'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO',
       'NR_CPF_CANDIDATO', 'NR_CPF_VICE_CANDIDATO', 'NR_PARTIDO', 'SG_PARTIDO',
       'NM_PARTIDO', 'CD_TIPO_FORNECEDOR', 'DS_TIPO_FORNECEDOR',
       'CD_CNAE_FORNECEDOR', 'DS_CNAE_FORNECEDOR', 'NR_CPF_CNPJ_FORNECEDOR',
       'NM_FORNECEDOR', 'NM_FORNECEDOR_RFB', 'CD_ESFERA_PART_FORNECEDOR',
       'DS_ESFERA_PART_FORNECEDOR', 'SG_UF_FORNECEDOR',
       'CD_MUNICIPIO_FORNECEDOR', 'NM_MUNICIPIO_FORNECEDOR',
       'SQ_CANDIDATO_FORNECEDOR', 'NR_CANDIDATO_FORNECEDOR',
       'CD_CARGO_FORNECEDOR', 'DS_CARGO_FORNECEDOR', 'NR_PARTIDO_FORNECEDOR',
       'SG_PARTIDO_FORNECEDOR', 'NM_PARTIDO_FORNECEDOR', 'DS_TIPO_DOCUMENTO',
     

Abaixo, estão definidos os atributos relevantes do dataset de `votação nominal`:

- NR_TURNO
- SG_UF
- SG_UE
- NM_UE
- CD_CARGO
- DS_CARGO
- SQ_CANDIDATO
- NM_CANDIDATO
- NM_URNA_CANDIDATO
- SG_PARTIDO
- NM_PARTIDO
- QT_VOTOS_NOMINAIS
- QT_VOTOS_NOMINAIS_VALIDOS
- CD_SIT_TOT_TURNO
- DS_SIT_TOT_TURNO

In [7]:
df_votacao.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'NR_ZONA', 'CD_CARGO', 'DS_CARGO', 'SQ_CANDIDATO',
       'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'CD_SITUACAO_CANDIDATURA',
       'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND',
       'DS_DETALHE_SITUACAO_CAND', 'CD_SITUACAO_JULGAMENTO',
       'DS_SITUACAO_JULGAMENTO', 'CD_SITUACAO_CASSACAO',
       'DS_SITUACAO_CASSACAO', 'CD_SITUACAO_DIPLOMA', 'DS_SITUACAO_DIPLOMA',
       'TP_AGREMIACAO', 'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO',
       'NR_FEDERACAO', 'NM_FEDERACAO', 'SG_FEDERACAO',
       'DS_COMPOSICAO_FEDERACAO', 'SQ_COLIGACAO', 'NM_COLIGACAO',
       'DS_COMPOSICAO_COLIGACAO', 'ST_VOTO_EM_TRANSITO', 'QT_VOTOS_NOMINAIS',
       'NM_TIPO_DESTINACAO_VOTOS', 'QT_VOTOS_NOMINAIS_VALIDOS',
      

---
## Verificação de Valores Duplicados

In [None]:
# Verifica se existem valores duplicados nos datasets

subset_bens     = ['SQ_CANDIDATO', 'DS_TIPO_BEM_CANDIDATO', 'DS_BEM_CANDIDATO', 'VR_BEM_CANDIDATO'] # Se usar a coluna NR_ORDEM_BEM_CANDIDATO, não vai encontrar duplicados
subset_despesas = ['SQ_CANDIDATO', 'DS_TIPO_DOCUMENTO', 'NR_DOCUMENTO', 'NR_CPF_CNPJ_FORNECEDOR', 'VR_DESPESA_CONTRATADA', 'DT_DESPESA']
subset_votacao  = []

duplicates_bens     = df_bens[df_bens.duplicated(subset=subset_bens, keep=False)]
duplicates_despesas = df_despesas[df_despesas.duplicated(subset=subset_despesas, keep=False)]
duplicates_votacao  = df_votacao[df_votacao.duplicated(subset=subset_votacao, keep=False)]

In [None]:
# Exibe os valores duplicados encontrados

if len(duplicates_bens) > 0:
    print('\nAmostras redundantes ou inconsistentes de bens dos candidatos:')
    display(duplicates_bens)
else:
    print('Não existem valores duplicados.')

if len(duplicates_despesas) > 0:
    print('\nAmostras redundantes ou inconsistentes de despesas dos candidatos:')
    display(duplicates_despesas)
else:
    print('Não existem valores duplicados.')

if len(duplicates_votacao) > 0:
    print('\nAmostras redundantes ou inconsistentes de votação nominal:')
    display(duplicates_votacao)
else:
    print('Não existem valores duplicados.')

---
## Seleção de Atributos Relevantes

In [8]:
# Seleciona apenas os atributos relevantes

df_bens     = df_bens[["SG_UF","SG_UE","NM_UE","SQ_CANDIDATO","CD_TIPO_BEM_CANDIDATO","DS_TIPO_BEM_CANDIDATO","VR_BEM_CANDIDATO"]]
df_despesas = df_despesas[["ST_TURNO","SG_UF","SG_UE","SQ_CANDIDATO","CD_ORIGEM_DESPESA","DS_ORIGEM_DESPESA","DS_DESPESA","VR_DESPESA_CONTRATADA"]]
df_votacao  = df_votacao[["NR_TURNO","SG_UF","SG_UE","NM_UE","CD_CARGO","DS_CARGO","SQ_CANDIDATO","NM_CANDIDATO","NM_URNA_CANDIDATO","SG_PARTIDO","NM_PARTIDO","QT_VOTOS_NOMINAIS","QT_VOTOS_NOMINAIS_VALIDOS","CD_SIT_TOT_TURNO","DS_SIT_TOT_TURNO"]]

In [9]:
# Verifica os valores possíveis para o atributo "CD_CARGO"

df_votacao["DS_CARGO"].unique()

array(['Deputado Estadual', 'Deputado Federal', 'Deputado Distrital',
       'Senador', 'Governador', 'Presidente'], dtype=object)

In [10]:
# Filtra os dados para manter apenas os candidatos a Governador

df_votacao = df_votacao[(df_votacao["DS_CARGO"] == "Governador")]

sq_candidatos = df_votacao["SQ_CANDIDATO"].unique()

df_bens     = df_bens[df_bens["SQ_CANDIDATO"].isin(sq_candidatos)]
df_despesas = df_despesas[df_despesas["SQ_CANDIDATO"].isin(sq_candidatos)]

---
## Padronização de Formatos e Unidades

In [11]:
# Padronizar capitalização

df_bens["DS_TIPO_BEM_CANDIDATO"] = df_bens["DS_TIPO_BEM_CANDIDATO"].str.upper()
df_despesas[["DS_ORIGEM_DESPESA", "DS_DESPESA"]] = df_despesas[["DS_ORIGEM_DESPESA", "DS_DESPESA"]].apply(lambda x: x.str.upper())
df_votacao[["DS_CARGO", "NM_PARTIDO"]] = df_votacao[["DS_CARGO", "NM_PARTIDO"]].apply(lambda x: x.str.upper())

In [12]:
# Normalizar acentuação

import unicodedata

def remove_acentos(texto):
    return unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('latin-1')

df_bens[["NM_UE", "DS_TIPO_BEM_CANDIDATO"]] = df_bens[["NM_UE", "DS_TIPO_BEM_CANDIDATO"]].map(remove_acentos)
df_despesas[["DS_ORIGEM_DESPESA", "DS_DESPESA"]] = df_despesas[["DS_ORIGEM_DESPESA", "DS_DESPESA"]].map(remove_acentos)
df_votacao[["NM_UE", "NM_CANDIDATO", "NM_URNA_CANDIDATO", "SG_PARTIDO", "NM_PARTIDO", "DS_SIT_TOT_TURNO"]] = df_votacao[["NM_UE", "NM_CANDIDATO", "NM_URNA_CANDIDATO", "SG_PARTIDO", "NM_PARTIDO", "DS_SIT_TOT_TURNO"]].map(remove_acentos)

In [13]:
# Verificação dos tipos das colunas (atributos) do dataset de bens dos candidatos

df_bens.dtypes

SG_UF                    object
SG_UE                    object
NM_UE                    object
SQ_CANDIDATO              int64
CD_TIPO_BEM_CANDIDATO     int64
DS_TIPO_BEM_CANDIDATO    object
VR_BEM_CANDIDATO         object
dtype: object

In [14]:
# Verificação dos tipos das colunas (atributos) do dataset de despesas dos candidatos

df_despesas.dtypes

ST_TURNO                  int64
SG_UF                    object
SG_UE                    object
SQ_CANDIDATO              int64
CD_ORIGEM_DESPESA         int64
DS_ORIGEM_DESPESA        object
DS_DESPESA               object
VR_DESPESA_CONTRATADA    object
dtype: object

In [15]:
# Verificação dos tipos das colunas (atributos) do dataset de votação nominal

df_votacao.dtypes

NR_TURNO                      int64
SG_UF                        object
SG_UE                        object
NM_UE                        object
CD_CARGO                      int64
DS_CARGO                     object
SQ_CANDIDATO                  int64
NM_CANDIDATO                 object
NM_URNA_CANDIDATO            object
SG_PARTIDO                   object
NM_PARTIDO                   object
QT_VOTOS_NOMINAIS             int64
QT_VOTOS_NOMINAIS_VALIDOS     int64
CD_SIT_TOT_TURNO              int64
DS_SIT_TOT_TURNO             object
dtype: object

In [16]:
# Normalizar valores numéricos 

df_bens['VR_BEM_CANDIDATO'] = df_bens['VR_BEM_CANDIDATO'].str.replace(',', '.').astype(float)
df_despesas['VR_DESPESA_CONTRATADA'] = df_despesas['VR_DESPESA_CONTRATADA'].str.replace(',', '.').astype(float)

---
## Verificação de Valores Inconsistentes

In [17]:
# Verificar se todos os candidatos presentes em um dataset estão presentes nos demais

candidatos_bens     = set(df_bens['SQ_CANDIDATO'].unique())
candidatos_despesas = set(df_despesas['SQ_CANDIDATO'].unique())
candidatos_votacao  = set(df_votacao['SQ_CANDIDATO'].unique())

candidatos_faltantes_bens = candidatos_votacao - candidatos_bens
candidatos_faltantes_despesas = candidatos_votacao - candidatos_despesas

if candidatos_faltantes_bens:
    print(f"Candidatos presentes em votação mas não em bens: {candidatos_faltantes_bens}")
    
if candidatos_faltantes_despesas:
    print(f"Candidatos presentes em votação mas não em despesas: {candidatos_faltantes_bens}")

Candidatos presentes em votação mas não em bens: {np.int64(40001719168), np.int64(200001608705), np.int64(100001600008), np.int64(250001638553), np.int64(150001597600), np.int64(140001721635), np.int64(110001719846), np.int64(50001695915), np.int64(170001601203), np.int64(120001652149), np.int64(130001615039), np.int64(100001605313), np.int64(80001609415), np.int64(20001653458), np.int64(160001603284), np.int64(30001620571), np.int64(160001717339), np.int64(70001601117), np.int64(120001674596), np.int64(180001643494), np.int64(150001636464), np.int64(70001611377), np.int64(70001667057), np.int64(150001635959), np.int64(130001713407)}


---
## Verificação de Valores Ausentes

In [18]:
# Verifica se existem valores nulos nos datasets

idx_nan_votacao  = df_votacao[df_votacao.isnull().any(axis=1)].index
idx_nan_despesas = df_despesas[df_despesas.isnull().any(axis=1)].index
idx_nan_bens     = df_bens[df_bens.isnull().any(axis=1)].index

In [19]:
# Exibe os valores nulos encontrados

if idx_nan_votacao.empty:
    print("Nenhum valor ausente encontrado no DataFrame de votos nominais.")
else:
    df_votacao.iloc[idx_nan_votacao]

if idx_nan_despesas.empty:
    print("Nenhum valor ausente encontrado no DataFrame de despesas de campanha.")
else:
    df_despesas.iloc[idx_nan_despesas]

if idx_nan_bens.empty:
    print("Nenhum valor ausente encontrado no DataFrame de bens dos candidatos.")
else:
    df_bens.iloc[idx_nan_bens]

Nenhum valor ausente encontrado no DataFrame de votos nominais.
Nenhum valor ausente encontrado no DataFrame de despesas de campanha.
Nenhum valor ausente encontrado no DataFrame de bens dos candidatos.


---
## Salvar Novos Datasets

In [20]:
# Salvamento dos dados limpos, utilizando utf-8 como encoding (originalmente latin-1)

df_bens.to_csv('data/cleaned/bens_candidatos_brasil.csv', sep=';', encoding='utf-8', index=False)
df_despesas.to_csv('data/cleaned/despesas_candidatos_brasil.csv', sep=';', encoding='utf-8', index=False)
df_votacao.to_csv('data/cleaned/votacao_nominal_brasil.csv', sep=';', encoding='utf-8', index=False)