## Libraries

In [1]:
import pandas as pd
import numpy as np
import math
import requests
import os
import zipfile
import seaborn as sns
import matplotlib.pyplot as plt
from random import random
from datetime import datetime
from sklearn.preprocessing import OneHotEncoder


## Download TSE files

In [2]:
# set current directory and change to folder "raw_data"
current_dir_orig = os.getcwd()
os.chdir(f"{current_dir_orig}/raw_data")

In [3]:
def download_files(zipp):
    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}
    
    for file_name, url in zipp:
        
        download = requests.get(url, headers=headers, stream=True)
        open(f"{file_name}", 'wb').write(download.content)
    

url_prest_contas = 'https://cdn.tse.jus.br/estatistica/sead/odsele/prestacao_contas/prestacao_de_contas_eleitorais_candidatos_2022.zip'
url_candidatos = 'https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2022.zip'
url_vagas = 'https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_vagas/consulta_vagas_2022.zip'

zipfiles_names = ['prestacao_de_contas_eleitorais_candidatos_2022.zip', 'consulta_cand_2022.zip', 'consulta_vagas_2022.zip']
urls = [url_prest_contas, url_candidatos, url_vagas]

current_dir = os.getcwd()

# criteria to download only once
if len(os.listdir(current_dir)) == 0:
    download_files(zip(zipfiles_names, urls))
else:
    pass


## Import Data

In [4]:
files = os.listdir(current_dir)

zip_list = [zipfile.ZipFile(file) for file in files]

candidatos_relevant_files = ['consulta_cand_2022_BRASIL.csv']
vagas_relevant_files = ['consulta_vagas_2022_BRASIL.csv']
prestcontas_relevant_files = ['receitas_candidatos_2022_BRASIL.csv', 'despesas_contratadas_candidatos_2022_BRASIL.csv']


In [5]:
# columns of interest

cols_candidatos = ['ANO_ELEICAO',
                   'DS_ELEICAO',
                   'SG_UE',
                   'DS_CARGO',
                   'SQ_CANDIDATO',
                   'NR_CANDIDATO',
                   'NM_CANDIDATO',
                   'NR_PARTIDO',
                   'SG_PARTIDO',
                   'NM_PARTIDO',
                   'DS_NACIONALIDADE',
                   'NR_IDADE_DATA_POSSE',
                   'DS_GENERO',
                   'DS_GRAU_INSTRUCAO',
                   'DS_ESTADO_CIVIL',
                   'DS_COR_RACA',
                   'DS_OCUPACAO',
                   'DS_SIT_TOT_TURNO',
                   'ST_CANDIDATO_INSERIDO_URNA',
                   'ST_REELEICAO'
                   ]

cols_vagas = ['ANO_ELEICAO',
              'DS_ELEICAO',
              'SG_UE',
              'DS_CARGO',
              'QT_VAGAS'
             ]


cols_receitas = ['ANO_ELEICAO',
               'DS_ELEICAO',
               'TP_PRESTACAO_CONTAS',
               'SQ_PRESTADOR_CONTAS',
               'SG_UE',
               'NR_CNPJ_PRESTADOR_CONTA',
               'DS_CARGO',
               'SQ_CANDIDATO',
               'NR_CANDIDATO',
               'NM_CANDIDATO',
               'NR_PARTIDO',
               'SG_PARTIDO',
               'NM_PARTIDO',
               'DS_FONTE_RECEITA',
               'DS_ORIGEM_RECEITA',
               'DS_ESPECIE_RECEITA',
               'NR_CPF_CNPJ_DOADOR',
               'NM_DOADOR_RFB',
               'DT_RECEITA',
               'VR_RECEITA'
               ]

cols_despesas = ['ANO_ELEICAO',
                'DS_ELEICAO',
                'TP_PRESTACAO_CONTAS',
                'SQ_PRESTADOR_CONTAS',
                'SG_UE',
                'NR_CNPJ_PRESTADOR_CONTA',
                'DS_CARGO',
                'SQ_CANDIDATO',
                'NR_CANDIDATO',
                'NM_CANDIDATO',
                'NR_PARTIDO',
                'SG_PARTIDO',
                'NM_PARTIDO',
                'DS_TIPO_FORNECEDOR',
                'NR_CPF_CNPJ_FORNECEDOR',
                'NM_FORNECEDOR_RFB',
                'DS_ORIGEM_DESPESA',
                'DT_DESPESA',
                'VR_DESPESA_CONTRATADA'
               ]

cols_eleitos = ['ds_cargo',
                 'nr_candidato',
                 'nm_candidato',
                 'sg_partido',
                 'sg_ue',
                 'sq_candidato',
                 'qt_votos_nom_validos'
                ]


candidatos_df = pd.read_csv(zip_list[0].open(candidatos_relevant_files[0]),
                            sep = ';',
                            usecols = cols_candidatos,
                            encoding = 'windows-1252'
                            )

vagas_df = pd.read_csv(zip_list[1].open(vagas_relevant_files[0]),
                       sep = ';',
                       usecols = cols_vagas,
                       encoding = 'windows-1252'
                       )

receitas_df = pd.read_csv(zip_list[2].open(prestcontas_relevant_files[0]),
                        sep = ';',
                        usecols = cols_receitas,
                        encoding = 'windows-1252'
                        )

despesas_df = pd.read_csv(zip_list[2].open(prestcontas_relevant_files[1]),
                         sep = ';',
                         usecols = cols_despesas,
                         encoding = 'windows-1252'
                         )

# change to original directory
os.chdir(current_dir_orig)

eleitos_df = pd.read_csv(r'./support_files/eleitas_eleitos-região_presidente_2022.csv',
                          sep = ';',
                          usecols = cols_eleitos,
                          encoding = 'windows-1252'
                          )


## Exploratory Data Analysis

In [6]:
# see all columns
pd.set_option('display.max_columns', None)

In [7]:
candidatos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29314 entries, 0 to 29313
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ANO_ELEICAO                 29314 non-null  int64  
 1   DS_ELEICAO                  29314 non-null  object 
 2   SG_UE                       29314 non-null  object 
 3   DS_CARGO                    29314 non-null  object 
 4   SQ_CANDIDATO                29314 non-null  int64  
 5   NR_CANDIDATO                29314 non-null  int64  
 6   NM_CANDIDATO                29314 non-null  object 
 7   NR_PARTIDO                  29314 non-null  int64  
 8   SG_PARTIDO                  29314 non-null  object 
 9   NM_PARTIDO                  29314 non-null  object 
 10  DS_NACIONALIDADE            29314 non-null  object 
 11  NR_IDADE_DATA_POSSE         29289 non-null  float64
 12  DS_GENERO                   29314 non-null  object 
 13  DS_GRAU_INSTRUCAO           293

In [8]:
candidatos_df.head()

Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,SG_UE,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_NACIONALIDADE,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_CANDIDATO_INSERIDO_URNA
0,2022,Eleições Gerais Estaduais 2022,DF,DEPUTADO FEDERAL,70001650385,1123,CELY LANGAMER MUNIZ,11,PP,PROGRESSISTAS,BRASILEIRA NATA,51.0,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,PROFESSOR DE ENSINO DE PRIMEIRO E SEGUNDO GRAUS,NÃO ELEITO,N,SIM
1,2022,Eleições Gerais Estaduais 2022,PE,DEPUTADO FEDERAL,170001618619,1167,MARCOS BEZERRA CAMPELO,11,PP,PROGRESSISTAS,BRASILEIRA NATA,55.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,OUTROS,SUPLENTE,N,SIM
2,2022,Eleições Gerais Estaduais 2022,RO,DEPUTADO ESTADUAL,220001647615,35355,DIHESSICA DAYANE FERREIRA DA SILVA,35,PMB,PARTIDO DA MULHER BRASILEIRA,BRASILEIRA NATA,25.0,FEMININO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,NÃO ELEITO,N,SIM
3,2022,Eleições Gerais Estaduais 2022,RO,DEPUTADO FEDERAL,220001605554,4456,MARY TERESINHA BRAGANHOL,44,UNIÃO,UNIÃO BRASIL,BRASILEIRA NATA,58.0,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,SERVIDOR PÚBLICO ESTADUAL,SUPLENTE,N,SIM
4,2022,Eleições Gerais Estaduais 2022,RJ,DEPUTADO ESTADUAL,190001613885,33337,ROBERTA PATRÍCIA DA SILVA ALMEIDA,33,PMN,PARTIDO DA MOBILIZAÇÃO NACIONAL,BRASILEIRA NATA,47.0,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),BRANCA,DONA DE CASA,SUPLENTE,N,SIM


In [9]:
vagas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109 entries, 0 to 108
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ANO_ELEICAO  109 non-null    int64 
 1   DS_ELEICAO   109 non-null    object
 2   SG_UE        109 non-null    object
 3   DS_CARGO     109 non-null    object
 4   QT_VAGAS     109 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 4.4+ KB


In [10]:
vagas_df.head()

Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,SG_UE,DS_CARGO,QT_VAGAS
0,2022,Eleição Geral Federal 2022,BR,Presidente,1
1,2022,Eleições Gerais Estaduais 2022,AL,Governador,1
2,2022,Eleições Gerais Estaduais 2022,AL,Senador,1
3,2022,Eleições Gerais Estaduais 2022,AL,Deputado Federal,9
4,2022,Eleições Gerais Estaduais 2022,AL,Deputado Estadual,27


In [11]:
receitas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 653273 entries, 0 to 653272
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype 
---  ------                   --------------   ----- 
 0   ANO_ELEICAO              653273 non-null  int64 
 1   DS_ELEICAO               653273 non-null  object
 2   TP_PRESTACAO_CONTAS      653273 non-null  object
 3   SQ_PRESTADOR_CONTAS      653273 non-null  int64 
 4   SG_UE                    653273 non-null  object
 5   NR_CNPJ_PRESTADOR_CONTA  653273 non-null  int64 
 6   DS_CARGO                 653273 non-null  object
 7   SQ_CANDIDATO             653273 non-null  int64 
 8   NR_CANDIDATO             653273 non-null  int64 
 9   NM_CANDIDATO             653273 non-null  object
 10  NR_PARTIDO               653273 non-null  int64 
 11  SG_PARTIDO               653273 non-null  object
 12  NM_PARTIDO               653273 non-null  object
 13  DS_FONTE_RECEITA         653273 non-null  object
 14  DS_ORIGEM_RECEITA   

In [12]:
print(receitas_df.shape)
receitas_df.head()

(653273, 20)


Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,TP_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,SG_UE,NR_CNPJ_PRESTADOR_CONTA,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_FONTE_RECEITA,DS_ORIGEM_RECEITA,DS_ESPECIE_RECEITA,NR_CPF_CNPJ_DOADOR,NM_DOADOR_RFB,DT_RECEITA,VR_RECEITA
0,2022,Eleições Gerais Estaduais 2022,RELATÓRIO FINANCEIRO,3796037695,SP,47552212000145,Deputado Federal,250001651724,4427,REINALDO MONTEIRO DA SILVA,44,UNIÃO,UNIÃO BRASIL,OUTROS RECURSOS,Recursos próprios,PIX,16653258874,REINALDO MONTEIRO DA SILVA,29/08/2022,46175
1,2022,Eleições Gerais Estaduais 2022,RELATÓRIO FINANCEIRO,3796037695,SP,47552212000145,Deputado Federal,250001651724,4427,REINALDO MONTEIRO DA SILVA,44,UNIÃO,UNIÃO BRASIL,OUTROS RECURSOS,Recursos próprios,PIX,16653258874,REINALDO MONTEIRO DA SILVA,22/08/2022,18730
2,2022,Eleições Gerais Estaduais 2022,RELATÓRIO FINANCEIRO,3785019283,SC,47497189000133,Deputado Estadual,240001616209,44117,MARIA CRISTINA CORREA CLEMENTE,44,UNIÃO,UNIÃO BRASIL,OUTROS RECURSOS,Recursos próprios,PIX,90908910991,MARIA CRISTINA CORREA CLEMENTE,18/08/2022,40000
3,2022,Eleições Gerais Estaduais 2022,RELATÓRIO FINANCEIRO,3785019283,SC,47497189000133,Deputado Estadual,240001616209,44117,MARIA CRISTINA CORREA CLEMENTE,44,UNIÃO,UNIÃO BRASIL,OUTROS RECURSOS,Recursos próprios,PIX,90908910991,MARIA CRISTINA CORREA CLEMENTE,18/08/2022,20000
4,2022,Eleições Gerais Estaduais 2022,RELATÓRIO FINANCEIRO,3778701223,MS,47464846000146,Deputado Federal,120001609244,4444,SINDOLEY LUIZ DE SOUZA MORAIS,44,UNIÃO,UNIÃO BRASIL,OUTROS RECURSOS,Recursos próprios,Transferência eletrônica,97652911168,SINDOLEY LUIZ DE SOUZA MORAIS,09/09/2022,251100


In [13]:
despesas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1994977 entries, 0 to 1994976
Data columns (total 19 columns):
 #   Column                   Dtype 
---  ------                   ----- 
 0   ANO_ELEICAO              int64 
 1   DS_ELEICAO               object
 2   TP_PRESTACAO_CONTAS      object
 3   SQ_PRESTADOR_CONTAS      int64 
 4   SG_UE                    object
 5   NR_CNPJ_PRESTADOR_CONTA  int64 
 6   DS_CARGO                 object
 7   SQ_CANDIDATO             int64 
 8   NR_CANDIDATO             int64 
 9   NM_CANDIDATO             object
 10  NR_PARTIDO               int64 
 11  SG_PARTIDO               object
 12  NM_PARTIDO               object
 13  DS_TIPO_FORNECEDOR       object
 14  NR_CPF_CNPJ_FORNECEDOR   int64 
 15  NM_FORNECEDOR_RFB        object
 16  DS_ORIGEM_DESPESA        object
 17  DT_DESPESA               object
 18  VR_DESPESA_CONTRATADA    object
dtypes: int64(7), object(12)
memory usage: 289.2+ MB


In [14]:
print(despesas_df.shape)
despesas_df.head()

(1994977, 19)


Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,TP_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,SG_UE,NR_CNPJ_PRESTADOR_CONTA,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_TIPO_FORNECEDOR,NR_CPF_CNPJ_FORNECEDOR,NM_FORNECEDOR_RFB,DS_ORIGEM_DESPESA,DT_DESPESA,VR_DESPESA_CONTRATADA
0,2022,Eleições Gerais Estaduais 2022,Final,3793673304,AC,47547980000100,Deputado Federal,10001642333,1515,JESSICA ROJAS SALES,15,MDB,Movimento Democrático Brasileiro,Pessoa Física,65149203220,AMARILIO SARAIVA DE OLIVEIRA,Atividades de militância e mobilização de rua,22/08/2022,400000
1,2022,Eleições Gerais Estaduais 2022,Final,3783868250,AC,47493579000135,Deputado Federal,10001613550,1331,LEONARDO CUNHA DE BRITO,13,PT,Partido dos Trabalhadores,Pessoa Física,6457176224,IRANILDO MATIAS DOS SANTOS,Atividades de militância e mobilização de rua,03/09/2022,50000
2,2022,Eleições Gerais Estaduais 2022,Final,3783868250,AC,47493579000135,Deputado Federal,10001613550,1331,LEONARDO CUNHA DE BRITO,13,PT,Partido dos Trabalhadores,Pessoa Física,6457176224,IRANILDO MATIAS DOS SANTOS,Atividades de militância e mobilização de rua,03/09/2022,50000
3,2022,Eleições Gerais Estaduais 2022,Final,3783868250,AC,47493579000135,Deputado Federal,10001613550,1331,LEONARDO CUNHA DE BRITO,13,PT,Partido dos Trabalhadores,Pessoa Física,6457176224,IRANILDO MATIAS DOS SANTOS,Atividades de militância e mobilização de rua,03/09/2022,50000
4,2022,Eleições Gerais Estaduais 2022,Final,3791359992,AC,47529158000117,Deputado Estadual,10001635541,10000,JAMYL ASFURY MARTINS OLIVEIRA,10,REPUBLICANOS,REPUBLICANOS,Pessoa Física,1822169267,UEBERTON JUNIOR NAVA DA SILVA,Atividades de militância e mobilização de rua,18/08/2022,120000


In [15]:
eleitos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 7 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ds_cargo              513 non-null    object
 1   nr_candidato          513 non-null    int64 
 2   nm_candidato          513 non-null    object
 3   sg_partido            513 non-null    object
 4   sg_ue                 513 non-null    object
 5   sq_candidato          513 non-null    int64 
 6   qt_votos_nom_validos  513 non-null    int64 
dtypes: int64(3), object(4)
memory usage: 28.2+ KB


In [16]:
print(eleitos_df.shape)
eleitos_df.head()

(513, 7)


Unnamed: 0,ds_cargo,nr_candidato,nm_candidato,sg_partido,sg_ue,sq_candidato,qt_votos_nom_validos
0,Deputado Federal,1101,MARIA DO SOCORRO NERI MEDEIROS DE SOUZA,PP,AC,10001621643,25842
1,Deputado Federal,4455,ROZIMEIRE RIBEIRO ANDRADE,UNIÃO,AC,10001612486,21285
2,Deputado Federal,4422,ULYSSES FREITAS PEREIRA DE ARAUJO,UNIÃO,AC,10001612487,21075
3,Deputado Federal,1122,JOSÉ ESTEPHAN BARBARY FILHO,PP,AC,10001621646,19958
4,Deputado Federal,1111,GEHLEN DINIZ ANDRADE,PP,AC,10001621650,19560


## Data Wrangling

In [17]:
# drop candidates with null values in the column
candidatos_df.dropna(axis=0, how="any", subset=['NR_IDADE_DATA_POSSE'], inplace=True)
candidatos_df['NR_IDADE_DATA_POSSE'] = candidatos_df['NR_IDADE_DATA_POSSE'].astype(np.int32)

In [18]:
candidatos_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29289 entries, 0 to 29313
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ANO_ELEICAO                 29289 non-null  int64 
 1   DS_ELEICAO                  29289 non-null  object
 2   SG_UE                       29289 non-null  object
 3   DS_CARGO                    29289 non-null  object
 4   SQ_CANDIDATO                29289 non-null  int64 
 5   NR_CANDIDATO                29289 non-null  int64 
 6   NM_CANDIDATO                29289 non-null  object
 7   NR_PARTIDO                  29289 non-null  int64 
 8   SG_PARTIDO                  29289 non-null  object
 9   NM_PARTIDO                  29289 non-null  object
 10  DS_NACIONALIDADE            29289 non-null  object
 11  NR_IDADE_DATA_POSSE         29289 non-null  int32 
 12  DS_GENERO                   29289 non-null  object
 13  DS_GRAU_INSTRUCAO           29289 non-null  ob

In [19]:
candidatos_df.head()

Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,SG_UE,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_NACIONALIDADE,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_CANDIDATO_INSERIDO_URNA
0,2022,Eleições Gerais Estaduais 2022,DF,DEPUTADO FEDERAL,70001650385,1123,CELY LANGAMER MUNIZ,11,PP,PROGRESSISTAS,BRASILEIRA NATA,51,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,PROFESSOR DE ENSINO DE PRIMEIRO E SEGUNDO GRAUS,NÃO ELEITO,N,SIM
1,2022,Eleições Gerais Estaduais 2022,PE,DEPUTADO FEDERAL,170001618619,1167,MARCOS BEZERRA CAMPELO,11,PP,PROGRESSISTAS,BRASILEIRA NATA,55,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,OUTROS,SUPLENTE,N,SIM
2,2022,Eleições Gerais Estaduais 2022,RO,DEPUTADO ESTADUAL,220001647615,35355,DIHESSICA DAYANE FERREIRA DA SILVA,35,PMB,PARTIDO DA MULHER BRASILEIRA,BRASILEIRA NATA,25,FEMININO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,NÃO ELEITO,N,SIM
3,2022,Eleições Gerais Estaduais 2022,RO,DEPUTADO FEDERAL,220001605554,4456,MARY TERESINHA BRAGANHOL,44,UNIÃO,UNIÃO BRASIL,BRASILEIRA NATA,58,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,SERVIDOR PÚBLICO ESTADUAL,SUPLENTE,N,SIM
4,2022,Eleições Gerais Estaduais 2022,RJ,DEPUTADO ESTADUAL,190001613885,33337,ROBERTA PATRÍCIA DA SILVA ALMEIDA,33,PMN,PARTIDO DA MOBILIZAÇÃO NACIONAL,BRASILEIRA NATA,47,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),BRANCA,DONA DE CASA,SUPLENTE,N,SIM


In [20]:
# convert column VR_RECEITA from object to float
receitas_df['VR_RECEITA'] = receitas_df['VR_RECEITA'].str.replace(',', '.').astype(float)
despesas_df['VR_DESPESA_CONTRATADA'] = despesas_df['VR_DESPESA_CONTRATADA'].str.replace(',', '.').astype(float)

# convert string to date format
receitas_df['DT_RECEITA'] = pd.to_datetime(receitas_df['DT_RECEITA'], dayfirst = True, format = "%d/%m/%Y")
despesas_df['DT_DESPESA'] = pd.to_datetime(despesas_df['DT_DESPESA'], dayfirst = True, format = "%d/%m/%Y")


In [21]:
receitas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 653273 entries, 0 to 653272
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype         
---  ------                   --------------   -----         
 0   ANO_ELEICAO              653273 non-null  int64         
 1   DS_ELEICAO               653273 non-null  object        
 2   TP_PRESTACAO_CONTAS      653273 non-null  object        
 3   SQ_PRESTADOR_CONTAS      653273 non-null  int64         
 4   SG_UE                    653273 non-null  object        
 5   NR_CNPJ_PRESTADOR_CONTA  653273 non-null  int64         
 6   DS_CARGO                 653273 non-null  object        
 7   SQ_CANDIDATO             653273 non-null  int64         
 8   NR_CANDIDATO             653273 non-null  int64         
 9   NM_CANDIDATO             653273 non-null  object        
 10  NR_PARTIDO               653273 non-null  int64         
 11  SG_PARTIDO               653273 non-null  object        
 12  NM_PARTIDO      

In [22]:
despesas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1994977 entries, 0 to 1994976
Data columns (total 19 columns):
 #   Column                   Dtype         
---  ------                   -----         
 0   ANO_ELEICAO              int64         
 1   DS_ELEICAO               object        
 2   TP_PRESTACAO_CONTAS      object        
 3   SQ_PRESTADOR_CONTAS      int64         
 4   SG_UE                    object        
 5   NR_CNPJ_PRESTADOR_CONTA  int64         
 6   DS_CARGO                 object        
 7   SQ_CANDIDATO             int64         
 8   NR_CANDIDATO             int64         
 9   NM_CANDIDATO             object        
 10  NR_PARTIDO               int64         
 11  SG_PARTIDO               object        
 12  NM_PARTIDO               object        
 13  DS_TIPO_FORNECEDOR       object        
 14  NR_CPF_CNPJ_FORNECEDOR   int64         
 15  NM_FORNECEDOR_RFB        object        
 16  DS_ORIGEM_DESPESA        object        
 17  DT_DESPESA               da

In [23]:
header_electeds = [name.upper() for name in eleitos_df.columns]

eleitos_df.rename(dict(zip(list(eleitos_df.columns),header_electeds)), axis=1, inplace=True)


In [24]:
eleitos_df.head()

Unnamed: 0,DS_CARGO,NR_CANDIDATO,NM_CANDIDATO,SG_PARTIDO,SG_UE,SQ_CANDIDATO,QT_VOTOS_NOM_VALIDOS
0,Deputado Federal,1101,MARIA DO SOCORRO NERI MEDEIROS DE SOUZA,PP,AC,10001621643,25842
1,Deputado Federal,4455,ROZIMEIRE RIBEIRO ANDRADE,UNIÃO,AC,10001612486,21285
2,Deputado Federal,4422,ULYSSES FREITAS PEREIRA DE ARAUJO,UNIÃO,AC,10001612487,21075
3,Deputado Federal,1122,JOSÉ ESTEPHAN BARBARY FILHO,PP,AC,10001621646,19958
4,Deputado Federal,1111,GEHLEN DINIZ ANDRADE,PP,AC,10001621650,19560


## Tratamento de dados - candidatos_df

In [25]:
candidatos_df['ST_CANDIDATO_INSERIDO_URNA'].unique().tolist()

['SIM', 'NÃO']

In [26]:
candidatos_df['DS_CARGO'].unique().tolist()

['DEPUTADO FEDERAL',
 'DEPUTADO ESTADUAL',
 '1º SUPLENTE',
 '2º SUPLENTE',
 'GOVERNADOR',
 'SENADOR',
 'DEPUTADO DISTRITAL',
 'VICE-GOVERNADOR',
 'VICE-PRESIDENTE',
 'PRESIDENTE']

In [27]:
# filtro
depfed_cand_df = candidatos_df.loc[(candidatos_df['ST_CANDIDATO_INSERIDO_URNA'] == "SIM")
                              & (candidatos_df['DS_CARGO'] == "DEPUTADO FEDERAL")].reset_index(drop=True, inplace=False)
depfed_cand_df.head()

Unnamed: 0,ANO_ELEICAO,DS_ELEICAO,SG_UE,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_NACIONALIDADE,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_CANDIDATO_INSERIDO_URNA
0,2022,Eleições Gerais Estaduais 2022,DF,DEPUTADO FEDERAL,70001650385,1123,CELY LANGAMER MUNIZ,11,PP,PROGRESSISTAS,BRASILEIRA NATA,51,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,PROFESSOR DE ENSINO DE PRIMEIRO E SEGUNDO GRAUS,NÃO ELEITO,N,SIM
1,2022,Eleições Gerais Estaduais 2022,PE,DEPUTADO FEDERAL,170001618619,1167,MARCOS BEZERRA CAMPELO,11,PP,PROGRESSISTAS,BRASILEIRA NATA,55,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,OUTROS,SUPLENTE,N,SIM
2,2022,Eleições Gerais Estaduais 2022,RO,DEPUTADO FEDERAL,220001605554,4456,MARY TERESINHA BRAGANHOL,44,UNIÃO,UNIÃO BRASIL,BRASILEIRA NATA,58,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,SERVIDOR PÚBLICO ESTADUAL,SUPLENTE,N,SIM
3,2022,Eleições Gerais Estaduais 2022,RJ,DEPUTADO FEDERAL,190001609675,1966,FERNANDO DA SILVA FERNANDES,19,PODE,PODEMOS,BRASILEIRA NATA,68,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),PARDA,OUTROS,SUPLENTE,N,SIM
4,2022,Eleições Gerais Estaduais 2022,MG,DEPUTADO FEDERAL,130001612965,7725,RAFAEL CANDIDO,77,SOLIDARIEDADE,SOLIDARIEDADE,BRASILEIRA NATA,32,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),BRANCA,EMPRESÁRIO,SUPLENTE,N,SIM


In [28]:
depfed_cand_df['DS_SIT_TOT_TURNO'].unique().tolist()

['NÃO ELEITO', 'SUPLENTE', 'ELEITO POR MÉDIA', 'ELEITO POR QP']

In [29]:
len(depfed_cand_df['SQ_CANDIDATO'].unique().tolist())

9970

In [30]:
depfed_dataset_df = depfed_cand_df.loc[:,
                                       ['SQ_CANDIDATO',
                                        'NM_CANDIDATO',
                                        'DS_CARGO',
                                        'SG_UE',
                                        'NR_PARTIDO',
                                        'SG_PARTIDO',
                                        'NR_IDADE_DATA_POSSE',
                                        'DS_GENERO',
                                        'DS_COR_RACA',
                                        'DS_SIT_TOT_TURNO',
                                        'ST_REELEICAO']
                                      ]

depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,DS_CARGO,SG_UE,NR_PARTIDO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_COR_RACA,DS_SIT_TOT_TURNO,ST_REELEICAO
0,70001650385,CELY LANGAMER MUNIZ,DEPUTADO FEDERAL,DF,11,PP,51,FEMININO,BRANCA,NÃO ELEITO,N
1,170001618619,MARCOS BEZERRA CAMPELO,DEPUTADO FEDERAL,PE,11,PP,55,MASCULINO,PARDA,SUPLENTE,N
2,220001605554,MARY TERESINHA BRAGANHOL,DEPUTADO FEDERAL,RO,44,UNIÃO,58,FEMININO,BRANCA,SUPLENTE,N
3,190001609675,FERNANDO DA SILVA FERNANDES,DEPUTADO FEDERAL,RJ,19,PODE,68,MASCULINO,PARDA,SUPLENTE,N
4,130001612965,RAFAEL CANDIDO,DEPUTADO FEDERAL,MG,77,SOLIDARIEDADE,32,MASCULINO,BRANCA,SUPLENTE,N


### Pocessamento dos dados - candidatos_df

In [31]:
# one hot encoding no atributo ST_REELEICAO
reeleicao_cat_encoder = OneHotEncoder()
reeleicao_1hot = reeleicao_cat_encoder.fit_transform(depfed_dataset_df[["ST_REELEICAO"]]).toarray()
reeleicao_cat_encoder.categories_


[array(['N', 'S'], dtype=object)]

In [32]:
# insere os atributos REELEICAO_NAO/REELEICAO_SIM no dataframe
depfed_dataset_df['REELEICAO'] = reeleicao_1hot[:,1]


In [33]:
# one hot encoding no atributo DS_SIT_TOT_TURNO
situacao_cat_encoder = OneHotEncoder()
situacao_1hot = situacao_cat_encoder.fit_transform(depfed_dataset_df[["DS_SIT_TOT_TURNO"]]).toarray()
situacao_cat_encoder.categories_


[array(['ELEITO POR MÉDIA', 'ELEITO POR QP', 'NÃO ELEITO', 'SUPLENTE'],
       dtype=object)]

In [34]:
# insere os atributos ELEITO/NAO_ELEITO no dataframe
depfed_dataset_df['ST_ELEITORAL'] = np.sum(situacao_1hot, axis=1, keepdims=True, where=[True, True, False, False])


In [35]:
# one hot encoding no atributo DS_COR_RACA
cor_raca_cat_encoder = OneHotEncoder()
cor_raca_1hot = cor_raca_cat_encoder.fit_transform(depfed_dataset_df[["DS_COR_RACA"]]).toarray()
cor_raca_cat_encoder.categories_

[array(['AMARELA', 'BRANCA', 'INDÍGENA', 'NÃO INFORMADO', 'PARDA', 'PRETA'],
       dtype=object)]

In [36]:
# insere os atributos REELEICAO_NAO/REELEICAO_SIM no dataframe
depfed_dataset_df['COR_RACA_AMARELA'] = cor_raca_1hot[:, 0]
depfed_dataset_df['COR_RACA_BRANCA'] = cor_raca_1hot[:, 1]
depfed_dataset_df['COR_RACA_INDIGENA'] = cor_raca_1hot[:, 2]
depfed_dataset_df['COR_RACA_NAO_INFORMADO'] = cor_raca_1hot[:, 3]
depfed_dataset_df['COR_RACA_PARDA'] = cor_raca_1hot[:, 4]
depfed_dataset_df['COR_RACA_PRETA'] = cor_raca_1hot[:, 5]
# depfed_dataset_df.loc[98:102,:]

In [37]:
# one hot encoding no atributo DS_GENERO
genero_cat_encoder = OneHotEncoder()
genero_1hot = genero_cat_encoder.fit_transform(depfed_dataset_df[["DS_GENERO"]]).toarray()
genero_cat_encoder.categories_

[array(['FEMININO', 'MASCULINO'], dtype=object)]

In [38]:
# insere o atributo GENERO no dataframe
depfed_dataset_df['GENERO'] = genero_1hot[:, 1]


### Pocessamento dos dados - receitas_df

In [39]:
receitas_df['DS_CARGO'].unique().tolist()

['Deputado Federal',
 'Deputado Estadual',
 'Deputado Distrital',
 'Senador',
 'Governador',
 'Presidente']

In [40]:
# filtro por Deputado Federal
depfed_receitas_df = receitas_df.loc[receitas_df['DS_CARGO'] == "Deputado Federal"].reset_index(drop=True, inplace=False)


In [41]:
# agrupa as receitas por candidato e fonte da receita
sq_receitas = depfed_receitas_df.groupby(['SQ_CANDIDATO', 'DS_FONTE_RECEITA'])['VR_RECEITA'].sum()

# monta dataset a partir do grupamento
sq_fonte_receitas_df = pd.DataFrame()
sq_fonte_receitas_df['SQ_CANDIDATO'] = sq_receitas.index.get_level_values(0)
sq_fonte_receitas_df['DS_FONTE_RECEITA'] = sq_receitas.index.get_level_values(1)
sq_fonte_receitas_df['VR_RECEITA'] = sq_receitas.values

# tipos de fonte de receita
fonte_lista = sq_fonte_receitas_df['DS_FONTE_RECEITA'].unique().tolist()


In [42]:
# candidato para cada tipo de receita
fonte_listadf = []

for fonte in fonte_lista:
    
    fonte_receita_df = sq_fonte_receitas_df.loc[sq_fonte_receitas_df['DS_FONTE_RECEITA'] == fonte]
    fonte_receita_df = fonte_receita_df.drop(labels=['DS_FONTE_RECEITA'], axis=1)
    fonte_receita_df.columns = list(fonte_receita_df.columns)[:-1] + [fonte]
    fonte_listadf.append(fonte_receita_df)
    

In [43]:
# pega sequencial e nome do dep federal do dataset
sq_depfed = depfed_dataset_df.loc[:, ['SQ_CANDIDATO']].sort_values('SQ_CANDIDATO', ignore_index=True)
sq_depfed.head()

Unnamed: 0,SQ_CANDIDATO
0,10001595340
1,10001595341
2,10001595342
3,10001595343
4,10001595344


In [44]:
# receita do candidato por fonte
merged_sq_fundoespecial_df = sq_depfed.merge(fonte_listadf[0], how='left', on='SQ_CANDIDATO')
merged_sq_fundoespecial_df = merged_sq_fundoespecial_df.merge(fonte_listadf[1], how='left', on='SQ_CANDIDATO')
merged_sq_fundoespecial_df = merged_sq_fundoespecial_df.merge(fonte_listadf[2], how='left', on='SQ_CANDIDATO')
merged_sq_fundoespecial_df.fillna(0, inplace=True)


In [45]:
# coloca os dados de fonte de receita no dataset
depfed_dataset_df = depfed_dataset_df.merge(merged_sq_fundoespecial_df, how='left', on='SQ_CANDIDATO')
depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,DS_CARGO,SG_UE,NR_PARTIDO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_COR_RACA,DS_SIT_TOT_TURNO,ST_REELEICAO,REELEICAO,ST_ELEITORAL,COR_RACA_AMARELA,COR_RACA_BRANCA,COR_RACA_INDIGENA,COR_RACA_NAO_INFORMADO,COR_RACA_PARDA,COR_RACA_PRETA,GENERO,FUNDO ESPECIAL,OUTROS RECURSOS,FUNDO PARTIDARIO
0,70001650385,CELY LANGAMER MUNIZ,DEPUTADO FEDERAL,DF,11,PP,51,FEMININO,BRANCA,NÃO ELEITO,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,538615.0,0.0,0.0
1,170001618619,MARCOS BEZERRA CAMPELO,DEPUTADO FEDERAL,PE,11,PP,55,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,300000.0
2,220001605554,MARY TERESINHA BRAGANHOL,DEPUTADO FEDERAL,RO,44,UNIÃO,58,FEMININO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,616525.0,243879.0,0.0
3,190001609675,FERNANDO DA SILVA FERNANDES,DEPUTADO FEDERAL,RJ,19,PODE,68,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,110800.0,0.0,0.0
4,130001612965,RAFAEL CANDIDO,DEPUTADO FEDERAL,MG,77,SOLIDARIEDADE,32,MASCULINO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,150000.0,0.0,50000.0


### Pocessamento dos dados - vagas_df

In [46]:
# numero de candidatos a dep federal por UE
cand_depfed_UE = depfed_cand_df.groupby(['SG_UE'])['SG_UE'].count()

In [47]:
# numero de vagas de dep federal por UE
vagas_depfed_UE = vagas_df.loc[vagas_df['DS_CARGO'] =='Deputado Federal']
vagas_depfed_UE = vagas_depfed_UE.groupby(['SG_UE'])['QT_VAGAS'].sum()

# dicionario com as vagas por UE
vagas_depfed_UE_dict = dict(zip(vagas_depfed_UE.index, vagas_depfed_UE.values))

In [48]:
# numero de candidatos a dep federal por vaga, em cada UE
dicio_cand_depfed_por_vaga = dict(zip(vagas_depfed_UE.index.tolist(),
                                      (cand_depfed_UE.values/vagas_depfed_UE.values).tolist()
                                     )
                                 )

In [49]:
# insere o numero de candidatos a dep federal por vaga e em cada UE no dataset
depfed_dataset_df['RAZAO_CAND_VAGA_UE'] = np.nan

for idx in depfed_dataset_df.index:
    
    depfed_dataset_df.at[idx, 'RAZAO_CAND_VAGA_UE'] = dicio_cand_depfed_por_vaga[depfed_dataset_df.at[idx, 'SG_UE']]

depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,DS_CARGO,SG_UE,NR_PARTIDO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_COR_RACA,DS_SIT_TOT_TURNO,ST_REELEICAO,REELEICAO,ST_ELEITORAL,COR_RACA_AMARELA,COR_RACA_BRANCA,COR_RACA_INDIGENA,COR_RACA_NAO_INFORMADO,COR_RACA_PARDA,COR_RACA_PRETA,GENERO,FUNDO ESPECIAL,OUTROS RECURSOS,FUNDO PARTIDARIO,RAZAO_CAND_VAGA_UE
0,70001650385,CELY LANGAMER MUNIZ,DEPUTADO FEDERAL,DF,11,PP,51,FEMININO,BRANCA,NÃO ELEITO,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,538615.0,0.0,0.0,25.75
1,170001618619,MARCOS BEZERRA CAMPELO,DEPUTADO FEDERAL,PE,11,PP,55,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,300000.0,17.32
2,220001605554,MARY TERESINHA BRAGANHOL,DEPUTADO FEDERAL,RO,44,UNIÃO,58,FEMININO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,616525.0,243879.0,0.0,19.25
3,190001609675,FERNANDO DA SILVA FERNANDES,DEPUTADO FEDERAL,RJ,19,PODE,68,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,110800.0,0.0,0.0,22.891304
4,130001612965,RAFAEL CANDIDO,DEPUTADO FEDERAL,MG,77,SOLIDARIEDADE,32,MASCULINO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,150000.0,0.0,50000.0,19.962264


In [50]:
# numero de candidatos a dep federal por partido e por UE
cand_depfed_part_UE = depfed_cand_df.groupby(['SG_PARTIDO','SG_UE'])['SG_UE'].count()

# monta dataset a partir do grupamento
cand_part_UE_df = pd.DataFrame()
cand_part_UE_df['SG_PARTIDO'] = cand_depfed_part_UE.index.get_level_values(0)
cand_part_UE_df['SG_UE'] = cand_depfed_part_UE.index.get_level_values(1)
cand_part_UE_df['NR_CANDIDATOS'] = cand_depfed_part_UE.values

# razao do numero de candidatos a dep federal por partido e por UE
cand_part_UE_df['NR_VAGAS_UE'] = np.nan

for idx in cand_part_UE_df.index:
    
    cand_part_UE_df.at[idx, 'NR_VAGAS_UE'] = vagas_depfed_UE_dict[cand_part_UE_df.at[idx, 'SG_UE']]

cand_part_UE_df['RZ_CAND_VAGAS_UE'] = cand_part_UE_df['NR_CANDIDATOS']/cand_part_UE_df['NR_VAGAS_UE']

# cand_part_UE_df.head()

In [51]:
# insere razao candidatos por partido e por UE no dataset
depfed_dataset_df['RAZAO_CANDPART_VAGAS_UE'] = np.nan

for idx in depfed_dataset_df.index:
    
    ue = depfed_dataset_df.at[idx, 'SG_UE']
    partido = depfed_dataset_df.at[idx, 'SG_PARTIDO']
    
    df_filt = cand_part_UE_df.loc[cand_part_UE_df['SG_PARTIDO'] == partido]
    dicio_filt = dict(zip(df_filt['SG_UE'],df_filt['RZ_CAND_VAGAS_UE']))
    
    depfed_dataset_df.at[idx, 'RAZAO_CANDPART_VAGAS_UE'] = dicio_filt[ue]

depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,DS_CARGO,SG_UE,NR_PARTIDO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_COR_RACA,DS_SIT_TOT_TURNO,ST_REELEICAO,REELEICAO,ST_ELEITORAL,COR_RACA_AMARELA,COR_RACA_BRANCA,COR_RACA_INDIGENA,COR_RACA_NAO_INFORMADO,COR_RACA_PARDA,COR_RACA_PRETA,GENERO,FUNDO ESPECIAL,OUTROS RECURSOS,FUNDO PARTIDARIO,RAZAO_CAND_VAGA_UE,RAZAO_CANDPART_VAGAS_UE
0,70001650385,CELY LANGAMER MUNIZ,DEPUTADO FEDERAL,DF,11,PP,51,FEMININO,BRANCA,NÃO ELEITO,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,538615.0,0.0,0.0,25.75,1.125
1,170001618619,MARCOS BEZERRA CAMPELO,DEPUTADO FEDERAL,PE,11,PP,55,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,300000.0,17.32,0.84
2,220001605554,MARY TERESINHA BRAGANHOL,DEPUTADO FEDERAL,RO,44,UNIÃO,58,FEMININO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,616525.0,243879.0,0.0,19.25,1.125
3,190001609675,FERNANDO DA SILVA FERNANDES,DEPUTADO FEDERAL,RJ,19,PODE,68,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,110800.0,0.0,0.0,22.891304,1.021739
4,130001612965,RAFAEL CANDIDO,DEPUTADO FEDERAL,MG,77,SOLIDARIEDADE,32,MASCULINO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,150000.0,0.0,50000.0,19.962264,0.679245


### Pocessamento dos dados - relação com candidatos presidência

In [52]:
# 5 mais bem posicionados nas pesquisas eleitorais presidenciais por partido
part_pres_pos_dicio = {"PT": 1, "PL": 2, "PDT": 3, "MDB": 4, "UNIÃO": 5}

In [53]:
# insere os valores no dataset
depfed_dataset_df['PART_PRES_POS'] = np.nan

for idx in depfed_dataset_df.index:
    
    sg_partido = depfed_dataset_df.at[idx, 'SG_PARTIDO']
    
    if sg_partido in part_pres_pos_dicio.keys():
        
        depfed_dataset_df.at[idx, 'PART_PRES_POS'] = part_pres_pos_dicio[sg_partido]
       
    else:
        
        depfed_dataset_df.at[idx, 'PART_PRES_POS'] = 6

depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,DS_CARGO,SG_UE,NR_PARTIDO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_COR_RACA,DS_SIT_TOT_TURNO,ST_REELEICAO,REELEICAO,ST_ELEITORAL,COR_RACA_AMARELA,COR_RACA_BRANCA,COR_RACA_INDIGENA,COR_RACA_NAO_INFORMADO,COR_RACA_PARDA,COR_RACA_PRETA,GENERO,FUNDO ESPECIAL,OUTROS RECURSOS,FUNDO PARTIDARIO,RAZAO_CAND_VAGA_UE,RAZAO_CANDPART_VAGAS_UE,PART_PRES_POS
0,70001650385,CELY LANGAMER MUNIZ,DEPUTADO FEDERAL,DF,11,PP,51,FEMININO,BRANCA,NÃO ELEITO,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,538615.0,0.0,0.0,25.75,1.125,6.0
1,170001618619,MARCOS BEZERRA CAMPELO,DEPUTADO FEDERAL,PE,11,PP,55,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,300000.0,17.32,0.84,6.0
2,220001605554,MARY TERESINHA BRAGANHOL,DEPUTADO FEDERAL,RO,44,UNIÃO,58,FEMININO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,616525.0,243879.0,0.0,19.25,1.125,5.0
3,190001609675,FERNANDO DA SILVA FERNANDES,DEPUTADO FEDERAL,RJ,19,PODE,68,MASCULINO,PARDA,SUPLENTE,N,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,110800.0,0.0,0.0,22.891304,1.021739,6.0
4,130001612965,RAFAEL CANDIDO,DEPUTADO FEDERAL,MG,77,SOLIDARIEDADE,32,MASCULINO,BRANCA,SUPLENTE,N,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,150000.0,0.0,50000.0,19.962264,0.679245,6.0


In [54]:
# retira as colunas já tratadas
depfed_dataset_df.drop(['DS_CARGO',
                        'SG_UE',
                        'NR_PARTIDO',
                        'SG_PARTIDO',
                        'DS_GENERO',
                        'DS_COR_RACA',
                        'DS_SIT_TOT_TURNO',
                        'ST_REELEICAO'],
                       axis=1,
                       inplace=True
                      )

In [55]:
depfed_dataset_df.head()

Unnamed: 0,SQ_CANDIDATO,NM_CANDIDATO,NR_IDADE_DATA_POSSE,REELEICAO,ST_ELEITORAL,COR_RACA_AMARELA,COR_RACA_BRANCA,COR_RACA_INDIGENA,COR_RACA_NAO_INFORMADO,COR_RACA_PARDA,COR_RACA_PRETA,GENERO,FUNDO ESPECIAL,OUTROS RECURSOS,FUNDO PARTIDARIO,RAZAO_CAND_VAGA_UE,RAZAO_CANDPART_VAGAS_UE,PART_PRES_POS
0,70001650385,CELY LANGAMER MUNIZ,51,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,538615.0,0.0,0.0,25.75,1.125,6.0
1,170001618619,MARCOS BEZERRA CAMPELO,55,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,300000.0,17.32,0.84,6.0
2,220001605554,MARY TERESINHA BRAGANHOL,58,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,616525.0,243879.0,0.0,19.25,1.125,5.0
3,190001609675,FERNANDO DA SILVA FERNANDES,68,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,110800.0,0.0,0.0,22.891304,1.021739,6.0
4,130001612965,RAFAEL CANDIDO,32,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,150000.0,0.0,50000.0,19.962264,0.679245,6.0


### Download dataset

In [56]:
depfed_dataset_df.to_csv(r'./dataset/depfed_dataset.csv',
                         encoding = 'utf-8-sig',
                         index = False)