In [32]:
import os
import pyarrow
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [33]:
# Definindo o diretório de trabalho
os.chdir(r'C:\Users\Felipe\OneDrive - AGU\Certificados - cursos\Cursos - arquivos\PUC Minas\TCC\Base de dados - TSE candidatos')

In [34]:
# Lendo os arquivos parquet
df_tse = pd.read_parquet('df_tse.parquet')
df_sapiens = pd.read_parquet('df_sapiens.parquet')

### 1.1 Tratando os dados do tse

In [35]:
# Exibindo informações iniciais sobre df_tse
df_tse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1115624 entries, 0 to 1115623
Data columns (total 75 columns):
 #   Column                         Non-Null Count    Dtype 
---  ------                         --------------    ----- 
 0   DT_GERACAO                     1115624 non-null  object
 1   HH_GERACAO                     1115624 non-null  object
 2   ANO_ELEICAO                    1115624 non-null  object
 3   CD_TIPO_ELEICAO                1115624 non-null  object
 4   NM_TIPO_ELEICAO                1115624 non-null  object
 5   NR_TURNO                       1115624 non-null  object
 6   CD_ELEICAO                     1115624 non-null  object
 7   DS_ELEICAO                     1115624 non-null  object
 8   DT_ELEICAO                     1115624 non-null  object
 9   TP_ABRANGENCIA                 1115624 non-null  object
 10  SG_UF                          1115624 non-null  object
 11  SG_UE                          1115624 non-null  object
 12  NM_UE                       

In [36]:
# Filtrando df_tse para manter apenas as colunas desejadas
colunas_desejadas = ['DT_ELEICAO','NR_CPF_CANDIDATO','TP_ABRANGENCIA','SG_UF','DS_CARGO','DS_SITUACAO_CANDIDATURA',
                        'DS_DETALHE_SITUACAO_CAND','TP_AGREMIACAO','SG_PARTIDO', 'NR_IDADE_DATA_POSSE', 'DS_GENERO',
                       'DS_GRAU_INSTRUCAO', 'DS_ESTADO_CIVIL', 'DS_COR_RACA', 'DS_OCUPACAO', 'ST_REELEICAO', 
                        'ST_DECLARAR_BENS','VR_DESPESA_MAX_CAMPANHA']
df_tse = df_tse[colunas_desejadas]
df_tse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1115624 entries, 0 to 1115623
Data columns (total 18 columns):
 #   Column                    Non-Null Count    Dtype 
---  ------                    --------------    ----- 
 0   DT_ELEICAO                1115624 non-null  object
 1   NR_CPF_CANDIDATO          1115624 non-null  object
 2   TP_ABRANGENCIA            1115624 non-null  object
 3   SG_UF                     1115624 non-null  object
 4   DS_CARGO                  1115624 non-null  object
 5   DS_SITUACAO_CANDIDATURA   1115624 non-null  object
 6   DS_DETALHE_SITUACAO_CAND  1115624 non-null  object
 7   TP_AGREMIACAO             1115624 non-null  object
 8   SG_PARTIDO                1115624 non-null  object
 9   NR_IDADE_DATA_POSSE       1115624 non-null  object
 10  DS_GENERO                 1115624 non-null  object
 11  DS_GRAU_INSTRUCAO         1115624 non-null  object
 12  DS_ESTADO_CIVIL           1115624 non-null  object
 13  DS_COR_RACA               1115624 non-null

In [37]:
# Ajustando os tipos de dados em df_tse
df_tse['DT_ELEICAO'] = pd.to_datetime(df_tse['DT_ELEICAO'], format='%d/%m/%Y')
df_tse['NR_IDADE_DATA_POSSE'] = df_tse['NR_IDADE_DATA_POSSE'].astype(float)
df_tse['VR_DESPESA_MAX_CAMPANHA'] = df_tse['VR_DESPESA_MAX_CAMPANHA'].astype(float)
df_tse.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1115624 entries, 0 to 1115623
Data columns (total 18 columns):
 #   Column                    Non-Null Count    Dtype         
---  ------                    --------------    -----         
 0   DT_ELEICAO                1115624 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          1115624 non-null  object        
 2   TP_ABRANGENCIA            1115624 non-null  object        
 3   SG_UF                     1115624 non-null  object        
 4   DS_CARGO                  1115624 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   1115624 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  1115624 non-null  object        
 7   TP_AGREMIACAO             1115624 non-null  object        
 8   SG_PARTIDO                1115624 non-null  object        
 9   NR_IDADE_DATA_POSSE       1115099 non-null  float64       
 10  DS_GENERO                 1115624 non-null  object        
 11  DS_GRAU_INSTRUCAO         1115624 non-null  object

In [38]:
# Substituindo valores indesejados e tratando valores faltantes
df_tse.replace([-1, -3, -4, "-1", "-4", "NÃO DIVULGÁVEL", "#NE", "#NULO","NE", "NULO"], np.nan, inplace=True)
df_tse = df_tse.dropna(axis=0)
df_tse.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1075257 entries, 0 to 1115623
Data columns (total 18 columns):
 #   Column                    Non-Null Count    Dtype         
---  ------                    --------------    -----         
 0   DT_ELEICAO                1075257 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          1075257 non-null  object        
 2   TP_ABRANGENCIA            1075257 non-null  object        
 3   SG_UF                     1075257 non-null  object        
 4   DS_CARGO                  1075257 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   1075257 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  1075257 non-null  object        
 7   TP_AGREMIACAO             1075257 non-null  object        
 8   SG_PARTIDO                1075257 non-null  object        
 9   NR_IDADE_DATA_POSSE       1075257 non-null  float64       
 10  DS_GENERO                 1075257 non-null  object        
 11  DS_GRAU_INSTRUCAO         1075257 non-null  object

In [39]:
df_tse

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA
0,2016-10-02,95168559387,MUNICIPAL,MA,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PTB,73.0,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,TRABALHADOR RURAL,N,N,10803.91
1,2016-10-02,84681454320,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,DEM,37.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,PROFESSOR DE ENSINO FUNDAMENTAL,N,S,32499.97
2,2016-10-02,53564901353,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,42.0,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,PROFESSOR DE ENSINO FUNDAMENTAL,N,N,32499.97
3,2016-10-02,75498189320,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,39.0,MASCULINO,ENSINO MÉDIO INCOMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,N,32499.97
4,2016-10-02,1575640880,MUNICIPAL,SP,VEREADOR,INAPTO,INDEFERIDO,COLIGAÇÃO,PP,56.0,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,DIVORCIADO(A),BRANCA,OUTROS,N,S,10803.91
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1115619,2022-10-02,58412689887,ESTADUAL,SP,DEPUTADO FEDERAL,APTO,DEFERIDO,PARTIDO ISOLADO,AGIR,72.0,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),BRANCA,AUXILIAR DE ESCRITÓRIO E ASSEMELHADOS,N,N,3176572.53
1115620,2022-10-02,87060027491,ESTADUAL,AL,DEPUTADO FEDERAL,APTO,DEFERIDO,PARTIDO ISOLADO,REPUBLICANOS,48.0,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,PSICÓLOGO,N,S,3176572.53
1115621,2022-10-02,66188660149,ESTADUAL,MS,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PSD,48.0,FEMININO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,S,1270629.01
1115622,2022-10-02,474146260,ESTADUAL,AC,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PROS,45.0,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,SOLTEIRO(A),PRETA,OUTROS,N,N,1270629.01


In [40]:
# Preenchendo zeros à esquerda na coluna cpf, para obter 11 caracteres
df_tse['NR_CPF_CANDIDATO'] = df_tse['NR_CPF_CANDIDATO'].str.zfill(11)
df_tse

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA
0,2016-10-02,95168559387,MUNICIPAL,MA,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PTB,73.0,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,TRABALHADOR RURAL,N,N,10803.91
1,2016-10-02,84681454320,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,DEM,37.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,PROFESSOR DE ENSINO FUNDAMENTAL,N,S,32499.97
2,2016-10-02,53564901353,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,42.0,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,PROFESSOR DE ENSINO FUNDAMENTAL,N,N,32499.97
3,2016-10-02,75498189320,MUNICIPAL,PI,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,39.0,MASCULINO,ENSINO MÉDIO INCOMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,N,32499.97
4,2016-10-02,01575640880,MUNICIPAL,SP,VEREADOR,INAPTO,INDEFERIDO,COLIGAÇÃO,PP,56.0,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,DIVORCIADO(A),BRANCA,OUTROS,N,S,10803.91
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1115619,2022-10-02,58412689887,ESTADUAL,SP,DEPUTADO FEDERAL,APTO,DEFERIDO,PARTIDO ISOLADO,AGIR,72.0,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),BRANCA,AUXILIAR DE ESCRITÓRIO E ASSEMELHADOS,N,N,3176572.53
1115620,2022-10-02,87060027491,ESTADUAL,AL,DEPUTADO FEDERAL,APTO,DEFERIDO,PARTIDO ISOLADO,REPUBLICANOS,48.0,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,PSICÓLOGO,N,S,3176572.53
1115621,2022-10-02,66188660149,ESTADUAL,MS,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PSD,48.0,FEMININO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,S,1270629.01
1115622,2022-10-02,00474146260,ESTADUAL,AC,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PROS,45.0,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,SOLTEIRO(A),PRETA,OUTROS,N,N,1270629.01


In [41]:
# Identificando duplicidade de cpf
contagem_valores = df_tse['NR_CPF_CANDIDATO'].value_counts()
contagem_valores

03031482840    6
44828624953    6
61496880382    6
05161704497    6
06512097572    6
              ..
48550116734    1
44340994855    1
25281917234    1
63533804372    1
80148654215    1
Name: NR_CPF_CANDIDATO, Length: 882582, dtype: int64

In [42]:
# Filtrando cpf especifico para analise
df_cpf_especifico_duplicado = df_tse[df_tse['NR_CPF_CANDIDATO'] == '03031482840']
df_cpf_especifico_duplicado

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA
123524,2016-10-02,3031482840,MUNICIPAL,SP,PREFEITO,APTO,DEFERIDO,COLIGAÇÃO,PV,55.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,533142.74
424117,2016-10-30,3031482840,MUNICIPAL,SP,PREFEITO,APTO,DEFERIDO,COLIGAÇÃO,PV,55.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,159942.82
498488,2018-10-07,3031482840,ESTADUAL,SP,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PODE,57.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,1000000.0
626895,2020-11-29,3031482840,MUNICIPAL,SP,PREFEITO,APTO,DEFERIDO,COLIGAÇÃO,DEM,59.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,242941.15
1072370,2020-11-15,3031482840,MUNICIPAL,SP,PREFEITO,APTO,DEFERIDO,COLIGAÇÃO,DEM,59.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,607352.88
1110758,2022-10-02,3031482840,ESTADUAL,SP,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PODE,61.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,1270629.01


In [43]:
# Ordenando pela coluna data
df_tse = df_tse.sort_values(by='DT_ELEICAO', ascending=True)

In [44]:
# Visualizando novamente para conferencia
df_tse = df_tse.drop_duplicates(subset='NR_CPF_CANDIDATO', keep='last')
df_cpf_especifico = df_tse[df_tse['NR_CPF_CANDIDATO'] == '03031482840']
df_cpf_especifico

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA
1110758,2022-10-02,3031482840,ESTADUAL,SP,DEPUTADO ESTADUAL,APTO,DEFERIDO,PARTIDO ISOLADO,PODE,61.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,MÉDICO,N,S,1270629.01


In [45]:
df_tse.reset_index(drop=True)
df_tse.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882582 entries, 0 to 1092722
Data columns (total 18 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DT_ELEICAO                882582 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          882582 non-null  object        
 2   TP_ABRANGENCIA            882582 non-null  object        
 3   SG_UF                     882582 non-null  object        
 4   DS_CARGO                  882582 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   882582 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  882582 non-null  object        
 7   TP_AGREMIACAO             882582 non-null  object        
 8   SG_PARTIDO                882582 non-null  object        
 9   NR_IDADE_DATA_POSSE       882582 non-null  float64       
 10  DS_GENERO                 882582 non-null  object        
 11  DS_GRAU_INSTRUCAO         882582 non-null  object        
 12  D

In [46]:
df_tse.reset_index(drop=True)

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA
0,2016-10-02,95168559387,MUNICIPAL,MA,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PTB,73.0,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,TRABALHADOR RURAL,N,N,10803.91
1,2016-10-02,08363061719,MUNICIPAL,RJ,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,43.0,FEMININO,ENSINO MÉDIO INCOMPLETO,SOLTEIRO(A),PRETA,DONA DE CASA,N,S,33782.55
2,2016-10-02,08335075670,MUNICIPAL,MG,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PATRIOTA,29.0,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),BRANCA,OUTROS,N,S,39855.82
3,2016-10-02,02742879943,MUNICIPAL,MT,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PSDB,39.0,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,EMPRESÁRIO,N,S,29292.61
4,2016-10-02,50485334968,MUNICIPAL,SC,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PP,55.0,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),BRANCA,APOSENTADO (EXCETO SERVIDOR PÚBLICO),N,S,10803.91
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
882577,2022-10-30,41168720591,ESTADUAL,SE,GOVERNADOR,APTO,DEFERIDO,COLIGAÇÃO,PT,54.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,SENADOR,N,S,3113041.08
882578,2022-10-30,01094775029,ESTADUAL,RS,GOVERNADOR,APTO,DEFERIDO,COLIGAÇÃO,PSDB,37.0,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,OUTROS,S,S,5781362.00
882579,2022-10-30,70515182753,ESTADUAL,ES,GOVERNADOR,APTO,DEFERIDO,COLIGAÇÃO,PSB,62.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,GOVERNADOR,S,S,3557761.23
882580,2022-10-30,44250070263,ESTADUAL,AM,GOVERNADOR,APTO,DEFERIDO,COLIGAÇÃO,UNIÃO,46.0,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,GOVERNADOR,S,S,3557761.23


# Carregando dados Sapiens

In [47]:
# Tratamento de valores duplicados em df_sapiens
contagem_valores_unicos = df_sapiens['Pessoa_Doc'].value_counts()
contagem_valores_unicos.head(3)

26994558000719    30
26994558000476    22
26994558000638    18
Name: Pessoa_Doc, dtype: int64

In [48]:
# Exclusão de cnpj
df_sapiens = df_sapiens[df_sapiens['Pessoa_Doc'].str.len() == 11]
df_sapiens = df_sapiens.drop_duplicates(subset='Pessoa_Doc', keep='first')
df_sapiens.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7288 entries, 2 to 12310
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Pasta_NUP      7288 non-null   object
 1   Tribunal_Nome  7288 non-null   object
 2   Pessoa_Nome    7288 non-null   object
 3   Pessoa_Doc     7288 non-null   object
dtypes: object(4)
memory usage: 284.7+ KB


In [49]:
# Dicionário de siglas UFs
tribunal_para_uf = {
    'TRIBUNAL SUPERIOR ELEITORAL': 'BR',
    'TRIBUNAL REGIONAL ELEITORAL DO RIO GRANDE DO SUL': 'RS',
    'TRIBUNAL REGIONAL ELEITORAL DE SÃO PAULO': 'SP',
    'TRIBUNAL REGIONAL ELEITORAL DO PARANÁ': 'PR',
    'TRIBUNAL REGIONAL ELEITORAL DO ESPÍRITO SANTO': 'ES',
    'TRIBUNAL REGIONAL ELEITORAL DE MINAS GERAIS': 'MG',
    'TRIBUNAL REGIONAL ELEITORAL DO RIO GRANDE DO NORTE': 'RN',
    'TRIBUNAL REGIONAL ELEITORAL DE SANTA CATARINA': 'SC',
    'TRIBUNAL REGIONAL ELEITORAL DE GOIÁS': 'GO',
    'TRIBUNAL REGIONAL ELEITORAL DO RIO DE JANEIRO': 'RJ',
    'TRIBUNAL REGIONAL ELEITORAL DE SERGIPE': 'SE',
    'TRIBUNAL REGIONAL ELEITORAL DO PARÁ': 'PA',
    'TRIBUNAL REGIONAL ELEITORAL DO CEARÁ': 'CE',
    'TRIBUNAL REGIONAL ELEITORAL DA BAHIA': 'BA',
    'TRIBUNAL REGIONAL ELEITORAL DO MARANHÃO': 'MA',
    'TRIBUNAL REGIONAL ELEITORAL DO PERNAMBUCO': 'PE',
    'TRIBUNAL REGIONAL ELEITORAL DO DISTRITO FEDERAL E TERRITÓRIOS': 'DF',
    'TRIBUNAL REGIONAL ELEITORAL DA PARAÍBA': 'PB',
    'TRIBUNAL REGIONAL ELEITORAL DO AMAZONAS': 'AM',
    'TRIBUNAL REGIONAL ELEITORAL DO MATO GROSSO': 'MT',
    'TRIBUNAL REGIONAL ELEITORAL DO MATO GROSSO DO SUL': 'MS',
    'TRIBUNAL REGIONAL ELEITORAL DE ALAGOAS': 'AL',
    'TRIBUNAL REGIONAL ELEITORAL DO AMAPÁ': 'AP',
    'TRIBUNAL REGIONAL ELEITORAL DO TOCANTINS': 'TO',
    'TRIBUNAL REGIONAL ELEITORAL DE RORAIMA': 'RR',
    'TRIBUNAL REGIONAL ELEITORAL DO PIAUÍ': 'PI',
    'TRIBUNAL REGIONAL ELEITORAL DE RONDÔNIA': 'RO',
    'TRIBUNAL REGIONAL ELEITORAL DO ACRE': 'AC'
}
# Substituindo os valores na coluna com o dicionário
df_sapiens['Tribunal_Nome'] = df_sapiens['Tribunal_Nome'].map(tribunal_para_uf)

In [50]:
df_sapiens.drop(['Pasta_NUP'], axis=1, inplace=True)
df_sapiens.drop(['Pessoa_Nome'], axis=1, inplace=True)
df_sapiens.rename(columns={'Pessoa_Doc': 'NR_CPF_CANDIDATO'}, inplace=True)
df_sapiens.rename(columns={'Tribunal_Nome': 'SG_UF'}, inplace=True)

In [51]:
df_sapiens.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7288 entries, 2 to 12310
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   SG_UF             7288 non-null   object
 1   NR_CPF_CANDIDATO  7288 non-null   object
dtypes: object(2)
memory usage: 170.8+ KB


### Criando nova base

In [52]:
# juntando pela coluna de cpf
df_final = df_tse.merge(df_sapiens[['NR_CPF_CANDIDATO']], on='NR_CPF_CANDIDATO', how='left', indicator=True)

# Criando a coluna 'devedor' pelo indicador '_merge'
df_final['DEVEDOR'] = (df_final['_merge'] == 'both').astype(int)

# excluindo o indicador
df_final.drop(columns='_merge', inplace=True)

df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882582 entries, 0 to 882581
Data columns (total 19 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DT_ELEICAO                882582 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          882582 non-null  object        
 2   TP_ABRANGENCIA            882582 non-null  object        
 3   SG_UF                     882582 non-null  object        
 4   DS_CARGO                  882582 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   882582 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  882582 non-null  object        
 7   TP_AGREMIACAO             882582 non-null  object        
 8   SG_PARTIDO                882582 non-null  object        
 9   NR_IDADE_DATA_POSSE       882582 non-null  float64       
 10  DS_GENERO                 882582 non-null  object        
 11  DS_GRAU_INSTRUCAO         882582 non-null  object        
 12  DS

In [53]:
# Contando o número de devedores e não devedores
contagem_devedores = df_final['DEVEDOR'].value_counts()
contagem_devedores

0    876737
1      5845
Name: DEVEDOR, dtype: int64

In [54]:
# Verificando se existem valores nulos
print(f"Existem {df_tse['NR_CPF_CANDIDATO'].isnull().sum()} valores nulos no df do TSE")
print(f"Existem {df_sapiens['NR_CPF_CANDIDATO'].isnull().sum()} valores nulos no df do Sapiens")

# Identificando CPFs presentes no df_sapiens que não estão no df_tse
valores_nao_encontrados = len(df_sapiens.loc[~df_sapiens['NR_CPF_CANDIDATO'].
                                             isin(df_tse['NR_CPF_CANDIDATO']), 'NR_CPF_CANDIDATO'])

print(f"Existem {valores_nao_encontrados} valores exclusivos no df do Sapiens.")

Existem 0 valores nulos no df do TSE
Existem 0 valores nulos no df do Sapiens
Existem 1443 valores exclusivos no df do Sapiens.


In [55]:
# Reinicializando o índice
df_tse = df_final.reset_index(drop=True)

In [56]:
# Criando uma nova coluna 'FAIXA_ETARIA' para categorizar as idades
faixa_etaria = [0, 35, 59, 110]
faixas_etarias = ['Jovem', 'Adulto', 'Idoso']

df_final['FAIXA_ETARIA'] = pd.cut(df_final['NR_IDADE_DATA_POSSE'], bins=faixa_etaria, labels=faixas_etarias, right=False)

df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882582 entries, 0 to 882581
Data columns (total 20 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DT_ELEICAO                882582 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          882582 non-null  object        
 2   TP_ABRANGENCIA            882582 non-null  object        
 3   SG_UF                     882582 non-null  object        
 4   DS_CARGO                  882582 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   882582 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  882582 non-null  object        
 7   TP_AGREMIACAO             882582 non-null  object        
 8   SG_PARTIDO                882582 non-null  object        
 9   NR_IDADE_DATA_POSSE       882582 non-null  float64       
 10  DS_GENERO                 882582 non-null  object        
 11  DS_GRAU_INSTRUCAO         882582 non-null  object        
 12  DS

In [57]:
# Verificando se há valores nulos na coluna 'FAIXA_ETARIA' para entendimento
nulos_faixa_etaria = df_final[df_final['FAIXA_ETARIA'].isnull()]
nulos_faixa_etaria

Unnamed: 0,DT_ELEICAO,NR_CPF_CANDIDATO,TP_ABRANGENCIA,SG_UF,DS_CARGO,DS_SITUACAO_CANDIDATURA,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,SG_PARTIDO,NR_IDADE_DATA_POSSE,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,ST_DECLARAR_BENS,VR_DESPESA_MAX_CAMPANHA,DEVEDOR,FAIXA_ETARIA
51508,2016-10-02,78684242653,MUNICIPAL,MG,VEREADOR,INAPTO,RENÚNCIA,COLIGAÇÃO,PR,999.0,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),PARDA,MOTORISTA DE VEÍCULOS DE TRANSPORTE DE CARGA,N,S,10803.91,0,
118571,2016-10-02,78961890204,MUNICIPAL,RR,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PSD,999.0,MASCULINO,ENSINO MÉDIO INCOMPLETO,CASADO(A),PARDA,OUTROS,N,N,343902.96,0,
146552,2016-10-02,79590586287,MUNICIPAL,AM,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PSB,999.0,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,AGRICULTOR,N,N,17445.96,0,
158578,2016-10-02,99019272420,MUNICIPAL,PE,VEREADOR,APTO,DEFERIDO,PARTIDO ISOLADO,PCB,999.0,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,S,121699.88,0,
263468,2016-10-02,64157520220,MUNICIPAL,AM,VEREADOR,APTO,DEFERIDO,COLIGAÇÃO,PSDB,999.0,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,SERVIDOR PÚBLICO ESTADUAL,N,S,10803.91,0,
320780,2018-10-07,1752740297,ESTADUAL,PA,DEPUTADO ESTADUAL,INAPTO,INDEFERIDO,COLIGAÇÃO,PRB,825.0,MASCULINO,SUPERIOR COMPLETO,DIVORCIADO(A),BRANCA,OUTROS,N,N,1000000.0,0,
392211,2020-11-15,62841106500,MUNICIPAL,BA,VEREADOR,APTO,DEFERIDO,PARTIDO ISOLADO,PODE,999.0,FEMININO,ENSINO FUNDAMENTAL INCOMPLETO,DIVORCIADO(A),PARDA,AGRICULTOR,N,N,12307.75,0,
579464,2020-11-15,31698391870,MUNICIPAL,BA,VEREADOR,APTO,DEFERIDO,PARTIDO ISOLADO,PSB,120.0,FEMININO,LÊ E ESCREVE,SOLTEIRO(A),PARDA,AGRICULTOR,N,S,12307.75,0,
696401,2020-11-15,36538515134,MUNICIPAL,MS,VEREADOR,APTO,DEFERIDO,PARTIDO ISOLADO,PSD,116.0,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,DIVORCIADO(A),BRANCA,AGRICULTOR,S,S,12307.75,0,


In [58]:
# Removendo entradas com valores nulos na coluna 'FAIXA_ETARIA'
df_final = df_final.dropna(subset=['FAIXA_ETARIA'])
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882573 entries, 0 to 882581
Data columns (total 20 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DT_ELEICAO                882573 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          882573 non-null  object        
 2   TP_ABRANGENCIA            882573 non-null  object        
 3   SG_UF                     882573 non-null  object        
 4   DS_CARGO                  882573 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   882573 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  882573 non-null  object        
 7   TP_AGREMIACAO             882573 non-null  object        
 8   SG_PARTIDO                882573 non-null  object        
 9   NR_IDADE_DATA_POSSE       882573 non-null  float64       
 10  DS_GENERO                 882573 non-null  object        
 11  DS_GRAU_INSTRUCAO         882573 non-null  object        
 12  DS

In [59]:
# Criando uma coluna 'FAIXA_DESPESA' para categorizar os valores
valores_despesas = [0, 50000, 100000, 500000, 1000000, 10000000, 50000000, 100000000, 1000000000]
faixas_despesa = ['Minimo', 'Baixo', 'Razoavel', 'Médio', 'Elevado', 'Alto', 'Altissimo', 'Perigoso']

df_final['FAIXA_DESPESA'] = pd.cut(df_final['VR_DESPESA_MAX_CAMPANHA'], bins=valores_despesas, labels=faixas_despesa, right=False)
df_final['FAIXA_DESPESA'].value_counts()
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882573 entries, 0 to 882581
Data columns (total 21 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   DT_ELEICAO                882573 non-null  datetime64[ns]
 1   NR_CPF_CANDIDATO          882573 non-null  object        
 2   TP_ABRANGENCIA            882573 non-null  object        
 3   SG_UF                     882573 non-null  object        
 4   DS_CARGO                  882573 non-null  object        
 5   DS_SITUACAO_CANDIDATURA   882573 non-null  object        
 6   DS_DETALHE_SITUACAO_CAND  882573 non-null  object        
 7   TP_AGREMIACAO             882573 non-null  object        
 8   SG_PARTIDO                882573 non-null  object        
 9   NR_IDADE_DATA_POSSE       882573 non-null  float64       
 10  DS_GENERO                 882573 non-null  object        
 11  DS_GRAU_INSTRUCAO         882573 non-null  object        
 12  DS

In [60]:
df_final = df_final.drop('DT_ELEICAO', axis=1)
df_final = df_final.drop('NR_CPF_CANDIDATO', axis=1)
df_final = df_final.drop('NR_IDADE_DATA_POSSE', axis=1)
df_final = df_final.drop('VR_DESPESA_MAX_CAMPANHA', axis=1)
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 882573 entries, 0 to 882581
Data columns (total 17 columns):
 #   Column                    Non-Null Count   Dtype   
---  ------                    --------------   -----   
 0   TP_ABRANGENCIA            882573 non-null  object  
 1   SG_UF                     882573 non-null  object  
 2   DS_CARGO                  882573 non-null  object  
 3   DS_SITUACAO_CANDIDATURA   882573 non-null  object  
 4   DS_DETALHE_SITUACAO_CAND  882573 non-null  object  
 5   TP_AGREMIACAO             882573 non-null  object  
 6   SG_PARTIDO                882573 non-null  object  
 7   DS_GENERO                 882573 non-null  object  
 8   DS_GRAU_INSTRUCAO         882573 non-null  object  
 9   DS_ESTADO_CIVIL           882573 non-null  object  
 10  DS_COR_RACA               882573 non-null  object  
 11  DS_OCUPACAO               882573 non-null  object  
 12  ST_REELEICAO              882573 non-null  object  
 13  ST_DECLARAR_BENS          882

In [61]:
df_final.to_parquet('df_final.parquet', index=False)