### Imports

In [1]:
# Manipulação de dados
import re

import pandas as pd
pd.set_option('display.max_columns', None)

#### Funções

In [2]:
def limpar_nome(nome):
    nome_limpo = re.sub(r'[^a-zA-ZáÁéÉíÍóÓúÚãÃõÕçÇ\s]', '', nome)
    return nome_limpo

### Pré-processamento

In [3]:
# Amostra dos dados de arquivo
#df_resultado = pd.read_csv('SP_turno_1.csv', encoding = 'latin1', sep=';', nrows = 10)
'''
Colunas Indesejadas
DT_GERACAO > 18/11/2020
HH_GERACAO > 15:49:53
ANO_ELEICAO > 2020
NM_MUNICIPIO > Coluna para tabela MER
NR_ZONA > Relacionado com o local, não necessário
NR_SECAO > Relacionado com o local, não necessário
NR_LOCAL_VOTACAO > Relacionado com o local, não necessário
CD_TIPO_ELEICAO	> 0
NM_TIPO_ELEICAO > Eleição Ordinária
CD_PLEITO > 304
DT_PLEITO > 15/11/2020
NR_TURNO > 1
CD_ELEICAO > 426
DS_ELEICAO > Eleições Municipais 2020
SG_UF > SP
QT_APTOS > A SOMA de QT_COMPARECIMENTO e QT_ABSTENCOES resulta nessa variável
CD_TIPO_URNA > 1
DS_TIPO_URNA > Apurada
NR_URNA_EFETIVADA > Desnecessário para esta análise
CD_CARGA_1_URNA_EFETIVADA > Desnecessário para esta análise
CD_CARGA_2_URNA_EFETIVADA > Desnecessário para esta análise
CD_FLASHCARD_URNA_EFETIVADA > Desnecessário para esta análise
DS_CARGO_PERGUNTA_SECAO > Relacionado com CD_CARGO_PERGUNTA e NR_SECAO
DT_BU_RECEBIDO > Desnecessário para esta análise
DS_AGREGADAS > #NULO#
DT_ABERTURA > Desnecessário para esta análise
DT_ENCERRAMENTO > Desnecessário para esta análise
DT_EMISSAO_BU > Desnecessário para esta análise
QT_ELEITORES_BIOMETRIA_NH > 0
NR_JUNTA_APURADORA > Desnecessário para esta análise
NR_TURMA_APURADORA > Desnecessário para esta análise
'''

# Upload dados necessários
colunas_desejadas = ['CD_MUNICIPIO', 'CD_CARGO_PERGUNTA', 'DS_CARGO_PERGUNTA', 'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'QT_COMPARECIMENTO', 'QT_ABSTENCOES', 'CD_TIPO_VOTAVEL', 'DS_TIPO_VOTAVEL', 'NR_VOTAVEL', 'NM_VOTAVEL', 'DT_CARGA_URNA_EFETIVADA']

df_resultado = pd.read_csv('SP_turno_1.csv', encoding = 'latin1', sep=';', usecols=colunas_desejadas)

In [4]:
# Amostra dos dados
df_resultado.sample(5)

Unnamed: 0,CD_MUNICIPIO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_COMPARECIMENTO,QT_ABSTENCOES,CD_TIPO_VOTAVEL,DS_TIPO_VOTAVEL,NR_VOTAVEL,NM_VOTAVEL,DT_CARGA_URNA_EFETIVADA
4622872,69698,13,Vereador,13,PT,Partido dos Trabalhadores,281,134,1,Nominal,13376,MESTRE CAJU,08/11/2020 08:59:00
1207845,65897,13,Vereador,55,PSD,Partido Social Democrático,175,161,1,Nominal,55555,JUAREZ ARAÚJO,08/11/2020 10:00:00
6635313,71072,13,Vereador,45,PSDB,Partido da Social Democracia Brasileira,254,155,1,Nominal,45123,TRIPOLI,04/11/2020 16:15:00
8474613,66818,11,Prefeito,-1,#NULO#,#NULO#,281,97,3,Nulo,96,Nulo,08/11/2020 14:30:00
5808438,69213,13,Vereador,17,PSL,Partido Social Liberal,298,78,1,Nominal,17000,PROFESSORA JAQUELINE,02/11/2020 17:40:00


#### Criação das Tabelas MER

In [5]:
# Tabela de Cargos
df_cargos = df_resultado[['CD_CARGO_PERGUNTA', 'DS_CARGO_PERGUNTA']].copy()
df_cargos.drop_duplicates(inplace=True)
df_cargos.sort_values(by='CD_CARGO_PERGUNTA', inplace=True)
df_cargos

Unnamed: 0,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA
0,11,Prefeito
11,13,Vereador


In [6]:
# Tabela de Tipo de Voto
df_voto = df_resultado[['CD_TIPO_VOTAVEL', 'DS_TIPO_VOTAVEL']].copy()
df_voto.drop_duplicates(inplace=True)
df_voto.sort_values(by='CD_TIPO_VOTAVEL', inplace=True)
df_voto

Unnamed: 0,CD_TIPO_VOTAVEL,DS_TIPO_VOTAVEL
1,1,Nominal
0,2,Branco
7,3,Nulo
12,4,Legenda


In [7]:
# Tabela de Partidos
df_partidos = df_resultado[['NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO']].copy()
df_partidos.drop_duplicates(inplace=True)
df_partidos.sort_values(by='NR_PARTIDO', inplace=True)
df_partidos

Unnamed: 0,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO
0,-1,#NULO#,#NULO#
8,10,REPUBLICANOS,REPUBLICANOS
30,11,PP,PROGRESSISTAS
75,12,PDT,Partido Democrático Trabalhista
1,13,PT,Partido dos Trabalhadores
61,14,PTB,Partido Trabalhista Brasileiro
25,15,MDB,Movimento Democrático Brasileiro
144,16,PSTU,Partido Socialista dos Trabalhadores Unificado
5,17,PSL,Partido Social Liberal
2,18,REDE,Rede Sustentabilidade


In [8]:
# Tabela de Candidatos

# Notei que, por organizar o nome em ordem alfabética, o primeiro nome tinha erro de digitação, apliquei a função de limpar nome
df_candidatos = df_resultado['NM_VOTAVEL'].unique().astype(str)
df_candidatos = [limpar_nome(nome) for nome in df_candidatos]  # Aplicar função limpar_nome
id_candidatos = {nome: str(indice) for indice, nome in enumerate(df_candidatos)}  # Criando ID para os candidatos
df_resultado['ID_CANDIDATO'] = df_resultado['NM_VOTAVEL'].map(id_candidatos)
df_correspondencia = pd.DataFrame(id_candidatos.items(), columns=['NM_CANDIDATO', 'ID_CANDIDATO'])
df_correspondencia

Unnamed: 0,NM_CANDIDATO,ID_CANDIDATO
0,Branco,0
1,JILMAR TATTO,1
2,MARINA HELOU,2
3,MÁRCIO FRANÇA,3
4,BRUNO COVAS,4
...,...,...
76572,MASSAMI,76616
76573,FELIPE BEZERRA,76617
76574,LURDINHA DO TAXI,76618
76575,OSMAR DA MUTUCA,76619


In [9]:
df_resultado    

Unnamed: 0,CD_MUNICIPIO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_COMPARECIMENTO,QT_ABSTENCOES,CD_TIPO_VOTAVEL,DS_TIPO_VOTAVEL,NR_VOTAVEL,NM_VOTAVEL,DT_CARGA_URNA_EFETIVADA,ID_CANDIDATO
0,71072,11,Prefeito,-1,#NULO#,#NULO#,241,145,2,Branco,95,Branco,03/11/2020 11:19:00,0
1,71072,11,Prefeito,13,PT,Partido dos Trabalhadores,241,145,1,Nominal,13,JILMAR TATTO,03/11/2020 11:19:00,1
2,71072,11,Prefeito,18,REDE,Rede Sustentabilidade,241,145,1,Nominal,18,MARINA HELOU,03/11/2020 11:19:00,2
3,71072,11,Prefeito,40,PSB,Partido Socialista Brasileiro,241,145,1,Nominal,40,MÁRCIO FRANÇA,03/11/2020 11:19:00,3
4,71072,11,Prefeito,45,PSDB,Partido da Social Democracia Brasileira,241,145,1,Nominal,45,BRUNO COVAS,03/11/2020 11:19:00,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9433995,70157,13,Vereador,45,PSDB,Partido da Social Democracia Brasileira,285,33,1,Nominal,45777,DANIELE DO IVAN,08/11/2020 12:08:00,76471
9433996,70157,13,Vereador,45,PSDB,Partido da Social Democracia Brasileira,285,33,1,Nominal,45279,NELSON VITAL,08/11/2020 12:08:00,76469
9433997,70157,13,Vereador,10,REPUBLICANOS,REPUBLICANOS,285,33,4,Legenda,10,REPUBLICANOS,08/11/2020 12:08:00,36
9433998,70157,13,Vereador,-1,#NULO#,#NULO#,285,33,3,Nulo,96,Nulo,08/11/2020 12:08:00,7


#### Drop de colunas desnecessárias

In [10]:
# Criação da tabela MER
df_resultado.drop(columns = ['DS_CARGO_PERGUNTA', 'SG_PARTIDO', 'NM_PARTIDO', 'DS_TIPO_VOTAVEL', 'NM_VOTAVEL', 'NR_VOTAVEL'] , inplace=True)

#### Modificando coluna

In [11]:
# Dividindo a coluna de data/hora em duas colunas separadas
df_resultado[['DT_URNA_EFETIVADA', 'HR_URNA_EFETIVADA']] = df_resultado['DT_CARGA_URNA_EFETIVADA'].str.split(' ',expand=True)

In [12]:
# Convertendo as colunas 'Data' e 'Hora' para tipagem certa
df_resultado['DT_URNA_EFETIVADA'] = pd.to_datetime(df_resultado['DT_URNA_EFETIVADA'], format='%d/%m/%Y')
df_resultado['HR_URNA_EFETIVADA'] = pd.to_datetime(df_resultado['HR_URNA_EFETIVADA'], format='%H:%M:%S')

# Estilo Brasileiro
df_resultado['DT_URNA_EFETIVADA'] = df_resultado['DT_URNA_EFETIVADA'].dt.strftime('%d/%m/%Y')
df_resultado['HR_URNA_EFETIVADA'] = df_resultado['HR_URNA_EFETIVADA'].dt.strftime('%H:%M:%S')

In [13]:
# Excluindo coluna original
df_resultado.drop(columns = ['DT_CARGA_URNA_EFETIVADA'], inplace = True)

In [14]:
df_resultado.sample(5)

Unnamed: 0,CD_MUNICIPIO,CD_CARGO_PERGUNTA,NR_PARTIDO,QT_COMPARECIMENTO,QT_ABSTENCOES,CD_TIPO_VOTAVEL,ID_CANDIDATO,DT_URNA_EFETIVADA,HR_URNA_EFETIVADA
5309221,67130,13,13,331,91,1,21970,04/11/2020,14:50:00
8534926,69299,13,19,215,94,1,28794,31/10/2020,13:43:00
6603730,71072,11,40,271,82,1,3,05/11/2020,15:27:00
4075114,71072,13,45,338,158,1,156,04/11/2020,12:01:00
4196034,71072,13,15,315,181,1,57,04/11/2020,16:43:00


#### Exportação das Bases

In [15]:
# Exportação das bases para otimizar memória RAM e tabelas MER
df_resultado.to_csv('SPturno1_clean.csv', index=False)
df_cargos.to_excel('SPturno1_cargos.xlsx', index=False)
df_voto.to_excel('SPturno1_tipoVoto.xlsx', index=False)
df_partidos.to_excel('SPturno1_partidos.xlsx', index=False)
df_correspondencia.to_excel('SPturno1_candidatos.xlsx', index=False)