> ## Este notebook continua na [Parte 2](https://colab.research.google.com/drive/17BWTWfV460ZVnz8uzFf2weIz1qDYevzK?usp=sharing)

# Limpeza e filtragem dos dados

Os dados obtidos para a realização de nossa análise são oriundos dos boletins das urnas eletrônicas durante as eleições estaduais e federais de 2022. Os arquivos conseguidos abarcam os registros de votos em toda a Paraíba, mas é de nosso interesse observar apenas o recorte da cidade de Campina Grande.

Em adição, como objetivamos realizar uma comparação com o Censo Municipal de Campina Grande, é de nosso interesse saber a quais localidades da cidade as zonas e seções eleitorais pertencem. Para tal, recuperamos os dados do TSE que indicam as informações de localidade associadas a esses dados, para que possamos realizar um merge com nossas bases de dados alvo.

O objetivo final desse notebook é realizar a filtragem e as devidas limpezas, persistindo os datasets tratados para melhor manipulação.

## Download das bases de dados originais

In [None]:
!pip install gdown
!gdown https://drive.google.com/uc?id=12b3jMPttcpbHxuhN7-f-34EuiJXafksq
!gdown https://drive.google.com/uc?id=1SMQB22f73WT0Noyd7Mz2v-SL2tMGLr8C
!gdown https://drive.google.com/uc?id=1eWk3SwW1JLJHzG0sOZhhO-8O2-epkhiM

Downloading...
From: https://drive.google.com/uc?id=12b3jMPttcpbHxuhN7-f-34EuiJXafksq
To: /content/SEGUNDO_TURNO.csv
100% 36.1M/36.1M [00:00<00:00, 88.7MB/s]
Downloading...
From: https://drive.google.com/uc?id=1SMQB22f73WT0Noyd7Mz2v-SL2tMGLr8C
To: /content/PRIMEIRO_TURNO.csv
100% 538M/538M [00:06<00:00, 80.8MB/s]
Downloading...
From: https://drive.google.com/uc?id=1eWk3SwW1JLJHzG0sOZhhO-8O2-epkhiM
To: /content/eleitorado_local_votacao_2022.csv
100% 436M/436M [00:06<00:00, 68.7MB/s]


## Filtragem e seleção de colunas

In [None]:
import pandas as pd
import numpy as np

### Recuperando dados das localidades

Os dados acerca dos locais de votação foram recuperados dos dados abertos do TSE e podem ser consultados [nesse link](https://dadosabertos.tse.jus.br/dataset/eleitorado-2022/resource/3b003555-c69f-49cb-9c15-2700279520c7). Felizmente, os dados são acompanhados de um [dicionário de dados](https://drive.google.com/file/d/1QMdlHwuLxl4YzQK4loa4qWA0bOX4ik3l/view?usp=share_link), indicando os significados de cada coluna do dataset e outros metadados de interesse, como codidficação e separador do arquivo csv.

A coluna ```NM_MUNICIPIO``` é referente ao nome do município a que o votante pertence. Os dados conseguidos são referentes a todo o estado da Paraíba, porém queremos analisar apenas o recorte da cidade de Campina Grande. Além disso, queremos apenas locais de votação que estavam com situaçao ativa durante as eleições. Pelo dicionário de dados, a coluna que designa tal característica é ```DS_SITU_LOCALIDADE```. Portanto, com base no ponto de ataque, iremos realizar uma filtragem para recuperar apenas os registros referentes à cidade de Campina Grande que estavam como local de votação ativo nas eleições passadas.

In [None]:
df_locais = pd.read_csv("eleitorado_local_votacao_2022.csv", encoding='latin1', sep=";").query("NM_MUNICIPIO == 'CAMPINA GRANDE' and DS_SITU_LOCALIDADE == 'ATIVO'")
df_locais.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,AA_ELEICAO,DT_ELEICAO,DS_ELEICAO,NR_TURNO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,...,DS_SITU_LOCALIDADE,CD_SITU_SECAO_ACESSIBILIDADE,DS_SITU_SECAO_ACESSIBILIDADE,QT_ELEITOR_SECAO,QT_ELEITOR_ELEICAO_FEDERAL,QT_ELEITOR_ELEICAO_ESTADUAL,QT_ELEITOR_ELEICAO_MUNICIPAL,NR_LOCAL_VOTACAO_ORIGINAL,NM_LOCAL_VOTACAO_ORIGINAL,DS_ENDERECO_LOCVT_ORIGINAL
610,07/10/2023,02:18:36,2022,02/10/2022,1º Turno,1,PB,19810,CAMPINA GRANDE,72,...,ATIVO,1,Com acessibilidade,341,340,340,0,1198,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,COMPOSITOR NOEL ROSA S/N
676,07/10/2023,02:18:36,2022,30/10/2022,2º Turno,2,PB,19810,CAMPINA GRANDE,17,...,ATIVO,0,Sem acessibilidade,343,343,343,0,1180,ESCOLA MUNICIPAL ADALGISA AMORIM,"RUA FINELON ARAÚJO DE LUCENA, S/N"
1199,07/10/2023,02:18:36,2022,30/10/2022,2º Turno,2,PB,19810,CAMPINA GRANDE,72,...,ATIVO,1,Com acessibilidade,347,347,347,0,1171,COLEGIO ESCRITOR VIRGINIUS DA GAMA E MELO,"RUA PENEDO, S/N"
1383,07/10/2023,02:18:36,2022,02/10/2022,1º Turno,1,PB,19810,CAMPINA GRANDE,16,...,ATIVO,1,Com acessibilidade,355,358,356,0,1759,COLEGIO ESTADUAL DA PALMEIRA,"RUA 15 DE NOVEMBRO, S/N"
1993,07/10/2023,02:18:36,2022,30/10/2022,2º Turno,2,PB,19810,CAMPINA GRANDE,17,...,ATIVO,0,Sem acessibilidade,359,360,360,0,1686,EEEF MAJOR VENEZIANO VITAL DO REGO,"RUA MARIA CÂNDIDA DA SILVA, S/N"


Após a filtragem, necessitamos enxugar a nossa base de dados, para manter apenas as colunas do dataset que nos interessam. Abaixo está um overview de todas as colunas existentes no conjunto.

In [None]:
colunas_locais = list(df_locais.columns)
print(*colunas_locais, sep="\n")

DT_GERACAO
HH_GERACAO
AA_ELEICAO
DT_ELEICAO
DS_ELEICAO
NR_TURNO
SG_UF
CD_MUNICIPIO
NM_MUNICIPIO
NR_ZONA
NR_SECAO
CD_TIPO_SECAO_AGREGADA
DS_TIPO_SECAO_AGREGADA
NR_SECAO_PRINCIPAL
NR_LOCAL_VOTACAO
NM_LOCAL_VOTACAO
CD_TIPO_LOCAL
DS_TIPO_LOCAL
DS_ENDERECO
NM_BAIRRO
NR_CEP
NR_TELEFONE_LOCAL
NR_LATITUDE
NR_LONGITUDE
CD_SITU_LOCAL_VOTACAO
DS_SITU_LOCAL_VOTACAO
CD_SITU_ZONA
DS_SITU_ZONA
CD_SITU_SECAO
DS_SITU_SECAO
CD_SITU_LOCALIDADE
DS_SITU_LOCALIDADE
CD_SITU_SECAO_ACESSIBILIDADE
DS_SITU_SECAO_ACESSIBILIDADE
QT_ELEITOR_SECAO
QT_ELEITOR_ELEICAO_FEDERAL
QT_ELEITOR_ELEICAO_ESTADUAL
QT_ELEITOR_ELEICAO_MUNICIPAL
NR_LOCAL_VOTACAO_ORIGINAL
NM_LOCAL_VOTACAO_ORIGINAL
DS_ENDERECO_LOCVT_ORIGINAL 


Para anexar aos nossos dados de interesse informações espaciais e de localidade, o subconjunto ```"NR_ZONA", "NR_SECAO", "NR_LATITUDE", "NR_LONGITUDE", "NM_BAIRRO", "NM_LOCAL_VOTACAO"``` de colunas foi selecionado, com base em suas descrições consultadas no dicionário de dados.

> **NR_ZONA**: Número da zona onde ocorreu a eleição.

> **NR_SECAO**: Número da seção em que ocorreu a eleição.

> **NR_LATITUDE**: Latitude referente à localização do local de votação utilizado no pleito.

> **NR_LONGITUDE**: Longitude referente à localização do local de votação utilizado no pleito.

> **NM_BAIRRO**: Nome do bairro do local de votação utilizado no pleito.

> **NM_LOCAL_VOTACAO**: Nome do local de votação utilizado no pleito.

Iremos realizar uma filtragem das colunas acima descritas e retirar todos os casos de duplicação que ocorrerem na base, dado que queremos apenas a relação entre zona, seção e localidade, para que possamos unir ao dataset dos registros de votos posteriormente.

In [None]:
colunas_alvo_localidades = ["NR_ZONA", "NR_SECAO", "NR_LATITUDE", "NR_LONGITUDE", "NM_BAIRRO", "NM_LOCAL_VOTACAO"]
df_locais = df_locais[colunas_alvo_localidades]
df_locais.drop_duplicates(inplace=True)
df_locais.head()

Unnamed: 0,NR_ZONA,NR_SECAO,NR_LATITUDE,NR_LONGITUDE,NM_BAIRRO,NM_LOCAL_VOTACAO
610,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL
676,17,70,-7.253592,-35.93506,JARDIM VERDEJANTE,ESCOLA MUNICIPAL ADALGISA AMORIM
1199,72,59,-7.233509,-35.927072,DEP. ALVARO GAUDENCIO-MALVINAS,COLEGIO ESCRITOR VIRGINIUS DA GAMA E MELO
1383,16,317,-7.199209,-35.895753,PALMEIRA,COLEGIO ESTADUAL DA PALMEIRA
1993,17,223,-7.270582,-35.921394,ACACIO FIGUEIREDO,EEEF MAJOR VENEZIANO VITAL DO REGO


### Filtrando dados dos boletins de urna e unindo aos dados de localidade
Com os dados de localidade devidamente explorados e tratados, iremos agora partir para o conhecimento e o tratamento das bases de dados dos boletins de urna, com os registros de votos para as eleições de 2022.

De mesmo modo, o conjunto de dados dispõe de um [dicionário de dados](https://drive.google.com/file/d/1oofIIdIAxtCIcfvGh4ybsYJ6VvxNMCNO/view?usp=share_link), descrevendo bem todas as variáveis presentes nos arquivos que o acompanham.

In [None]:
df_1turno = pd.read_csv('PRIMEIRO_TURNO.csv', encoding='cp1252', sep=";")
df_2turno = pd.read_csv('SEGUNDO_TURNO.csv', encoding='cp1252', sep=";")

Em posse dos dados das localidades, iremos realizar um merge dos datasets por colunas comuns, dado que  ```NR_ZONA``` e ```NR_SECAO``` são registros comuns a ambos os conjuntos de dados.

In [None]:
df_1turno = pd.merge(df_locais, df_1turno, how = 'outer')
df_2turno = pd.merge(df_locais, df_2turno, how = 'outer')

In [None]:
df_1turno.head()

Unnamed: 0,NR_ZONA,NR_SECAO,NR_LATITUDE,NR_LONGITUDE,NM_BAIRRO,NM_LOCAL_VOTACAO,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,...,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,QT_ELEITORES_BIOMETRIA_NH,DT_EMISSAO_BU,NR_JUNTA_APURADORA,NR_TURMA_APURADORA
0,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,05/10/2022,14:36:14,2022.0,0.0,...,22B7126A,19/09/2022 09:39:00,1 - 66,#NULO#,02/10/2022 08:00:01,02/10/2022 17:02:16,13.0,02/10/2022 17:06:04,-1.0,-1.0
1,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,05/10/2022,14:36:14,2022.0,0.0,...,22B7126A,19/09/2022 09:39:00,1 - 66,#NULO#,02/10/2022 08:00:01,02/10/2022 17:02:16,13.0,02/10/2022 17:06:04,-1.0,-1.0
2,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,05/10/2022,14:36:14,2022.0,0.0,...,22B7126A,19/09/2022 09:39:00,1 - 66,#NULO#,02/10/2022 08:00:01,02/10/2022 17:02:16,13.0,02/10/2022 17:06:04,-1.0,-1.0
3,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,05/10/2022,14:36:14,2022.0,0.0,...,22B7126A,19/09/2022 09:39:00,1 - 66,#NULO#,02/10/2022 08:00:01,02/10/2022 17:02:16,13.0,02/10/2022 17:06:04,-1.0,-1.0
4,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL,05/10/2022,14:36:14,2022.0,0.0,...,22B7126A,19/09/2022 09:39:00,1 - 66,#NULO#,02/10/2022 08:00:01,02/10/2022 17:02:16,13.0,02/10/2022 17:06:04,-1.0,-1.0


Abaixo está um overview de todas as colunas pertencentes aos dados do boletim de urna.

In [None]:
colunas = list(df_1turno.columns)
print(*colunas, sep="\n")

NR_ZONA
NR_SECAO
NR_LATITUDE
NR_LONGITUDE
NM_BAIRRO
NM_LOCAL_VOTACAO
DT_GERACAO
HH_GERACAO
ANO_ELEICAO
CD_TIPO_ELEICAO
NM_TIPO_ELEICAO
CD_PLEITO
DT_PLEITO
NR_TURNO
CD_ELEICAO
DS_ELEICAO
SG_UF
CD_MUNICIPIO
NM_MUNICIPIO
NR_LOCAL_VOTACAO
CD_CARGO_PERGUNTA
DS_CARGO_PERGUNTA
NR_PARTIDO
SG_PARTIDO
NM_PARTIDO
DT_BU_RECEBIDO
QT_APTOS
QT_COMPARECIMENTO
QT_ABSTENCOES
CD_TIPO_URNA
DS_TIPO_URNA
CD_TIPO_VOTAVEL
DS_TIPO_VOTAVEL
NR_VOTAVEL
NM_VOTAVEL
QT_VOTOS
NR_URNA_EFETIVADA
CD_CARGA_1_URNA_EFETIVADA
CD_CARGA_2_URNA_EFETIVADA
CD_FLASHCARD_URNA_EFETIVADA
DT_CARGA_URNA_EFETIVADA
DS_CARGO_PERGUNTA_SECAO
DS_AGREGADAS
DT_ABERTURA
DT_ENCERRAMENTO
QT_ELEITORES_BIOMETRIA_NH
DT_EMISSAO_BU
NR_JUNTA_APURADORA
NR_TURMA_APURADORA


De mesmo modo, iremos filtrar apenas aqueles que são condizentes com registros feitos no município de Campina Grande, alvo desta análise.

In [None]:
df_1turno_cg = df_1turno.query("NM_MUNICIPIO == 'CAMPINA GRANDE'")
df_2turno_cg = df_2turno.query("NM_MUNICIPIO == 'CAMPINA GRANDE'")

De todas as colunas descritas no dicionário de dados, dada a natureza da análise planejada, é de nosso interesse apenas as abaixo apresentadas:



> **NM_MUNICIPIO**: Nome do município onde ocorreu a eleição.

> **NR_ZONA**: Número da Zona Eleitoral em que ocorreu a eleição.

> **NR_SECAO**: Número da Seção Eleitoral em que ocorreu a eleição.

> **NR_TURNO**: Número do turno da eleição.

> **NR_LOCAL_VOTACAO**: Número do local de votação referente ao boletim de urna.

> **NR_PARTIDO**: Número do partido de origem do candidato.

> **SG_PARTIDO**: Sigla do partido de origem do candidato.

> **DS_CARGO_PERGUNTA**: Descrição do cargo do candidato ou pergunta, no caso de
plebiscito.

> **DS_TIPO_VOTAVEL**: Descrição do tipo votavel.

> **NM_VOTAVEL**: Pode assumir os valores: Nome do candidato (quando voto
nominal ou voto anulado); Nome do partido (quando voto
em legenda); "Voto em branco" (quando voto em branco);
"Voto Nulo" (quando voto nulo) e "Voto anulado e apurado
em separado" (quando voto anulado e apurado em separado).


Além das colunas acima apresentadas, iremos agregar as selecionadas dos dados de localidade.

In [None]:
colunas_alvo = ["NM_MUNICIPIO", "NR_ZONA", "NR_SECAO", "NR_TURNO", "NR_LOCAL_VOTACAO", "NR_PARTIDO", "SG_PARTIDO", "DS_CARGO_PERGUNTA", "DS_TIPO_VOTAVEL", "NM_VOTAVEL"]
colunas_alvo += colunas_alvo_localidades

In [None]:
df_1turno_cg = df_1turno_cg[colunas_alvo]
df_2turno_cg = df_2turno_cg[colunas_alvo]

In [None]:
df_1turno_cg.head()

Unnamed: 0,NM_MUNICIPIO,NR_ZONA,NR_SECAO,NR_TURNO,NR_LOCAL_VOTACAO,NR_PARTIDO,SG_PARTIDO,DS_CARGO_PERGUNTA,DS_TIPO_VOTAVEL,NM_VOTAVEL,NR_ZONA.1,NR_SECAO.1,NR_LATITUDE,NR_LONGITUDE,NM_BAIRRO,NM_LOCAL_VOTACAO
0,CAMPINA GRANDE,72,66,1.0,1198.0,30.0,NOVO,Presidente,Nominal,FELIPE D'AVILA,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL
1,CAMPINA GRANDE,72,66,1.0,1198.0,-1.0,#NULO#,Presidente,Branco,Branco,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL
2,CAMPINA GRANDE,72,66,1.0,1198.0,-1.0,#NULO#,Presidente,Nulo,Nulo,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL
3,CAMPINA GRANDE,72,66,1.0,1198.0,15.0,MDB,Presidente,Nominal,SIMONE TEBET,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL
4,CAMPINA GRANDE,72,66,1.0,1198.0,12.0,PDT,Presidente,Nominal,CIRO GOMES,72,66,-7.226579,-35.918852,CONJUNTO SEVERINO CABRAL,ESCOLA ESTADUAL DE 1. E 2. GRAUS SEVERINO CABRAL


Para fins de melhor consulta, armazenamos os dados resultantes da limpeza e filtragem no [Google Drive](https://drive.google.com/drive/folders/1U8qnMP6NdJKEVTkdBJzGPQ8_NK7H_6EO?usp=sharing).

In [None]:
df_1turno_cg.to_csv("PRIMEIRO_TURNO_CG_dados_tratados.csv")
df_2turno_cg.to_csv("SEGUNDO_TURNO_CG_dados_tratados.csv")

A partir dos dados aqui filtrados, foi montada em um segundo notebook, que pode ser acessado no link da [Parte 2](https://colab.research.google.com/drive/17BWTWfV460ZVnz8uzFf2weIz1qDYevzK?usp=sharing), uma análise inicial para explorar algumas características dos dados que serão úteis para o resultado final esperado.