# Análise e Tratamento de dados Eleitorais 2022 - Segundo Turno


Todos os dados que iremos ultilizar aqui foram baixados do site oficial do TSE (Tribunal Superior Eleitoral).
Neste Notebook iremos Analisar, Tratar e Preparar estes dados para visualização no Microsoft Power BI.


Link dos Dados Fornecido pelo TSE -> https://dadosabertos.tse.jus.br/dataset/resultados-2022/resource/47f692af-7309-4a21-b536-0d1386d449b9

In [3]:
# Importando Bibliotecas

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt


In [4]:
# Vamos criar um DataFrame e chama-lo de df_votacao e logo em seguida ter uma pré-visualizacao do mesmo.

df_votacao = pd.read_csv('./dados_eleicaoBR/votacao_candidato_munzona_2022_BR.csv', sep=';', encoding='latin1')

df_votacao.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,ST_VOTO_EM_TRANSITO,QT_VOTOS_NOMINAIS,NM_TIPO_DESTINACAO_VOTOS,QT_VOTOS_NOMINAIS_VALIDOS,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
0,10/04/2023,20:39:40,2022,2,Eleição Ordinária,2,545,Eleição Geral Federal 2022,30/10/2022,F,...,PC do B / PT / PV,280001681359,COLIGAÇÃO BRASIL DA ESPERANÇA,(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...,N,4372,Válido,4372,1,ELEITO
1,10/04/2023,20:39:40,2022,2,Eleição Ordinária,2,545,Eleição Geral Federal 2022,30/10/2022,F,...,PC do B / PT / PV,280001681359,COLIGAÇÃO BRASIL DA ESPERANÇA,(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...,N,45956,Válido,45956,1,ELEITO
2,10/04/2023,20:39:40,2022,2,Eleição Ordinária,2,545,Eleição Geral Federal 2022,30/10/2022,F,...,PC do B / PT / PV,280001681359,COLIGAÇÃO BRASIL DA ESPERANÇA,(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...,N,10468,Válido,10468,1,ELEITO
3,10/04/2023,20:39:40,2022,2,Eleição Ordinária,2,545,Eleição Geral Federal 2022,30/10/2022,F,...,PC do B / PT / PV,280001681359,COLIGAÇÃO BRASIL DA ESPERANÇA,(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...,N,1795,Válido,1795,1,ELEITO
4,10/04/2023,20:39:40,2022,2,Eleição Ordinária,2,545,Eleição Geral Federal 2022,30/10/2022,F,...,PC do B / PT / PV,280001681359,COLIGAÇÃO BRASIL DA ESPERANÇA,(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...,N,66182,Válido,66182,1,ELEITO


In [12]:
# Vamos ver se existe alguma coluna nula ou alguns valores faltantes

df_votacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81679 entries, 0 to 81678
Data columns (total 44 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   DT_GERACAO                 81679 non-null  object
 1   HH_GERACAO                 81679 non-null  object
 2   ANO_ELEICAO                81679 non-null  int64 
 3   CD_TIPO_ELEICAO            81679 non-null  int64 
 4   NM_TIPO_ELEICAO            81679 non-null  object
 5   NR_TURNO                   81679 non-null  int64 
 6   CD_ELEICAO                 81679 non-null  int64 
 7   DS_ELEICAO                 81679 non-null  object
 8   DT_ELEICAO                 81679 non-null  object
 9   TP_ABRANGENCIA             81679 non-null  object
 10  SG_UF                      81679 non-null  object
 11  SG_UE                      81679 non-null  object
 12  NM_UE                      81679 non-null  object
 13  CD_MUNICIPIO               81679 non-null  int64 
 14  NM_MUN

In [11]:
# Vamos visualizar este DataFrame de uma forma mais clara

df_votacao.head().T

Unnamed: 0,0,1,2,3,4
DT_GERACAO,10/04/2023,10/04/2023,10/04/2023,10/04/2023,10/04/2023
HH_GERACAO,20:39:40,20:39:40,20:39:40,20:39:40,20:39:40
ANO_ELEICAO,2022,2022,2022,2022,2022
CD_TIPO_ELEICAO,2,2,2,2,2
NM_TIPO_ELEICAO,Eleição Ordinária,Eleição Ordinária,Eleição Ordinária,Eleição Ordinária,Eleição Ordinária
NR_TURNO,2,2,2,2,2
CD_ELEICAO,545,545,545,545,545
DS_ELEICAO,Eleição Geral Federal 2022,Eleição Geral Federal 2022,Eleição Geral Federal 2022,Eleição Geral Federal 2022,Eleição Geral Federal 2022
DT_ELEICAO,30/10/2022,30/10/2022,30/10/2022,30/10/2022,30/10/2022
TP_ABRANGENCIA,F,F,F,F,F


In [6]:
# Nesta linha vamos organizar o DataFrame apenas para os votos do segundo turno.

df_votacao = df_votacao[df_votacao['NR_TURNO'] == 2]

In [7]:
# Temos a informação que na coluna SG_UF os valores que são iguais a ZZ são de votos realizados no exterior,
# como iremos ultilzar apenas dados contabilizados no nosso pais, vamos excluir estes outros dados.

df_votacao = df_votacao[df_votacao['SG_UF'] != 'ZZ']

In [9]:
# Aqui vamos organizar o nosso DataFrame para nos mostrar apenas colunas relevantes e de nosso interesse.

df_votacao = df_votacao[['SG_UF', 'CD_MUNICIPIO', 'NM_MUNICIPIO', 'NR_CANDIDATO',
                        'NM_URNA_CANDIDATO', 'QT_VOTOS_NOMINAIS']]

df_votacao.head()

Unnamed: 0,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_CANDIDATO,NM_URNA_CANDIDATO,QT_VOTOS_NOMINAIS
0,MS,91782,CHAPADÃO DO SUL,13,LULA,4372
1,CE,13897,FORTALEZA,13,LULA,45956
2,GO,95559,PORANGATU,13,LULA,10468
3,GO,94498,MAMBAÍ,13,LULA,1795
4,CE,13854,CRATO,13,LULA,66182


In [16]:
# Vamos agrupar todas as colunas mencionadas no nosso groupby e depois somar as colunas restantes,
# criando valores unicos para cada linha.

# Em seguida vamos visualizar o DataFrame 

df_votacao = df_votacao.groupby(['SG_UF',
                                 'CD_MUNICIPIO', 
                                 'NM_MUNICIPIO', 
                                 'NR_CANDIDATO', 
                                 'NM_URNA_CANDIDATO']).sum().reset_index()

df_votacao.head(10)

Unnamed: 0,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_CANDIDATO,NM_URNA_CANDIDATO,QT_VOTOS_NOMINAIS
0,AC,1007,BUJARI,13,LULA,1958
1,AC,1007,BUJARI,22,JAIR BOLSONARO,4693
2,AC,1015,CAPIXABA,13,LULA,1497
3,AC,1015,CAPIXABA,22,JAIR BOLSONARO,3963
4,AC,1023,PORTO ACRE,13,LULA,2317
5,AC,1023,PORTO ACRE,22,JAIR BOLSONARO,7384
6,AC,1031,SANTA ROSA DO PURUS,13,LULA,1217
7,AC,1031,SANTA ROSA DO PURUS,22,JAIR BOLSONARO,1127
8,AC,1040,MARECHAL THAUMATURGO,13,LULA,2742
9,AC,1040,MARECHAL THAUMATURGO,22,JAIR BOLSONARO,3710


In [37]:
# Aqui vamos criar um arquivo csv para ultilizar Futuramente no Microsoft Power Bi.

# Este arquivo pode ser encontrado no mesmo local onde este Notebook esta localizado, logo após o esta linha ser carregada.

df_votacao.to_csv('desc1.csv', sep=';', index=False)

In [17]:
# Antes de iniciar a segunda parte da nossa analise, vamos ver a quantidade de votos por estado.


df_votacao.groupby('SG_UF')['QT_VOTOS_NOMINAIS'].sum().sort_values(ascending=False)

SG_UF
SP    25736469
MG    12332270
RJ     9560111
BA     8454843
PR     6665948
RS     6625036
CE     5442368
PE     5439765
PA     4582979
SC     4399548
MA     3751174
GO     3735156
PB     2404455
ES     2208912
RN     2038166
PI     2018448
AM     1966732
MT     1869516
DF     1770626
AL     1664658
MS     1480153
SE     1284037
RO      896140
TO      846247
AC      409316
AP      390465
RR      280646
Name: QT_VOTOS_NOMINAIS, dtype: int64

In [18]:
# Vamos criar um DataFrame apartironde nos mostra a quantidade de votos de cada candidato por estado.

df_ff = df_votacao.groupby(['SG_UF', 'NM_URNA_CANDIDATO'])['QT_VOTOS_NOMINAIS'].sum().reset_index()

In [19]:
df_ff

Unnamed: 0,SG_UF,NM_URNA_CANDIDATO,QT_VOTOS_NOMINAIS
0,AC,JAIR BOLSONARO,287750
1,AC,LULA,121566
2,AL,JAIR BOLSONARO,687827
3,AL,LULA,976831
4,AM,JAIR BOLSONARO,961741
5,AM,LULA,1004991
6,AP,JAIR BOLSONARO,200547
7,AP,LULA,189918
8,BA,JAIR BOLSONARO,2357028
9,BA,LULA,6097815


In [21]:
# Logo após vamos ordenar este DataFrame por ordem Descrescente para conseguir ver qual candidato ganhou em cada estado,
# e depois manter apenas o estado onde o candidato venceu.

df_ff.sort_values(by='QT_VOTOS_NOMINAIS', ascending=False, inplace=True)

df_ff.drop_duplicates(subset='SG_UF', keep='first', inplace=True)


In [22]:
df_ff

Unnamed: 0,SG_UF,NM_URNA_CANDIDATO,QT_VOTOS_NOMINAIS
50,SP,JAIR BOLSONARO,14216587
21,MG,LULA,6190960
9,BA,LULA,6097815
36,RJ,JAIR BOLSONARO,5403894
34,PR,JAIR BOLSONARO,4159343
11,CE,LULA,3807891
44,RS,JAIR BOLSONARO,3733185
31,PE,LULA,3640933
46,SC,JAIR BOLSONARO,3047630
19,MA,LULA,2668425


In [47]:
# E por último vamos mandar este DataFrame para um arquivo css.

# Este arquivo irá servir de referencia para criação de um mapa no Power Bi,
# onde vamos enxergar de uma maneira mais visual.

df_ff.to_csv('map.csv', sep=';', index=False)