<a href="https://colab.research.google.com/github/DamodaraBarbosa/eleicoes_ceara_2022/blob/main/05_exploratory_analysis_eleicoes_ceara_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

# 1. Carregando os dados no *dataframe*

In [2]:
votacao_ce = pd.read_csv(
    '/content/drive/MyDrive/Datasets/votacao_secao_2022_CE_tratado.csv',
    sep= ',', encoding= 'latin-1'
)

In [3]:
votacao_ce.head(3)

Unnamed: 0,nm_municipio,nr_zona,nr_secao,ds_cargo,nr_votavel,nm_votavel,qt_votos
0,FORTALEZA,94,6,DEPUTADO FEDERAL,4444,HEITOR RODRIGO PEREIRA FREIRE,4
1,RUSSAS,9,266,DEPUTADO FEDERAL,4444,HEITOR RODRIGO PEREIRA FREIRE,13
2,PARAIPABA,109,119,DEPUTADO FEDERAL,4444,HEITOR RODRIGO PEREIRA FREIRE,3


# 2. Informações do *dataframe*

## 2.1 Dimensões do *dataframe*

In [4]:
f'O dataframe contém {votacao_ce.shape[1]} colunas e {votacao_ce.shape[0]} linhas.'

'O dataframe contém 7 colunas e 2509903 linhas.'

## 2.2 Infos do *dataframe*

In [5]:
votacao_ce.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2509903 entries, 0 to 2509902
Data columns (total 7 columns):
 #   Column        Dtype 
---  ------        ----- 
 0   nm_municipio  object
 1   nr_zona       int64 
 2   nr_secao      int64 
 3   ds_cargo      object
 4   nr_votavel    int64 
 5   nm_votavel    object
 6   qt_votos      int64 
dtypes: int64(4), object(3)
memory usage: 134.0+ MB


## 2.3 Dados faltantes

É importante identificar a presença de dados faltantes ("not a number" ou `NaN`).

In [6]:
votacao_ce.isna().sum()

nm_municipio    0
nr_zona         0
nr_secao        0
ds_cargo        0
nr_votavel      0
nm_votavel      0
qt_votos        0
dtype: int64

Não há em nenhuma das colunas do conjunto de dados a presença de dados faltantes.

## 2.4 Presença de dados duplicados

Para integridade dos dados também é importante detectar se há dados duplicados. Para isso:

In [7]:
votacao_ce.loc[votacao_ce.duplicated()]

Unnamed: 0,nm_municipio,nr_zona,nr_secao,ds_cargo,nr_votavel,nm_votavel,qt_votos


Não há dados duplicados no conjunto de dados.

# 3. Tratamento dos dados

Os dados referentes às zonas e seções eleitorais apesar serem valores numéricos, são valores categóricos. Portanto, é possível converter esses dados para *string*.

In [8]:
# Transformação dos dados da coluna nr_zona para string:

votacao_ce['nr_zona'] = votacao_ce['nr_zona'].astype(str)

# O mesmo para coluna nr_secao:

votacao_ce['nr_secao'] = votacao_ce['nr_secao'].astype(str)

In [9]:
votacao_ce.dtypes

nm_municipio    object
nr_zona         object
nr_secao        object
ds_cargo        object
nr_votavel       int64
nm_votavel      object
qt_votos         int64
dtype: object

# 4. Análise exploratória dos dados

## 4.1 Coluna `nm_municipio`

### 4.1.1 Número de municípios cearenses

In [10]:
f"Há {votacao_ce['nm_municipio'].nunique()} municípios cearenses na base de dados."

'Há 184 municípios cearenses na base de dados.'

### 4.1.2 Frequência dos municípios na base de dados

Por serem 184 municípios na base de dados, é adequado reduzir o escopo da análise. Portanto, opta-se por visualizar apenas os vinte municípios que aparecem mais na base de dados, mas também os vinte que menos aparecem.


* Tabela com a frequência absoluta e percentual:

In [11]:
# A tabela mostra a frequência absoluta e o percentual dos municípios no conjunto de dados:

pd.DataFrame(
    {'Frequência absoluta': votacao_ce.value_counts('nm_municipio', ascending= False).head(20),
    'Percentual': round(votacao_ce.value_counts('nm_municipio', ascending= False, normalize= True).head(20) * 100, 2)}
)

Unnamed: 0_level_0,Frequência absoluta,Percentual
nm_municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
FORTALEZA,951899,37.93
CAUCAIA,102428,4.08
JUAZEIRO DO NORTE,73565,2.93
MARACANAÚ,70845,2.82
SOBRAL,48304,1.92
CRATO,33408,1.33
ITAPIPOCA,31179,1.24
MARANGUAPE,29749,1.19
QUIXADÁ,22474,0.9
IGUATU,21724,0.87


* Análise gráfica da distribuição dos municípios cearenses:

In [12]:
fig = px.bar(
    x= votacao_ce.value_counts('nm_municipio', ascending= True).tail(20).values,
    y= votacao_ce.value_counts('nm_municipio', ascending= True).tail(20).keys(),
    text= votacao_ce.value_counts('nm_municipio', ascending= True).tail(20).values,
    title= 'Os municípios com as maiores distribuições de frequência na base de dados'
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Municípios', xaxis_title= 'Frequência')
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

* O município de Fortaleza, capital do Ceará, é o município com maior distribuição de frequência na base de dados. Sendo mais de nove vezes maior do que Caucaia, o segundo município com mais aparições.

In [13]:
fig = px.bar(
    x= votacao_ce.value_counts('nm_municipio', ascending= False).tail(20).values,
    y= votacao_ce.value_counts('nm_municipio', ascending= False).tail(20).keys(),
    text= votacao_ce.value_counts('nm_municipio', ascending= False).tail(20).values,
    title= 'Os municípios com as menores distribuições de frequência na base de dados',
    color_discrete_sequence= ['red']
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Municípios', xaxis_title= 'Frequência')
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

## 4.2 Coluna `nr_zona`

### 4.2.1 Número de zonas eleitorais no estado do Ceará

In [14]:
f"Há {votacao_ce['nr_zona'].nunique()} zonas eleitorais no estado do Ceará."

'Há 109 zonas eleitorais no estado do Ceará.'

### 4.2.2 Número de zonas eleitorais nos municípios cearenses

In [15]:
# Determina-se o nº de zonas eleitorais diferentes para cada município cearense:

zonas_por_municipio = pd.DataFrame({'numero_de_zonas': votacao_ce.groupby('nm_municipio')['nr_zona'].nunique().sort_values(ascending= False).head(10)})

In [16]:
fig = px.bar(
    data_frame= zonas_por_municipio,
    x= 'numero_de_zonas', text= 'numero_de_zonas',
    title= 'Os municípios cearenses com mais zonas eleitorais'
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Município', xaxis_title= 'Número de zonas eleitorais',
                  yaxis= dict(autorange= 'reversed')) # inverte a ordem dos dados no eixo y
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

* Fortaleza, Caucaia, Sobral, Juazeiro do Norte e Maracanaú são os únicos municípios do Ceará com mais de uma zona eleitora. A capital se destaca com 17 zonas eleitorais. Os demais municípios do estado possuem apenas 1 zona eleitoral.

### 4.2.3 Número de eleitores por zona eleitoral

Selecionam-se apenas os dados referentes a um dos cargos disputados. Os dados são agrupados em `nr_zona` e `ds_cargo`. Somam-se os votos por zona e a tabela é ordenada para que apareçam as vinte zonas com mais votos.

In [17]:
# Selecionam-se apenas os dados aos cargos de governador para determinar o nº de eleitores por zona eleitoral:

eleitores_por_zona_eleitoral = votacao_ce.query('ds_cargo == "GOVERNADOR"')\
                                         .groupby(['nr_zona', 'ds_cargo'])['qt_votos'].sum()\
                                         .sort_values(ascending= False)\
                                         .head(20).to_frame()

# Os index da tabela são resetados, ou seja, são transformados em coluna:

eleitores_por_zona_eleitoral = eleitores_por_zona_eleitoral.reset_index()

# A coluna ds_cargo não é relevante para a análise e é, portanto, removida:

eleitores_por_zona_eleitoral = eleitores_por_zona_eleitoral.drop('ds_cargo', axis= 1)
eleitores_por_zona_eleitoral.head()

Unnamed: 0,nr_zona,qt_votos
0,1,105606
1,119,104314
2,112,98933
3,116,98194
4,83,95862


In [18]:
fig = px.bar(
    data_frame= eleitores_por_zona_eleitoral,
    y= 'nr_zona',
    x= 'qt_votos',
    text= 'qt_votos',
    title= 'As zonas eleitorais com mais eleitores no Ceará'
)
fig.update_layout(
    title= {'x': 0.5}, yaxis_title= 'Nº da zona eleitoral', 
    xaxis_title= 'Quantidade de eleitores', yaxis= dict(autorange= 'reversed'),
)
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

#### 4.2.3.1 Municípios em que se encontram as zonas eleitorais com mais eleitores

In [19]:
zonas_eleitorais = eleitores_por_zona_eleitoral['nr_zona']

A coluna `nr_zona` do *dataframe* `eleitores_por_zona_eleitoral` é armazenada numa nova variável. 

Os municípios com as zonas eleitorais com mais eleitores são:

In [20]:
votacao_ce.query('nr_zona in @zonas_eleitorais')['nm_municipio'].unique()

array(['FORTALEZA', 'ITAPIPOCA', 'IGUATU', 'QUIXELÔ', 'JUAZEIRO DO NORTE',
       'SOBRAL', 'TURURU', 'CEDRO', 'ALCÂNTARAS', 'MERUOCA', 'JARDIM'],
      dtype=object)

## 4.3 Coluna `nr_secao`

### 4.3.1 Número de seções na base de dados

In [21]:
f"Há {votacao_ce['nr_secao'].nunique()} seções eleitorais na base de dados."

'Há 938 seções eleitorais na base de dados.'

### 4.3.2 Número de seções por cidade do estado

#### 4.3.2.1 As cidades do estado com mais seções eleitorais

In [22]:
cidades_mais_secoes = pd.DataFrame({'numero_de_secoes': votacao_ce.groupby('nm_municipio')['nr_secao'].nunique().sort_values(ascending= False).head(20)})
cidades_mais_secoes.head()

Unnamed: 0_level_0,numero_de_secoes
nm_municipio,Unnamed: 1_level_1
FORTALEZA,937
CAUCAIA,448
SOBRAL,430
JUAZEIRO DO NORTE,398
MARACANAÚ,386


In [23]:
fig = px.bar(
    data_frame= cidades_mais_secoes,
    x= 'numero_de_secoes',
    y= cidades_mais_secoes.index,
    text= 'numero_de_secoes',
    title= 'As cidades com mais seções eleitorais no Ceará' 
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Município', xaxis_title= 'Número de seções eleitorais',
                  yaxis= dict(autorange= 'reversed'))
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

#### 4.3.2.2 As cidades do estado com menos seções eleitorais

In [24]:
cidades_menos_secoes = pd.DataFrame({'numero_de_secoes': votacao_ce.groupby('nm_municipio')['nr_secao'].nunique().sort_values().head(20)})
cidades_menos_secoes.head()

Unnamed: 0_level_0,numero_de_secoes
nm_municipio,Unnamed: 1_level_1
GRANJEIRO,20
POTIRETAMA,21
SENADOR SÁ,21
ERERÉ,21
GUARAMIRANGA,22


In [25]:
fig = px.bar(
    data_frame= cidades_menos_secoes,
    x= 'numero_de_secoes',
    y= cidades_menos_secoes.index,
    text= 'numero_de_secoes',
    color_discrete_sequence= ['red'],
    title= 'As cidades com menos seções eleitorais no Ceará'
    
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Município', xaxis_title= 'Número de seções eleitorais',
                  yaxis= dict(autorange= 'reversed'))
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

### 4.3.3 Número de eleitores por seção eleitoral

In [26]:
# Selecionam-se apenas os dados aos cargos de governador para determinar o nº de eleitores por zona eleitoral:

eleitores_por_secao_eleitoral = votacao_ce.query('ds_cargo == "GOVERNADOR"')\
                                  .groupby(['nr_secao', 'ds_cargo'])['qt_votos'].sum()\
                                  .sort_values(ascending= False)\
                                  .head(20).to_frame()

# Os index da tabela são resetados, ou seja, são transformados em coluna:

eleitores_por_secao_eleitoral = eleitores_por_secao_eleitoral.reset_index()

# A coluna ds_cargo não é relevante para a análise e é, portanto, removida:

eleitores_por_secao_eleitoral = eleitores_por_secao_eleitoral.drop('ds_cargo', axis= 1)
eleitores_por_secao_eleitoral.head()

Unnamed: 0,nr_secao,qt_votos
0,1,19667
1,97,19455
2,88,19212
3,30,19139
4,94,19025


In [27]:
fig = px.bar(
    data_frame= eleitores_por_secao_eleitoral,
    y= 'nr_secao',
    x= 'qt_votos',
    text= 'qt_votos',
    title= 'As seções com mais eleitores no estado do Ceará'
)
fig.update_layout(title= {'x': 0.5}, yaxis_title= 'Nº da seção eletoral', xaxis_title= 'Quantidade de eleitores', yaxis= dict(autorange= 'reversed'))
fig.update_traces(textfont_size=12, textangle=0, textposition="outside", cliponaxis=False)
fig.show()

#### 4.3.3.1 Municípios em que se encontram as seções eleitorais com mais eleitores

In [28]:
secoes_eleitorais = eleitores_por_secao_eleitoral['nr_secao']

Quando os valores são consultados na base de dados, tem-se os municípios:

In [29]:
votacao_ce.query('nr_secao in @secoes_eleitorais')['nm_municipio'].unique()

array(['ITAPIPOCA', 'PEDRA BRANCA', 'TIANGUÁ', 'MARANGUAPE', 'FORTALEZA',
       'QUIXERAMOBIM', 'LAVRAS DA MANGABEIRA', 'ANTONINA DO NORTE',
       'CAMOCIM', 'MISSÃO VELHA', 'AQUIRAZ', 'UBAJARA', 'JAGUARETAMA',
       'IGUATU', 'ICÓ', 'BREJO SANTO', 'CASCAVEL', 'MASSAPÊ',
       'ALCÂNTARAS', 'MARACANAÚ', 'CARIRÉ', 'SOBRAL', 'IPU',
       'JUAZEIRO DO NORTE', 'COREAÚ', 'TAUÁ', 'BARBALHA', 'ALTANEIRA',
       'BEBERIBE', 'BAIXIO', 'IBIAPINA', 'PACAJUS', 'CAUCAIA', 'ARARIPE',
       'APUIARÉS', 'GUARACIABA DO NORTE', 'ITAPAJÉ', 'CRATO', 'CARIDADE',
       'PARACURU', 'MILAGRES', 'ARACOIABA', 'MORADA NOVA', 'CAMPOS SALES',
       'BATURITÉ', 'IBARETAMA', 'SANTANA DO CARIRI', 'ARACATI',
       'IPUEIRAS', 'IPAUMIRIM', 'RERIUTABA', 'PACATUBA',
       'SÃO GONÇALO DO AMARANTE', 'NOVA RUSSAS', 'TAMBORIL', 'AMONTADA',
       'QUITERIANÓPOLIS', 'TRAIRI', 'ACARAPE', 'CRUZ', 'QUIXADÁ',
       'RUSSAS', 'ERERÉ', 'LIMOEIRO DO NORTE', 'REDENÇÃO', 'AIUABA',
       'CRATEÚS', 'JAGUARUANA', 'ARATUBA'

## 4.4 Coluna `ds_cargo`

Os cargos eleitorais presentes na base de dados são:

In [30]:
votacao_ce['ds_cargo'].unique()

array(['DEPUTADO FEDERAL', 'DEPUTADO ESTADUAL', 'SENADOR', 'GOVERNADOR'],
      dtype=object)

## 4.5 Coluna `nm_votavel`

O número de candidatos, independente dos cargos, em toda a base de dados:

In [31]:
f"A base de dados contém {votacao_ce['nm_votavel'].nunique()} candidatos diferentes pleiteando um dos cargos da eleição de 2022."

'A base de dados contém 928 candidatos diferentes pleiteando um dos cargos da eleição de 2022.'

# 5. Contribuição dos municípios para o panorama geral de votos no estado

## 5.1 Todos os municípios cearenses

In [35]:
# Para determinar a contribuição de cada município primeiramente seleciona-se um dos cargos disputados, no caso, o cargo de governador:

numero_votos_totais = votacao_ce.query('ds_cargo == "GOVERNADOR"')['qt_votos'].sum() # os votos são somados.

# E são mostrados abaixo:

numero_votos_totais

5623450

In [37]:
# Como o cargo a governador foi escolhido, selecionam-se os dados referentes apenas a este cargo: 

governador = votacao_ce.query('ds_cargo == "GOVERNADOR"')

# A porcentagem de votos que cada município representa para o total de votos da eleição é calculada:

porcentagem_total_votos_por_municipio = governador.groupby('nm_municipio')['qt_votos'].sum()/numero_votos_totais

# Os valores são convertidos em porcentagem e ordenados em ordem decrescente:

votos_porcentagem_municipio = round(porcentagem_total_votos_por_municipio * 100, 2) # os valores são convertidos em porcentagem.
votos_porcentagem_municipio = pd.DataFrame(votos_porcentagem_municipio.sort_values(ascending= False)) # ordenam-se os dados do maior para o menor.

votos_porcentagem_municipio.head()

Unnamed: 0_level_0,qt_votos
nm_municipio,Unnamed: 1_level_1
FORTALEZA,27.74
CAUCAIA,3.61
JUAZEIRO DO NORTE,2.75
MARACANAÚ,2.64
SOBRAL,2.23


In [39]:
fig = go.Figure()
fig.add_trace(
    go.Waterfall(x= votos_porcentagem_municipio.index, y= votos_porcentagem_municipio['qt_votos'])
)
fig.update_layout(
    title= 'Porcentagem de votos de cada município cearense em relação ao total de votos da eleição',
    title_x= 0.5, yaxis_title= 'Porcentagem', xaxis_title= 'Municípios'
)
fig.show()

* Fortaleza, capital do estado, sozinha corresponde a mais de um quarto dos votos (27,74%) e é seguida por outras cidades importantes como Caucaia (3,61%), Juazeiro do Norte (2,75%), Maracanaú (2,64%) e Sobral (2,23%).

## 5.2 Municípios da Região Metropolitana de Fortaleza

In [41]:
regiao_metropolitana = [
    'AQUIRAZ', 'CASCAVEL', 'CAUCAIA', 'CHOROZINHO', 'EUSÉBIO', 
    'FORTALEZA', 'GUAIÚBA', 'HORIZONTE', 'ITAITINGA', 'MARACANAÚ', 
    'MARANGUAPE', 'PACAJUS', 'PACATUBA', 'PINDORETAMA', 
    'SÃO GONÇALO DO AMARANTE', 'SÃO LUÍS DO CURU',
    'PARAIPABA', 'PARACURU', 'TRAIRI'
]

In [47]:
# Os votos para cada município da região metropolitana são determinados agrupando-os e somando os votos:

votos_por_cidade_regiao_metropolitana = governador.query('nm_municipio in @regiao_metropolitana')\
                                                  .groupby('nm_municipio')['qt_votos'].sum()\
                                                  .sort_values(ascending= False).to_frame()

# Também determinam-se o número total de votos em toda a região metropolitana:

votos_totais_regiao_metropolitana = votos_por_cidade_regiao_metropolitana['qt_votos'].sum()
print(f'A Região Metropolitana de Fortaleza concentra um total de {votos_totais_regiao_metropolitana} votos.')

A Região Metropolitana de Fortaleza concentra um total de 2468270 votos.


In [48]:
# Uma nova coluna é adicionada ao dataframe votos_por_cidade_regiao_metropolitana com os dados da porcentagem de votos de cada município em relação aos
# votos totais na Região Metropolitana de Fortaleza:

votos_por_cidade_regiao_metropolitana['porcentagem_votos_da_regiao'] = votos_por_cidade_regiao_metropolitana['qt_votos']/votos_totais_regiao_metropolitana
votos_por_cidade_regiao_metropolitana['porcentagem_votos_da_regiao'] = round((votos_por_cidade_regiao_metropolitana['porcentagem_votos_da_regiao'] * 100), 2)

In [49]:
fig = go.Figure()
fig.add_trace(
    go.Waterfall(
        x= votos_por_cidade_regiao_metropolitana.index, 
        y= votos_por_cidade_regiao_metropolitana['porcentagem_votos_da_regiao'])
)
fig.update_layout(
    title= 'Contribuição de votos, em porcentagem, dos municípios na Região Metropolitana de Fortaleza',
    title_x= 0.5, yaxis_title= 'Porcentagem', xaxis_title= 'Municípios'
)
fig.show()

* A cidade de Fortaleza sozinha é responsável por mais de 60% dos votos na Região Metropolitana de Fortaleza. É seguida pelos municípios de Caucaia (8,23%), Maracanaú (6,02%) e Maranguape (2,77%).