# **Especialização em Ciência de Dados - INF/UFRGS e SERPRO**
# **Análise Visual e Interativa Sobre o Discurso de Ódio nas Redes Sociais e Influência nas Eleições Brasileiras**
#### *Prof <sup>as</sup>. Viviane P. Moreira e Lisiane Selau*
<br>

---

***Trabalho de Conclusão de Curso – Turma 03***

*Aluno:*

* Antonio Fagner Santos de Oliveira 576637
---

_Este notebook trabalha a carga e o pré-processamento dos dados das eleições gerais brasileiras de 2018 e 2022._

_O pré-processamento inclui etapas como limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias._

## 1 Dicionário de Dados

### 1.1 Arquivo votacao_partido_munzona_[2018|2022]_BRASIL.parquet

Agregação da votação dos partidos por zona eleitoral dos municípios.

---
- ***DT_GERACAO*** - Data da extração dos dados para geração do arquivo, formato "DD/MM/YYYY";
- ***HH_GERACAO*** - Hora da extração dos dados para geração do arquivo com base no horário de Brasília, formato "H24:Mi:SS";
- ***ANO_ELEICAO*** - Ano de referência da eleição para geração do arquivo. Observação: para eleições suplementares o ano de referência da eleição é o da eleição ordinária correspondente, format "YYYY";
- ***CD_TIPO_ELEICAO*** - Código do tipo de eleição. Pode assumir os valores:
  
> 1 - Eleição Suplementar;
>
> 2 - Eleição Ordinária e;
>
> 3 - Consulta Popular.
>
- ***NM_TIPO_ELEICAO*** - Nome do tipo de eleição.
  
> 1 - **Eleição Suplementar** - eleições que não têm periodicidade pré-determinada ou definida e ocorrem quando, eventualmente, se fizerem necessárias.
>
> 2 - **Eleição Ordinária** - eleições ordinárias onde são eleitos os cargos de ***Presidente, Governadores, Deputados (Federais e Estaduais) e Senadores***. Nas eleições ordinárias municipais são eleitos os cargos de ***Prefeito e Vereadores***.
>
> 3 - **Consulta Popular** - eleições que ocorrem sempre que a população é convocada a opinar diretamente sobre um assunto específico e importante. Ela pode ser realizada de duas formas: ***plebiscito*** (quando o cidadão opina previamente sobre a possível criação de uma lei) e ***referendo*** (quando uma lei aprovada por um órgão legislativo é submetida à aceitação ou não das eleitoras e dos eleitores).

- ***NR_TURNO*** - Número do turno da eleição.
  
> 1 - **Primeiro Turno**;
>
> 2 - **Segundo Turno**.

_Nos municípios cujo eleitorado é igual ou menor que 200 mil e para o cargo de Senador elege-se a candidata ou o candidato que tenha alcançado a maioria simples dos votos._

- ***CD_ELEICAO*** - Código único da eleição no âmbito da Justiça Eleitoral. Observação: este código é único por eleição e por turno, ou seja, cada turno possui seu código de eleição.
- ***DS_ELEICAO*** - Descrição da eleição.
- ***DT_ELEICAO*** - Data em que ocorreu a eleição, formato "DD/MM/YYYY".
- ***TP_ABRANGENCIA*** - Abrangência da eleição.
  
> **M** - Municipal;
>
> **E** - Estadual e;
>
> **F** - Federal.

*As eleições realizadas na circunscrição Municipal são as eleições para os cargos de Prefeito, Vice-Prefeito e Vereador; as realizadas na circunscrição Estadual são para os cargos de Governador, Vice-Governador, Senador, Deputado Estadual, Deputado Federal e Deputado Distrital e; as realizadas na circunscrição Federal são para os cargos de Presidente e Vice-Presidente da República.*
- ***SG_UF*** - Sigla da Unidade da Federação em que ocorreu a eleição.
- ***SG_UE*** - Sigla da Unidade Eleitoral em que a candidata ou o candidato concorre na eleição. A Unidade Eleitoral representa a Unidade da Federação ou o Município em que a candidata ou o candidato concorre na eleição e é relacionada à abrangência territorial desta candidatura. Em caso de abrangência Federal (cargo de Presidente e Vice-Presidente) a sigla é ***BR***, em caso de abrangência Estadual (cargos de Governador, Vice-Governador, Senador, Deputado Federal, Deputado Estadual e Deputado Distrital) a sigla é a ***UF da candidatura*** e em caso de abrangência Municipal (cargos de Prefeito, Vice-Prefeito e Vereador) é o ***código TSE de identificação do município da candidatura***.
- ***NM_UE*** - Nome da Unidade Eleitoral. Em caso de eleição majoritária é a **sigla da UF** que a candidata ou o candidato concorre e em caso de eleição municipal é o **código TSE do município (número)**. Assume os valores especiais **BR, ZZ e VT** para designar, respectivamente, o Brasil, Exterior e Voto em Trânsito.
- ***CD_MUNICIPIO*** - Código TSE do município onde ocorreu a eleição.
- ***NM_MUNICIPIO*** - Nome do município onde ocorreu a eleição.
- ***NR_ZONA*** - Número da zona onde ocorreu a eleição.
- ***CD_CARGO*** - Código do cargo da candidata ou candidato.

> **1** - Presidente
>
> **3** - Governador
>
> **5** - Senador
>
> **6** - Deputado Federal
>
> **7** - Deputado Estadual
>
> **8** - Deputado Distrital
>
> **25** - Conselheiro Distrital

- ***DS_CARGO*** - Descrição do cargo da candidata ou candidato.
- ***TP_AGREMIACAO*** - Tipo de agremiação da candidatura da candidata ou do candidato, ou seja, forma como a candidata ou o candidato concorrerá nas eleições. Pode assumir os valores:

> **Federação** - quando a candidata ou candidato concorre por uma federação;
>
> **Coligação** - quando a candidata ou o candidato concorre por coligação e;
>
> **Partido Isolado** - quando a candidata ou o candidato concorre somente pelo partido.

- ***NR_PARTIDO*** - Número do partido de origem da candidata ou candidato.
- ***SG_PARTIDO*** - Sigla do partido de origem da candidata ou candidato.
- ***NM_PARTIDO*** - Nome do partido de origem da candidata ou candidato.
- ***NR_FEDERACAO*** - Número da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***NM_FEDERACAO*** - Nome da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***SG_FEDERACAO*** - Sigla da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***DS_COMPOSICAO_FEDERACAO*** - Composição da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***SQ_COLIGACAO*** - Sequencial da coligação da qual a candidata ou candidato pertence, gerado pela Justiça Eleitoral.
- ***NM_COLIGACAO*** - Nome da coligação da qual a candidata ou candidato pertence.
- ***DS_COMPOSICAO_COLIGACAO*** - Composição da coligação da qual a candidata ou candidato pertence. Observação: Coligação é a união de dois ou mais partidos a fim de disputarem eleições. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***ST_VOTO_EM_TRANSITO*** - Situação que indica se o quantitativo de votos se refere a voto em trânsito. Podendo assumir os valores: "**S**" - Sim ou "**N**" - Não;
- ***QT_VOTOS_LEGENDA_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_CONVR_LEG*** - Quantidade de votos válidos dados à candidata ou ao candidato a cargos proporcionais que, por decisão judicial, se tornaram votos para a legenda ao qual concorriam totalizados para aquele partido e cargo naquele município e zona;
- ***QT_TOTAL_VOTOS_LEG_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_VALIDOS*** - Quantidade de votos nominais válidos totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_LEGENDA_ANUL_SUBJUD*** - Quantidade de votos dados em legenda anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_ANUL_SUBJUD*** - Quantidade de votos dados à candidata ou ao candidato anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;


### 1.2 Arquivo partidos_br.parquet

Dados dos partidos políticos brasileiros.

---
- ***SG_PARTIDO*** - Sigla do partido político.
- ***MEDIA_IDEOL*** - Pontuação ideológica para cada partido onde mais próximo de 0 significa extrema esquerda e próximo de 10 extrema direita.
- ***NOME*** - Nome do partido político no TSE.
- ***NR_PARTIDO*** - Número do partido conforme o TSE.
- ***POSIC_IDEOLOGICO*** - Nome extenso do posicionamento ideológico do partido.
  
> **Extrema Esquerda**
>
> **Esquerda**
>
> **Centro Esquerda**
>
> **Centro**
>
> **Centro Direita**
>
> **Direita**
>
> **Extrema Direita**

- ***SG_POSIC_IDEOLOGICO*** - Sigla associada a cada `POSIC_IDEOLOGICO`.

> **EE** - Extrema Esquerda
>
> **E** - Esquerda
>
> **CE** - Centro Esquerda
>
> **C** - Centro
>
> **CD** - Centro Direita
>
> **D** - Direita
>
> **ED** - Extrema Direita

O posicionamento ideológico é baseado no artigo *BOLOGNESI, Bruno; RIBEIRO, Ednaldo; CODATO, Adrian.Uma Nova Classificação Ideológica dos Partidos Políticos Brasileiros. DADOS, Rio de Janeiro, vol.67 (2), p. 14, 2023.*

### 1.3 Arquivo municipios_brasileiros_tse.parquet


Lista de municípios brasileiros segundo o TSE.

---
- ***codigo_tse*** - código do município na base do TSE. Este campo faz a ligação com o campo CD_MUNICIPIO do arquivo votacao_partido_munzona_2022_BRASIL.parquet;
- ***uf*** - sigla da UF do município;
- ***nome_municipio*** - nome do município na base do TSE;
- ***capital*** - 1 indica que o município é capital do seu estado;
- ***codigo_ibge*** - código do município na base do IBGE. Este código é importante porque na base do TSE pode-se encontrar a localização geográfica do município.

### 1.4 Arquivo municipios_ibge_lat_long.csv

Lista de municípios brasileiros com códigos do IBGE e suas latitudes e longitudes.

---
- ***codigo_ibge*** - código do município na base do IBGE. Este campo faz a ligação com a tabela de municípios do TSE;
- ***nome*** - nome do município na base do IBGE.
- ***latitude*** - latitude do município;
- ***longitude*** - longitude do município;
- ***capital*** - 1 indica que o município é capital;
- ***codigo_uf*** - código da UF do município na base do IBGE;
- ***siafi_id*** - código do município dentro do sistema de contabilidade do governo federal (siafi);
- ***ddd*** - código de discagem a longa distância do município;
- ***fuso_horario*** - descrição do fuso horário em que o município se encontra.

### 1.5 Arquivo regioes.parquet

Arquivo de estados por grandes regiões brasileiras

---

- ***UF*** - sigla da UF;
- ***SG_REGIAO*** - sigla da região da UG;
- ***NM_REGIAO*** - nome da região.


## 2 Pré-processamento dos Dados

Limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias.

---

In [1]:
#instalando a versão do pacote de visualização Vega-Altair com a mesma versão que os plots foram construídos
!pip install altair=="5.4.1"

Collecting altair==5.4.1
  Downloading altair-5.4.1-py3-none-any.whl.metadata (9.4 kB)
Downloading altair-5.4.1-py3-none-any.whl (658 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m658.1/658.1 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: altair
  Attempting uninstall: altair
    Found existing installation: altair 5.5.0
    Uninstalling altair-5.5.0:
      Successfully uninstalled altair-5.5.0
Successfully installed altair-5.4.1


In [2]:
#ajustando para pegar os dados no drive
import os
drive_root:str = "/content/drive" #root do drive da pessoa que está rodando o notebook
tcc_dir:str =  "/content/drive/MyDrive/TCC" #atalho criado no drive da pessoa que roda o notebook para a pasta compartilhada por Fagner Oliveira

In [3]:
#montagem do drive da pessoa para ficar visível no colab
from google.colab import drive
drive.mount(drive_root, force_remount=True)

Mounted at /content/drive


In [4]:
#troca o diretório atual da aplicação para podermos carregar o módulo standards criado por Fagner Oliveira
os.chdir(os.path.join(tcc_dir, "Eleicoes") )

In [5]:
import polars as pl
import altair as alt
import numpy as np
import standards as sdt_f


In [6]:
root:str = "../Dados/Eleicoes/"
poll_18:str = "votacao_partido_munzona_2018_BRASIL.parquet"
poll_22:str = "votacao_partido_munzona_2022_BRASIL.parquet"
regions:str = "regioes.parquet"
tse_cities:str = "municipios_brasileiros_tse.parquet"
ibge_cities:str = "municipios_ibge_lat_long.parquet"
parties:str = "partidos_br.parquet"

### 2.1 Dados eleitorais

https://medium.com/@danilo.dct/the-importance-of-data-validation-in-data-analysis-a-six-step-guide-2be645a064f3

---

#### Carga dos partidos políticos e seu posicionamento ideológico

In [7]:
df_partidos:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, parties))

In [8]:
df_partidos = df_partidos.with_columns(
    pl.col("POSIC_IDEOLOGICO").str.to_titlecase()
)

In [9]:
# criando um resumo do posicionamento político-ideológico
df_partidos = (
  df_partidos
  .with_columns(
      pl.when(pl.col("SG_POSIC_IDEOLOGICO").is_in(["EE","E","CE"])).then(pl.lit("E")).otherwise(
        pl.when(pl.col("SG_POSIC_IDEOLOGICO").is_in(["CD","D","ED"])).then(pl.lit("D")).otherwise(pl.lit("C"))
        ).alias("RES_IDEOLOGICO"),

      pl.when(pl.col("SG_POSIC_IDEOLOGICO").is_in(["EE","E","CE"])).then(pl.lit("Esquerda")).otherwise(
        pl.when(pl.col("SG_POSIC_IDEOLOGICO").is_in(["CD","D","ED"])).then(pl.lit("Direita")).otherwise(pl.lit("Centro"))
        ).alias("NOME_RES_IDEOLOGICO")
      )
)

In [10]:
df_partidos

SG_PARTIDO,SG_PARTIDO_INFO,MEDIA_IDEOL,NOME,NR_PARTIDO,POSIC_IDEOLOGICO,SG_POSIC_IDEOLOGICO,Observação,Fonte espectro,RES_IDEOLOGICO,NOME_RES_IDEOLOGICO
str,str,str,str,i64,str,str,str,str,str,str
"""PSTU""","""PSTU""","""0,51""","""PARTIDO SOCIALISTA DOS TRABALH…",16,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""E""","""Esquerda"""
"""PCO""","""PCO""","""0,61""","""PARTIDO DA CAUSA OPERÁRIA""",29,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""E""","""Esquerda"""
"""UP""","""UP""","""0,76""","""UNIDADE POPULAR""",80,"""Extrema Esquerda""","""EE""","""Como não havia sido fundado e …","""BOLOGNESI, Bruno; RIBEIRO, Edn…","""E""","""Esquerda"""
"""PCB""","""PCB""","""0,91""","""PARTIDO COMUNISTA BRASILEIRO""",21,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""E""","""Esquerda"""
"""PSOL""","""PSOL""","""1,28""","""PARTIDO SOCIALISMO E LIBERDADE""",50,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""E""","""Esquerda"""
…,…,…,…,…,…,…,…,…,…,…
"""AGIR""","""AGIR""","""7,86""","""AGIR""",36,"""Direita""","""D""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""D""","""Direita"""
"""DC""","""DC""","""8,11""","""DEMOCRACIA CRISTÃ""",27,"""Direita""","""D""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""D""","""Direita"""
"""NOVO""","""NOVO""","""8,13""","""PARTIDO NOVO""",30,"""Direita""","""D""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""D""","""Direita"""
"""PP""","""PP""","""8,20""","""PROGRESSISTAS""",11,"""Direita""","""D""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…","""D""","""Direita"""


In [11]:
df_partidos.write_parquet(os.path.join(root, parties))

#### Carga dos dados da eleições de 2018 e 2022

In [12]:
## carrega os dados das eleições de 2018 e 2022
df_eleicoes_2018:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_18))
df_eleicoes_2022:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_22))

In [13]:
print(df_eleicoes_2018.shape)
print(df_eleicoes_2022.shape)

(607096, 36)
(525534, 36)


In [14]:
df_eleicoes_2018.glimpse()

Rows: 607096
Columns: 36
$ DT_GERACAO                    <str> '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023', '09/04/2023'
$ HH_GERACAO                    <str> '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32', '04:43:32'
$ ANO_ELEICAO                   <i64> 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018
$ CD_TIPO_ELEICAO               <i64> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2
$ NM_TIPO_ELEICAO               <str> 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária', 'Eleição Ordinária'
$ NR_TURNO                      <i64> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1
$ CD_ELEICAO                    <i64> 297, 297, 297, 297, 297, 297, 297, 297, 297, 297
$ DS_ELEICAO                    <str> 'Eleições Gerais Estaduais 2018', 'Ele

In [15]:
'''
    Faz a filtragem inicial nos arquivos das eleições:
    - Filtramos pelo ano da eleição [2018|2022];
    - Apenas eleição ordinária
    - Analisaremos somente o 1o turno
    - Remove os cargos de conselheiro distrital
    - Remove a abrangência municipal
    - Também, o retorno serão alguns campos necessários à análise:
        TP_ABRANGENCIA, SG_UF, SG_UE, NM_UE, CD_MUNICIPIO, NM_MUNICIPIO, NR_ZONA, CD_CARGO, DS_CARGO, NR_PARTIDO, SG_PARTIDO,
        NM_PARTIDO, QT_VOTOS_NOMINAIS_CONVR_LEG, QT_TOTAL_VOTOS_LEG_VALIDOS, QT_VOTOS_NOMINAIS_VALIDOS.
'''
def filter_poll(df:pl.DataFrame, year:int)->pl.DataFrame:
    return (
        df
            .filter(
                (pl.col("ANO_ELEICAO")==year) & (pl.col("CD_TIPO_ELEICAO")==2) &
                (pl.col("NR_TURNO")==1) & (pl.col("CD_CARGO")!=25) &
                (pl.col("TP_ABRANGENCIA").is_in(["E","F"]))
            )
          .select(pl.col("ANO_ELEICAO"), pl.col("SG_UF"), pl.col("CD_MUNICIPIO")
              , pl.col("NM_MUNICIPIO"), pl.col("NR_ZONA"), pl.col("CD_CARGO"), pl.col("DS_CARGO"), pl.col("NR_PARTIDO")
              , pl.col("SG_PARTIDO"), pl.col("NM_PARTIDO"), pl.col("QT_VOTOS_NOMINAIS_CONVR_LEG")
              , pl.col("QT_TOTAL_VOTOS_LEG_VALIDOS"), pl.col("QT_VOTOS_NOMINAIS_VALIDOS")
          )
    )

In [16]:
#filtra somente informações de primeiro turno de 2018 e 2022
df_poll_18_filtered = filter_poll(df_eleicoes_2018, 2018)
df_poll_22_filtered = filter_poll(df_eleicoes_2022, 2022)

In [17]:
df_poll_18_filtered.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_NOMINAIS_CONVR_LEG,QT_TOTAL_VOTOS_LEG_VALIDOS,QT_VOTOS_NOMINAIS_VALIDOS
i64,str,i64,str,i64,i64,str,i64,str,str,i64,i64,i64
2018,"""PE""",23132,"""ALIANÇA""",125,7,"""Deputado Estadual""",77,"""SOLIDARIEDADE""","""Solidariedade""",0,15,133
2018,"""PE""",26077,"""TORITAMA""",112,7,"""Deputado Estadual""",77,"""SOLIDARIEDADE""","""Solidariedade""",0,7,25


In [18]:
df_poll_22_filtered.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_NOMINAIS_CONVR_LEG,QT_TOTAL_VOTOS_LEG_VALIDOS,QT_VOTOS_NOMINAIS_VALIDOS
i64,str,i64,str,i64,i64,str,i64,str,str,i64,i64,i64
2022,"""RS""",89699,"""VICTOR GRAEFF""",117,6,"""Deputado Federal""",30,"""NOVO""","""Partido Novo""",0,0,69
2022,"""MT""",90484,"""CAMPO NOVO DO PARECIS""",60,6,"""Deputado Federal""",40,"""PSB""","""Partido Socialista Brasileiro""",0,16,625


- _Os datasets das eleições estão apenas com os campos necessários e registros de primeiro turno._

#### Registros duplicados

In [19]:
print(f"Total de registros duplicados em 2018: {df_poll_18_filtered.is_duplicated().sum()}")
print(f"Total de registros duplicados em 2022: {df_poll_22_filtered.is_duplicated().sum()}")

Total de registros duplicados em 2018: 0
Total de registros duplicados em 2022: 0


- _Nenhum registro duplicado nos dois datasets._

#### Valores nulos

In [20]:
df_poll_18_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

{'ANO_ELEICAO': 0,
 'SG_UF': 0,
 'CD_MUNICIPIO': 0,
 'NM_MUNICIPIO': 0,
 'NR_ZONA': 0,
 'CD_CARGO': 0,
 'DS_CARGO': 0,
 'NR_PARTIDO': 0,
 'SG_PARTIDO': 0,
 'NM_PARTIDO': 0,
 'QT_VOTOS_NOMINAIS_CONVR_LEG': 0,
 'QT_TOTAL_VOTOS_LEG_VALIDOS': 0,
 'QT_VOTOS_NOMINAIS_VALIDOS': 0}

In [21]:
df_poll_22_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

{'ANO_ELEICAO': 0,
 'SG_UF': 0,
 'CD_MUNICIPIO': 0,
 'NM_MUNICIPIO': 0,
 'NR_ZONA': 0,
 'CD_CARGO': 0,
 'DS_CARGO': 0,
 'NR_PARTIDO': 0,
 'SG_PARTIDO': 0,
 'NM_PARTIDO': 0,
 'QT_VOTOS_NOMINAIS_CONVR_LEG': 0,
 'QT_TOTAL_VOTOS_LEG_VALIDOS': 0,
 'QT_VOTOS_NOMINAIS_VALIDOS': 0}

- _Não há valores nulos nos datasets._

#### Tipos dos dados das eleições

In [22]:
[(column, df_poll_18_filtered.get_column(column).dtype) for column in df_poll_18_filtered.columns]

[('ANO_ELEICAO', Int64),
 ('SG_UF', String),
 ('CD_MUNICIPIO', Int64),
 ('NM_MUNICIPIO', String),
 ('NR_ZONA', Int64),
 ('CD_CARGO', Int64),
 ('DS_CARGO', String),
 ('NR_PARTIDO', Int64),
 ('SG_PARTIDO', String),
 ('NM_PARTIDO', String),
 ('QT_VOTOS_NOMINAIS_CONVR_LEG', Int64),
 ('QT_TOTAL_VOTOS_LEG_VALIDOS', Int64),
 ('QT_VOTOS_NOMINAIS_VALIDOS', Int64)]

In [23]:
[(column, df_poll_22_filtered.get_column(column).dtype) for column in df_poll_22_filtered.columns]

[('ANO_ELEICAO', Int64),
 ('SG_UF', String),
 ('CD_MUNICIPIO', Int64),
 ('NM_MUNICIPIO', String),
 ('NR_ZONA', Int64),
 ('CD_CARGO', Int64),
 ('DS_CARGO', String),
 ('NR_PARTIDO', Int64),
 ('SG_PARTIDO', String),
 ('NM_PARTIDO', String),
 ('QT_VOTOS_NOMINAIS_CONVR_LEG', Int64),
 ('QT_TOTAL_VOTOS_LEG_VALIDOS', Int64),
 ('QT_VOTOS_NOMINAIS_VALIDOS', Int64)]

- _Os tipos de dados parecem conforme o esperado._

#### Somatário de votos válidos por partido e cargo para cada município

- _Todos os campos de quantidade de votos podem ser somados pois são quantidade de votos válidos._

In [24]:
'''
    Somas as três colunas com votos válidos e, depois, reve-as do dataset
'''
def sum_suffrage(df:pl.DataFrame)->pl.DataFrame:
    return (df
      .with_columns(
          pl.sum_horizontal("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS").alias("QT_VOTOS_VALIDOS")
      )
      .drop("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS")
      .group_by(["ANO_ELEICAO",	"SG_UF", "CD_MUNICIPIO", "NM_MUNICIPIO", "CD_CARGO", "DS_CARGO", "NR_PARTIDO", "SG_PARTIDO",	"NM_PARTIDO"])
      .agg(pl.col("QT_VOTOS_VALIDOS").sum())
      .with_columns(
          (pl.col("QT_VOTOS_VALIDOS")/pl.col("QT_VOTOS_VALIDOS").sum().over(["CD_MUNICIPIO","CD_CARGO"])).alias("PERC_VOTOS"),
          pl.col("QT_VOTOS_VALIDOS").sum().over(["CD_MUNICIPIO","CD_CARGO"]).alias("QT_VOTOS_MUNIC")
      )
)

In [25]:
df_poll_18_filtered = sum_suffrage(df_poll_18_filtered)
df_poll_22_filtered = sum_suffrage(df_poll_22_filtered)

In [26]:
df_poll_18_filtered.glimpse()

Rows: 533564
Columns: 12
$ ANO_ELEICAO      <i64> 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018
$ SG_UF            <str> 'CE', 'MG', 'SP', 'SP', 'RS', 'MG', 'SE', 'RS', 'SP', 'SC'
$ CD_MUNICIPIO     <i64> 15539, 40487, 61620, 66990, 87513, 41181, 31615, 88625, 65757, 80438
$ NM_MUNICIPIO     <str> 'SÃO LUÍS DO CURU', 'NAQUE', 'TUIUTI', 'MIRACATU', 'MOSTARDAS', 'NOVORIZONTE', 'ITABI', 'BARRA DO QUARAÍ', 'ITIRAPUÃ', 'BENEDITO NOVO'
$ CD_CARGO         <i64> 6, 7, 6, 6, 1, 6, 7, 7, 1, 6
$ DS_CARGO         <str> 'Deputado Federal', 'Deputado Estadual', 'Deputado Federal', 'Deputado Federal', 'Presidente', 'Deputado Federal', 'Deputado Estadual', 'Deputado Estadual', 'Presidente', 'Deputado Federal'
$ NR_PARTIDO       <i64> 28, 11, 90, 45, 18, 23, 23, 11, 51, 31
$ SG_PARTIDO       <str> 'PRTB', 'PP', 'PROS', 'PSDB', 'REDE', 'PPS', 'PPS', 'PP', 'PATRI', 'PHS'
$ NM_PARTIDO       <str> 'Partido Renovador Trabalhista Brasileiro', 'Partido Progressista', 'Partido Republicano da Ordem

In [27]:
df_poll_22_filtered.glimpse()

Rows: 461077
Columns: 12
$ ANO_ELEICAO      <i64> 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022
$ SG_UF            <str> 'PR', 'RN', 'CE', 'RS', 'PI', 'BA', 'SP', 'MG', 'RO', 'SP'
$ CD_MUNICIPIO     <i64> 77755, 17159, 14893, 86711, 10235, 38431, 70416, 49476, 663, 69531
$ NM_MUNICIPIO     <str> 'PLANALTO', 'JOÃO DIAS', 'NOVO ORIENTE', 'GAURAMA', 'BARRAS', 'RODELAS', 'SANTA MARIA DA SERRA', 'PARAOPEBA', 'MONTE NEGRO', 'REGISTRO'
$ CD_CARGO         <i64> 3, 7, 1, 1, 6, 7, 3, 6, 1, 1
$ DS_CARGO         <str> 'Governador', 'Deputado Estadual', 'Presidente', 'Presidente', 'Deputado Federal', 'Deputado Estadual', 'Governador', 'Deputado Federal', 'Presidente', 'Presidente'
$ NR_PARTIDO       <i64> 55, 35, 13, 27, 65, 44, 29, 21, 80, 15
$ SG_PARTIDO       <str> 'PSD', 'PMB', 'PT', 'DC', 'PC do B', 'UNIÃO', 'PCO', 'PCB', 'UP', 'MDB'
$ NM_PARTIDO       <str> 'Partido Social Democrático', 'Partido da Mulher Brasileira', 'Partido dos Trabalhadores', 'Democracia Cristã', 'Partido Com

- _**"QT_VOTOS_VALIDOS"** contém o somatório de todos os votos válidos por partido e cargo no município;_

- _**"PERC_VOTOS"** corresponde ao percentual dos votos do cargo e partido em relação ao total de votos para aquele cargo no município;_

- _**"QT_VOTOS_MUNIC"** é o total de votos para o cargo no município._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [28]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Criar integração entre partidos que mudaram de nome ou se aglutinaram ou foram absorvidos por outros

Para 2018

In [29]:
set(df_poll_18_filtered.get_column("SG_PARTIDO")).difference(set(df_partidos.get_column("SG_PARTIDO")))

{'DEM',
 'PATRI',
 'PC do B',
 'PHS',
 'PMN',
 'PPS',
 'PR',
 'PRB',
 'PROS',
 'PRP',
 'PSC',
 'PSL',
 'PTB',
 'PTC'}

- _Alguns partidos da aleição de 2018 não estão na lista de partidos carregada, cada partido destes será analisado individualmente para classificação ideológica:_

> - _**DEM** fundiu-se com o **PSL** e gerou o **UNIÃO**;_
>
> - _**PATRI**, também conhecido como Patriota, fundiu-se com o **PTB** e gerou o **PRD**;_
>
> - _**PC do B** está na lista porque a sigla no dataset de partidos está **PCdoB**;_
>
> - _**PHS** foi incorporado ao **PODE(Podemos)**;_
>
> - _**PPL** foi extinto em 2019;_
>
> - _**PPS** virou **CIDADANIA** em 2019;_
>
> - _**PR** virou **PL** em 2019;_
>
> - _**PRB** virou **REPUBLICANOS** em 2019;_
>
> - _**PROS** foi incorporado ao **SOLIDARIEDADE** em 2022;_
>
> - _**PRP** foi incorporado ao **PATRIOTA** que se juntou ao **PTB** para formar o **PRD**;_
>
> - _**PSC** foi incorporado ao **PODE(Podemos)** em 2022;_
>
> - _**PSL** fundiu-se com o **DEM** e gerou o **UNIÃO**;_
>
> - _**PTB** fundiu-se com o **PATRIOTA** e gerou o **PRD**;_
>
> - _**PTC** virou o **Agir** em 2022._

#### Função para criação da coluna de integração entre partidos entre eleições diferentes (SIGLA_2022), mantendo como nome do partido o da eleição de 2022.

In [30]:
def create_integ_col(df:pl.DataFrame)-> pl.DataFrame:
    return (
        df
        .with_columns(
            SIGLA_2022 = pl.when(pl.col("SG_PARTIDO").is_in(["DEM","PSL"])).then(pl.lit("UNIÃO")).otherwise(
                                pl.when(pl.col("SG_PARTIDO").is_in(["PATRI", "PATRIOTA", "PTB", "PRP"])).then(pl.lit("PRD")).otherwise(
                                    pl.when(pl.col("SG_PARTIDO")=="PC do B").then(pl.lit("PCdoB")).otherwise(
                                        pl.when(pl.col("SG_PARTIDO").is_in(["PHS","PSC"])).then(pl.lit("PODE")).otherwise(
                                            pl.when(pl.col("SG_PARTIDO")=="PPS").then(pl.lit("CIDADANIA")).otherwise(
                                                pl.when(pl.col("SG_PARTIDO")=="PR").then(pl.lit("PL")).otherwise(
                                                    pl.when(pl.col("SG_PARTIDO")=="PRB").then(pl.lit("REPUBLICANOS")).otherwise(
                                                        pl.when(pl.col("SG_PARTIDO")=="PROS").then(pl.lit("SOLIDARIEDADE")).otherwise(
                                                            pl.when(pl.col("SG_PARTIDO")=="PTC").then(pl.lit("AGIR")).otherwise(
                                                                pl.when(pl.col("SG_PARTIDO")=="PMN").then(pl.lit("MOBILIZA")).otherwise(
                                                                    pl.col("SG_PARTIDO")
                                                                )
                                                            )
                                                        )
                                                    )
                                                )
                                            )
                                        )
                                    )
                                )
                            )
                        )
    )

In [31]:
df_poll_18_filtered = create_integ_col(df_poll_18_filtered)

In [32]:
df_poll_18_filtered.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_VALIDOS,PERC_VOTOS,QT_VOTOS_MUNIC,SIGLA_2022
i64,str,i64,str,i64,str,i64,str,str,i64,f64,i64,str
2018,"""CE""",15539,"""SÃO LUÍS DO CURU""",6,"""Deputado Federal""",28,"""PRTB""","""Partido Renovador Trabalhista …",86,0.010566,8139,"""PRTB"""
2018,"""MG""",40487,"""NAQUE""",7,"""Deputado Estadual""",11,"""PP""","""Partido Progressista""",7,0.002169,3227,"""PP"""


In [33]:
set(df_poll_18_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

set()

- _Integração entre legendas, que mudaram de nome ao longo tempo, executada para eleições de 2018;_

- _Todos os partidos na coluna SIGLA_2022 estão na base dos partidos._

Para 2022

- _Em 2022, a única regra nova aplicada será transformar o **PATRIOTA** em **PRD**._

In [34]:
df_poll_22_filtered = create_integ_col(df_poll_22_filtered)

In [35]:
df_poll_22_filtered.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_VALIDOS,PERC_VOTOS,QT_VOTOS_MUNIC,SIGLA_2022
i64,str,i64,str,i64,str,i64,str,str,i64,f64,i64,str
2022,"""PR""",77755,"""PLANALTO""",3,"""Governador""",55,"""PSD""","""Partido Social Democrático""",4401,0.565609,7781,"""PSD"""
2022,"""RN""",17159,"""JOÃO DIAS""",7,"""Deputado Estadual""",35,"""PMB""","""Partido da Mulher Brasileira""",8,0.003351,2387,"""PMB"""


In [36]:
set(df_poll_22_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

set()

- _Integração entre legendas que mudaram ao longo tempo executada para eleições de **2022**._

- _Todos os partidos na coluna **_SIGLA_2022_** estão na base dos partidos._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [37]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Adição do posicionamento ideológico nos datasets das eleições

In [38]:
print(df_poll_18_filtered.shape)

(533564, 13)


In [39]:
# Precisamos apenas das 3 colunas
df_parties = df_partidos.select(pl.col("SG_PARTIDO"), pl.col("POSIC_IDEOLOGICO"), pl.col("SG_POSIC_IDEOLOGICO"))

In [40]:
print(df_parties)

shape: (30, 3)
┌────────────┬──────────────────┬─────────────────────┐
│ SG_PARTIDO ┆ POSIC_IDEOLOGICO ┆ SG_POSIC_IDEOLOGICO │
│ ---        ┆ ---              ┆ ---                 │
│ str        ┆ str              ┆ str                 │
╞════════════╪══════════════════╪═════════════════════╡
│ PSTU       ┆ Extrema Esquerda ┆ EE                  │
│ PCO        ┆ Extrema Esquerda ┆ EE                  │
│ UP         ┆ Extrema Esquerda ┆ EE                  │
│ PCB        ┆ Extrema Esquerda ┆ EE                  │
│ PSOL       ┆ Extrema Esquerda ┆ EE                  │
│ …          ┆ …                ┆ …                   │
│ AGIR       ┆ Direita          ┆ D                   │
│ DC         ┆ Direita          ┆ D                   │
│ NOVO       ┆ Direita          ┆ D                   │
│ PP         ┆ Direita          ┆ D                   │
│ UNIÃO      ┆ Extrema Direita  ┆ ED                  │
└────────────┴──────────────────┴─────────────────────┘


In [41]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_18_filtered = (df_poll_18_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [42]:
df_poll_18_filtered.shape

(533564, 15)

In [43]:
print(df_poll_18_filtered)

shape: (533_564, 15)
┌────────────┬───────┬────────────┬────────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ ANO_ELEICA ┆ SG_UF ┆ CD_MUNICIP ┆ NM_MUNICIP ┆ … ┆ QT_VOTOS_ ┆ SIGLA_202 ┆ POSIC_IDE ┆ SG_POSIC_ │
│ O          ┆ ---   ┆ IO         ┆ IO         ┆   ┆ MUNIC     ┆ 2         ┆ OLOGICO   ┆ IDEOLOGIC │
│ ---        ┆ str   ┆ ---        ┆ ---        ┆   ┆ ---       ┆ ---       ┆ ---       ┆ O         │
│ i64        ┆       ┆ i64        ┆ str        ┆   ┆ i64       ┆ str       ┆ str       ┆ ---       │
│            ┆       ┆            ┆            ┆   ┆           ┆           ┆           ┆ str       │
╞════════════╪═══════╪════════════╪════════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ 2018       ┆ CE    ┆ 15539      ┆ SÃO LUÍS   ┆ … ┆ 8139      ┆ PRTB      ┆ Direita   ┆ D         │
│            ┆       ┆            ┆ DO CURU    ┆   ┆           ┆           ┆           ┆           │
│ 2018       ┆ MG    ┆ 40487      ┆ NAQUE      ┆ … ┆ 3227      ┆ PP   

- _Duas novas colunas foram adicionadas: POSIC_IDEOLOGICO e SG_POSIC_IDEOLOGICO._

In [44]:
df_poll_22_filtered.shape

(461077, 13)

In [45]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_22_filtered = (df_poll_22_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [46]:
df_poll_22_filtered.shape

(461077, 15)

In [47]:
print(df_poll_22_filtered)

shape: (461_077, 15)
┌────────────┬───────┬────────────┬────────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ ANO_ELEICA ┆ SG_UF ┆ CD_MUNICIP ┆ NM_MUNICIP ┆ … ┆ QT_VOTOS_ ┆ SIGLA_202 ┆ POSIC_IDE ┆ SG_POSIC_ │
│ O          ┆ ---   ┆ IO         ┆ IO         ┆   ┆ MUNIC     ┆ 2         ┆ OLOGICO   ┆ IDEOLOGIC │
│ ---        ┆ str   ┆ ---        ┆ ---        ┆   ┆ ---       ┆ ---       ┆ ---       ┆ O         │
│ i64        ┆       ┆ i64        ┆ str        ┆   ┆ i64       ┆ str       ┆ str       ┆ ---       │
│            ┆       ┆            ┆            ┆   ┆           ┆           ┆           ┆ str       │
╞════════════╪═══════╪════════════╪════════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ 2022       ┆ PR    ┆ 77755      ┆ PLANALTO   ┆ … ┆ 7781      ┆ PSD       ┆ Centro    ┆ CD        │
│            ┆       ┆            ┆            ┆   ┆           ┆           ┆ Direita   ┆           │
│ 2022       ┆ RN    ┆ 17159      ┆ JOÃO DIAS  ┆ … ┆ 2387      ┆ PMB  

- _Número de registros não mudou, logo, os inner join foram executados com sucesso._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [48]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.2 Regiões

Carga do dataset das reigões e estados

---

In [49]:
df_regioes:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, regions))
df_regioes.shape

(27, 3)

In [50]:
print(df_regioes)

shape: (27, 3)
┌─────┬───────────┬───────────┐
│ UF  ┆ SG_REGIAO ┆ NM_REGIAO │
│ --- ┆ ---       ┆ ---       │
│ str ┆ str       ┆ str       │
╞═════╪═══════════╪═══════════╡
│ AM  ┆ N         ┆ Norte     │
│ RR  ┆ N         ┆ Norte     │
│ AP  ┆ N         ┆ Norte     │
│ PA  ┆ N         ┆ Norte     │
│ TO  ┆ N         ┆ Norte     │
│ …   ┆ …         ┆ …         │
│ ES  ┆ SE        ┆ Sudeste   │
│ MG  ┆ SE        ┆ Sudeste   │
│ PR  ┆ S         ┆ Sul       │
│ RS  ┆ S         ┆ Sul       │
│ SC  ┆ S         ┆ Sul       │
└─────┴───────────┴───────────┘


#### Registros duplicados

In [51]:
df_regioes.is_duplicated().sum()

0

- _Sem registros duplicados._

#### Valores nulos

In [52]:
df_regioes.select(pl.all().is_null().sum()).to_dicts()[0]

{'UF': 0, 'SG_REGIAO': 0, 'NM_REGIAO': 0}

- _Nenhum valor nulo._

#### Adicionar região "exterior" às regiões

In [53]:
df_regioes = pl.concat([df_regioes, pl.DataFrame([{"UF":"ZZ", "SG_REGIAO":"ZZ", "NM_REGIAO":"Exterior"}])])

In [54]:
print(df_regioes)

shape: (28, 3)
┌─────┬───────────┬───────────┐
│ UF  ┆ SG_REGIAO ┆ NM_REGIAO │
│ --- ┆ ---       ┆ ---       │
│ str ┆ str       ┆ str       │
╞═════╪═══════════╪═══════════╡
│ AM  ┆ N         ┆ Norte     │
│ RR  ┆ N         ┆ Norte     │
│ AP  ┆ N         ┆ Norte     │
│ PA  ┆ N         ┆ Norte     │
│ TO  ┆ N         ┆ Norte     │
│ …   ┆ …         ┆ …         │
│ MG  ┆ SE        ┆ Sudeste   │
│ PR  ┆ S         ┆ Sul       │
│ RS  ┆ S         ┆ Sul       │
│ SC  ┆ S         ┆ Sul       │
│ ZZ  ┆ ZZ        ┆ Exterior  │
└─────┴───────────┴───────────┘


#### Juntar votação com as regiões

In [55]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

(533564, 15)
(461077, 15)


In [56]:
df_poll_18_filtered = df_poll_18_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")
df_poll_22_filtered = df_poll_22_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")

In [57]:
print(df_poll_18_filtered.limit(2))
print(df_poll_22_filtered.limit(2))

shape: (2, 17)
┌────────────┬───────┬────────────┬────────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ ANO_ELEICA ┆ SG_UF ┆ CD_MUNICIP ┆ NM_MUNICIP ┆ … ┆ POSIC_IDE ┆ SG_POSIC_ ┆ SG_REGIAO ┆ NM_REGIAO │
│ O          ┆ ---   ┆ IO         ┆ IO         ┆   ┆ OLOGICO   ┆ IDEOLOGIC ┆ ---       ┆ ---       │
│ ---        ┆ str   ┆ ---        ┆ ---        ┆   ┆ ---       ┆ O         ┆ str       ┆ str       │
│ i64        ┆       ┆ i64        ┆ str        ┆   ┆ str       ┆ ---       ┆           ┆           │
│            ┆       ┆            ┆            ┆   ┆           ┆ str       ┆           ┆           │
╞════════════╪═══════╪════════════╪════════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ 2018       ┆ CE    ┆ 15539      ┆ SÃO LUÍS   ┆ … ┆ Direita   ┆ D         ┆ NE        ┆ Nordeste  │
│            ┆       ┆            ┆ DO CURU    ┆   ┆           ┆           ┆           ┆           │
│ 2018       ┆ MG    ┆ 40487      ┆ NAQUE      ┆ … ┆ Direita   ┆ D         ┆

In [58]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

(533564, 17)
(461077, 17)


- _O número de registros não mudou nos dois datasets, join executado com sucesso._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [59]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.3 Municípios

Carga dos dois datasets municípios. Precisa-se dos dois, pois a tabela do TSE não tem a localização geográfica enquanto esta informação está na tabela do IBGE.

---

In [60]:
#municípios do igbe
df_munic_ibge:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, ibge_cities))
df_munic_ibge.shape

(5570, 9)

In [61]:
with pl.Config(tbl_cols=9):
    print(df_munic_ibge)

shape: (5_570, 9)
┌────────────┬───────────┬──────────┬───────────┬─────────┬───────────┬──────────┬─────┬───────────┐
│ codigo_ibg ┆ nome      ┆ latitude ┆ longitude ┆ capital ┆ codigo_uf ┆ siafi_id ┆ ddd ┆ fuso_hora │
│ e          ┆ ---       ┆ ---      ┆ ---       ┆ ---     ┆ ---       ┆ ---      ┆ --- ┆ rio       │
│ ---        ┆ str       ┆ f64      ┆ f64       ┆ i64     ┆ i64       ┆ i64      ┆ i64 ┆ ---       │
│ i64        ┆           ┆          ┆           ┆         ┆           ┆          ┆     ┆ str       │
╞════════════╪═══════════╪══════════╪═══════════╪═════════╪═══════════╪══════════╪═════╪═══════════╡
│ 5200050    ┆ Abadia de ┆ -16.7573 ┆ -49.4412  ┆ 0       ┆ 52        ┆ 1050     ┆ 62  ┆ America/S │
│            ┆ Goiás     ┆          ┆           ┆         ┆           ┆          ┆     ┆ ao_Paulo  │
│ 3100104    ┆ Abadia    ┆ -18.4831 ┆ -47.3916  ┆ 0       ┆ 31        ┆ 4001     ┆ 34  ┆ America/S │
│            ┆ dos       ┆          ┆           ┆         ┆           ┆  

In [62]:
df_munic_tse:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, tse_cities))
df_munic_tse.shape

(5570, 5)

In [63]:
with pl.Config(tbl_cols=9):
    print(df_munic_tse)

shape: (5_570, 5)
┌────────────┬─────┬────────────────┬─────────┬─────────────┐
│ codigo_tse ┆ uf  ┆ nome_municipio ┆ capital ┆ codigo_ibge │
│ ---        ┆ --- ┆ ---            ┆ ---     ┆ ---         │
│ i64        ┆ str ┆ str            ┆ i64     ┆ i64         │
╞════════════╪═════╪════════════════╪═════════╪═════════════╡
│ 1120       ┆ AC  ┆ ACRELÂNDIA     ┆ 0       ┆ 1200013     │
│ 1570       ┆ AC  ┆ ASSIS BRASIL   ┆ 0       ┆ 1200054     │
│ 1058       ┆ AC  ┆ BRASILÉIA      ┆ 0       ┆ 1200104     │
│ 1007       ┆ AC  ┆ BUJARI         ┆ 0       ┆ 1200138     │
│ 1015       ┆ AC  ┆ CAPIXABA       ┆ 0       ┆ 1200179     │
│ …          ┆ …   ┆ …              ┆ …       ┆ …           │
│ 96199      ┆ TO  ┆ TOCANTÍNIA     ┆ 0       ┆ 1721109     │
│ 73458      ┆ TO  ┆ TUPIRAMA       ┆ 0       ┆ 1721257     │
│ 73237      ┆ TO  ┆ TUPIRATINS     ┆ 0       ┆ 1721307     │
│ 96652      ┆ TO  ┆ WANDERLÂNDIA   ┆ 0       ┆ 1722081     │
│ 96431      ┆ TO  ┆ XAMBIOÁ        ┆ 0       ┆ 1722

O join entre as tabelas será feito "codigo_ibge".

In [64]:
df_municipios = (df_munic_tse
    .join(df_munic_ibge, on="codigo_ibge", how="inner")
    .select(pl.col("codigo_tse"), pl.col("codigo_ibge"), pl.col("nome"), pl.col("uf"), pl.col("capital"), pl.col("latitude"), pl.col("longitude"), pl.col("ddd"))
)

In [65]:
print(df_municipios)

shape: (5_570, 8)
┌────────────┬─────────────┬─────────────────────┬─────┬─────────┬──────────┬───────────┬─────┐
│ codigo_tse ┆ codigo_ibge ┆ nome                ┆ uf  ┆ capital ┆ latitude ┆ longitude ┆ ddd │
│ ---        ┆ ---         ┆ ---                 ┆ --- ┆ ---     ┆ ---      ┆ ---       ┆ --- │
│ i64        ┆ i64         ┆ str                 ┆ str ┆ i64     ┆ f64      ┆ f64       ┆ i64 │
╞════════════╪═════════════╪═════════════════════╪═════╪═════════╪══════════╪═══════════╪═════╡
│ 93360      ┆ 5200050     ┆ Abadia de Goiás     ┆ GO  ┆ 0       ┆ -16.7573 ┆ -49.4412  ┆ 62  │
│ 40010      ┆ 3100104     ┆ Abadia dos Dourados ┆ MG  ┆ 0       ┆ -18.4831 ┆ -47.3916  ┆ 34  │
│ 92010      ┆ 5200100     ┆ Abadiânia           ┆ GO  ┆ 0       ┆ -16.197  ┆ -48.7057  ┆ 62  │
│ 40037      ┆ 3100203     ┆ Abaeté              ┆ MG  ┆ 0       ┆ -19.1551 ┆ -45.4444  ┆ 37  │
│ 4014       ┆ 1500107     ┆ Abaetetuba          ┆ PA  ┆ 0       ┆ -1.72183 ┆ -48.8788  ┆ 91  │
│ …          ┆ …      

- _A tabela final de municípios terá os campos:_

> - _**codigo_tse** pois este campo será feito o join com as tabelas de eleições;_
>
> - _**uf** pois será usado para pegar a região e estado de cada cidade;_
>
> - _**capital**;_
>
> - _**nome**;_
>
> - _**latitude e longitude** para plotarmos em mapa;_
>
> - _**ddd** pois pode ser útil para um divisão dentro dos estados._

#### Registros duplicados

In [66]:
df_municipios.is_duplicated().sum()

0

- _Não há valores duplicados. Isto é normal pois trata-se de tabelas oficias de órgãos governamentais._

#### Valores nulos

In [67]:
df_municipios.select(pl.all().is_null().sum()).to_dicts()[0]

{'codigo_tse': 0,
 'codigo_ibge': 0,
 'nome': 0,
 'uf': 0,
 'capital': 0,
 'latitude': 0,
 'longitude': 0,
 'ddd': 0}

#### Guardar o dataset dos municípios

In [68]:
df_municipios.write_parquet(os.path.join(root, "municipios.parquet"))

- _Sem valores nulos._

#### Salvar um arquivo com as capitais

In [69]:
# filtrando apenas as capitais
df_capitais = df_municipios.filter(pl.col("capital")==1)

In [70]:
print(df_capitais)

shape: (27, 8)
┌────────────┬─────────────┬────────────────┬─────┬─────────┬──────────┬───────────┬─────┐
│ codigo_tse ┆ codigo_ibge ┆ nome           ┆ uf  ┆ capital ┆ latitude ┆ longitude ┆ ddd │
│ ---        ┆ ---         ┆ ---            ┆ --- ┆ ---     ┆ ---      ┆ ---       ┆ --- │
│ i64        ┆ i64         ┆ str            ┆ str ┆ i64     ┆ f64      ┆ f64       ┆ i64 │
╞════════════╪═════════════╪════════════════╪═════╪═════════╪══════════╪═══════════╪═════╡
│ 31054      ┆ 2800308     ┆ Aracaju        ┆ SE  ┆ 1       ┆ -10.9091 ┆ -37.0677  ┆ 79  │
│ 4278       ┆ 1501402     ┆ Belém          ┆ PA  ┆ 1       ┆ -1.4554  ┆ -48.4898  ┆ 91  │
│ 41238      ┆ 3106200     ┆ Belo Horizonte ┆ MG  ┆ 1       ┆ -19.9102 ┆ -43.9266  ┆ 31  │
│ 3018       ┆ 1400100     ┆ Boa Vista      ┆ RR  ┆ 1       ┆ 2.82384  ┆ -60.6753  ┆ 95  │
│ 97012      ┆ 5300108     ┆ Brasília       ┆ DF  ┆ 1       ┆ -15.7795 ┆ -47.9297  ┆ 61  │
│ …          ┆ …           ┆ …              ┆ …   ┆ …       ┆ …        ┆ … 

_Apenas 27 capitais, como seria esperado._

In [71]:
df_capitais.write_parquet(os.path.join(root, "capitais.parquet"))

### 2.4 Classificação ideológica do voto

Classificação da votação conforme a ideologia político-partidária conforme o trabalho de Bolognesi(2018).

---

In [72]:
# carga dos dois arquivos das eleições
df_poll_18 = pl.read_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22 = pl.read_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

In [73]:
#carga dos partidos políticos
df_partidos:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, "partidos_br.parquet"))

#### Juntando o posicionamento ideológico ao voto

In [74]:
df_poll_18.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_VALIDOS,PERC_VOTOS,QT_VOTOS_MUNIC,SIGLA_2022,POSIC_IDEOLOGICO,SG_POSIC_IDEOLOGICO,SG_REGIAO,NM_REGIAO
i64,str,i64,str,i64,str,i64,str,str,i64,f64,i64,str,str,str,str,str
2018,"""CE""",15539,"""SÃO LUÍS DO CURU""",6,"""Deputado Federal""",28,"""PRTB""","""Partido Renovador Trabalhista …",86,0.010566,8139,"""PRTB""","""Direita""","""D""","""NE""","""Nordeste"""
2018,"""MG""",40487,"""NAQUE""",7,"""Deputado Estadual""",11,"""PP""","""Partido Progressista""",7,0.002169,3227,"""PP""","""Direita""","""D""","""SE""","""Sudeste"""


In [75]:
df_poll_22.limit(2)

ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_VALIDOS,PERC_VOTOS,QT_VOTOS_MUNIC,SIGLA_2022,POSIC_IDEOLOGICO,SG_POSIC_IDEOLOGICO,SG_REGIAO,NM_REGIAO
i64,str,i64,str,i64,str,i64,str,str,i64,f64,i64,str,str,str,str,str
2022,"""PR""",77755,"""PLANALTO""",3,"""Governador""",55,"""PSD""","""Partido Social Democrático""",4401,0.565609,7781,"""PSD""","""Centro Direita""","""CD""","""S""","""Sul"""
2022,"""RN""",17159,"""JOÃO DIAS""",7,"""Deputado Estadual""",35,"""PMB""","""Partido da Mulher Brasileira""",8,0.003351,2387,"""PMB""","""Centro Direita""","""CD""","""NE""","""Nordeste"""


In [76]:
try:
  #df_poll_18 = df_poll_18.drop(["SG_PARTIDO","SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO"])
  df_poll_18 = df_poll_18.drop(["SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO"])
except:
  None

In [77]:
df_poll_18.columns

['ANO_ELEICAO',
 'SG_UF',
 'CD_MUNICIPIO',
 'NM_MUNICIPIO',
 'CD_CARGO',
 'DS_CARGO',
 'NR_PARTIDO',
 'SG_PARTIDO',
 'NM_PARTIDO',
 'QT_VOTOS_VALIDOS',
 'PERC_VOTOS',
 'QT_VOTOS_MUNIC',
 'SIGLA_2022',
 'SG_REGIAO',
 'NM_REGIAO']

In [78]:
df_poll_18 = (
    df_poll_18
  .join(
      df_partidos.select(["SG_PARTIDO","SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO","RES_IDEOLOGICO","NOME_RES_IDEOLOGICO"]),
      left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner"
  )
)

In [79]:
try:
  #df_poll_22 = df_poll_22.drop(["SG_PARTIDO","SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO"])
  df_poll_22 = df_poll_22.drop(["SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO"])
except:
  None

In [80]:
df_poll_22 = (
    df_poll_22
  .join(
      df_partidos.select(["SG_PARTIDO","SG_POSIC_IDEOLOGICO","POSIC_IDEOLOGICO","RES_IDEOLOGICO","NOME_RES_IDEOLOGICO"]),
      left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner"
  )
)

In [81]:
#salvar
df_poll_18.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

## FIM

In [82]:
import sys
print(sys.version)

3.10.12 (main, Nov  6 2024, 20:22:13) [GCC 11.4.0]
