# **Especialização em Ciência de Dados - INF/UFRGS e SERPRO**
# **Análise Visual e Interativa Sobre o Discurso de Ódio nas Redes Sociais e Influência nas Eleições Brasileiras**
#### *Prof <sup>as</sup>. Viviane P. Moreira e Lisiane Selau*
<br>

---

***Trabalho de Conclusão de Curso – Turma 03***

*Aluno:*

* Antonio Fagner Santos de Oliveira 576637
---

_Este notebook trabalha a carga e o pré-processamento dos dados das eleições gerais brasileiras de 2018 e 2022._

_O pré-processamento inclui etapas como limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias._

## 1 Dicionário de Dados

### 1.1 Arquivo votacao_partido_munzona_[2018|2022]_BRASIL.parquet

Agregação da votação dos partidos por zona eleitoral dos municípios.

---
- ***DT_GERACAO*** - Data da extração dos dados para geração do arquivo, formato "DD/MM/YYYY";
- ***HH_GERACAO*** - Hora da extração dos dados para geração do arquivo com base no horário de Brasília, formato "H24:Mi:SS";
- ***ANO_ELEICAO*** - Ano de referência da eleição para geração do arquivo. Observação: para eleições suplementares o ano de referência da eleição é o da eleição ordinária correspondente, format "YYYY";
- ***CD_TIPO_ELEICAO*** - Código do tipo de eleição. Pode assumir os valores:
  
> 1 - Eleição Suplementar;
>
> 2 - Eleição Ordinária e;
>
> 3 - Consulta Popular.
> 
- ***NM_TIPO_ELEICAO*** - Nome do tipo de eleição.
  
> 1 - **Eleição Suplementar** - eleições que não têm periodicidade pré-determinada ou definida e ocorrem quando, eventualmente, se fizerem necessárias.
> 
> 2 - **Eleição Ordinária** - eleições ordinárias onde são eleitos os cargos de ***Presidente, Governadores, Deputados (Federais e Estaduais) e Senadores***. Nas eleições ordinárias municipais são eleitos os cargos de ***Prefeito e Vereadores***.
>
> 3 - **Consulta Popular** - eleições que ocorrem sempre que a população é convocada a opinar diretamente sobre um assunto específico e importante. Ela pode ser realizada de duas formas: ***plebiscito*** (quando o cidadão opina previamente sobre a possível criação de uma lei) e ***referendo*** (quando uma lei aprovada por um órgão legislativo é submetida à aceitação ou não das eleitoras e dos eleitores).

- ***NR_TURNO*** - Número do turno da eleição.
  
> 1 - **Primeiro Turno**;
> 
> 2 - **Segundo Turno**.

_Nos municípios cujo eleitorado é igual ou menor que 200 mil e para o cargo de Senador elege-se a candidata ou o candidato que tenha alcançado a maioria simples dos votos._

- ***CD_ELEICAO*** - Código único da eleição no âmbito da Justiça Eleitoral. Observação: este código é único por eleição e por turno, ou seja, cada turno possui seu código de eleição.
- ***DS_ELEICAO*** - Descrição da eleição.
- ***DT_ELEICAO*** - Data em que ocorreu a eleição, formato "DD/MM/YYYY".
- ***TP_ABRANGENCIA*** - Abrangência da eleição.
  
> **M** - Municipal;
> 
> **E** - Estadual e;
> 
> **F** - Federal.

*As eleições realizadas na circunscrição Municipal são as eleições para os cargos de Prefeito, Vice-Prefeito e Vereador; as realizadas na circunscrição Estadual são para os cargos de Governador, Vice-Governador, Senador, Deputado Estadual, Deputado Federal e Deputado Distrital e; as realizadas na circunscrição Federal são para os cargos de Presidente e Vice-Presidente da República.*
- ***SG_UF*** - Sigla da Unidade da Federação em que ocorreu a eleição.
- ***SG_UE*** - Sigla da Unidade Eleitoral em que a candidata ou o candidato concorre na eleição. A Unidade Eleitoral representa a Unidade da Federação ou o Município em que a candidata ou o candidato concorre na eleição e é relacionada à abrangência territorial desta candidatura. Em caso de abrangência Federal (cargo de Presidente e Vice-Presidente) a sigla é ***BR***, em caso de abrangência Estadual (cargos de Governador, Vice-Governador, Senador, Deputado Federal, Deputado Estadual e Deputado Distrital) a sigla é a ***UF da candidatura*** e em caso de abrangência Municipal (cargos de Prefeito, Vice-Prefeito e Vereador) é o ***código TSE de identificação do município da candidatura***.
- ***NM_UE*** - Nome da Unidade Eleitoral. Em caso de eleição majoritária é a **sigla da UF** que a candidata ou o candidato concorre e em caso de eleição municipal é o **código TSE do município (número)**. Assume os valores especiais **BR, ZZ e VT** para designar, respectivamente, o Brasil, Exterior e Voto em Trânsito.
- ***CD_MUNICIPIO*** - Código TSE do município onde ocorreu a eleição.
- ***NM_MUNICIPIO*** - Nome do município onde ocorreu a eleição.
- ***NR_ZONA*** - Número da zona onde ocorreu a eleição.
- ***CD_CARGO*** - Código do cargo da candidata ou candidato.

> **1** - Presidente
>
> **3** - Governador
>
> **5** - Senador
>
> **6** - Deputado Federal
>
> **7** - Deputado Estadual
>
> **8** - Deputado Distrital
>
> **25** - Conselheiro Distrital

- ***DS_CARGO*** - Descrição do cargo da candidata ou candidato.
- ***TP_AGREMIACAO*** - Tipo de agremiação da candidatura da candidata ou do candidato, ou seja, forma como a candidata ou o candidato concorrerá nas eleições. Pode assumir os valores:

> **Federação** - quando a candidata ou candidato concorre por uma federação;
> 
> **Coligação** - quando a candidata ou o candidato concorre por coligação e;
>
> **Partido Isolado** - quando a candidata ou o candidato concorre somente pelo partido.

- ***NR_PARTIDO*** - Número do partido de origem da candidata ou candidato.
- ***SG_PARTIDO*** - Sigla do partido de origem da candidata ou candidato.
- ***NM_PARTIDO*** - Nome do partido de origem da candidata ou candidato.
- ***NR_FEDERACAO*** - Número da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***NM_FEDERACAO*** - Nome da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***SG_FEDERACAO*** - Sigla da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***DS_COMPOSICAO_FEDERACAO*** - Composição da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***SQ_COLIGACAO*** - Sequencial da coligação da qual a candidata ou candidato pertence, gerado pela Justiça Eleitoral.
- ***NM_COLIGACAO*** - Nome da coligação da qual a candidata ou candidato pertence.
- ***DS_COMPOSICAO_COLIGACAO*** - Composição da coligação da qual a candidata ou candidato pertence. Observação: Coligação é a união de dois ou mais partidos a fim de disputarem eleições. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***ST_VOTO_EM_TRANSITO*** - Situação que indica se o quantitativo de votos se refere a voto em trânsito. Podendo assumir os valores: "**S**" - Sim ou "**N**" - Não;
- ***QT_VOTOS_LEGENDA_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_CONVR_LEG*** - Quantidade de votos válidos dados à candidata ou ao candidato a cargos proporcionais que, por decisão judicial, se tornaram votos para a legenda ao qual concorriam totalizados para aquele partido e cargo naquele município e zona;
- ***QT_TOTAL_VOTOS_LEG_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_VALIDOS*** - Quantidade de votos nominais válidos totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_LEGENDA_ANUL_SUBJUD*** - Quantidade de votos dados em legenda anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_ANUL_SUBJUD*** - Quantidade de votos dados à candidata ou ao candidato anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;


### 1.2 Arquivo partidos_br.parquet

Dados dos partidos políticos brasileiros.

---
- ***SG_PARTIDO*** - Sigla do partido político.
- ***MEDIA_IDEOL*** - Pontuação ideológica para cada partido onde mais próximo de 0 significa extrema esquerda e próximo de 10 extrema direita.
- ***NOME*** - Nome do partido político no TSE.
- ***NR_PARTIDO*** - Número do partido conforme o TSE.
- ***POSIC_IDEOLOGICO*** - Nome extenso do posicionamento ideológico do partido.
  
> **Extrema Esquerda**
> 
> **Esquerda**
> 
> **Centro Esquerda**
>
> **Centro**
>
> **Centro Direita**
>
> **Direita**
>
> **Extrema Direita**

- ***SG_POSIC_IDEOLOGICO*** - Sigla associada a cada `POSIC_IDEOLOGICO`.

> **EE** - Extrema Esquerda
> 
> **E** - Esquerda
> 
> **CE** - Centro Esquerda
>
> **C** - Centro
>
> **CD** - Centro Direita
>
> **D** - Direita
>
> **ED** - Extrema Direita

O posicionamento ideológico é baseado no artigo *BOLOGNESI, Bruno; RIBEIRO, Ednaldo; CODATO, Adrian.Uma Nova Classificação Ideológica dos Partidos Políticos Brasileiros. DADOS, Rio de Janeiro, vol.67 (2), p. 14, 2023.*

### 1.3 Arquivo municipios_brasileiros_tse.parquet


Lista de municípios brasileiros segundo o TSE.

---
- ***codigo_tse*** - código do município na base do TSE. Este campo faz a ligação com o campo CD_MUNICIPIO do arquivo votacao_partido_munzona_2022_BRASIL.parquet;
- ***uf*** - sigla da UF do município;
- ***nome_municipio*** - nome do município na base do TSE;
- ***capital*** - 1 indica que o município é capital do seu estado;
- ***codigo_ibge*** - código do município na base do IBGE. Este código é importante porque na base do TSE pode-se encontrar a localização geográfica do município.

### 1.4 Arquivo municipios_ibge_lat_long.csv

Lista de municípios brasileiros com códigos do IBGE e suas latitudes e longitudes.

---
- ***codigo_ibge*** - código do município na base do IBGE. Este campo faz a ligação com a tabela de municípios do TSE;
- ***nome*** - nome do município na base do IBGE.
- ***latitude*** - latitude do município;
- ***longitude*** - longitude do município;
- ***capital*** - 1 indica que o município é capital;
- ***codigo_uf*** - código da UF do município na base do IBGE;
- ***siafi_id*** - código do município dentro do sistema de contabilidade do governo federal (siafi);
- ***ddd*** - código de discagem a longa distância do município;
- ***fuso_horario*** - descrição do fuso horário em que o município se encontra.

### 1.5 Arquivo regioes.parquet

Arquivo de estados por grandes regiões brasileiras

---

- ***UF*** - sigla da UF;
- ***SG_REGIAO*** - sigla da região da UG;
- ***NM_REGIAO*** - nome da região.


## 2 Pré-processamento dos Dados

Limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias.

---

In [1]:
import polars as pl
import os
import altair as alt
import numpy as np
import standards as sdt_f

In [2]:
root:str = "../Dados/Eleicoes/"
poll_18:str = "votacao_partido_munzona_2018_BRASIL.parquet"
poll_22:str = "votacao_partido_munzona_2022_BRASIL.parquet"
regions:str = "regioes.parquet"
tse_cities:str = "municipios_brasileiros_tse.parquet"
ibge_cities:str = "municipios_ibge_lat_long.parquet"
parties:str = "partidos_br.parquet"

### 2.1 Dados eleitorais

https://medium.com/@danilo.dct/the-importance-of-data-validation-in-data-analysis-a-six-step-guide-2be645a064f3

---

#### Carga dos partidos políticos e seu posicionamento ideológico

In [3]:
df_partidos:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, parties))

In [4]:
df_partidos = df_partidos.with_columns(
    pl.col("POSIC_IDEOLOGICO").str.to_titlecase()
)

In [5]:
df_partidos.head()

SG_PARTIDO,SG_PARTIDO_INFO,MEDIA_IDEOL,NOME,NR_PARTIDO,POSIC_IDEOLOGICO,SG_POSIC_IDEOLOGICO,Observação,Fonte espectro
str,str,str,str,i64,str,str,str,str
"""PSTU""","""PSTU""","""0,51""","""PARTIDO SOCIALISTA DOS TRABALH…",16,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…"
"""PCO""","""PCO""","""0,61""","""PARTIDO DA CAUSA OPERÁRIA""",29,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…"
"""UP""","""UP""","""0,76""","""UNIDADE POPULAR""",80,"""Extrema Esquerda""","""EE""","""Como não havia sido fundado e …","""BOLOGNESI, Bruno; RIBEIRO, Edn…"
"""PCB""","""PCB""","""0,91""","""PARTIDO COMUNISTA BRASILEIRO""",21,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…"
"""PSOL""","""PSOL""","""1,28""","""PARTIDO SOCIALISMO E LIBERDADE""",50,"""Extrema Esquerda""","""EE""",,"""BOLOGNESI, Bruno; RIBEIRO, Edn…"


#### Carga dos dados da eleições de 2018 e 2022

In [6]:
## carrega os dados das eleições de 2018 e 2022
df_eleicoes_2018:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_18))
df_eleicoes_2022:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_22))

In [7]:
print(df_eleicoes_2018.shape)
print(df_eleicoes_2022.shape)

(607096, 36)
(525534, 36)


In [8]:
'''
    Faz a filtragem inicial nos arquivos das eleições:
    - Filtramos pelo ano da eleição [2018|2022];
    - Apenas eleição ordinária
    - Analisaremos somente o 1o turno
    - Remove os cargos de conselheiro distrital
    - Remove a abrangência municipal
    - Também, o retorno serão alguns campos necessários à análise:
        TP_ABRANGENCIA, SG_UF, SG_UE, NM_UE, CD_MUNICIPIO, NM_MUNICIPIO, NR_ZONA, CD_CARGO, DS_CARGO, NR_PARTIDO, SG_PARTIDO, 
        NM_PARTIDO, QT_VOTOS_NOMINAIS_CONVR_LEG, QT_TOTAL_VOTOS_LEG_VALIDOS, QT_VOTOS_NOMINAIS_VALIDOS.
'''
def filter_poll(df:pl.DataFrame, year:int)->pl.DataFrame:
    return (
        df
            .filter( 
                (pl.col("ANO_ELEICAO")==year) & (pl.col("CD_TIPO_ELEICAO")==2) & 
                (pl.col("NR_TURNO")==1) & (pl.col("CD_CARGO")!=25) &
                (pl.col("TP_ABRANGENCIA").is_in(["E","F"]))
            )
            .select(pl.col("ANO_ELEICAO"),
                pl.col("TP_ABRANGENCIA"), pl.col("SG_UF"), pl.col("SG_UE"), pl.col("NM_UE"), pl.col("CD_MUNICIPIO")
                , pl.col("NM_MUNICIPIO"), pl.col("NR_ZONA"), pl.col("CD_CARGO"), pl.col("DS_CARGO"), pl.col("NR_PARTIDO")
                , pl.col("SG_PARTIDO"), pl.col("NM_PARTIDO"), pl.col("QT_VOTOS_NOMINAIS_CONVR_LEG")
                , pl.col("QT_TOTAL_VOTOS_LEG_VALIDOS"), pl.col("QT_VOTOS_NOMINAIS_VALIDOS")
            )
    )

In [9]:
#filtra somente informações de primeiro turno de 2018 e 2022
df_poll_18_filtered = filter_poll(df_eleicoes_2018, 2018)
df_poll_22_filtered = filter_poll(df_eleicoes_2022, 2022)

In [10]:
df_poll_22_filtered

ANO_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_CARGO,DS_CARGO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,QT_VOTOS_NOMINAIS_CONVR_LEG,QT_TOTAL_VOTOS_LEG_VALIDOS,QT_VOTOS_NOMINAIS_VALIDOS
i64,str,str,str,str,i64,str,i64,i64,str,i64,str,str,i64,i64,i64
2022,"""E""","""RS""","""RS""","""RIO GRANDE DO SUL""",89699,"""VICTOR GRAEFF""",117,6,"""Deputado Federal""",30,"""NOVO""","""Partido Novo""",0,0,69
2022,"""E""","""MT""","""MT""","""MATO GROSSO""",90484,"""CAMPO NOVO DO PARECIS""",60,6,"""Deputado Federal""",40,"""PSB""","""Partido Socialista Brasileiro""",0,16,625
2022,"""E""","""SC""","""SC""","""SANTA CATARINA""",82791,"""QUILOMBO""",78,7,"""Deputado Estadual""",22,"""PL""","""Partido Liberal""",0,49,559
2022,"""E""","""RS""","""RS""","""RIO GRANDE DO SUL""",85251,"""ARROIO GRANDE""",92,6,"""Deputado Federal""",23,"""CIDADANIA""","""Cidadania""",0,3,153
2022,"""E""","""MT""","""MT""","""MATO GROSSO""",89834,"""PARANATINGA""",57,6,"""Deputado Federal""",15,"""MDB""","""Movimento Democrático Brasilei…",0,60,1704
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2022,"""E""","""PR""","""PR""","""PARANÁ""",76759,"""MANDAGUAÇU""",102,6,"""Deputado Federal""",36,"""AGIR""","""AGIR""",0,0,38
2022,"""E""","""PE""","""PE""","""PERNAMBUCO""",23094,"""ÁGUAS BELAS""",64,7,"""Deputado Estadual""",36,"""AGIR""","""AGIR""",0,3,2
2022,"""E""","""PR""","""PR""","""PARANÁ""",74900,"""VENTANIA""",17,6,"""Deputado Federal""",22,"""PL""","""Partido Liberal""",0,28,1569
2022,"""E""","""SP""","""SP""","""SÃO PAULO""",68616,"""PINDAMONHANGABA""",90,7,"""Deputado Estadual""",27,"""DC""","""Democracia Cristã""",0,7,3


_Os datasets das eleições estão apenas com os campos necessários e registros de primeiro turno._

#### Registros duplicados

In [11]:
print(f"Total de registros duplicados em 2018: {df_poll_18_filtered.is_duplicated().sum()}")
print(f"Total de registros duplicados em 2022: {df_poll_22_filtered.is_duplicated().sum()}")

Total de registros duplicados em 2018: 0
Total de registros duplicados em 2022: 0


_Nenhum registro duplicado dos dois datasets._ 

#### Valores nulos

In [12]:
df_poll_18_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

{'ANO_ELEICAO': 0,
 'TP_ABRANGENCIA': 0,
 'SG_UF': 0,
 'SG_UE': 0,
 'NM_UE': 0,
 'CD_MUNICIPIO': 0,
 'NM_MUNICIPIO': 0,
 'NR_ZONA': 0,
 'CD_CARGO': 0,
 'DS_CARGO': 0,
 'NR_PARTIDO': 0,
 'SG_PARTIDO': 0,
 'NM_PARTIDO': 0,
 'QT_VOTOS_NOMINAIS_CONVR_LEG': 0,
 'QT_TOTAL_VOTOS_LEG_VALIDOS': 0,
 'QT_VOTOS_NOMINAIS_VALIDOS': 0}

In [13]:
#df_poll_22_filtered.null_count()

In [14]:
df_poll_22_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

{'ANO_ELEICAO': 0,
 'TP_ABRANGENCIA': 0,
 'SG_UF': 0,
 'SG_UE': 0,
 'NM_UE': 0,
 'CD_MUNICIPIO': 0,
 'NM_MUNICIPIO': 0,
 'NR_ZONA': 0,
 'CD_CARGO': 0,
 'DS_CARGO': 0,
 'NR_PARTIDO': 0,
 'SG_PARTIDO': 0,
 'NM_PARTIDO': 0,
 'QT_VOTOS_NOMINAIS_CONVR_LEG': 0,
 'QT_TOTAL_VOTOS_LEG_VALIDOS': 0,
 'QT_VOTOS_NOMINAIS_VALIDOS': 0}

_Pode-se ver que não há valores nulos nos datasets_

#### Tipos dos dados das eleições

In [15]:
[(column, df_poll_18_filtered.get_column(column).dtype) for column in df_poll_18_filtered.columns]

[('ANO_ELEICAO', Int64),
 ('TP_ABRANGENCIA', String),
 ('SG_UF', String),
 ('SG_UE', String),
 ('NM_UE', String),
 ('CD_MUNICIPIO', Int64),
 ('NM_MUNICIPIO', String),
 ('NR_ZONA', Int64),
 ('CD_CARGO', Int64),
 ('DS_CARGO', String),
 ('NR_PARTIDO', Int64),
 ('SG_PARTIDO', String),
 ('NM_PARTIDO', String),
 ('QT_VOTOS_NOMINAIS_CONVR_LEG', Int64),
 ('QT_TOTAL_VOTOS_LEG_VALIDOS', Int64),
 ('QT_VOTOS_NOMINAIS_VALIDOS', Int64)]

In [16]:
[(column, df_poll_22_filtered.get_column(column).dtype) for column in df_poll_22_filtered.columns]

[('ANO_ELEICAO', Int64),
 ('TP_ABRANGENCIA', String),
 ('SG_UF', String),
 ('SG_UE', String),
 ('NM_UE', String),
 ('CD_MUNICIPIO', Int64),
 ('NM_MUNICIPIO', String),
 ('NR_ZONA', Int64),
 ('CD_CARGO', Int64),
 ('DS_CARGO', String),
 ('NR_PARTIDO', Int64),
 ('SG_PARTIDO', String),
 ('NM_PARTIDO', String),
 ('QT_VOTOS_NOMINAIS_CONVR_LEG', Int64),
 ('QT_TOTAL_VOTOS_LEG_VALIDOS', Int64),
 ('QT_VOTOS_NOMINAIS_VALIDOS', Int64)]

_Os tipos de dados parecem conforme o esperado._

#### Somatário de votos válidos por partido e zona

Todos os campos de de quantidade de votos podem ser somados pois são quantidade de votos válidos.

In [17]:
'''
    Somas as três colunas com votos válidos e, depois, reve-as do dataset
'''
def sum_suffrage(df:pl.DataFrame)->pl.DataFrame:
    return (df
        .with_columns(
            QT_VOTOS_VALIDOS = pl.sum_horizontal("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS")
        ).drop("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS")
    )

In [18]:
df_poll_18_filtered = sum_suffrage(df_poll_18_filtered)

In [19]:
df_poll_22_filtered = sum_suffrage(df_poll_22_filtered)

In [20]:
print(df_poll_18_filtered)

shape: (586_244, 14)
┌─────────────┬────────────────┬───────┬───────┬───┬────────────┬───────────────┬──────────────────────┬──────────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ … ┆ NR_PARTIDO ┆ SG_PARTIDO    ┆ NM_PARTIDO           ┆ QT_VOTOS_VALIDOS │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆   ┆ ---        ┆ ---           ┆ ---                  ┆ ---              │
│ i64         ┆ str            ┆ str   ┆ str   ┆   ┆ i64        ┆ str           ┆ str                  ┆ i64              │
╞═════════════╪════════════════╪═══════╪═══════╪═══╪════════════╪═══════════════╪══════════════════════╪══════════════════╡
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ 77         ┆ SOLIDARIEDADE ┆ Solidariedade        ┆ 148              │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ 77         ┆ SOLIDARIEDADE ┆ Solidariedade        ┆ 32               │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ 77         ┆ SOLIDARIEDADE ┆ Solidariedade        ┆ 38    

In [21]:
print(df_poll_22_filtered)

shape: (506_959, 14)
┌─────────────┬────────────────┬───────┬───────┬───┬────────────┬────────────┬─────────────────────────────────┬──────────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ … ┆ NR_PARTIDO ┆ SG_PARTIDO ┆ NM_PARTIDO                      ┆ QT_VOTOS_VALIDOS │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆   ┆ ---        ┆ ---        ┆ ---                             ┆ ---              │
│ i64         ┆ str            ┆ str   ┆ str   ┆   ┆ i64        ┆ str        ┆ str                             ┆ i64              │
╞═════════════╪════════════════╪═══════╪═══════╪═══╪════════════╪════════════╪═════════════════════════════════╪══════════════════╡
│ 2022        ┆ E              ┆ RS    ┆ RS    ┆ … ┆ 30         ┆ NOVO       ┆ Partido Novo                    ┆ 69               │
│ 2022        ┆ E              ┆ MT    ┆ MT    ┆ … ┆ 40         ┆ PSB        ┆ Partido Socialista Brasileiro   ┆ 641              │
│ 2022        ┆ E              ┆ SC    ┆ SC    ┆ … ┆ 22

_Agora, a feature 'QT_VOTOS_VALIDOS' é somando todos os votos válidos por partido e zona eleitoral._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [22]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Criar integração entre partidos que mudaram de nome ou se aglutinaram ou foram absorvidos por outros

Para 2018

In [23]:
set(df_poll_18_filtered.get_column("SG_PARTIDO")).difference(set(df_partidos.get_column("SG_PARTIDO")))

{'DEM',
 'PATRI',
 'PC do B',
 'PHS',
 'PMN',
 'PPS',
 'PR',
 'PRB',
 'PROS',
 'PRP',
 'PSC',
 'PSL',
 'PTB',
 'PTC'}

_Alguns partidos da aleição de 2018 não estão na lista de partidos carregada, cada partido destes será analisado individualmente para classificação ideológica._

* **DEM** _fundiu-se com o **PSL** e gerou o **União Brasil**_;
* **PATRI**, _também conhecido como Patriota, fundiu-se com o **PTB** e gerou o **PRD**_;
* **PC do B** _está na lista porque a sigla no dataset de partidos está **PCdoB**_;
* **PHS** _foi incorporado ao **PODE(Podemos)**_;
* **PPL** _foi extinto em 2019_;
* **PPS** _virou **CIDADANIA** em 2019_;
* **PR** _virou **PL** em 2019_;
* **PRB** _virou **REPUBLICANOS** em 2019_;
* **PROS** _foi incorporado ao **SOLIDARIEDADE** em 2022_;
* **PRP** _foi incorporado ao **PATRIOTA** que se juntou ao **PTB** para formar o **PRD**_;
* **PSC** _foi incorporado ao **PODE(Podemos)** em 2022_;
* **PSL** _fundiu-se com o **DEM** e gerou o **União Brasil**_;
* **PTB** _fundiu-se com o **PATRIOTA** e gerou o **PRD**_;
* **PTC** _virou o **Agir** em 2022._

_Função para criação da coluna de integração entre partidos_

In [24]:
def create_integ_col(df:pl.DataFrame)-> pl.DataFrame:
    return (
        df
        .with_columns(
            SIGLA_2022 = pl.when(pl.col("SG_PARTIDO").is_in(["DEM","PSL"])).then(pl.lit("UNIÃO")).otherwise(
                                pl.when(pl.col("SG_PARTIDO").is_in(["PATRI", "PATRIOTA", "PTB", "PRP"])).then(pl.lit("PRD")).otherwise(
                                    pl.when(pl.col("SG_PARTIDO")=="PC do B").then(pl.lit("PCdoB")).otherwise(
                                        pl.when(pl.col("SG_PARTIDO").is_in(["PHS","PSC"])).then(pl.lit("PODE")).otherwise(
                                            pl.when(pl.col("SG_PARTIDO")=="PPS").then(pl.lit("CIDADANIA")).otherwise(
                                                pl.when(pl.col("SG_PARTIDO")=="PR").then(pl.lit("PL")).otherwise(
                                                    pl.when(pl.col("SG_PARTIDO")=="PRB").then(pl.lit("REPUBLICANOS")).otherwise(
                                                        pl.when(pl.col("SG_PARTIDO")=="PROS").then(pl.lit("SOLIDARIEDADE")).otherwise(
                                                            pl.when(pl.col("SG_PARTIDO")=="PTC").then(pl.lit("AGIR")).otherwise(
                                                                pl.when(pl.col("SG_PARTIDO")=="PMN").then(pl.lit("MOBILIZA")).otherwise(
                                                                    pl.col("SG_PARTIDO")
                                                                )
                                                            )
                                                        )
                                                    )
                                                )
                                            )
                                        )
                                    )
                                )
                            )
                        )
    )

In [25]:
df_poll_18_filtered = create_integ_col(df_poll_18_filtered)

In [26]:
print(df_poll_18_filtered)

shape: (586_244, 15)
┌─────────────┬────────────────┬───────┬───────┬───┬───────────────┬──────────────────────┬──────────────────┬───────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ … ┆ SG_PARTIDO    ┆ NM_PARTIDO           ┆ QT_VOTOS_VALIDOS ┆ SIGLA_2022    │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆   ┆ ---           ┆ ---                  ┆ ---              ┆ ---           │
│ i64         ┆ str            ┆ str   ┆ str   ┆   ┆ str           ┆ str                  ┆ i64              ┆ str           │
╞═════════════╪════════════════╪═══════╪═══════╪═══╪═══════════════╪══════════════════════╪══════════════════╪═══════════════╡
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ SOLIDARIEDADE ┆ Solidariedade        ┆ 148              ┆ SOLIDARIEDADE │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ SOLIDARIEDADE ┆ Solidariedade        ┆ 32               ┆ SOLIDARIEDADE │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ SOLIDARIEDADE ┆ Solidariedade        

In [27]:
set(df_poll_18_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

set()

_Integração entre legendas que mudaram ao longo tempo executada para eleições de **2018**._

_Todos os partidos na coluna **_SIGLA_2022_** estão na base dos partidos._

Para 2022

In [28]:
set(df_poll_22_filtered.get_column("SG_PARTIDO")).difference(set(df_partidos.get_column("SG_PARTIDO")))

{'PATRIOTA', 'PC do B', 'PMN', 'PROS', 'PSC', 'PTB'}

_Em 2022, a única regra nova aplicada será transformar o **PATRIOTA** em **PRD**._

In [29]:
df_poll_22_filtered = create_integ_col(df_poll_22_filtered)

In [30]:
print(df_poll_22_filtered.head())

shape: (5, 15)
┌─────────────┬────────────────┬───────┬───────┬───┬────────────┬─────────────────────────────────┬──────────────────┬────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ … ┆ SG_PARTIDO ┆ NM_PARTIDO                      ┆ QT_VOTOS_VALIDOS ┆ SIGLA_2022 │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆   ┆ ---        ┆ ---                             ┆ ---              ┆ ---        │
│ i64         ┆ str            ┆ str   ┆ str   ┆   ┆ str        ┆ str                             ┆ i64              ┆ str        │
╞═════════════╪════════════════╪═══════╪═══════╪═══╪════════════╪═════════════════════════════════╪══════════════════╪════════════╡
│ 2022        ┆ E              ┆ RS    ┆ RS    ┆ … ┆ NOVO       ┆ Partido Novo                    ┆ 69               ┆ NOVO       │
│ 2022        ┆ E              ┆ MT    ┆ MT    ┆ … ┆ PSB        ┆ Partido Socialista Brasileiro   ┆ 641              ┆ PSB        │
│ 2022        ┆ E              ┆ SC    ┆ SC    ┆ … ┆ PL      

In [31]:
set(df_poll_22_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

set()

_Integração entre legendas que mudaram ao longo tempo executada para eleições de **2022**._

_Todos os partidos na coluna **_SIGLA_2022_** estão na base dos partidos._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [32]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Adição do posicionamento ideológico nos datasets das eleições

In [33]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

(586244, 15)
(506959, 15)


In [34]:
# Precisamos apenas das 3 colunas
df_parties = df_partidos.select(pl.col("SG_PARTIDO"), pl.col("POSIC_IDEOLOGICO"), pl.col("SG_POSIC_IDEOLOGICO"))

In [35]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_18_filtered = (df_poll_18_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [36]:
df_poll_18_filtered.shape

(586244, 17)

In [37]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(10)
    print(df_poll_18_filtered)

shape: (586_244, 17)
┌─────────────┬────────────────┬───────┬───────┬────────────┬───┬──────────────────────┬──────────────────┬───────────────┬──────────────────┬─────────────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ NM_UE      ┆ … ┆ NM_PARTIDO           ┆ QT_VOTOS_VALIDOS ┆ SIGLA_2022    ┆ POSIC_IDEOLOGICO ┆ SG_POSIC_IDEOLOGICO │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆ ---        ┆   ┆ ---                  ┆ ---              ┆ ---           ┆ ---              ┆ ---                 │
│ i64         ┆ str            ┆ str   ┆ str   ┆ str        ┆   ┆ str                  ┆ i64              ┆ str           ┆ str              ┆ str                 │
╞═════════════╪════════════════╪═══════╪═══════╪════════════╪═══╪══════════════════════╪══════════════════╪═══════════════╪══════════════════╪═════════════════════╡
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ PERNAMBUCO ┆ … ┆ Solidariedade        ┆ 148              ┆ SOLIDARIEDADE ┆ Centro Direita   ┆ CD         

_Duas novas colunas foram adicionadas: POSIC_IDEOLOGICO e SG_POSIC_IDEOLOGICO._

In [38]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_22_filtered = (df_poll_22_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [39]:
df_poll_22_filtered.shape

(506959, 17)

In [40]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_poll_22_filtered)

shape: (506_959, 17)
┌─────────────┬────────────────┬───────┬───────┬───────────────────┬───┬──────────────────┬────────────┬──────────────────┬─────────────────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ NM_UE             ┆ … ┆ QT_VOTOS_VALIDOS ┆ SIGLA_2022 ┆ POSIC_IDEOLOGICO ┆ SG_POSIC_IDEOLOGICO │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆ ---               ┆   ┆ ---              ┆ ---        ┆ ---              ┆ ---                 │
│ i64         ┆ str            ┆ str   ┆ str   ┆ str               ┆   ┆ i64              ┆ str        ┆ str              ┆ str                 │
╞═════════════╪════════════════╪═══════╪═══════╪═══════════════════╪═══╪══════════════════╪════════════╪══════════════════╪═════════════════════╡
│ 2022        ┆ E              ┆ RS    ┆ RS    ┆ RIO GRANDE DO SUL ┆ … ┆ 69               ┆ NOVO       ┆ Direita          ┆ D                   │
│ 2022        ┆ E              ┆ MT    ┆ MT    ┆ MATO GROSSO       ┆ … ┆ 641              ┆ PSB        

_Número de registros não mudou, logo, os inner join foram executados com sucesso._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [41]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.2 Regiões

Carga do dataset das reigões e estados

---

In [42]:
df_regioes:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, regions))
df_regioes.shape

(27, 3)

In [43]:
print(df_regioes)

shape: (27, 3)
┌─────┬───────────┬───────────┐
│ UF  ┆ SG_REGIAO ┆ NM_REGIAO │
│ --- ┆ ---       ┆ ---       │
│ str ┆ str       ┆ str       │
╞═════╪═══════════╪═══════════╡
│ AM  ┆ N         ┆ Norte     │
│ RR  ┆ N         ┆ Norte     │
│ AP  ┆ N         ┆ Norte     │
│ PA  ┆ N         ┆ Norte     │
│ TO  ┆ N         ┆ Norte     │
│ …   ┆ …         ┆ …         │
│ ES  ┆ SE        ┆ Sudeste   │
│ MG  ┆ SE        ┆ Sudeste   │
│ PR  ┆ S         ┆ Sul       │
│ RS  ┆ S         ┆ Sul       │
│ SC  ┆ S         ┆ Sul       │
└─────┴───────────┴───────────┘


#### Registros duplicados

In [44]:
df_regioes.is_duplicated().sum()

0

_Sem registros duplicados._

#### Valores nulos

In [45]:
df_regioes.select(pl.all().is_null().sum()).to_dicts()[0]

{'UF': 0, 'SG_REGIAO': 0, 'NM_REGIAO': 0}

_Nenhum valor nulo._

#### Adicionar região "exterior" às regiões

In [46]:
df_regioes = pl.concat([df_regioes, pl.DataFrame([{"UF":"ZZ", "SG_REGIAO":"ZZ", "NM_REGIAO":"Exterior"}])])

In [47]:
print(df_regioes)

shape: (28, 3)
┌─────┬───────────┬───────────┐
│ UF  ┆ SG_REGIAO ┆ NM_REGIAO │
│ --- ┆ ---       ┆ ---       │
│ str ┆ str       ┆ str       │
╞═════╪═══════════╪═══════════╡
│ AM  ┆ N         ┆ Norte     │
│ RR  ┆ N         ┆ Norte     │
│ AP  ┆ N         ┆ Norte     │
│ PA  ┆ N         ┆ Norte     │
│ TO  ┆ N         ┆ Norte     │
│ …   ┆ …         ┆ …         │
│ MG  ┆ SE        ┆ Sudeste   │
│ PR  ┆ S         ┆ Sul       │
│ RS  ┆ S         ┆ Sul       │
│ SC  ┆ S         ┆ Sul       │
│ ZZ  ┆ ZZ        ┆ Exterior  │
└─────┴───────────┴───────────┘


#### Juntar votação com as regiões

In [48]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

(586244, 17)
(506959, 17)


In [49]:
df_poll_18_filtered = df_poll_18_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")
df_poll_22_filtered = df_poll_22_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")

In [50]:
print(df_poll_18_filtered)
print(df_poll_22_filtered)

shape: (586_244, 19)
┌─────────────┬────────────────┬───────┬───────┬───┬──────────────────┬─────────────────────┬───────────┬───────────┐
│ ANO_ELEICAO ┆ TP_ABRANGENCIA ┆ SG_UF ┆ SG_UE ┆ … ┆ POSIC_IDEOLOGICO ┆ SG_POSIC_IDEOLOGICO ┆ SG_REGIAO ┆ NM_REGIAO │
│ ---         ┆ ---            ┆ ---   ┆ ---   ┆   ┆ ---              ┆ ---                 ┆ ---       ┆ ---       │
│ i64         ┆ str            ┆ str   ┆ str   ┆   ┆ str              ┆ str                 ┆ str       ┆ str       │
╞═════════════╪════════════════╪═══════╪═══════╪═══╪══════════════════╪═════════════════════╪═══════════╪═══════════╡
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ Centro Direita   ┆ CD                  ┆ NE        ┆ Nordeste  │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ Centro Direita   ┆ CD                  ┆ NE        ┆ Nordeste  │
│ 2018        ┆ E              ┆ PE    ┆ PE    ┆ … ┆ Centro Direita   ┆ CD                  ┆ NE        ┆ Nordeste  │
│ 2018        ┆ E              ┆ PE

_O número de registros não mudou nos dois datasets, join executado com sucesso._

In [51]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.3 Municípios

Carga dos dois datasets municípios. Precisa-se dos dois, pois a tabela do TSE não tem a localização geográfica enquanto esta informação está na tabela do IBGE.

---

In [52]:
#municípios do igbe
df_munic_ibge:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, ibge_cities))
df_munic_ibge.shape

(5570, 9)

In [53]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_munic_ibge)

shape: (5_570, 9)
┌─────────────┬─────────────────────┬──────────┬───────────┬─────────┬───────────┬──────────┬─────┬───────────────────┐
│ codigo_ibge ┆ nome                ┆ latitude ┆ longitude ┆ capital ┆ codigo_uf ┆ siafi_id ┆ ddd ┆ fuso_horario      │
│ ---         ┆ ---                 ┆ ---      ┆ ---       ┆ ---     ┆ ---       ┆ ---      ┆ --- ┆ ---               │
│ i64         ┆ str                 ┆ f64      ┆ f64       ┆ i64     ┆ i64       ┆ i64      ┆ i64 ┆ str               │
╞═════════════╪═════════════════════╪══════════╪═══════════╪═════════╪═══════════╪══════════╪═════╪═══════════════════╡
│ 5200050     ┆ Abadia de Goiás     ┆ -16.7573 ┆ -49.4412  ┆ 0       ┆ 52        ┆ 1050     ┆ 62  ┆ America/Sao_Paulo │
│ 3100104     ┆ Abadia dos Dourados ┆ -18.4831 ┆ -47.3916  ┆ 0       ┆ 31        ┆ 4001     ┆ 34  ┆ America/Sao_Paulo │
│ 5200100     ┆ Abadiânia           ┆ -16.197  ┆ -48.7057  ┆ 0       ┆ 52        ┆ 9201     ┆ 62  ┆ America/Sao_Paulo │
│ 3100203     ┆ Abaeté

In [54]:
df_munic_tse:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, tse_cities))
df_munic_tse.shape

(5570, 5)

In [55]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_munic_tse)

shape: (5_570, 5)
┌────────────┬─────┬────────────────┬─────────┬─────────────┐
│ codigo_tse ┆ uf  ┆ nome_municipio ┆ capital ┆ codigo_ibge │
│ ---        ┆ --- ┆ ---            ┆ ---     ┆ ---         │
│ i64        ┆ str ┆ str            ┆ i64     ┆ i64         │
╞════════════╪═════╪════════════════╪═════════╪═════════════╡
│ 1120       ┆ AC  ┆ ACRELÂNDIA     ┆ 0       ┆ 1200013     │
│ 1570       ┆ AC  ┆ ASSIS BRASIL   ┆ 0       ┆ 1200054     │
│ 1058       ┆ AC  ┆ BRASILÉIA      ┆ 0       ┆ 1200104     │
│ 1007       ┆ AC  ┆ BUJARI         ┆ 0       ┆ 1200138     │
│ 1015       ┆ AC  ┆ CAPIXABA       ┆ 0       ┆ 1200179     │
│ …          ┆ …   ┆ …              ┆ …       ┆ …           │
│ 96199      ┆ TO  ┆ TOCANTÍNIA     ┆ 0       ┆ 1721109     │
│ 73458      ┆ TO  ┆ TUPIRAMA       ┆ 0       ┆ 1721257     │
│ 73237      ┆ TO  ┆ TUPIRATINS     ┆ 0       ┆ 1721307     │
│ 96652      ┆ TO  ┆ WANDERLÂNDIA   ┆ 0       ┆ 1722081     │
│ 96431      ┆ TO  ┆ XAMBIOÁ        ┆ 0       ┆ 1722

_O join entre as tabelas será feito "codigo_ibge"._

_A tabela final de municípios terá os campos:_

- _codigo_tse pois este campo será feito o join com as tabelas de eleições;_
- _uf pois será usado para pegar a região e estado de cada cidade;_
- _capital;_
- _nome;_
- _latitude e longitude para plotarmos em mapa;_
- _ddd pois pode ser útil para um divisão dentro dos estados._

In [56]:
df_municipios = (df_munic_tse
    .join(df_munic_ibge, on="codigo_ibge", how="inner")
    .select(pl.col("codigo_tse"), pl.col("codigo_ibge"), pl.col("nome"), pl.col("uf"), pl.col("capital"), pl.col("latitude"), pl.col("longitude"), pl.col("ddd"))
)

In [57]:
print(df_municipios)

shape: (5_570, 8)
┌────────────┬─────────────┬─────────────────────┬─────┬─────────┬──────────┬───────────┬─────┐
│ codigo_tse ┆ codigo_ibge ┆ nome                ┆ uf  ┆ capital ┆ latitude ┆ longitude ┆ ddd │
│ ---        ┆ ---         ┆ ---                 ┆ --- ┆ ---     ┆ ---      ┆ ---       ┆ --- │
│ i64        ┆ i64         ┆ str                 ┆ str ┆ i64     ┆ f64      ┆ f64       ┆ i64 │
╞════════════╪═════════════╪═════════════════════╪═════╪═════════╪══════════╪═══════════╪═════╡
│ 93360      ┆ 5200050     ┆ Abadia de Goiás     ┆ GO  ┆ 0       ┆ -16.7573 ┆ -49.4412  ┆ 62  │
│ 40010      ┆ 3100104     ┆ Abadia dos Dourados ┆ MG  ┆ 0       ┆ -18.4831 ┆ -47.3916  ┆ 34  │
│ 92010      ┆ 5200100     ┆ Abadiânia           ┆ GO  ┆ 0       ┆ -16.197  ┆ -48.7057  ┆ 62  │
│ 40037      ┆ 3100203     ┆ Abaeté              ┆ MG  ┆ 0       ┆ -19.1551 ┆ -45.4444  ┆ 37  │
│ 4014       ┆ 1500107     ┆ Abaetetuba          ┆ PA  ┆ 0       ┆ -1.72183 ┆ -48.8788  ┆ 91  │
│ …          ┆ …      

#### Registros duplicados

In [58]:
df_municipios.is_duplicated().sum()

0

_Não há valores duplicados. Isto é normal pois trata-se de tabelas oficias de órgãos governamentais._

#### Valores nulos

In [59]:
df_municipios.select(pl.all().is_null().sum()).to_dicts()[0]

{'codigo_tse': 0,
 'codigo_ibge': 0,
 'nome': 0,
 'uf': 0,
 'capital': 0,
 'latitude': 0,
 'longitude': 0,
 'ddd': 0}

#### Guardar o dataset dos municípios

In [60]:
df_municipios.write_parquet(os.path.join(root, "municipios.parquet"))

_Sem valores nulos._

#### Salvar um arquivo com as capitais

In [61]:
# filtrando apenas as capitais
df_capitais = df_municipios.filter(pl.col("capital")==1)

In [62]:
print(df_capitais)

shape: (27, 8)
┌────────────┬─────────────┬────────────────┬─────┬─────────┬──────────┬───────────┬─────┐
│ codigo_tse ┆ codigo_ibge ┆ nome           ┆ uf  ┆ capital ┆ latitude ┆ longitude ┆ ddd │
│ ---        ┆ ---         ┆ ---            ┆ --- ┆ ---     ┆ ---      ┆ ---       ┆ --- │
│ i64        ┆ i64         ┆ str            ┆ str ┆ i64     ┆ f64      ┆ f64       ┆ i64 │
╞════════════╪═════════════╪════════════════╪═════╪═════════╪══════════╪═══════════╪═════╡
│ 31054      ┆ 2800308     ┆ Aracaju        ┆ SE  ┆ 1       ┆ -10.9091 ┆ -37.0677  ┆ 79  │
│ 4278       ┆ 1501402     ┆ Belém          ┆ PA  ┆ 1       ┆ -1.4554  ┆ -48.4898  ┆ 91  │
│ 41238      ┆ 3106200     ┆ Belo Horizonte ┆ MG  ┆ 1       ┆ -19.9102 ┆ -43.9266  ┆ 31  │
│ 3018       ┆ 1400100     ┆ Boa Vista      ┆ RR  ┆ 1       ┆ 2.82384  ┆ -60.6753  ┆ 95  │
│ 97012      ┆ 5300108     ┆ Brasília       ┆ DF  ┆ 1       ┆ -15.7795 ┆ -47.9297  ┆ 61  │
│ …          ┆ …           ┆ …              ┆ …   ┆ …       ┆ …        ┆ … 

_Apenas 27 capitais, como seria esperado._

In [63]:
df_capitais.write_parquet(os.path.join(root, "capitais.parquet"))

## FIM