# **Especialização em Ciência de Dados - INF/UFRGS e SERPRO**
# **Análise Visual e Interativa Sobre o Discurso de Ódio nas Redes Sociais e Influência nas Eleições Brasileiras**
#### *Prof <sup>as</sup>. Viviane P. Moreira e Lisiane Selau*
<br>

---

***Trabalho de Conclusão de Curso – Turma 03***

*Aluno:*

* Antonio Fagner Santos de Oliveira 576637
---

_Este notebook trabalha a carga e o pré-processamento dos dados das eleições gerais brasileiras de 2018 e 2022._

_O pré-processamento inclui etapas como limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias._

## 1 Dicionário de Dados

### 1.1 Arquivo votacao_partido_munzona_[2018|2022]_BRASIL.parquet

Agregação da votação dos partidos por zona eleitoral dos municípios.

---
- ***DT_GERACAO*** - Data da extração dos dados para geração do arquivo, formato "DD/MM/YYYY";
- ***HH_GERACAO*** - Hora da extração dos dados para geração do arquivo com base no horário de Brasília, formato "H24:Mi:SS";
- ***ANO_ELEICAO*** - Ano de referência da eleição para geração do arquivo. Observação: para eleições suplementares o ano de referência da eleição é o da eleição ordinária correspondente, format "YYYY";
- ***CD_TIPO_ELEICAO*** - Código do tipo de eleição. Pode assumir os valores:
  
> 1 - Eleição Suplementar;
>
> 2 - Eleição Ordinária e;
>
> 3 - Consulta Popular.
> 
- ***NM_TIPO_ELEICAO*** - Nome do tipo de eleição.
  
> 1 - **Eleição Suplementar** - eleições que não têm periodicidade pré-determinada ou definida e ocorrem quando, eventualmente, se fizerem necessárias.
> 
> 2 - **Eleição Ordinária** - eleições ordinárias onde são eleitos os cargos de ***Presidente, Governadores, Deputados (Federais e Estaduais) e Senadores***. Nas eleições ordinárias municipais são eleitos os cargos de ***Prefeito e Vereadores***.
>
> 3 - **Consulta Popular** - eleições que ocorrem sempre que a população é convocada a opinar diretamente sobre um assunto específico e importante. Ela pode ser realizada de duas formas: ***plebiscito*** (quando o cidadão opina previamente sobre a possível criação de uma lei) e ***referendo*** (quando uma lei aprovada por um órgão legislativo é submetida à aceitação ou não das eleitoras e dos eleitores).

- ***NR_TURNO*** - Número do turno da eleição.
  
> 1 - **Primeiro Turno**;
> 
> 2 - **Segundo Turno**.

_Nos municípios cujo eleitorado é igual ou menor que 200 mil e para o cargo de Senador elege-se a candidata ou o candidato que tenha alcançado a maioria simples dos votos._

- ***CD_ELEICAO*** - Código único da eleição no âmbito da Justiça Eleitoral. Observação: este código é único por eleição e por turno, ou seja, cada turno possui seu código de eleição.
- ***DS_ELEICAO*** - Descrição da eleição.
- ***DT_ELEICAO*** - Data em que ocorreu a eleição, formato "DD/MM/YYYY".
- ***TP_ABRANGENCIA*** - Abrangência da eleição.
  
> **M** - Municipal;
> 
> **E** - Estadual e;
> 
> **F** - Federal.

*As eleições realizadas na circunscrição Municipal são as eleições para os cargos de Prefeito, Vice-Prefeito e Vereador; as realizadas na circunscrição Estadual são para os cargos de Governador, Vice-Governador, Senador, Deputado Estadual, Deputado Federal e Deputado Distrital e; as realizadas na circunscrição Federal são para os cargos de Presidente e Vice-Presidente da República.*
- ***SG_UF*** - Sigla da Unidade da Federação em que ocorreu a eleição.
- ***SG_UE*** - Sigla da Unidade Eleitoral em que a candidata ou o candidato concorre na eleição. A Unidade Eleitoral representa a Unidade da Federação ou o Município em que a candidata ou o candidato concorre na eleição e é relacionada à abrangência territorial desta candidatura. Em caso de abrangência Federal (cargo de Presidente e Vice-Presidente) a sigla é ***BR***, em caso de abrangência Estadual (cargos de Governador, Vice-Governador, Senador, Deputado Federal, Deputado Estadual e Deputado Distrital) a sigla é a ***UF da candidatura*** e em caso de abrangência Municipal (cargos de Prefeito, Vice-Prefeito e Vereador) é o ***código TSE de identificação do município da candidatura***.
- ***NM_UE*** - Nome da Unidade Eleitoral. Em caso de eleição majoritária é a **sigla da UF** que a candidata ou o candidato concorre e em caso de eleição municipal é o **código TSE do município (número)**. Assume os valores especiais **BR, ZZ e VT** para designar, respectivamente, o Brasil, Exterior e Voto em Trânsito.
- ***CD_MUNICIPIO*** - Código TSE do município onde ocorreu a eleição.
- ***NM_MUNICIPIO*** - Nome do município onde ocorreu a eleição.
- ***NR_ZONA*** - Número da zona onde ocorreu a eleição.
- ***CD_CARGO*** - Código do cargo da candidata ou candidato.

> **1** - Presidente
>
> **3** - Governador
>
> **5** - Senador
>
> **6** - Deputado Federal
>
> **7** - Deputado Estadual
>
> **8** - Deputado Distrital
>
> **25** - Conselheiro Distrital

- ***DS_CARGO*** - Descrição do cargo da candidata ou candidato.
- ***TP_AGREMIACAO*** - Tipo de agremiação da candidatura da candidata ou do candidato, ou seja, forma como a candidata ou o candidato concorrerá nas eleições. Pode assumir os valores:

> **Federação** - quando a candidata ou candidato concorre por uma federação;
> 
> **Coligação** - quando a candidata ou o candidato concorre por coligação e;
>
> **Partido Isolado** - quando a candidata ou o candidato concorre somente pelo partido.

- ***NR_PARTIDO*** - Número do partido de origem da candidata ou candidato.
- ***SG_PARTIDO*** - Sigla do partido de origem da candidata ou candidato.
- ***NM_PARTIDO*** - Nome do partido de origem da candidata ou candidato.
- ***NR_FEDERACAO*** - Número da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***NM_FEDERACAO*** - Nome da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***SG_FEDERACAO*** - Sigla da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**.
- ***DS_COMPOSICAO_FEDERACAO*** - Composição da Federação a qual concorre a candidata ou candidato. Caso a candidatura não esteja em uma Federação, o arquivo retornará o valor **#NULO#**. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***SQ_COLIGACAO*** - Sequencial da coligação da qual a candidata ou candidato pertence, gerado pela Justiça Eleitoral.
- ***NM_COLIGACAO*** - Nome da coligação da qual a candidata ou candidato pertence.
- ***DS_COMPOSICAO_COLIGACAO*** - Composição da coligação da qual a candidata ou candidato pertence. Observação: Coligação é a união de dois ou mais partidos a fim de disputarem eleições. A informação da coligação no arquivo está composta pela concatenação das siglas dos partidos intercarladas com o símbolo /.
- ***ST_VOTO_EM_TRANSITO*** - Situação que indica se o quantitativo de votos se refere a voto em trânsito. Podendo assumir os valores: "**S**" - Sim ou "**N**" - Não;
- ***QT_VOTOS_LEGENDA_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_CONVR_LEG*** - Quantidade de votos válidos dados à candidata ou ao candidato a cargos proporcionais que, por decisão judicial, se tornaram votos para a legenda ao qual concorriam totalizados para aquele partido e cargo naquele município e zona;
- ***QT_TOTAL_VOTOS_LEG_VALIDOS*** - Quantidade de votos válidos em legenda totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_VALIDOS*** - Quantidade de votos nominais válidos totalizados para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_LEGENDA_ANUL_SUBJUD*** - Quantidade de votos dados em legenda anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;
- ***QT_VOTOS_NOMINAIS_ANUL_SUBJUD*** - Quantidade de votos dados à candidata ou ao candidato anulados em razão da sua situação jurídica mas que há recurso pendente no momento da totalização para aquele partido e cargo naquele município e zona;


### 1.2 Arquivo partidos_br.parquet

Dados dos partidos políticos brasileiros.

---
- ***SG_PARTIDO*** - Sigla do partido político.
- ***MEDIA_IDEOL*** - Pontuação ideológica para cada partido onde mais próximo de 0 significa extrema esquerda e próximo de 10 extrema direita.
- ***NOME*** - Nome do partido político no TSE.
- ***NR_PARTIDO*** - Número do partido conforme o TSE.
- ***POSIC_IDEOLOGICO*** - Nome extenso do posicionamento ideológico do partido.
  
> **Extrema Esquerda**
> 
> **Esquerda**
> 
> **Centro Esquerda**
>
> **Centro**
>
> **Centro Direita**
>
> **Direita**
>
> **Extrema Direita**

- ***SG_POSIC_IDEOLOGICO*** - Sigla associada a cada `POSIC_IDEOLOGICO`.

> **EE** - Extrema Esquerda
> 
> **E** - Esquerda
> 
> **CE** - Centro Esquerda
>
> **C** - Centro
>
> **CD** - Centro Direita
>
> **D** - Direita
>
> **ED** - Extrema Direita

O posicionamento ideológico é baseado no artigo *BOLOGNESI, Bruno; RIBEIRO, Ednaldo; CODATO, Adrian.Uma Nova Classificação Ideológica dos Partidos Políticos Brasileiros. DADOS, Rio de Janeiro, vol.67 (2), p. 14, 2023.*

### 1.3 Arquivo municipios_brasileiros_tse.parquet


Lista de municípios brasileiros segundo o TSE.

---
- ***codigo_tse*** - código do município na base do TSE. Este campo faz a ligação com o campo CD_MUNICIPIO do arquivo votacao_partido_munzona_2022_BRASIL.parquet;
- ***uf*** - sigla da UF do município;
- ***nome_municipio*** - nome do município na base do TSE;
- ***capital*** - 1 indica que o município é capital do seu estado;
- ***codigo_ibge*** - código do município na base do IBGE. Este código é importante porque na base do TSE pode-se encontrar a localização geográfica do município.

### 1.4 Arquivo municipios_ibge_lat_long.csv

Lista de municípios brasileiros com códigos do IBGE e suas latitudes e longitudes.

---
- ***codigo_ibge*** - código do município na base do IBGE. Este campo faz a ligação com a tabela de municípios do TSE;
- ***nome*** - nome do município na base do IBGE.
- ***latitude*** - latitude do município;
- ***longitude*** - longitude do município;
- ***capital*** - 1 indica que o município é capital;
- ***codigo_uf*** - código da UF do município na base do IBGE;
- ***siafi_id*** - código do município dentro do sistema de contabilidade do governo federal (siafi);
- ***ddd*** - código de discagem a longa distância do município;
- ***fuso_horario*** - descrição do fuso horário em que o município se encontra.

### 1.5 Arquivo regioes.parquet

Arquivo de estados por grandes regiões brasileiras

---

- ***UF*** - sigla da UF;
- ***SG_REGIAO*** - sigla da região da UG;
- ***NM_REGIAO*** - nome da região.


## 2 Pré-processamento dos Dados

Limpeza, transformação, integração e redução de dimensionalidade. Essas etapas visam garantir que os dados estejam prontos para a análise, livres de ruídos, inconsistências e redundâncias.

---

In [None]:
import polars as pl
import os
import altair as alt
import numpy as np
import standards as sdt_f

In [None]:
root:str = "../Dados/Eleicoes/"
poll_18:str = "votacao_partido_munzona_2018_BRASIL.parquet"
poll_22:str = "votacao_partido_munzona_2022_BRASIL.parquet"
regions:str = "regioes.parquet"
tse_cities:str = "municipios_brasileiros_tse.parquet"
ibge_cities:str = "municipios_ibge_lat_long.parquet"
parties:str = "partidos_br.parquet"

### 2.1 Dados eleitorais

https://medium.com/@danilo.dct/the-importance-of-data-validation-in-data-analysis-a-six-step-guide-2be645a064f3

---

#### Carga dos partidos políticos e seu posicionamento ideológico

In [None]:
df_partidos:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, parties))

In [None]:
df_partidos = df_partidos.with_columns(
    pl.col("POSIC_IDEOLOGICO").str.to_titlecase()
)

In [None]:
df_partidos.head()

#### Carga dos dados da eleições de 2018 e 2022

In [None]:
## carrega os dados das eleições de 2018 e 2022
df_eleicoes_2018:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_18))
df_eleicoes_2022:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, poll_22))

In [None]:
print(df_eleicoes_2018.shape)
print(df_eleicoes_2022.shape)

In [None]:
'''
    Faz a filtragem inicial nos arquivos das eleições:
    - Filtramos pelo ano da eleição [2018|2022];
    - Apenas eleição ordinária
    - Analisaremos somente o 1o turno
    - Remove os cargos de conselheiro distrital
    - Remove a abrangência municipal
    - Também, o retorno serão alguns campos necessários à análise:
        TP_ABRANGENCIA, SG_UF, SG_UE, NM_UE, CD_MUNICIPIO, NM_MUNICIPIO, NR_ZONA, CD_CARGO, DS_CARGO, NR_PARTIDO, SG_PARTIDO, 
        NM_PARTIDO, QT_VOTOS_NOMINAIS_CONVR_LEG, QT_TOTAL_VOTOS_LEG_VALIDOS, QT_VOTOS_NOMINAIS_VALIDOS.
'''
def filter_poll(df:pl.DataFrame, year:int)->pl.DataFrame:
    return (
        df
            .filter( 
                (pl.col("ANO_ELEICAO")==year) & (pl.col("CD_TIPO_ELEICAO")==2) & 
                (pl.col("NR_TURNO")==1) & (pl.col("CD_CARGO")!=25) &
                (pl.col("TP_ABRANGENCIA").is_in(["E","F"]))
            )
            .select(pl.col("ANO_ELEICAO"),
                pl.col("TP_ABRANGENCIA"), pl.col("SG_UF"), pl.col("SG_UE"), pl.col("NM_UE"), pl.col("CD_MUNICIPIO")
                , pl.col("NM_MUNICIPIO"), pl.col("NR_ZONA"), pl.col("CD_CARGO"), pl.col("DS_CARGO"), pl.col("NR_PARTIDO")
                , pl.col("SG_PARTIDO"), pl.col("NM_PARTIDO"), pl.col("QT_VOTOS_NOMINAIS_CONVR_LEG")
                , pl.col("QT_TOTAL_VOTOS_LEG_VALIDOS"), pl.col("QT_VOTOS_NOMINAIS_VALIDOS")
            )
    )

In [None]:
#filtra somente informações de primeiro turno de 2018 e 2022
df_poll_18_filtered = filter_poll(df_eleicoes_2018, 2018)
df_poll_22_filtered = filter_poll(df_eleicoes_2022, 2022)

In [None]:
df_poll_22_filtered

_Os datasets das eleições estão apenas com os campos necessários e registros de primeiro turno._

#### Registros duplicados

In [None]:
print(f"Total de registros duplicados em 2018: {df_poll_18_filtered.is_duplicated().sum()}")
print(f"Total de registros duplicados em 2022: {df_poll_22_filtered.is_duplicated().sum()}")

_Nenhum registro duplicado dos dois datasets._ 

#### Valores nulos

In [None]:
df_poll_18_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

In [None]:
#df_poll_22_filtered.null_count()

In [None]:
df_poll_22_filtered.select(pl.all().is_null().sum()).to_dicts()[0]

_Pode-se ver que não há valores nulos nos datasets_

#### Tipos dos dados das eleições

In [None]:
[(column, df_poll_18_filtered.get_column(column).dtype) for column in df_poll_18_filtered.columns]

In [None]:
[(column, df_poll_22_filtered.get_column(column).dtype) for column in df_poll_22_filtered.columns]

_Os tipos de dados parecem conforme o esperado._

#### Somatário de votos válidos por partido e zona

Todos os campos de de quantidade de votos podem ser somados pois são quantidade de votos válidos.

In [None]:
'''
    Somas as três colunas com votos válidos e, depois, reve-as do dataset
'''
def sum_suffrage(df:pl.DataFrame)->pl.DataFrame:
    return (df
        .with_columns(
            QT_VOTOS_VALIDOS = pl.sum_horizontal("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS")
        ).drop("QT_VOTOS_NOMINAIS_CONVR_LEG", "QT_TOTAL_VOTOS_LEG_VALIDOS", "QT_VOTOS_NOMINAIS_VALIDOS")
    )

In [None]:
df_poll_18_filtered = sum_suffrage(df_poll_18_filtered)

In [None]:
df_poll_22_filtered = sum_suffrage(df_poll_22_filtered)

In [None]:
print(df_poll_18_filtered)

In [None]:
print(df_poll_22_filtered)

_Agora, a feature 'QT_VOTOS_VALIDOS' é somando todos os votos válidos por partido e zona eleitoral._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [None]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Criar integração entre partidos que mudaram de nome ou se aglutinaram ou foram absorvidos por outros

Para 2018

In [None]:
set(df_poll_18_filtered.get_column("SG_PARTIDO")).difference(set(df_partidos.get_column("SG_PARTIDO")))

_Alguns partidos da aleição de 2018 não estão na lista de partidos carregada, cada partido destes será analisado individualmente para classificação ideológica._

* **DEM** _fundiu-se com o **PSL** e gerou o **União Brasil**_;
* **PATRI**, _também conhecido como Patriota, fundiu-se com o **PTB** e gerou o **PRD**_;
* **PC do B** _está na lista porque a sigla no dataset de partidos está **PCdoB**_;
* **PHS** _foi incorporado ao **PODE(Podemos)**_;
* **PPL** _foi extinto em 2019_;
* **PPS** _virou **CIDADANIA** em 2019_;
* **PR** _virou **PL** em 2019_;
* **PRB** _virou **REPUBLICANOS** em 2019_;
* **PROS** _foi incorporado ao **SOLIDARIEDADE** em 2022_;
* **PRP** _foi incorporado ao **PATRIOTA** que se juntou ao **PTB** para formar o **PRD**_;
* **PSC** _foi incorporado ao **PODE(Podemos)** em 2022_;
* **PSL** _fundiu-se com o **DEM** e gerou o **União Brasil**_;
* **PTB** _fundiu-se com o **PATRIOTA** e gerou o **PRD**_;
* **PTC** _virou o **Agir** em 2022._

_Função para criação da coluna de integração entre partidos_

In [None]:
def create_integ_col(df:pl.DataFrame)-> pl.DataFrame:
    return (
        df
        .with_columns(
            SIGLA_2022 = pl.when(pl.col("SG_PARTIDO").is_in(["DEM","PSL"])).then(pl.lit("UNIÃO")).otherwise(
                                pl.when(pl.col("SG_PARTIDO").is_in(["PATRI", "PATRIOTA", "PTB", "PRP"])).then(pl.lit("PRD")).otherwise(
                                    pl.when(pl.col("SG_PARTIDO")=="PC do B").then(pl.lit("PCdoB")).otherwise(
                                        pl.when(pl.col("SG_PARTIDO").is_in(["PHS","PSC"])).then(pl.lit("PODE")).otherwise(
                                            pl.when(pl.col("SG_PARTIDO")=="PPS").then(pl.lit("CIDADANIA")).otherwise(
                                                pl.when(pl.col("SG_PARTIDO")=="PR").then(pl.lit("PL")).otherwise(
                                                    pl.when(pl.col("SG_PARTIDO")=="PRB").then(pl.lit("REPUBLICANOS")).otherwise(
                                                        pl.when(pl.col("SG_PARTIDO")=="PROS").then(pl.lit("SOLIDARIEDADE")).otherwise(
                                                            pl.when(pl.col("SG_PARTIDO")=="PTC").then(pl.lit("AGIR")).otherwise(
                                                                pl.when(pl.col("SG_PARTIDO")=="PMN").then(pl.lit("MOBILIZA")).otherwise(
                                                                    pl.col("SG_PARTIDO")
                                                                )
                                                            )
                                                        )
                                                    )
                                                )
                                            )
                                        )
                                    )
                                )
                            )
                        )
    )

In [None]:
df_poll_18_filtered = create_integ_col(df_poll_18_filtered)

In [None]:
print(df_poll_18_filtered)

In [None]:
set(df_poll_18_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

_Integração entre legendas que mudaram ao longo tempo executada para eleições de **2018**._

_Todos os partidos na coluna **_SIGLA_2022_** estão na base dos partidos._

Para 2022

In [None]:
set(df_poll_22_filtered.get_column("SG_PARTIDO")).difference(set(df_partidos.get_column("SG_PARTIDO")))

_Em 2022, a única regra nova aplicada será transformar o **PATRIOTA** em **PRD**._

In [None]:
df_poll_22_filtered = create_integ_col(df_poll_22_filtered)

In [None]:
print(df_poll_22_filtered.head())

In [None]:
set(df_poll_22_filtered.get_column("SIGLA_2022")).difference(set(df_partidos.get_column("SG_PARTIDO")))

_Integração entre legendas que mudaram ao longo tempo executada para eleições de **2022**._

_Todos os partidos na coluna **_SIGLA_2022_** estão na base dos partidos._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [None]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

#### Adição do posicionamento ideológico nos datasets das eleições

In [None]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

In [None]:
# Precisamos apenas das 3 colunas
df_parties = df_partidos.select(pl.col("SG_PARTIDO"), pl.col("POSIC_IDEOLOGICO"), pl.col("SG_POSIC_IDEOLOGICO"))

In [None]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_18_filtered = (df_poll_18_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [None]:
df_poll_18_filtered.shape

In [None]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(10)
    print(df_poll_18_filtered)

_Duas novas colunas foram adicionadas: POSIC_IDEOLOGICO e SG_POSIC_IDEOLOGICO._

In [None]:
# Este join garante a associação entre o posicionamento político do partido e o voto
df_poll_22_filtered = (df_poll_22_filtered
    .join(df_parties, left_on="SIGLA_2022", right_on="SG_PARTIDO", how="inner")
)

In [None]:
df_poll_22_filtered.shape

In [None]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_poll_22_filtered)

_Número de registros não mudou, logo, os inner join foram executados com sucesso._

#### Guardar os datasets da eleições com os tratamentos até aqui

In [None]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.2 Regiões

Carga do dataset das reigões e estados

---

In [None]:
df_regioes:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, regions))
df_regioes.shape

In [None]:
print(df_regioes)

#### Registros duplicados

In [None]:
df_regioes.is_duplicated().sum()

_Sem registros duplicados._

#### Valores nulos

In [None]:
df_regioes.select(pl.all().is_null().sum()).to_dicts()[0]

_Nenhum valor nulo._

#### Adicionar região "exterior" às regiões

In [None]:
df_regioes = pl.concat([df_regioes, pl.DataFrame([{"UF":"ZZ", "SG_REGIAO":"ZZ", "NM_REGIAO":"Exterior"}])])

In [None]:
print(df_regioes)

#### Juntar votação com as regiões

In [None]:
print(df_poll_18_filtered.shape)
print(df_poll_22_filtered.shape)

In [None]:
df_poll_18_filtered = df_poll_18_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")
df_poll_22_filtered = df_poll_22_filtered.join(df_regioes, left_on="SG_UF", right_on="UF")

In [None]:
print(df_poll_18_filtered)
print(df_poll_22_filtered)

_O número de registros não mudou nos dois datasets, join executado com sucesso._

In [None]:
#salvar o processamento até aqui
df_poll_18_filtered.write_parquet(os.path.join(root, "eleicao18_turno_01.parquet"))
df_poll_22_filtered.write_parquet(os.path.join(root, "eleicao22_turno_01.parquet"))

### 2.3 Municípios

Carga dos dois datasets municípios. Precisa-se dos dois, pois a tabela do TSE não tem a localização geográfica enquanto esta informação está na tabela do IBGE.

---

In [None]:
#municípios do igbe
df_munic_ibge:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, ibge_cities))
df_munic_ibge.shape

In [None]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_munic_ibge)

In [None]:
df_munic_tse:pl.DataFrame = sdt_f.load_parquet(os.path.join(root, tse_cities))
df_munic_tse.shape

In [None]:
with pl.Config() as cfg:
    cfg.set_tbl_cols(9)
    print(df_munic_tse)

_O join entre as tabelas será feito "codigo_ibge"._

_A tabela final de municípios terá os campos:_

- _codigo_tse pois este campo será feito o join com as tabelas de eleições;_
- _uf pois será usado para pegar a região e estado de cada cidade;_
- _capital;_
- _nome;_
- _latitude e longitude para plotarmos em mapa;_
- _ddd pois pode ser útil para um divisão dentro dos estados._

In [None]:
df_municipios = (df_munic_tse
    .join(df_munic_ibge, on="codigo_ibge", how="inner")
    .select(pl.col("codigo_tse"), pl.col("codigo_ibge"), pl.col("nome"), pl.col("uf"), pl.col("capital"), pl.col("latitude"), pl.col("longitude"), pl.col("ddd"))
)

In [None]:
print(df_municipios)

#### Registros duplicados

In [None]:
df_municipios.is_duplicated().sum()

_Não há valores duplicados. Isto é normal pois trata-se de tabelas oficias de órgãos governamentais._

#### Valores nulos

In [None]:
df_municipios.select(pl.all().is_null().sum()).to_dicts()[0]

#### Guardar o dataset dos municípios

In [None]:
df_municipios.write_parquet(os.path.join(root, "municipios.parquet"))

_Sem valores nulos._

#### Salvar um arquivo com as capitais

In [None]:
# filtrando apenas as capitais
df_capitais = df_municipios.filter(pl.col("capital")==1)

In [None]:
print(df_capitais)

_Apenas 27 capitais, como seria esperado._

In [None]:
df_capitais.write_parquet(os.path.join(root, "capitais.parquet"))

Continua com a análise exploratória em 02_Eleições_Analise_Exploratoria.

## 3 Análise Exploratória

Entender e explorar os dados por meio de técnicas estatísticas e visualização. Tendências, padrões, relações e insights iniciais que podem orientar as próximas etapas do processo.

https://ebaconline.com.br/blog/analise-exploratoria-de-dados-o-que-e

---

#### Cria uma cor para cada posicionamento ideológico

In [None]:
df_colors = (df_partidos
    .select(pl.col("SG_POSIC_IDEOLOGICO"), pl.col("POSIC_IDEOLOGICO"))
    .unique() 
    .with_columns(
        pl.col("POSIC_IDEOLOGICO").str.to_titlecase(),
        cor = pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="EE").then(pl.lit("#7F0000")).otherwise(
                pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="E").then(pl.lit("#FF0000")).otherwise(
                    pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="CE").then(pl.lit("#C54B53")).otherwise(
                        pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="C").then(pl.lit("#FFD966")).otherwise(
                            pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="CD").then(pl.lit("#97A3FF")).otherwise(
                                pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="D").then(pl.lit("#262DDA")).otherwise(
                                    pl.when(pl.col("SG_POSIC_IDEOLOGICO")=="ED").then(pl.lit("#030886"))
                                )
                            )
                        )
                    )
                )
            )
    )
)

In [None]:
print(df_colors)

In [None]:
df_colors.write_parquet(os.path.join(root, "cores_ideologicas.parquet"))

#### Função de filtragem por cargos

In [None]:
print(df_poll_22_filtered.head())

In [None]:
'''
    Filtra os dada de uma eleição pelo cargo político:
    df:pl.DataFrame -> dataframe da eleição
    posit_code:int -> código do cargo eleitoral
        1 - Presidente
        3 - Governador
        5 - Senador
        6 - Deputado Federal
        7 - Deputado Estadual
        8 - Deputado Distrital
'''
def filter_by_position(df:pl.DataFrame, posit_codes:list[int])->pl.DataFrame:
    return (df
        .filter(pl.col("CD_CARGO").is_in(posit_codes))
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )

### 3.1 Análise da variação da votação por partidos e cargos entre 2018 e 2022

---

#### Partidos mais votados por cargo

In [None]:
'''
   Apresenta um grouped bar chart para um cargo político comparando os 15 partidos que mais
   conseguiram votos em 2022 com 2018.
   df_2018:pl.DataFrame -> dados da eleição de 2018
   df_2022:pl.DataFrame -> dados da eleição de 2022
   position:int -> código do cargo eleitoral (1 Presidente, 3 Governador, 5 Senador, 6 Deputado Federal, 7 Deputado Estadual e 8 Deputado Distrital)
   chart_title:str -> título do chart

   Retorna um chart vega-altair   
'''

def grouped_bar_chart(df_2018:pl.DataFrame, df_2022:pl.DataFrame, position:list[int], chart_title:str, total_parties:int=5)->alt.vegalite.v5.api.Chart:
    # soma todos os votos por partidos de 2018
    df_tmp_18 = filter_by_position(df_2018, position)
    
    df_tmp_18 = (df_tmp_18
        .group_by(["ANO_ELEICAO", "SIGLA_2022","SG_POSIC_IDEOLOGICO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )

    # soma todos os votos por partidos de 2022
    df_tmp_22 = filter_by_position(df_2022, position)
    
    df_tmp_22 = (df_tmp_22
        .group_by(["ANO_ELEICAO", "SIGLA_2022","SG_POSIC_IDEOLOGICO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )

    # concatena as votações de 22 e 18 para os cargos em position
    df_tmp = pl.concat([df_tmp_22, df_tmp_18])

    # os registros dos K partidos mais votados em 2018
    top_k_22=df_tmp_22.top_k(total_parties, by="QT_VOTOS_VALIDOS").select(pl.col("SIGLA_2022","QT_VOTOS_VALIDOS"))    

    # faz join entre com os 15 partidos mais votados em 22 usando o campo QT_ORDER 
    # para ordenar o chart
    df_tmp = (df_tmp
        .join(top_k_22, on="SIGLA_2022", how="inner")
        .with_columns(
            QT_ORDER = pl.col("QT_VOTOS_VALIDOS_right")
        )
        .drop(pl.col("QT_VOTOS_VALIDOS_right"))              
    )  

    #plota o grouped bar chart
    return alt.Chart(df_tmp).mark_bar().encode(
        y = alt.Y('ANO_ELEICAO:O', 
            title="",
        ),
        x = alt.X('QT_VOTOS_VALIDOS:Q', title="Votação", axis=alt.Axis( labelAngle=-90 )),
        color = alt.Color('ANO_ELEICAO:O',
            scale = alt.Scale(
               domain=[2018,2022], 
               range=['#F58518','#4C78A8'],
            ),
            legend=None
        ),
        row = alt.Row('SIGLA_2022:N',
            title="",
            spacing = 5,
            header=alt.Header(labelAngle=0, labelAlign='left', title=f'{chart_title}', titleFontSize=12),
            sort=alt.SortField("QT_ORDER", order="descending"),                      
        ),
        opacity=alt.OpacityValue(0.75),
        tooltip=[
            alt.Tooltip('SIGLA_2022:N', title="Partido"),
            alt.Tooltip('ANO_ELEICAO:O', title="Ano Eleição"),
            alt.Tooltip('QT_VOTOS_VALIDOS:Q', format=",d",  title="Votos"),
        ]        
    ).properties(
        width=300,
        #height=150,
    ) 

grouped_depe = grouped_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([7,8]), 'Deputado Estadual/Distrital - 2018/2022')
grouped_depf = grouped_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([6]), 'Deputado Federal - 2018/2022')
grouped_sen = grouped_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([5]), 'Senador - 2018/2022')
grouped_gov = grouped_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([3]), 'Governador - 2018/2022')
grouped_pres = grouped_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([1]), 'Presidente - 2018/2022')

((grouped_depe|grouped_depf) & (grouped_sen|grouped_gov) & grouped_pres)

- _Basicamento, não importa para qual cargo se olhe, fica muito evidente que o **PL** e o **PT** foram os partidos que rivalizaram os votos em 2022, sendo que o crescimento do **PL** é algo a se considerar e mostra que ele aglutinou as forças da direita no Brasil;_

- _Levando em consideração cargos do executivo, tanto governador como presidente, o **PT** cresceu em número de votos entre 2018 e 2022, mas o **PL** também elegeu como nunca antes;_

- _**PT** e **PL** elegeram as maiores bancadas do congresso nacional em 2022, porém, mais uma vez, o destaque é o **PL** que recebeu 5 milhoes de votos em 2018 e 18 milhões em 2022;_

- _Pode-se observar que o **UNIÃO** teve uma queda vertiginosa no número de votos, entre 2018 e 2022, provavelvemtente, isto deveu-se ao fato que, em 2022, o ex-presidente Jair Bolsoro migrou do antigo **PSL** que se juntou ao **DEM** e formando o atual **UNIÃO**. Como foi feita a integração das bases eleitorais de 2018 e 2022, os votos dos antigos **PSL** e **DEM** estão sendo contabilizados no atual **UNIÃO**.  Isso e a migração do ex presidente Bolsonaro, explicam que houve uma migração em massa dos votos da direita do antigo **PSL** para o **PL**, mostrando a força do ex-presidente;_

- _Mais um insight interessante de se destacar é a derrocatada do **PSDB**, um partido que que sempre disputava a presidência, elegia muitos governadores e deputados e que virou um partido nanico, mas isto precisa ser analisado em outro trabalho._

#### PT x PL

In [None]:
#disabilita o limite de 5.000 para processamento imposto pelo altair
alt.data_transformers.disable_max_rows()

In [None]:
def filter_parties_to_facet(df_18:pl.DataFrame, df_22:pl.DataFrame, parties:list[str], cargo:list[int])-> pl.DataFrame:
    return pl.concat([df_18
        .filter((pl.col("SIGLA_2022").is_in(parties)) & (pl.col("CD_CARGO").is_in( cargo ) ) )
        .group_by(["ANO_ELEICAO","SIGLA_2022","CD_MUNICIPIO"])
        .agg(pl.sum("QT_VOTOS_VALIDOS"))
        .join(df_municipios, left_on="CD_MUNICIPIO", right_on="codigo_tse", how="inner")
        .drop(pl.col(["capital","ddd"]))
        .with_columns(
            percent = pl.col("QT_VOTOS_VALIDOS") /pl.col("QT_VOTOS_VALIDOS").sum().over("codigo_ibge")
        ),
    (df_22
        .filter((pl.col("SIGLA_2022").is_in( parties )) & (pl.col("CD_CARGO").is_in( cargo )) )
        .group_by(["ANO_ELEICAO","SIGLA_2022","CD_MUNICIPIO"])
        .agg(pl.sum("QT_VOTOS_VALIDOS"))
        .join(df_municipios, left_on="CD_MUNICIPIO", right_on="codigo_tse", how="inner")
        .drop(pl.col(["capital","ddd"]))
        .with_columns(
            percent = pl.col("QT_VOTOS_VALIDOS") /pl.col("QT_VOTOS_VALIDOS").sum().over("codigo_ibge")
        )                  
    )])

In [None]:
'''
    Compara as votações percentuais entre dois partidos por minicípios brasileiros
    df_18:pl.DataFrame -> dataset das eleições de 2018 
    df_22:pl.DataFrame -> dataset das eleições de 2022
    parties:list[str] -> lista dos 2 partidos a comparar
    cargo:list[int] -> lista dos cargos a filtrar
    title:str="" -> título geral do gráfico
'''
def facet_map_polls(df_18:pl.DataFrame, df_22:pl.DataFrame, 
                    parties:list[str], cargo:list[int], title:str="")->alt.vegalite.v5.api.Chart:
    #filtra os dados das eleições por partidos e cargos
    df = filter_parties_to_facet(df_18, df_22, parties, cargo)
    cities = alt.Data(
        url="https://raw.githubusercontent.com/perferctstorm/DiscursoOdioEleicoes/refs/heads/main/Dados/geojs-100-mun_minifier.json",
        format=alt.DataFormat(property='features')
    )    
     
    return alt.concat(
        *(alt.Chart(cities, title=f"{sigla} - {ano}") \
            .mark_geoshape(
                #fill='lightgray',
                stroke='black',
                strokeWidth=0.05
            ).project(
                type="equirectangular"  
            ).transform_lookup(
                lookup='properties.id',
                from_=alt.LookupData(df.filter( (pl.col("SIGLA_2022")==sigla) & (pl.col("ANO_ELEICAO")==ano)), 
                    'codigo_ibge', 
                    fields=list(df.columns)
                )         
            ).encode(
                color=alt.Color("percent:Q", 
                                legend=alt.Legend(orient="right", titleAnchor='middle', title="Percentual", direction="vertical")
                ),
                tooltip=[
                    alt.Tooltip('uf:N', title='Estado'),
                    alt.Tooltip('nome:N', title="Município"),
                    alt.Tooltip("SIGLA_2022:N", title="Partido"),
                    alt.Tooltip("QT_VOTOS_VALIDOS:Q",format=",d", title="Votos"),                
                ]
            ).properties(
                width=300,
                height=300
            )for ano in [2018, 2022] for sigla in parties
         ),
        columns=2, title=f"{title}"
    ).resolve_scale(
        color="independent"
    ).configure_title(anchor='middle', fontSize=20)

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["PL","PT"]), cargo=list([7,8]), title='Deputado Estadual/Distrital - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["PL","PT"]), cargo=list([6]), title='Deputado Federal - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["PL","PT"]), cargo=list([5]), title='Senador - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["PL","PT"]), cargo=list([3]), title='Governador - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["PL","PT"]), cargo=list([1]), title='Presidente - 2018/2022' )

#### PT x UNIÃO

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["UNIÃO","PT"]), cargo=list([7,8]), title='Deputado Estadual/Distrital - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["UNIÃO","PT"]), cargo=list([6]), title='Deputado Federal - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["UNIÃO","PT"]), cargo=list([5]), title='Senador - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["UNIÃO","PT"]), cargo=list([3]), title='Governador - 2018/2022' )

In [None]:
facet_map_polls(df_18=df_poll_18_filtered, df_22=df_poll_22_filtered, 
                parties=list(["UNIÃO","PT"]), cargo=list([1]), title='Presidente - 2018/2022' )

In [None]:
import altair as alt
from vega_datasets import data

states = alt.topo_feature(data.us_10m.url, 'states')
source = data.income.url

alt.Chart(source).mark_geoshape().encode(
    shape='geo:G',
    color='pct:Q',
    tooltip=['name:N', 'pct:Q'],
    facet=alt.Facet('group:N', columns=2),
).transform_lookup(
    lookup='id',
    from_=alt.LookupData(data=states, key='id'),
    as_='geo'
).properties(
    width=300,
    height=175,
).project(
    type='albersUsa'
)

In [None]:
import altair as alt
from vega_datasets import data

# Read in points
airports = data.airports()

# Read in polygons from topojson
states = alt.topo_feature(data.us_10m.url, feature='states')

# US states background
background = alt.Chart(states).mark_geoshape(
    fill='lightgray',
    stroke='white'
).properties(
    width=500,
    height=300
).project('albersUsa')

# airport positions on background
points = alt.Chart(airports).mark_circle(
    size=10,
    color='steelblue'
).encode(
    longitude='longitude:Q',
    latitude='latitude:Q',
    tooltip=['name', 'city', 'state']
)

background + points

In [None]:
import altair as alt
from vega_datasets import data

airports = data.airports.url
states = alt.topo_feature(data.us_10m.url, feature='states')

# US states background
background = alt.Chart(states).mark_geoshape(
    fill='lightgray',
    stroke='white'
).properties(
    width=500,
    height=300
).project('albersUsa')

# Airports grouped by state
points = alt.Chart(airports, title='Number of airports in US').transform_aggregate(
    latitude='mean(latitude)',
    longitude='mean(longitude)',
    count='count()',
    groupby=['state']
).mark_circle().encode(
    longitude='longitude:Q',
    latitude='latitude:Q',
    size=alt.Size('count:Q').title('Number of Airports'),
    color=alt.value('steelblue'),
    tooltip=['state:N','count:Q']
)

background + points

### 3.2 Análise da variação da votação por ideologia e cargos entre 2018 e 2022

---

In [None]:
'''
   Apresenta um facet bar chat por regiões
   conseguiram votos em 2022 com 2018.
   df_2018:pl.DataFrame -> dados da eleição de 2018
   df_2022:pl.DataFrame -> dados da eleição de 2022
   position:int -> código do cargo eleitoral (1 Presidente, 3 Governador, 5 Senador, 6 Deputado Federal, 7 Deputado Estadual e 8 Deputado Distrital)
   chart_title:str -> título do chart

   Retorna um chart vega-altair   
'''
def capact_facet_bar_chart(df_2018:pl.DataFrame, df_2022:pl.DataFrame, position:list[int], chart_title:str)->alt.vegalite.v5.api.Chart:
    # soma todos os votos por partidos de 2018
    df_tmp_18 = filter_by_position(df_2018, position)
    # soma todos os votos por partidos de 2022
    df_tmp_22 = filter_by_position(df_2022, position)
    
    df_tmp_18 = (df_tmp_18
        .group_by(["ANO_ELEICAO", "SG_POSIC_IDEOLOGICO", "NM_REGIAO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )
    
    df_tmp_22 = (df_tmp_22
        .group_by(["ANO_ELEICAO", "SG_POSIC_IDEOLOGICO", "NM_REGIAO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )
    # concatena as votações de 22 e 18 para os cargos em position
    df_tmp = pl.concat([df_tmp_22, df_tmp_18])
    return alt.Chart(df_tmp).mark_bar().encode(
        column=alt.Column("ANO_ELEICAO:O",
                    title="",
                    header=alt.Header(labelAngle=-90, labelAlign='right', title=f'{chart_title}', titleFontSize=14),                          
                ),
        row = alt.Row("NM_REGIAO:N",
                    title=""
                ),
        y=alt.Y("POSIC_IDEOLOGICO:N",
               title="",
               sort=alt.Sort(['Extrema Esquerda','Esquerda','Centro Esquerda','Centro','Centro Direita','Direita','Extrema Direita'])
               ),
        x=alt.X("sum(QT_VOTOS_VALIDOS):Q",
                title="",
                axis=alt.Axis(labelAngle=-90),            
               ),
        color=alt.Color("POSIC_IDEOLOGICO:N",
                scale = alt.Scale(
                   domain=['Extrema Esquerda','Esquerda','Centro Esquerda','Centro','Centro Direita','Direita','Extrema Direita'], 
                   range=['#7F0000','#FF0000','#C54B53','#FFD966','#97A3FF','#262DDA','#030886'],
                ),                    
                title="", legend=alt.Legend(title="Ideologia")
            ),
            tooltip=[
                alt.Tooltip('NM_REGIAO:N', title="Partido"),
                alt.Tooltip('POSIC_IDEOLOGICO:N', title="Ideologia"),
                alt.Tooltip('sum(QT_VOTOS_VALIDOS):Q', format=",d",  title="Votos")
            ],       
    ).properties(
        height=100
    )    

In [None]:
capact_facet_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([7,8]), 'Deputado Estadual/Distrital - 2018/2022')

In [None]:
capact_facet_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([6]), 'Deputado Federal - 2018/2022')

In [None]:
capact_facet_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([5]), 'Senador - 2018/2022')

In [None]:
capact_facet_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([3]), 'Governador - 2018/2022')

In [None]:
capact_facet_bar_chart(df_poll_18_filtered, df_poll_22_filtered, list([1]), 'Presidente - 2018/2022')

### 3.3 Análise da variação da votação por ideologia e cargos e estados entre 2018 e 2022

---

In [None]:
df_tmp_22 = filter_by_position(df_poll_22_filtered, 6)

In [None]:
df_tmp_22 = (df_tmp_22
    .group_by(["POSIC_IDEOLOGICO", "SG_UF"], maintain_order=True)
    .agg(pl.col("QT_VOTOS_VALIDOS").sum())
)

In [None]:
alt.Chart(df_tmp_22) \
    .mark_rect() \
    .encode(
        x=alt.X(
            'SG_UF:N',
            title="UF"
        ),
        y=alt.Y(
            'POSIC_IDEOLOGICO:N',
            title="Ideologia",
            sort=alt.Sort(['Extrema Esquerda','Esquerda','Centro Esquerda','Centro','Centro Direita','Direita','Extrema Direita'])
        ),
        color=alt.Color(
            'sum(QT_VOTOS_VALIDOS):Q',
            scale = alt.Scale(
                scheme="lighttealblue",
            ), 
            title="Votação"
        ),
        tooltip=[
            alt.Tooltip("SG_UF:N", title="UF"),
            alt.Tooltip("POSIC_IDEOLOGICO:O", title="Ideologia"),
            alt.Tooltip("sum(QT_VOTOS_VALIDOS):Q", title="Votos", format=",.0f")
        ]
    ).properties(
        title="Mapa de calor da votação por ideologia"
    ).configure_view(step=25, strokeWidth=1).configure_axis(domain=False)

In [None]:
'''
alt.Chart(df_tmp_18) \
    .mark_bar() \
    .transform_window(
        Rank = "rank()",
        sort= [alt.SortField("QT_VOTOS_VALIDOS", order="descending")]
    ) \
    .encode(
        x = alt.X(
            "SIGLA_2022:N"
            , title="Partidos"
            , axis=alt.Axis(labelAngle=-60)
            , sort=alt.EncodingSortField(
                field="QT_VOTOS_VALIDOS", 
                order="descending"                
            )
        ),
        y = alt.Y(
            "QT_VOTOS_VALIDOS:Q"
            , title="Votação"
        ),
        tooltip=[
            alt.Tooltip('SIGLA_2022:N', title="Partido"),
            alt.Tooltip('POSIC_IDEOLOGICO:N', title="Ideologia"),
            alt.Tooltip('QT_VOTOS_VALIDOS:Q', format=",d",  title="Votos")
        ],
        color=alt.Color('POSIC_IDEOLOGICO:N',            
            scale = alt.Scale(
               domain=['Extrema Esquerda','Esquerda','Centro Esquerda','Centro','Centro Direita','Direita','Extrema Direita'], 
               range=['#7F0000','#FF0000','#C54B53','#FFD966','#97A3FF','#262DDA','#030886'],
            ),
            legend = alt.Legend(title="Ideologia partidária"),
            #sort=['Extrema Esquerda','Esquerda','Centro Esquerda','Centro','Centro Direita','Direita','Extrema Direita']
        ),
        opacity=alt.OpacityValue(0.6)
    ).properties(
        title="Partidos Mais Votados/Deputado Federal"
    ).configure_title(
        fontSize=14,
        align="center"
    ).configure_axis()
'''

In [None]:
import altair as alt
from vega_datasets import data


source = data.stocks()

base = alt.Chart(source).encode(
    color=alt.Color("symbol", legend=None)
).transform_filter(
    "datum.symbol !== 'IBM'"
).properties(
    width=500
)

line = base.mark_line().encode(x="date", y="price")


last_price = base.mark_circle().encode(
    x=alt.X("last_date['date']:T"),
    y=alt.Y("last_date['price']:Q")
).transform_aggregate(
    last_date="argmax(date)",
    groupby=["symbol"]
)

company_name = last_price.mark_text(align="left", dx=4).encode(text="symbol")

chart = (line + last_price + company_name).encode(
    x=alt.X(title="date"),
    y=alt.Y(title="price")
)

chart

In [None]:
def mark_line_chart(df_2018:pl.DataFrame, df_2022:pl.DataFrame, position:list[int], chart_title:str)->alt.vegalite.v5.api.Chart:
  
    # soma todos os votos por partidos de 2018
    df_tmp_18 = filter_by_position(df_2018, position)
    # soma todos os votos por partidos de 2022
    df_tmp_22 = filter_by_position(df_2022, position)

    df_tmp_18 = (df_tmp_18
        .group_by(["ANO_ELEICAO", "SIGLA_2022","SG_POSIC_IDEOLOGICO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )
    
    df_tmp_22 = (df_tmp_22
        .group_by(["ANO_ELEICAO", "SIGLA_2022","SG_POSIC_IDEOLOGICO"], maintain_order=True)
        .agg(pl.col("QT_VOTOS_VALIDOS").sum())
        .join(df_colors, on="SG_POSIC_IDEOLOGICO", how="inner")
    )
    
    # concatena as votações de 22 e 18 para os cargos em position
    df_tmp = pl.concat([df_tmp_22, df_tmp_18])
    
    # os registros dos 15 partidos mais votados em 2018
    top_k_22=df_tmp_22.top_k(15, by="QT_VOTOS_VALIDOS").select(pl.col("SIGLA_2022","QT_VOTOS_VALIDOS"))    
    
    # faz join entre com os 15 partidos mais votados em 22 usando o campo QT_ORDER 
    # para ordenar o chart
    df_tmp = (df_tmp
        .join(top_k_22, on="SIGLA_2022", how="inner")
    ).rename({'QT_VOTOS_VALIDOS_right':'QT_ORDER'})  
    
    sorted_parties = (df_tmp
        .select(pl.col("SIGLA_2022"), pl.col("QT_ORDER"))
        .unique()
        .sort(by="QT_ORDER")
    ).get_column("SIGLA_2022").to_list()
    
    return alt.Chart(df_tmp, title=f"{chart_title}") \
        .mark_line(point=alt.OverlayMarkDef(filled=False, size=100, fill="white"), #strokeDash=[3,3], 
                    interpolate=alt.Interpolate("monotone"), strokeWidth=2) \
        .encode(
            x=alt.X("SIGLA_2022:N",
                title="Partidos",
                sort=alt.SortArray(sorted_parties)
            ),
            y=alt.Y("QT_VOTOS_VALIDOS:Q",
                title="Votação"                    
            ),
            color = alt.Color('ANO_ELEICAO:O',
                scale = alt.Scale(
                   domain=[2018,2022], 
                   range=['#F58518','#4C78A8'],
                ),
                legend=alt.Legend(title="Ano da Eleição")                          
            ),  
            tooltip=[
                alt.Tooltip('SIGLA_2022:N', title="Partido"),
                alt.Tooltip('ANO_ELEICAO:O', title="Ano Eleição"),
                alt.Tooltip('QT_VOTOS_VALIDOS:Q', format=",d",  title="Votos"),
            ]
        )

In [None]:
mark_line_depe = mark_line_chart(df_poll_18_filtered, df_poll_22_filtered, list([7,8]), 'Deputado Estadual/Distrital - 2018/2022')
mark_line_depf = mark_line_chart(df_poll_18_filtered, df_poll_22_filtered, list([6]), 'Deputado Federal - 2018/2022')
mark_line_sen = mark_line_chart(df_poll_18_filtered, df_poll_22_filtered, list([5]), 'Senador - 2018/2022')
mark_line_gov = mark_line_chart(df_poll_18_filtered, df_poll_22_filtered, list([3]), 'Governador - 2018/2022')
mark_line_pres = mark_line_chart(df_poll_18_filtered, df_poll_22_filtered, list([1]), 'Presidente - 2018/2022')

In [None]:
((mark_line_depe|mark_line_depf)&(mark_line_sen|mark_line_gov)&(mark_line_pres))

In [None]:
'''
#plota o grouped bar chart
alt.Chart(df_tmp).mark_bar(size=8).encode(
    x = alt.X('ANO_ELEICAO:O', 
        title="",
    ),
    y = alt.Y('QT_VOTOS_VALIDOS:Q', title="Votação"),
    color = alt.Color('ANO_ELEICAO:O',
        scale = alt.Scale(
           domain=[2018,2022], 
           range=['#F58518','#4C78A8'],
        ),
        legend=alt.Legend(title="Ano da Eleição")                          
    ),
    column = alt.Column('SIGLA_2022:N',
        title="",
        spacing = 10,
        header=alt.Header(labelAngle=-90, labelAlign='right', title='teste', titleFontSize=14),
        sort=alt.SortField("QT_ORDER", order="descending"),
    ),
    opacity=alt.OpacityValue(0.8)
).properties(
    width='container',
    height=150,
) 
'''