# **Desafio Técnico: RenovaBR**

Este projeto implementa técnicas típicas de Ciência de Dados ao desafio proposto pelo **RenovaBR**. O desafio consiste em **analisar dados eleitorais do estado de São Paulo e seus municípios nas eleições de 2020**. Conforme sugerido pelo RenovaBR no [documento que descreve o desafio](../desafio-tecnico.pdf), o projeto segue o seguinte roteiro:

🧹 Pré-processamento e tratamento dos dados

🐬 Dump dos dados tratados em um banco de dados relacional

⌨️ Acesso aos dados via SQL em Python

📊 Análise Exploratória dos Dados

A análise exploratória estará conjugada à resolução de algumas questões propostas, mas não se limitará a elas. O objetivo é explorar os dados e extrair informações relevantes para a tomada de decisão.

---

### **📚 Importando as bibliotecas**

In [23]:
# processamento e analise de dados
import pandas as pd

# visualizacao de dados
import matplotlib.pyplot as plt
import seaborn as sns

# conexao com o banco de dados
import pymysql
from sqlalchemy import create_engine
from getpass import getpass

# versoes dos pacotes, python e sistema operacional
import session_info
session_info.show(html = False, dependencies = False)

-----
geobr               NA
geopandas           0.7.0
ipykernel           5.3.4
matplotlib          3.6.0
pandas              2.0.2
pymysql             1.0.2
seaborn             0.12.2
session_info        1.0.0
sqlalchemy          1.4.44
-----
IPython             8.5.0
jupyter_client      7.3.5
jupyter_core        4.11.1
notebook            6.5.1
-----
Python 3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0]
Linux-6.4.6-76060406-generic-x86_64-with-glibc2.35
-----
Session information updated at 2023-08-17 23:43


### **🧹 Pré-processamento e tratamento dos dados**

In [2]:
# mude seu caminho ate o arquivo aqui
PATH_TO_ELEITORADO = "../database_desafio_renovaBR/eleitorado/perfil_eleitorado_2020/perfil_eleitorado_2020.csv"
PATH_TO_RESULTADOS = "../database_desafio_renovaBR/resultados/SP_turno_1.csv"

# leitura dos arquivos
eleitorado = pd.read_csv(PATH_TO_ELEITORADO, sep=";", encoding="latin1")
resultados = pd.read_csv(PATH_TO_RESULTADOS, sep=";", encoding="latin1")

Agora que lemos os dados e os colocamos em um DataFrame, podemos começar a analisá-los. Primeiro, como sabemos que os arquivos `.csv` são bastante grandes, vamos verificar se há entradas que podem ser removidas logo de cara. Por exemplo, sabemos que estamos interessados nos dados apenas do estado de São Paulo. Caso haja informações sobre outros estados no DataFrame, podemos removê-las. Vejamos:

In [3]:
eleitorado["SG_UF"].value_counts().head()

SG_UF
SP    639502
MG    609026
RS    320563
BA    317883
PR    287673
Name: count, dtype: int64

Vamos filtrar os casos correspondentes apenas ao estado de São Paulo.

In [4]:
# filtrar apenas os eleitores de SP
eleitorado = eleitorado.query("SG_UF == 'SP'")

# check 
eleitorado["SG_UF"].value_counts()

SG_UF
SP    639502
Name: count, dtype: int64

No caso dos dados de resultados eleitorais, a tabela já se restringe ao estado desejado. Portanto, não é necessário filtrar os dados em relação ao estado.

In [5]:
# check
resultados["SG_UF"].value_counts()

SG_UF
SP    9434000
Name: count, dtype: int64

Agora, vamos analisar as colunas do nosso dataset e verificar quais colunas podem ser removidas. Para isso, é importante entender o que cada coluna representa. Isso será possível através do dicionário de dados [dicionário de dados](../database_desafio_renovaBR/eleitorado/perfil_eleitorado_2020/leiame.pdf). Naturalmente, a escolha das colunas a serem mantidas ou removidas é subjetiva e depende do objetivo da análise. Neste caso, **vamos remover as colunas que não serão utilizadas na análise.**

Veja as colunas do dataset `eleitorado`:

In [6]:
# checando as colunas do dataset
eleitorado.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'SG_UF', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'CD_MUN_SIT_BIOMETRIA', 'DS_MUN_SIT_BIOMETRIA',
       'NR_ZONA', 'CD_GENERO', 'DS_GENERO', 'CD_ESTADO_CIVIL',
       'DS_ESTADO_CIVIL', 'CD_FAIXA_ETARIA', 'DS_FAIXA_ETARIA',
       'CD_GRAU_ESCOLARIDADE', 'DS_GRAU_ESCOLARIDADE', 'QT_ELEITORES_PERFIL',
       'QT_ELEITORES_BIOMETRIA', 'QT_ELEITORES_DEFICIENCIA',
       'QT_ELEITORES_INC_NM_SOCIAL'],
      dtype='object')

Para responder às perguntas de negócio, vale a pena mantermos as colunas indicadas abaixo. Note que normalmente não removeríamos as colunas `ANO_ELEICAO` e `SG_UF`, mas, como estamos analisando apenas um estado e um ano, elas não são relevantes para a análise.

In [7]:
# definindo as colunas de interesse
eleitorado_colunas = ["CD_MUNICIPIO", "NM_MUNICIPIO", "NR_ZONA", 
                      "DS_GENERO", "DS_ESTADO_CIVIL", "DS_FAIXA_ETARIA", 
                      "DS_GRAU_ESCOLARIDADE", "QT_ELEITORES_PERFIL"]

# Filtrando as colunas de interesse
eleitorado_filt = eleitorado[eleitorado_colunas]

# Checando se o número de linhas do dataset original é igual ao número de linhas do dataset filtrado
# Quebra o código se a condição for falsa
assert eleitorado.shape[0] == eleitorado_filt.drop_duplicates().shape[0]

In [8]:
eleitorado_filt.head()

Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,DS_GENERO,DS_ESTADO_CIVIL,DS_FAIXA_ETARIA,DS_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL
0,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO FUNDAMENTAL INCOMPLETO,47
1,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO FUNDAMENTAL COMPLETO,5
2,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO MÉDIO INCOMPLETO,1
3,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO MÉDIO COMPLETO,10
4,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,SUPERIOR COMPLETO,23


Agora faremos o mesmo para o dataset `resultados`. Vale o comentário relacionado às colunas `ANO_ELEICAO` e `SG_UF`.

In [9]:
# checando as colunas do dataset
resultados.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'CD_PLEITO', 'DT_PLEITO', 'NR_TURNO', 'CD_ELEICAO',
       'DS_ELEICAO', 'SG_UF', 'CD_MUNICIPIO', 'NM_MUNICIPIO', 'NR_ZONA',
       'NR_SECAO', 'NR_LOCAL_VOTACAO', 'CD_CARGO_PERGUNTA',
       'DS_CARGO_PERGUNTA', 'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO',
       'DT_BU_RECEBIDO', 'QT_APTOS', 'QT_COMPARECIMENTO', 'QT_ABSTENCOES',
       'CD_TIPO_URNA', 'DS_TIPO_URNA', 'CD_TIPO_VOTAVEL', 'DS_TIPO_VOTAVEL',
       'NR_VOTAVEL', 'NM_VOTAVEL', 'QT_VOTOS', 'NR_URNA_EFETIVADA',
       'CD_CARGA_1_URNA_EFETIVADA', 'CD_CARGA_2_URNA_EFETIVADA',
       'CD_FLASHCARD_URNA_EFETIVADA', 'DT_CARGA_URNA_EFETIVADA',
       'DS_CARGO_PERGUNTA_SECAO', 'DS_AGREGADAS', 'DT_ABERTURA',
       'DT_ENCERRAMENTO', 'QT_ELEITORES_BIOMETRIA_NH', 'DT_EMISSAO_BU',
       'NR_JUNTA_APURADORA', 'NR_TURMA_APURADORA'],
      dtype='object')

In [10]:
# definindo as colunas de interesse
resultados_colunas = ["CD_MUNICIPIO", "NM_MUNICIPIO", "NR_ZONA", "NR_SECAO",
                      "NR_LOCAL_VOTACAO", "DS_CARGO_PERGUNTA", "SG_PARTIDO",
                      "NR_VOTAVEL", "NM_VOTAVEL", "QT_VOTOS"]

# Filtrando as colunas de interesse
resultados_filt = resultados[resultados_colunas]

# Checando se o número de linhas do dataset original é igual ao número de linhas do dataset filtrado
# Quebra o código se a condição for falsa
assert resultados_filt.drop_duplicates().shape[0] == resultados.shape[0]

O próximo passo é verificar quais registros brancos ou nulos podem ser removidos da base. 

Segundo as informações do dicionário, algumas especificações importantes sobre o dataset `eleitorado` são:
- Campos preenchidos como #NULO significam que a informação está em branco;
- Campos preenchidos com #NE significa que a informação não está disponível.

Vamos buscar por esses valores e verificar se há registros a serem removidos.

In [11]:
for columns in eleitorado_filt.columns:
    flt_nulo = eleitorado_filt[columns] == "#NULO" 
    flt_ne = eleitorado_filt[columns] == "#NE"
    
    n_nulo = eleitorado_filt[flt_nulo].shape[0]
    n_ne = eleitorado_filt[flt_ne].shape[0]
    
    if n_nulo > 0 or n_ne > 0:
        print(f"Coluna: {columns} | #NULO: {n_nulo} | #NE: {n_ne}")
    else:
        print(f"Coluna: {columns} | OK")

Coluna: CD_MUNICIPIO | OK
Coluna: NM_MUNICIPIO | OK
Coluna: NR_ZONA | OK
Coluna: DS_GENERO | OK
Coluna: DS_ESTADO_CIVIL | OK
Coluna: DS_FAIXA_ETARIA | OK
Coluna: DS_GRAU_ESCOLARIDADE | OK
Coluna: QT_ELEITORES_PERFIL | OK


Iterando as colunas, observamos que não há registros nulos ou informações faltantes em nenhuma delas. 

Segue da documentação do dataset `resultados` que podem haver registros identificados como #NULO ou #NE. Além disso, como se trata de um dataset de resultados, é de se esperar que nos deparemos com registros de votos nulos e brancos.

In [12]:
for columns in resultados_filt.columns:
    flt_nulo = (resultados_filt[columns] == "Nulo") | (resultados_filt[columns] == "#NULO")
    flt_branco = resultados_filt[columns] == "Branco"
    flt_ne = resultados_filt[columns] == "#NE"
    
    n_nulo = resultados_filt[flt_nulo].shape[0]
    n_branco = resultados_filt[flt_branco].shape[0]
    n_ne = resultados_filt[flt_ne].shape[0]
    
    if n_nulo > 0 or n_branco > 0:
        print(f"Coluna: {columns} | Nulo: {n_nulo} | Branco: {n_branco} | NE: {n_ne}")
    else:
        print(f"Coluna: {columns} | OK")

Coluna: CD_MUNICIPIO | OK
Coluna: NM_MUNICIPIO | OK
Coluna: NR_ZONA | OK
Coluna: NR_SECAO | OK
Coluna: NR_LOCAL_VOTACAO | OK
Coluna: DS_CARGO_PERGUNTA | OK
Coluna: SG_PARTIDO | OK
Coluna: NR_VOTAVEL | OK
Coluna: NM_VOTAVEL | Nulo: 171359 | Branco: 171203 | NE: 0
Coluna: QT_VOTOS | OK


Essas ocorrências em `NM_VOTAVEL` de nulo e branco são justamente devido aos votos nulos e brancos. Já que nossas perguntas de negócio estão relacionadas principalmente aos candidatos, essas linhas não serão necessárias para a análise. Vamos removê-las:

In [13]:
# removendo votos brancos
flt_branco = resultados_filt["NM_VOTAVEL"] == "Branco"
print(f"Foram removidos {resultados_filt[flt_branco]['QT_VOTOS'].sum()} votos brancos.")
resultados_filt = resultados_filt[~flt_branco]

# removendo votos nulos
flt_nulo = resultados_filt["NM_VOTAVEL"] == "Nulo"
print(f"Foram removidos {resultados_filt[flt_nulo]['QT_VOTOS'].sum()} votos nulos.")
resultados_filt = resultados_filt[~flt_nulo]

Foram removidos 2856552 votos brancos.
Foram removidos 3854314 votos nulos.


Uma última manipulação que podemos fazer está relacionada ao nível de agregação dos dados em cada tabela. Observe que o dataset `eleitorado` está agregado ao nivel de município e zona eleitoral, enquanto o dataset `resultados` está desagregado até o nível de local de votação. Para facilitar a análise e eventuais cruzamentos entre as tabelas, podemos agregar o dataset `resultados` ao nível de município e zona eleitoral. Para isso, vamos utilizar o método `groupby` do pandas, que permite agrupar os dados de acordo com uma ou mais colunas. 

Naturalmente, isso também poderia ser feito via SQL, mas o uso do pandas é mais simples e intuitivo nesse caso.

In [14]:
# define as colunas utilizadas para agregar os dados
agg_colunas = list(resultados_filt.columns.drop(["NR_SECAO", "NR_LOCAL_VOTACAO", "QT_VOTOS"]))

# agrupa os dados
resultados_filt = resultados_filt.groupby(agg_colunas)["QT_VOTOS"].sum().reset_index()

### **🐬 Dump dos dados tratados em um banco relacional**

Já fizemos um tratamento geral dos dados, principalmente removendo colunas desnecessárias, tratando valores nulos e reagrupando os dados. Nossas tabelas até agora se encontram no seguinte formato:

In [15]:
eleitorado_filt.head()

Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,DS_GENERO,DS_ESTADO_CIVIL,DS_FAIXA_ETARIA,DS_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL
0,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO FUNDAMENTAL INCOMPLETO,47
1,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO FUNDAMENTAL COMPLETO,5
2,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO MÉDIO INCOMPLETO,1
3,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,ENSINO MÉDIO COMPLETO,10
4,70734,SÃO BENTO DO SAPUCAÍ,314,FEMININO,CASADO,70 a 74 anos,SUPERIOR COMPLETO,23


In [16]:
resultados_filt.head()

Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,DS_CARGO_PERGUNTA,SG_PARTIDO,NR_VOTAVEL,NM_VOTAVEL,QT_VOTOS
0,61000,EUCLIDES DA CUNHA PAULISTA,330,Prefeito,PSDB,45,EDMILSON,1313
1,61000,EUCLIDES DA CUNHA PAULISTA,330,Prefeito,REPUBLICANOS,10,NENE LOPES,3530
2,61000,EUCLIDES DA CUNHA PAULISTA,330,Vereador,MDB,15,MDB,20
3,61000,EUCLIDES DA CUNHA PAULISTA,330,Vereador,MDB,15000,SILVINHO JAPÃO,76
4,61000,EUCLIDES DA CUNHA PAULISTA,330,Vereador,MDB,15100,CELSO DA XV,27


O próximo passo será adicionar as tabelas a um banco de dados relacional, para depois acessá-los utilizando queries SQL. Embora essa não seja uma aplicação necessária para esta análise de dados propriamente dita, é uma boa prática para a organização dos dados e para a reprodutibilidade da análise. Utilizaremos, mais especificamente, o **MySQL**, mas poderíamos utilizar qualquer outro banco de dados relacional, como o PostgreSQL, SQLite, etc.

As tabelas se relacionam pelas colunas `NM_MUNICIPIO` e `NR_ZONA`, que são as colunas que identificam o município e a zona eleitoral, respectivamente. A tabela `eleitorado` possui as especificações de cada zona eleitoral em termos de perfil do eleitorado e quantidade de eleitores. A tabela `resultados` possui os resultados de cada candidato em cada zona eleitoral, além de informações como partido, cargo, etc.

Vamos começar nos conectando ao MySQL e criando o banco de dados:

In [17]:
# informacoes gerais como senha, usuario, porta, etc
p = getpass("Informe sua senha de acesso ao MySQL: ")
conn = pymysql.connect(host="localhost", port=3306, user="root", passwd=p)
cursor = conn.cursor()

# cria o banco de dados
cursor.execute("CREATE DATABASE IF NOT EXISTS `DesafioRenovaBR`")
cursor.execute("USE `DesafioRenovaBR`")

0

Agora vamos adicionar as tabelas ao nosso banco de dados. Para isso, vamos usar o método `to_sql()` do pandas. Esse método recebe como parâmetro o nome da tabela e a conexão com o banco de dados. Vamos criar uma tabela para cada dataframe.

In [18]:
# cria a conexão com o banco de dados
engine = create_engine("mysql+pymysql://{user}:{pw}@localhost:3306/{db}"\
        .format(user = "root",
                pw = p,
                db = "DesafioRenovaBR"))

# adiciona a tabela de eleitorado
eleitorado_filt.to_sql('eleitorado', con = engine, if_exists = 'replace', index = False)

# adiciona a tabela de resultados
resultados_filt.to_sql('resultados', con = engine, if_exists = 'replace', index = False)

# enviando os dados para o banco de dados
conn.commit()

### **⌨️ Acesso aos dados via SQL em Python** & **📊 Análise Exploratória dos Dados**

Antes de acessar os dados que acabamos de adicionar ao banco, vamos elicitar as perguntas de negócio que desejamos responder. As sugestões do RenovaBR são as seguintes:

1. Em qual município o candidato $x$ foi mais votado?
2. Qual candidato foi mais votado em cada município?
3. Qual perfil do eleitorado (faixa etária, gênero, grau de escolaridade, etc.) mais votou em cada candidato?

Além dessas questões, também pretendemos explorar:

4. A distribuição de votos por partido para o cargo de vereador em cada município;
5. A quantidade de candidatos a vereador lançados por cada partido;
6. A quantidade de candidatos a vereador lançados em cada município;

Para respondermos **(1) em qual município o candidato $x$ foi mais votado**, não é necessário realizar um `join` entre as tabelas. Na verdade, a tabela `resultados` já contém todas as informações necessárias para respondermos a essa pergunta. Basta selecionarmos o município em que o candidato $x$ obteve o maior número de votos.

In [19]:
query1 = """
SELECT NM_MUNICIPIO, NR_VOTAVEL, NM_VOTAVEL, sum(QT_VOTOS) as VOTOS_MUNICIPIO
FROM resultados
GROUP BY NM_VOTAVEL, NR_VOTAVEL, NM_MUNICIPIO
"""

votos_por_mun = pd.read_sql_query(query1, engine)

No código abaixo, agrupamos os dados pelo nome e número do candidato e pelo município. Em seguida, obtemos a linha correspondente ao número máximo de votos. Por fim, ordenamos os dados pelo número de votos e selecionamos as 10 primeiras linhas. Também exportamos os dados para um arquivo Excel para consulta posterior.

In [20]:
q1 = votos_por_mun.groupby(["NM_VOTAVEL", "NR_VOTAVEL", "NM_MUNICIPIO"])["VOTOS_MUNICIPIO"]\
                  .max()\
                  .reset_index()\
                  .sort_values("VOTOS_MUNICIPIO", ascending=False)

q1.to_excel("../answer-tables/q1.xlsx", index=False)

q1.head(10)

Unnamed: 0,NM_VOTAVEL,NR_VOTAVEL,NM_MUNICIPIO,VOTOS_MUNICIPIO
9693,BRUNO COVAS,45,SÃO PAULO,1754013.0
34098,GUILHERME BOULOS,50,SÃO PAULO,1080736.0
57505,MÁRCIO FRANÇA,40,SÃO PAULO,728441.0
12876,CELSO RUSSOMANNO,10,SÃO PAULO,560666.0
6636,ARTHUR DO VAL MAMÃE FALEI,51,SÃO PAULO,522210.0
38543,JILMAR TATTO,13,SÃO PAULO,461666.0
64270,PAULO SERRA,45,SANTO ANDRÉ,266591.0
60893,ORLANDO MORANDO,45,SÃO BERNARDO DO CAMPO,261761.0
34436,GUTI,55,GUARULHOS,261211.0
29291,FELICIO,45,SÃO JOSÉ DOS CAMPOS,204800.0


O mesmo vale para sabermos **(2) qual candidato foi mais votado em cada município**: não é necessário dar `join` com outra tabela, nem sequer realizar outra consulta.

In [21]:
q2 = votos_por_mun.groupby(["NM_MUNICIPIO"])\
                  .apply(lambda x: x.loc[x["VOTOS_MUNICIPIO"].idxmax()])\
                  .reset_index(drop=True)\
                  .sort_values(by="VOTOS_MUNICIPIO", ascending=False)

q2.to_excel("../answer-tables/q2.xlsx", index=False)

q2.head(10)

Unnamed: 0,NM_MUNICIPIO,NR_VOTAVEL,NM_VOTAVEL,VOTOS_MUNICIPIO
572,SÃO PAULO,45,BRUNO COVAS,1754013.0
528,SANTO ANDRÉ,45,PAULO SERRA,266591.0
554,SÃO BERNARDO DO CAMPO,45,ORLANDO MORANDO,261761.0
204,GUARULHOS,55,GUTI,261211.0
563,SÃO JOSÉ DOS CAMPOS,45,FELICIO,204800.0
381,OSASCO,19,ROGÉRIO LINS,204207.0
55,BARUERI,45,RUBENS FURLAN,145377.0
287,JUNDIAÍ,45,LUIZ FERNANDO MACHADO,134793.0
111,CARAPICUÍBA,45,MARCOS NEVES,128773.0
100,CAMPINAS,10,DARIO SAADI,121932.0


Agora que terminamos a análise de dados e não acessaremos mais o banco, vamos encerrar a conexão:

In [22]:
conn.close()
cursor.close()

### **Outras possibilidades 💭**

Esse projeto não esgota as análises que esses dados podem proporcionar. Aproveito a oportunidade para comentar sobre outras possibilidades que não foram implementadas no presente projeto, mas que poderiam ser exploradas no futuro:

1. **Concentração eleitoral ao nível municipal:** Verificar a concentração de votos dos candidatos por bairros e até ruas. Como a tabela de resultados desagrega os votos ao nível de local de votação, seria possível cruzar esses dados com uma tabela de endereços desses locais. A API do Google Maps, por exemplo, permite a obtenção de coordenadas geográficas a partir de endereços. Com isso, seria possível mapear os resultados das eleições em um mapa de calor, por exemplo.

    Trata-se uma análise extremamente útil para a tomada de decisão, mas que não foi implementada nesse projeto pelo fato de que não parece haver, de forma estruturada e de fácil acesso, uma tabela que relacione os locais de votação com seus respectivos endereços em São Paulo. Esse documento poderia ser obtido através de uma solicitação via Lei de Acesso à Informação, mas o limite de tempo para entrega do projeto não permitiu que essa etapa fosse realizada.

2. **Concentração eleitoral no estado:** No caso de eleições para cargos a nível estadual ou federal, existem métricas que podem ser calculadas para avaliar a concentração eleitoral de um candidato no estado. É o caso do índice "G", proposto por Avelino, Biderman e Silva (2016), que implementei neste outro projeto: https://github.com/felipelmc/Geographical-Scattering-of-Votes.

![g-index](../images/g-index.png)

3. **Aplicação de modelos de Machine Learning:** Caso seja um interesse de negócio a aplicação de métodos estatísticos mais avançados, é possível utilizar dados eleitorais para treinar modelos de *Machine Learning* ou para realizar inferências causais. Neste outro projeto, por exemplo, utilizo dados eleitorais de candidatos a deputado federal para prever a probabilidade de um candidato ser eleito: https://github.com/felipelmc/Statistical-Modeling.

![stats-modeling](../images/stats-modeling.png)