# **Análise das Eleições Municipais de 2020 do Estado de São Paulo - Desafio Técnico**

---

<center><img alt="Logo anp" width="30%" src="./img/banner.jpg"></center>

## **1. Objetivo do relatório**

Este projeto tem como objetivo realizar uma análise exploratória nas bases de dados fornecidas, assim como também realizar o tratamento desses dados e por fim realizar consultas trazendo insights importantes para futuras tomadas de decisões. 

Os pontos a serem trazidos neste relatório são:
- Em qual município o candidato X foi mais votado;
- Qual candidato foi mais votado em cada município;
- Qual perfil do eleitorado (faixa etária, gênero, grau de escolaridade,
etc.) mais votou em cada candidato.

##### **1.1. Sobre os dados utilizados**

Os dados fornecidos para a execução desse relatório são bases de dados do Perfil do Eeitorado e os resultados das urnas de São Paulo 1° turno, ambos do ano de 2020. A análise será apenas do Estado de São Paulo e seus Municípios.

---


## **2. Coleta dos dados** 

Para podermos iniciar nossos trabalhos, iremos coletar os dados necessários e fornecidos para a execução deste relatório.


##### **2.1. Importação das bibliotecas que serão utilizadas**

In [1]:
#importando bibliotecas
import pandas as pd
import matplotlib.pyplot as plt

##### **2.2. Coleta dos dados necessários para análise**

Agora iremos coletar os dados que serão ultilizados fazendo a leitura dos arquivos .csv que estão disponíveis na pasta "csv" no repositório deste projeto.

In [2]:
#Coleta do perfil do eleitorado já os transformando em DataFrame
eleitorado = pd.read_csv('./csv/perfil_eleitorado_2020.csv', encoding='ISO-8859-1', sep=(';'))
#Coleta dos resultados já os transformando em DataFrame
resultados = pd.read_csv('./csv/SP_turno_1.csv', encoding='ISO-8859-1', sep=(';'))

---

## **3. Análise exploratória** 

Com os dados carregados iremos ter nosso primeiro contato com eles, compreendendo suas características que o definem e sua estrutura. Vamos fazer esta etapa por partes, explorando **primeiro o DataSet do <u>Perfil do Eleitorado</u> e logo em seguida vamos explorar o <u>DataSet de Resultados</u>.**

### **3.1. Perfil do Eleitorado**

- **<u>Dimensão do DataSet<u>**

In [3]:
eleitorado.shape

(4248507, 21)

Como podemos verificar que nosso DataSet contém **4.248.507 linhas/registros** por **21 colunas/variáveis**.

- **<u>Verificando colunas / Dicionário de Variáveis<u>**

In [4]:
eleitorado.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'SG_UF', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'CD_MUN_SIT_BIOMETRIA', 'DS_MUN_SIT_BIOMETRIA',
       'NR_ZONA', 'CD_GENERO', 'DS_GENERO', 'CD_ESTADO_CIVIL',
       'DS_ESTADO_CIVIL', 'CD_FAIXA_ETARIA', 'DS_FAIXA_ETARIA',
       'CD_GRAU_ESCOLARIDADE', 'DS_GRAU_ESCOLARIDADE', 'QT_ELEITORES_PERFIL',
       'QT_ELEITORES_BIOMETRIA', 'QT_ELEITORES_DEFICIENCIA',
       'QT_ELEITORES_INC_NM_SOCIAL'],
      dtype='object')

Ao verificar as 16 colunas do DataSet, podemos fazer um dicionário para dar um significado mais amplo para elas e então compreender melhor cada váriavel.

* `DT_GERACAO` - Data da extração dos dados para geração do arquivo.
* `HH_GERACAO` - Hora da extração dos dados para geração do arquivo.
* `ANO_ELEICAO` - Ano de referência da eleição para geração do arquivo. 
* `SG_UF` - Sigla da Unidade da Federação.
* `CD_MUNICIPIO` - Código do município do domicílio eleitoral do eleitor.
* `NM_MUNICIPIO` - Nome do município do domicílio eleitoral do eleitor.
* `CD_MUN_SIT_BIOMETRIA` - Desconhecido.
* `DS_MUN_SIT_BIOMETRIA` - Desconhecido.
* `NR_ZONA` - Número da zona eleitoral onde ocorreu a eleição.
* `CD_GENERO` - Código do gênero do eleitor.
* `DS_GENERO` - Gênero do eleitor.
* `CD_ESTADO_CIVIL` - Código do estado civil do eleitor.
* `DS_ESTADO_CIVIL` - Estado civil do eleitor de acordo.
* `CD_FAIXA_ETARIA` - Código da faixa etária a qual pertence o eleitor. 
* `DS_FAIXA_ETARIA` - Faixa etária a qual pertence o eleitor.
* `CD_GRAU_ESCOLARIDADE` - Código do grau de escolaridade do eleitor.
* `DS_GRAU_ESCOLARIDADE` - Grau de escolaridade do eleitor.
* `QT_ELEITORES_PERFIL` - Desconhecido.
* `QT_ELEITORES_BIOMETRIA` - Desconhecido.
* `QT_ELEITORES_DEFICIENCIA` - Desconhecido.
* `QT_ELEITORES_INC_NM_SOCIAL` - Desconhecido.


- **<u>Checando os tipos de dados</u>**

Ao compreender o que significa cada coluna/váriavel, podemos verificar quais os tipos de dados que compõem cada uma delas.

In [5]:
#Verificar tipos de dados
eleitorado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4248507 entries, 0 to 4248506
Data columns (total 21 columns):
 #   Column                      Dtype 
---  ------                      ----- 
 0   DT_GERACAO                  object
 1   HH_GERACAO                  object
 2   ANO_ELEICAO                 int64 
 3   SG_UF                       object
 4   CD_MUNICIPIO                int64 
 5   NM_MUNICIPIO                object
 6   CD_MUN_SIT_BIOMETRIA        int64 
 7   DS_MUN_SIT_BIOMETRIA        object
 8   NR_ZONA                     int64 
 9   CD_GENERO                   int64 
 10  DS_GENERO                   object
 11  CD_ESTADO_CIVIL             int64 
 12  DS_ESTADO_CIVIL             object
 13  CD_FAIXA_ETARIA             int64 
 14  DS_FAIXA_ETARIA             object
 15  CD_GRAU_ESCOLARIDADE        int64 
 16  DS_GRAU_ESCOLARIDADE        object
 17  QT_ELEITORES_PERFIL         int64 
 18  QT_ELEITORES_BIOMETRIA      int64 
 19  QT_ELEITORES_DEFICIENCIA    int64 
 20  QT

Ao verificar os tipos de dados do nosso DataSet, podemos perceber que há um pequeno problema: As colunas **DT_GERACAO** e **HH_GERACAO** que deveriam estar em formato de data e hora, estão do tipo "object", o que dificultaria certas análises com esses dados. Mas para essa análise em específico, não nos trará problema, pois com os objetivos apresentados não usaremos essas váriaveis.

- **<u>Checando Valores Únicos</u>**

In [6]:
#Verificar valores unicos
eleitorado.nunique()

DT_GERACAO                       1
HH_GERACAO                       1
ANO_ELEICAO                      1
SG_UF                           26
CD_MUNICIPIO                  5569
NM_MUNICIPIO                  5296
CD_MUN_SIT_BIOMETRIA             1
DS_MUN_SIT_BIOMETRIA             1
NR_ZONA                        421
CD_GENERO                        3
DS_GENERO                        3
CD_ESTADO_CIVIL                  6
DS_ESTADO_CIVIL                  6
CD_FAIXA_ETARIA                 23
DS_FAIXA_ETARIA                 23
CD_GRAU_ESCOLARIDADE             9
DS_GRAU_ESCOLARIDADE             9
QT_ELEITORES_PERFIL           2953
QT_ELEITORES_BIOMETRIA        2658
QT_ELEITORES_DEFICIENCIA       173
QT_ELEITORES_INC_NM_SOCIAL       8
dtype: int64

Observando os valores únicos do DataSet de Perfil do Eleitorado, podemos perceber que há alguma colunas com apenas um tipo de dado ou valor, ou seja, são colunas que podemos retirar do nosso DataFrame pois não agregaria na nossa análise em específico.