<a href="https://colab.research.google.com/github/adolfoguimaraes/minicurso_dadosabertos/blob/main/Material.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Minicurso: Coletando, processando e visualizando dados abertos

Esse material faz parte do minicurso **Coletando, processando e visualizando dados abertos** ministrado pelo professor **Adolfo Guimarães**. Maiores informações, pode entrar em contato pelo e-mail: adolfo@data2learning.com.

Vamos trabalhar com três cenários: eleições, educação e covida. Vamos coletar, fazer alguns processamentos e construir algumas visualizações. 

Par o minicurso, já separei os dados em uma pasta que será compartilhada com vocês. No entanto, vou mostrar onde e como coletei os dados. Vale lembrar que oos dados podem está disponíveis em diferentes formatos de diferentes plataformas. No caso dos dados abertos, muitos são disponibilizados pelos órgãos públicos em formato CSV, Excel ou até mesmo PDF. A depender do formato disponibilizado, é necessário carrega-los e processá-los de diferentes maneiras.

Neste minicurso, os dados estão em formato Excel ou CSV. 

Esse notebook contém toda a parte de código necessário. Organizei dessa forma para que vocês possam aproveitar melhor o minicurso executando e modificando o que está feito. Acredito melhor para explicar o assunto. No entanto, vou propor algumas modificações para vocês fazerem ao longo do minicurso.

Vamos começar? :) 

![](https://camo.githubusercontent.com/3459bc23ab518d2f1eb4ab54057914eac02e3d5c/68747470733a2f2f6d656469612e67697068792e636f6d2f6d656469612f336f37544b554d3349674a4258326173394f2f67697068792e6769663f6369643d65636630356534376a35347a6a656c306463743479387464736e646162736179716666736d696977317935666d757561267269643d67697068792e6769662663743d67)

## Quais bibliotecas serão utilizadas?

Nessa etapa basicamente vamos utilizar a biblioteca [pandas](https://pandas.pydata.org/) que é uma biblioteca de análise de dados em Python que permite carregar os dados e fazer diferentes operações como se estivéssemos trabalhando diretamente com uma tabela. 

Para visualização vamos utilizar a biblioteca [Plotly](https://plotly.com/graphing-libraries/). Vale ressaltar que o python possui diversas bibliotecas para visualização. A escolha depende muito do objetivo que vocês querem com a visualização e com a facilidade de uso de cada pessoal. [Neste link](https://mode.com/blog/python-data-visualization-libraries/) vocês podem encontrar uma lista dessas bibliotecas com um breve comentário sobre cada uma. 





In [1]:
# Para o minicurso precisamos atualizar a biblioteca para versão mais nova. 

!pip install --upgrade plotly

Collecting plotly
  Downloading plotly-5.3.1-py2.py3-none-any.whl (23.9 MB)
[K     |████████████████████████████████| 23.9 MB 49.7 MB/s 
[?25hCollecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Installing collected packages: tenacity, plotly
  Attempting uninstall: plotly
    Found existing installation: plotly 4.4.1
    Uninstalling plotly-4.4.1:
      Successfully uninstalled plotly-4.4.1
Successfully installed plotly-5.3.1 tenacity-8.0.1


In [2]:
# imports necessários 

import pandas as pd 
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import ipywidgets as widgets

## O que vamos fazer?

Vamos trabalhar com alguns dados abertos em 3 cenários: 

**Dados das últimas eleições**

O objetivo é ter um panorama dos candidatos eleitos na última eleição municipal. Vamos trabalhar com Aracaju, mas mostro como vocês podem fazer para outras cidades.. A proposta é visualizarmos algumas informações como vereadores eleitos, total de votos e divisão por algumas categorias como cor/raça e gênero.

**Dados da educação**

Em relação a educação, vamos trabalhar com as sinopses estatísticas para mostrar a redução dos números de inscritos no ENEM ao longo dos anos. A idéia é ver o percentual de redução de inscritos no exame nos últimas 12 anos. Apesar de trabalharmos com os dados totais, é possível fazer um recorte por região ou estado.

**Dados da COVID**

Por fim, em relação os dados da COVID, vamos mostrar como utiizar os dados disponibilizados pelo brasil.io mais os dados disponibilizados pelos estados para mostrar o andamento da vacinação em paralelo com os números de casos e óbitos. Nosso foco mais uma vez vai ser o estado de Sergipe.


**Atenção!!!**

A proposta é mostrar um pouco onde esses dados estão, como baixa-los, processa-los e criar visualização de apoio a análise. Vale ressaltar que esse tipo de análise é muito mais complexa do que os dados e as visualizações deste minicurso permitem fazer. Elas devem ser casadas com uma análise ampla de contextos locais e aspectos sociais juntamente com especialistas de cada uma das áreas. 






## Trabalhando com dados das Eleições

### Fonte dos Dados 

Os dados que vamos trabalhar nas eleições estão disponíveis no site do TSE através do link: https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1. Lá é possível encontrar os dados de vários pleitos eleitorais. Vale a pena explorar os dados. No nosso minicurso vamos trabalhar com dois arquivos: (1) Arquivo com os resultados das eleições e (2) Arquivo com as informações dos candidatos.

Vamos carregar esses dados.

In [3]:
data_votacao = pd.read_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/eleicoes/votacao_candidato_munzona_2020_SE.csv",
    sep=";",
    encoding='latin_1',
    na_values=['#NULO','#NULO#', -1])
data_votacao

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_VOTO_EM_TRANSITO,QT_VOTOS_NOMINAIS
0,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31950,NOSSA SENHORA DO SOCORRO,31950,NOSSA SENHORA DO SOCORRO,34,13,Vereador,260000661060,27110,MARIA HORTENCIA SANTOS DA SILVA,HORTENCIA,,12,APTO,2,DEFERIDO,Partido isolado,27,DC,Democracia Cristã,260000059018,PARTIDO ISOLADO,DC,4,NÃO ELEITO,N,0
1,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31950,NOSSA SENHORA DO SOCORRO,31950,NOSSA SENHORA DO SOCORRO,34,13,Vereador,260000661057,27777,HUGO LEONARDO BARRETO SILVA,LÉO ARTES RÚSTICAS,,12,APTO,2,DEFERIDO,Partido isolado,27,DC,Democracia Cristã,260000059018,PARTIDO ISOLADO,DC,4,NÃO ELEITO,N,13
2,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31950,NOSSA SENHORA DO SOCORRO,31950,NOSSA SENHORA DO SOCORRO,34,13,Vereador,260000661056,27888,LUCIELIO WENDEL DE JESUS ALVES ALMEIDA,WENDEL DA UNIÃO,,12,APTO,2,DEFERIDO,Partido isolado,27,DC,Democracia Cristã,260000059018,PARTIDO ISOLADO,DC,4,NÃO ELEITO,N,3
3,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31950,NOSSA SENHORA DO SOCORRO,31950,NOSSA SENHORA DO SOCORRO,34,13,Vereador,260000661054,27222,JOSÉ SANTOS DE SANTANA,PASTOR ZÉ SANTANA,,12,APTO,2,DEFERIDO,Partido isolado,27,DC,Democracia Cristã,260000059018,PARTIDO ISOLADO,DC,4,NÃO ELEITO,N,43
4,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31950,NOSSA SENHORA DO SOCORRO,31950,NOSSA SENHORA DO SOCORRO,34,13,Vereador,260000648414,23555,GLADYSON ALVES DE OLIVEIRA,GLADYSON ALVES,,12,APTO,2,DEFERIDO,Partido isolado,23,CIDADANIA,Cidadania,260000057578,PARTIDO ISOLADO,CIDADANIA,5,SUPLENTE,N,308
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7666,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,32018,PEDRINHAS,32018,PEDRINHAS,4,13,Vereador,260001243758,40333,IRECE MESSIAS DE GOES,PROF IRECE,,12,APTO,2,DEFERIDO,Partido isolado,40,PSB,Partido Socialista Brasileiro,260000154096,PARTIDO ISOLADO,PSB,5,SUPLENTE,N,111
7667,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,32018,PEDRINHAS,32018,PEDRINHAS,4,13,Vereador,260001243757,40456,MARILENE RAMOS DE JESUS,NEGA FILHA DE ZE LEITE,,12,APTO,2,DEFERIDO,Partido isolado,40,PSB,Partido Socialista Brasileiro,260000154096,PARTIDO ISOLADO,PSB,5,SUPLENTE,N,11
7668,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,32018,PEDRINHAS,32018,PEDRINHAS,4,13,Vereador,260001243756,40400,JARUALDO LINO DOS SANTOS,JAIRO DO POVO,,12,APTO,2,DEFERIDO,Partido isolado,40,PSB,Partido Socialista Brasileiro,260000154096,PARTIDO ISOLADO,PSB,5,SUPLENTE,N,51
7669,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31631,ITAPORANGA D AJUDA,31631,ITAPORANGA D AJUDA,31,13,Vereador,260000918145,12999,JOSE CANDIDO GARCEZ DA ROCHA,DR. ROCHINHA,,12,APTO,2,DEFERIDO,Partido isolado,12,PDT,Partido Democrático Trabalhista,260000105524,PARTIDO ISOLADO,PDT,5,SUPLENTE,N,79


In [4]:
data_votacao.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'NR_ZONA', 'CD_CARGO', 'DS_CARGO', 'SQ_CANDIDATO',
       'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'CD_SITUACAO_CANDIDATURA',
       'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND',
       'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'NR_PARTIDO', 'SG_PARTIDO',
       'NM_PARTIDO', 'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_SIT_TOT_TURNO', 'DS_SIT_TOT_TURNO', 'ST_VOTO_EM_TRANSITO',
       'QT_VOTOS_NOMINAIS'],
      dtype='object')

In [5]:
data_candidatos = pd.read_csv(
    "/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/eleicoes/consulta_cand_2020_SE.csv", 
    sep=";",
    encoding='latin_1',
    na_values=['#NULO','#NULO#', -1])
data_candidatos

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,NM_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,CD_NACIONALIDADE,DS_NACIONALIDADE,SG_UF_NASCIMENTO,CD_MUNICIPIO_NASCIMENTO,NM_MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,NR_IDADE_DATA_POSSE,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,VR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_DECLARAR_BENS,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA
0,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31194,CAMPO DO BRITO,12,VICE-PREFEITO,260000979444,22,PAULO CESAR LIMA,CESAR DA ESQUADRIA,,51640139591,REGISTROCB2020@GMAIL.COM,12,APTO,2,DEFERIDO,COLIGAÇÃO,10,REPUBLICANOS,REPUBLICANOS,260000114347,PRA MUDAR CAMPO DO BRITO,PL / REPUBLICANOS / PT,1,BRASILEIRA NATA,SE,-3,CAMPO DO BRITO,04/07/1970,50,11092312194,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,3,CASADO(A),3,PARDA,257,EMPRESÁRIO,,4.0,NÃO ELEITO,N,S,,6001046520206250024,2.0,DEFERIDO,2.0,DEFERIDO,SIM
1,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31631,ITAPORANGA D'AJUDA,13,VEREADOR,260001267681,11666,GILSON DE JESUS CABRAL,CHINA MOTORISTA,,99157470553,MOSOBRAL@HOTMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,11,PP,PROGRESSISTAS,260000154947,PARTIDO ISOLADO,PP,1,BRASILEIRA NATA,SE,-3,ITAPORANGA D AJUDA,10/11/1978,42,17721662100,2,MASCULINO,4,ENSINO FUNDAMENTAL COMPLETO,3,CASADO(A),3,PARDA,298,SERVIDOR PÚBLICO MUNICIPAL,25301.17,5.0,SUPLENTE,N,S,,6004092820206250031,2.0,DEFERIDO,2.0,DEFERIDO,SIM
2,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31550,INDIAROBA,13,VEREADOR,260000728513,55123,ADÍLIO DA PAIXÃO CARDOSO LIMA,ADÍLIO DE VIVA,,99763907500,PSDINDIAROBAELEICOES2020@GMAIL.COM,3,INAPTO,6,RENÚNCIA,PARTIDO ISOLADO,55,PSD,PARTIDO SOCIAL DEMOCRÁTICO,260000068056,PARTIDO ISOLADO,PSD,1,BRASILEIRA NATA,SE,-3,INDIAROBA,23/04/1979,41,18248342194,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),3,PARDA,265,PROFESSOR DE ENSINO FUNDAMENTAL,34350.82,,,N,S,,6000921820206250035,,,,,NÃO
3,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31690,LAGARTO,13,VEREADOR,260001032036,20777,EDIVALDO DE SOUZA,NEGAO DA KOMBI,,46649034568,CGMLAGARTO@HOTMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,20,PSC,PARTIDO SOCIAL CRISTÃO,260000124301,PARTIDO ISOLADO,PSC,1,BRASILEIRA NATA,SE,-3,LAGARTO,17/04/1968,52,23833762194,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,3,CASADO(A),2,PRETA,601,AGRICULTOR,19679.87,5.0,SUPLENTE,N,S,,6002651420206250012,2.0,DEFERIDO,2.0,DEFERIDO,SIM
4,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,32336,SÃO CRISTÓVÃO,13,VEREADOR,260001194298,33123,ALBERTO VINICIUS OLIVEIRA DOS SANTOS,ALBERTINHO,,3072328595,ALBERTO_VINNY@HOTMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,33,PMN,PARTIDO DA MOBILIZAÇÃO NACIONAL,260000146824,PARTIDO ISOLADO,PMN,1,BRASILEIRA NATA,SE,-3,SÃO CRISTÓVÃO,16/04/1990,30,24083932135,2,MASCULINO,7,SUPERIOR INCOMPLETO,1,SOLTEIRO(A),3,PARDA,999,OUTROS,18942.68,4.0,NÃO ELEITO,N,S,,6002978920206250021,2.0,DEFERIDO,2.0,DEFERIDO,SIM
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7012,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31275,CARIRA,13,VEREADOR,260000858785,11333,ROSANA MARIA LOURENÇO DOS SANTOS,ROZANA DE NEUZA,,4014447596,LIANMENDONCA25@HOTMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,11,PP,PROGRESSISTAS,260000093608,PARTIDO ISOLADO,PP,1,BRASILEIRA NATA,SP,-3,ARUJÁ,29/03/1989,31,22733012194,4,FEMININO,4,ENSINO FUNDAMENTAL COMPLETO,1,SOLTEIRO(A),3,PARDA,601,AGRICULTOR,12307.75,5.0,SUPLENTE,N,S,,6001998020206250029,2.0,DEFERIDO,2.0,DEFERIDO,SIM
7013,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,31712,LARANJEIRAS,11,PREFEITO,260000895755,15,JOSÉ DE ARAUJO LEITE NETO,JUCA,,66321689572,COLIGACAOMDB@GMAIL.COM,12,APTO,2,DEFERIDO,COLIGAÇÃO,15,MDB,MOVIMENTO DEMOCRÁTICO BRASILEIRO,260000101422,JUNTOS VAMOS RECONSTRUIR LARANJEIRAS,MDB / PSD,1,BRASILEIRA NATA,SE,-3,ARACAJU,09/08/1971,49,11420462143,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),3,PARDA,124,CONTADOR,273588.25,1.0,ELEITO,N,N,,6001066820206250013,2.0,DEFERIDO,2.0,DEFERIDO,SIM
7014,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,32190,RIBEIRÓPOLIS,13,VEREADOR,260000873277,22200,SAMOEL LEITE,SAMOEL LEITE,,98513397504,COLIGACAOPLPSDRIBEIRROPOLIS@GMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,22,PL,PARTIDO LIBERAL,260000096669,PARTIDO ISOLADO,PL,1,BRASILEIRA NATA,SE,-3,MALHADOR,08/01/1979,41,16818762186,2,MASCULINO,4,ENSINO FUNDAMENTAL COMPLETO,3,CASADO(A),3,PARDA,197,GARI OU LIXEIRO,12307.75,5.0,SUPLENTE,N,S,,6002630220206250026,2.0,DEFERIDO,2.0,DEFERIDO,SIM
7015,15/04/2021,19:18:46,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SE,32514,UMBAÚBA,13,VEREADOR,260001094762,23666,JOSE ABEL LIMA SANTOS OLIVEIRA,ABEL LIMA,,3763725598,CIDADANIA23UMBAUBA@GMAIL.COM,12,APTO,2,DEFERIDO,PARTIDO ISOLADO,23,CIDADANIA,CIDADANIA,260000132616,PARTIDO ISOLADO,CIDADANIA,1,BRASILEIRA NATA,SE,-3,ITABAIANINHA,19/02/1986,34,22331002100,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),6,SEM INFORMAÇÃO,999,OUTROS,12307.75,5.0,SUPLENTE,N,S,,6001407420206250035,2.0,DEFERIDO,2.0,DEFERIDO,SIM


In [6]:
data_votacao.query("NR_CANDIDATO == 50180")

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,DS_DETALHE_SITUACAO_CAND,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_VOTO_EM_TRANSITO,QT_VOTOS_NOMINAIS
2820,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31054,ARACAJU,31054,ARACAJU,27,13,Vereador,260001187047,50180,LINDA BRASIL AZEVEDO SANTOS,LINDA BRASIL,,12,APTO,2,DEFERIDO,Partido isolado,50,PSOL,Partido Socialismo e Liberdade,260000145974,PARTIDO ISOLADO,PSOL,3,ELEITO POR MÉDIA,N,1935
4176,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31054,ARACAJU,31054,ARACAJU,2,13,Vereador,260001187047,50180,LINDA BRASIL AZEVEDO SANTOS,LINDA BRASIL,,12,APTO,2,DEFERIDO,Partido isolado,50,PSOL,Partido Socialismo e Liberdade,260000145974,PARTIDO ISOLADO,PSOL,3,ELEITO POR MÉDIA,N,2821
5372,07/03/2021,08:35:50,2020,2,Eleição Ordinária,1,426,ELEIÇÕES MUNICIPAIS 2020,15/11/2020,M,SE,31054,ARACAJU,31054,ARACAJU,1,13,Vereador,260001187047,50180,LINDA BRASIL AZEVEDO SANTOS,LINDA BRASIL,,12,APTO,2,DEFERIDO,Partido isolado,50,PSOL,Partido Socialismo e Liberdade,260000145974,PARTIDO ISOLADO,PSOL,3,ELEITO POR MÉDIA,N,1017


### Processando os dados

Vamos deixar nos DataFrames apenas os dados que nos interessam para nosso objetivo. Para isso, vamos fazer 3 operações com os dados:

1. Filtra apenas por vereadores
2. Selecionar as colunas de interesse
3. Agrupar os valores somando o total de votos.



In [7]:
data_votacao['DS_CARGO'].value_counts()

Vereador    7401
Prefeito     270
Name: DS_CARGO, dtype: int64

In [8]:
data_votacao.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'NR_ZONA', 'CD_CARGO', 'DS_CARGO', 'SQ_CANDIDATO',
       'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'CD_SITUACAO_CANDIDATURA',
       'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND',
       'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'NR_PARTIDO', 'SG_PARTIDO',
       'NM_PARTIDO', 'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_SIT_TOT_TURNO', 'DS_SIT_TOT_TURNO', 'ST_VOTO_EM_TRANSITO',
       'QT_VOTOS_NOMINAIS'],
      dtype='object')

In [9]:
data_votacao_query = data_votacao.copy()
data_votacao_query = data_votacao_query.query("DS_CARGO == 'Vereador'")

select_columns = ['SQ_CANDIDATO','NR_CANDIDATO','NM_CANDIDATO','NM_URNA_CANDIDATO','SG_PARTIDO','NM_MUNICIPIO','DS_SIT_TOT_TURNO']
data_votacao_query = data_votacao_query.groupby(select_columns, as_index=False).agg({'QT_VOTOS_NOMINAIS': 'sum'})
data_votacao_query

Unnamed: 0,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,SG_PARTIDO,NM_MUNICIPIO,DS_SIT_TOT_TURNO,QT_VOTOS_NOMINAIS
0,260000637450,13500,ITANAMARA GUEDES CAVALCANTE,ITANAMARA GUEDES,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,286
1,260000637451,13123,KARINA VERISSIMO SANTOS,KARINA VERISSIMO,PT,NOSSA SENHORA DA GLÓRIA,ELEITO POR QP,1030
2,260000637452,13131,EDIVALDO DOS SANTOS,PREFEITINHO,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,51
3,260000637453,13100,ANCELMO SANTANA DOS SANTOS,ANCELMO SANTANA,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,73
4,260000637454,13666,DIANO RIBEIRO DOS SANTOS LIMA,DIANO DO POSTINHO,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,248
...,...,...,...,...,...,...,...,...
6072,260001273960,11234,MARCELO ALVES DOS SANTOS,MARCELO FILHO DE ZE CUICA,PP,CRISTINÁPOLIS,SUPLENTE,170
6073,260001274240,14999,FABIA VALADARES DE ANDRADE,FABIA VALADARES DE ANDRADE,PTB,ARACAJU,NÃO ELEITO,100
6074,260001274244,45101,WLADIMIR WANDER DOS SANTOS FERRAZ,PROF WLADIMIR WANDER,PSDB,ARACAJU,NÃO ELEITO,45
6075,260001274271,19267,CARLOS ADRIANO SANTANA,CARLOS DO PROJETO,PODE,MONTE ALEGRE DE SERGIPE,SUPLENTE,6


In [10]:
select_columns_c = ['SQ_CANDIDATO',
    'NR_CANDIDATO',
    'NM_CANDIDATO',
    'DS_GENERO',
    'DS_GRAU_INSTRUCAO',
    'DS_ESTADO_CIVIL',
    'DS_COR_RACA',
    'DS_OCUPACAO',
    'ST_REELEICAO',
    'DS_CARGO']

data_candidatos_query = data_candidatos.copy()
data_candidatos_query = data_candidatos_query[select_columns_c]
data_candidatos_query = data_candidatos_query.query("DS_CARGO == 'VEREADOR'")
data_candidatos_query

Unnamed: 0,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,DS_CARGO
1,260001267681,11666,GILSON DE JESUS CABRAL,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),PARDA,SERVIDOR PÚBLICO MUNICIPAL,N,VEREADOR
2,260000728513,55123,ADÍLIO DA PAIXÃO CARDOSO LIMA,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,PROFESSOR DE ENSINO FUNDAMENTAL,N,VEREADOR
3,260001032036,20777,EDIVALDO DE SOUZA,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PRETA,AGRICULTOR,N,VEREADOR
4,260001194298,33123,ALBERTO VINICIUS OLIVEIRA DOS SANTOS,MASCULINO,SUPERIOR INCOMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,VEREADOR
5,260000797932,40777,TANIA LEMOS ALMEIDA,FEMININO,LÊ E ESCREVE,SOLTEIRO(A),BRANCA,DONA DE CASA,N,VEREADOR
...,...,...,...,...,...,...,...,...,...,...
7011,260001121963,14777,GENIVAL FREIRE DOS SANTOS,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),PARDA,REPRESENTANTE COMERCIAL,N,VEREADOR
7012,260000858785,11333,ROSANA MARIA LOURENÇO DOS SANTOS,FEMININO,ENSINO FUNDAMENTAL COMPLETO,SOLTEIRO(A),PARDA,AGRICULTOR,N,VEREADOR
7014,260000873277,22200,SAMOEL LEITE,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),PARDA,GARI OU LIXEIRO,N,VEREADOR
7015,260001094762,23666,JOSE ABEL LIMA SANTOS OLIVEIRA,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),SEM INFORMAÇÃO,OUTROS,N,VEREADOR


Com as duas tabelas, o próximo passo é juntar essas informações em um único dataframe para que eu tenha a informação completa de cada um dos candidatos.

In [11]:
data_final_eleicoes = data_votacao_query.merge(
    data_candidatos_query,
    how='left',
    on=['SQ_CANDIDATO']
)
data_final_eleicoes

Unnamed: 0,SQ_CANDIDATO,NR_CANDIDATO_x,NM_CANDIDATO_x,NM_URNA_CANDIDATO,SG_PARTIDO,NM_MUNICIPIO,DS_SIT_TOT_TURNO,QT_VOTOS_NOMINAIS,NR_CANDIDATO_y,NM_CANDIDATO_y,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,DS_CARGO
0,260000637450,13500,ITANAMARA GUEDES CAVALCANTE,ITANAMARA GUEDES,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,286,13500,ITANAMARA GUEDES CAVALCANTE,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,ASSISTENTE SOCIAL,N,VEREADOR
1,260000637451,13123,KARINA VERISSIMO SANTOS,KARINA VERISSIMO,PT,NOSSA SENHORA DA GLÓRIA,ELEITO POR QP,1030,13123,KARINA VERISSIMO SANTOS,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,ADVOGADO,N,VEREADOR
2,260000637452,13131,EDIVALDO DOS SANTOS,PREFEITINHO,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,51,13131,EDIVALDO DOS SANTOS,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,AGRICULTOR,N,VEREADOR
3,260000637453,13100,ANCELMO SANTANA DOS SANTOS,ANCELMO SANTANA,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,73,13100,ANCELMO SANTANA DOS SANTOS,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A),PARDA,SERVIDOR PÚBLICO MUNICIPAL,N,VEREADOR
4,260000637454,13666,DIANO RIBEIRO DOS SANTOS LIMA,DIANO DO POSTINHO,PT,NOSSA SENHORA DA GLÓRIA,SUPLENTE,248,13666,DIANO RIBEIRO DOS SANTOS LIMA,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),PARDA,SERVIDOR PÚBLICO MUNICIPAL,N,VEREADOR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6072,260001273960,11234,MARCELO ALVES DOS SANTOS,MARCELO FILHO DE ZE CUICA,PP,CRISTINÁPOLIS,SUPLENTE,170,11234,MARCELO ALVES DOS SANTOS,MASCULINO,ENSINO MÉDIO INCOMPLETO,SOLTEIRO(A),PARDA,TRABALHADOR RURAL,N,VEREADOR
6073,260001274240,14999,FABIA VALADARES DE ANDRADE,FABIA VALADARES DE ANDRADE,PTB,ARACAJU,NÃO ELEITO,100,14999,FABIA VALADARES DE ANDRADE,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,OUTROS,N,VEREADOR
6074,260001274244,45101,WLADIMIR WANDER DOS SANTOS FERRAZ,PROF WLADIMIR WANDER,PSDB,ARACAJU,NÃO ELEITO,45,45101,WLADIMIR WANDER DOS SANTOS FERRAZ,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,PROFESSOR DE ENSINO MÉDIO,N,VEREADOR
6075,260001274271,19267,CARLOS ADRIANO SANTANA,CARLOS DO PROJETO,PODE,MONTE ALEGRE DE SERGIPE,SUPLENTE,6,19267,CARLOS ADRIANO SANTANA,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,VEREADOR


In [12]:
data_final_eleicoes = data_final_eleicoes[['SQ_CANDIDATO', 'NR_CANDIDATO_x', 'NM_CANDIDATO_x', 'NM_URNA_CANDIDATO',
       'SG_PARTIDO', 'NM_MUNICIPIO', 'QT_VOTOS_NOMINAIS',
       'DS_GENERO', 'DS_GRAU_INSTRUCAO', 'DS_ESTADO_CIVIL',
       'DS_COR_RACA', 'DS_OCUPACAO', 'ST_REELEICAO', 'DS_CARGO', 'DS_SIT_TOT_TURNO']]
data_final_eleicoes = data_final_eleicoes.rename(columns={'NR_CANDIDATO_x': 'NR_CANDIDATO', 'NM_CANDIDATO_x': 'NM_CANDIDATO' })
data_final_eleicoes

Unnamed: 0,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,SG_PARTIDO,NM_MUNICIPIO,QT_VOTOS_NOMINAIS,DS_GENERO,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_COR_RACA,DS_OCUPACAO,ST_REELEICAO,DS_CARGO,DS_SIT_TOT_TURNO
0,260000637450,13500,ITANAMARA GUEDES CAVALCANTE,ITANAMARA GUEDES,PT,NOSSA SENHORA DA GLÓRIA,286,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,ASSISTENTE SOCIAL,N,VEREADOR,SUPLENTE
1,260000637451,13123,KARINA VERISSIMO SANTOS,KARINA VERISSIMO,PT,NOSSA SENHORA DA GLÓRIA,1030,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,ADVOGADO,N,VEREADOR,ELEITO POR QP
2,260000637452,13131,EDIVALDO DOS SANTOS,PREFEITINHO,PT,NOSSA SENHORA DA GLÓRIA,51,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),PARDA,AGRICULTOR,N,VEREADOR,SUPLENTE
3,260000637453,13100,ANCELMO SANTANA DOS SANTOS,ANCELMO SANTANA,PT,NOSSA SENHORA DA GLÓRIA,73,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A),PARDA,SERVIDOR PÚBLICO MUNICIPAL,N,VEREADOR,SUPLENTE
4,260000637454,13666,DIANO RIBEIRO DOS SANTOS LIMA,DIANO DO POSTINHO,PT,NOSSA SENHORA DA GLÓRIA,248,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),PARDA,SERVIDOR PÚBLICO MUNICIPAL,N,VEREADOR,SUPLENTE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6072,260001273960,11234,MARCELO ALVES DOS SANTOS,MARCELO FILHO DE ZE CUICA,PP,CRISTINÁPOLIS,170,MASCULINO,ENSINO MÉDIO INCOMPLETO,SOLTEIRO(A),PARDA,TRABALHADOR RURAL,N,VEREADOR,SUPLENTE
6073,260001274240,14999,FABIA VALADARES DE ANDRADE,FABIA VALADARES DE ANDRADE,PTB,ARACAJU,100,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),BRANCA,OUTROS,N,VEREADOR,NÃO ELEITO
6074,260001274244,45101,WLADIMIR WANDER DOS SANTOS FERRAZ,PROF WLADIMIR WANDER,PSDB,ARACAJU,45,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,PROFESSOR DE ENSINO MÉDIO,N,VEREADOR,NÃO ELEITO
6075,260001274271,19267,CARLOS ADRIANO SANTANA,CARLOS DO PROJETO,PODE,MONTE ALEGRE DE SERGIPE,6,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),PARDA,OUTROS,N,VEREADOR,SUPLENTE


Podemos visualizar melhor esses dados através de um gráfico de barra. 

In [13]:

data_eleicoes_graph = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_COR_RACA']).agg({'SQ_CANDIDATO': 'count'})
data_eleicoes_graph = data_eleicoes_graph.reset_index()
data_eleicoes_graph = data_eleicoes_graph.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_eleicoes_graph = data_eleicoes_graph.query("NM_MUNICIPIO == 'ARACAJU'")

fig = px.bar(data_eleicoes_graph, x='DS_COR_RACA', y='TOTAL')
fig.show()

## Trabalhando com dados do ENEM



### Fonte dos Dados

Os dados de 2009 a 2019 foram extraídos do site de dados abertos do INEP. Os dados utilizados neste processamentos são as chamadas Sinopses Estatísticas, disponíveis em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/sinopses-estatisticas/enem.

Segundo o próprio site do INEP, "As Sinopses Estatísticas do Inep correspondem a um conjunto de tabelas com dados recolhidos por suas pesquisas estatísticas, avaliações e exames. As informações são organizadas por temas e distribuídas de acordo com as regiões brasileiras, suas respectivas unidades da federação e municípios. As informações podem ser obtidas via download, em formato ODS e XLSX, permitindo que o usuário crie os filtros de seu interesse. Para abrir os arquivos, que estão em formato de compressão específico (.zip), é necessário o uso de algum programa descompactador".

Para este processamento, foi utilizado apenas os arquivos .xlsx que estão disponíveis neste diretório na pasta "data/originais". Os arquivos contém uma série de planilhas com as mais diversas estatísticas relacionadas ao ENEM. O foco aqui vai ser na planilhas da primeira seção: Inscritos. Mais precisamente, o total de inscritos por região, estado e raça. 

Apesar de ter uma planilha específica para as informações por região, a planilha que tem as informações por raça também tem essa informação. Sendo assim, vamos usar apenas a planilha de Inscritos por Região / Unidade da Federação / Raça. Identificadas no documento .xlsx como a 1.4. 

### Métodos Auxiliares

In [14]:
regioes_brasil = {'AC': {"nome": "Acre", "sigla": "AC", "regiao": 'Norte'},
                'AL': {"nome": "Alagoas", "sigla": "AL", "regiao": 'Nordeste'},
                'AP': {"nome": "Amapá", "sigla": "AP", "regiao": 'Norte'},
                'AM': {"nome": "Amazonas", "sigla": "AM", "regiao": 'Norte'},
                'BA': {"nome": "Bahia", "sigla": "BA", "regiao": 'Nordeste'},
                'CE': {"nome": "Ceará", "sigla": "CE", "regiao": 'Nordeste'},
                'DF': {"nome": "Distrito Federal", "sigla": "DF", "regiao": 'Centro-Oeste'},
                'ES': {"nome": "Espírito Santo", "sigla": "ES", "regiao": 'Sudeste'},
                'GO': {"nome": "Goiás", "sigla": "GO", "regiao": 'Centro-Oeste'},
                'MA': {"nome": "Maranhão", "sigla": "MA", "regiao": 'Nordeste'},
                'MT': {"nome": "Mato Grosso", "sigla": "MT", "regiao": 'Centro-Oeste'},
                'MS': {"nome": "Mato Grosso do Sul", "sigla": "MS", "regiao": 'Centro-Oeste'},
                'MG': {"nome": "Minas Gerais", "sigla": "MG", "regiao": 'Sudeste'},
                'PA': {"nome": "Pará", "sigla": "PA", "regiao": 'Norte'},
                'PB': {"nome": "Paraíba", "sigla": "PB", "regiao": 'Nordeste'},
                'PR': {"nome": "Paraná", "sigla": "PR", "regiao": 'Sul'},
                'PE': {"nome": "Pernambuco", "sigla": "PE", "regiao": 'Nordeste'},
                'PI': {"nome": "Piauí", "sigla": "PI", "regiao": 'Nordeste'},
                'RJ': {"nome": "Rio de Janeiro", "sigla": "RJ", "regiao": 'Sudeste'},
                'RN': {"nome": "Rio Grande do Norte", "sigla": "RN", "regiao": 'Nordeste'},
                'RS': {"nome": "Rio Grande do Sul", "sigla": "RS", "regiao": 'Sul'},
                'RO':  {"nome": "Rondônia", "sigla": "RO", "regiao": 'Norte'},
                'RR': {"nome": "Roraima", "sigla": "RR", "regiao": 'Norte'},
                'SC': {"nome": "Santa Catarina", "sigla": "SC", "regiao": 'Sul'},
                'SP': {"nome": "São Paulo", "sigla": "SP", "regiao": 'Sudeste'},
                'SE': {"nome": "Sergipe", "sigla": "SE", "regiao": 'Nordeste'},
                'TO': {"nome": "Tocantins", "sigla": "TO", "regiao": 'Norte'}}


estado_uf = {
    'Acre': 'AC',
    'Alagoas': 'AL',
    'Amapá': 'AP' ,
    'Amazonas': 'AM',
    'Bahia': 'BA',
    'Ceará': 'CE',
    'Distrito Federal': 'DF' ,
    'Espírito Santo': 'ES',
    'Goiás': 'GO',
    'Maranhão': 'MA',
    'Mato Grosso': 'MT',
    'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG',
    'Pará': 'PA',
    'Paraíba': 'PB',
    'Paraná': 'PR',
    'Pernambuco': 'PE',
    'Piauí': 'PI',
    'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS',
    'Rondônia': 'RO',
    'Roraima': 'RR',
    'Santa Catarina': 'SC',
    'São Paulo': 'SP',
    'Sergipe': 'SE',
    'Tocantins': 'TO',
}

def map_uf(estado):
    
    try:
        return_estado = estado_uf[estado]
    except KeyError:
        return_estado = estado
        
    return return_estado

def map_estados(uf, value_return):
    
    return regioes_brasil[uf][value_return]

### Processando sinopses estatísticas de 2009 a 2019

In [15]:
'''
    Método que processa o arquivo de inscritos
        @ano: ano que deve ser processado
        @planilha: planilha que se encontra as informações
        @columns_names: nome das colunas no dataset resultante. 
        @skip: número de linhas que devem ser puladas para iniciar o processamento da planilha

'''
def inscritos_(ano, planilha, columns_names, skip):
    data_ = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/Sinopse ENEM " + str(ano) + ".xlsx", sheet_name=planilha, skiprows=skip,names=columns_names)
    data_ = data_.dropna()
    data_ = data_.reset_index(drop=True)
    data_['ano'] = ano
    data_['uf_sigla'] = data_.apply(lambda row: map_uf(row['uf']), axis=1)

    return data_

In [16]:
inscritos_(2019, '1.1', ['regiao','uf','total'],8)

Unnamed: 0,regiao,uf,total,ano,uf_sigla
0,Norte,Rondônia,58885,2019,RO
1,Norte,Acre,38229,2019,AC
2,Norte,Amazonas,118087,2019,AM
3,Norte,Roraima,12947,2019,RR
4,Norte,Pará,281518,2019,PA
5,Norte,Amapá,42140,2019,AP
6,Norte,Tocantins,47181,2019,TO
7,Nordeste,Maranhão,219673,2019,MA
8,Nordeste,Piauí,121181,2019,PI
9,Nordeste,Ceará,295870,2019,CE


In [17]:
anos_ = [2019, 2018, 2017, 2016, 2015, 2014,2013,2012,2011,2010,2009]

columns = ['regiao','uf','total']

data_frames_enem = {}

skip_rows = 8

for ano in anos_:
    if ano not in data_frames_enem.keys():
        data_frames_enem[ano] = inscritos_(ano, "1.1",columns_names=columns,skip=skip_rows)
    

In [18]:
data_frames_enem[2019]

Unnamed: 0,regiao,uf,total,ano,uf_sigla
0,Norte,Rondônia,58885,2019,RO
1,Norte,Acre,38229,2019,AC
2,Norte,Amazonas,118087,2019,AM
3,Norte,Roraima,12947,2019,RR
4,Norte,Pará,281518,2019,PA
5,Norte,Amapá,42140,2019,AP
6,Norte,Tocantins,47181,2019,TO
7,Nordeste,Maranhão,219673,2019,MA
8,Nordeste,Piauí,121181,2019,PI
9,Nordeste,Ceará,295870,2019,CE


### E 2020?

Não foram encontradas as sinopses estatísticas de 2020. O acesso dessas informações de 2020 e 2021 serão coletadas a partir de notícias ou outras fontes. 

1. As informações de inscritos podem ser encontrados no Press Kit divulgado pelo site do INEP, diposnível neste link: [https://www.gov.br/inep/pt-br/assuntos/noticias/enem/egressos-constituem-65-4-dos-inscritos-no-enem-impresso](https://www.gov.br/inep/pt-br/assuntos/noticias/enem/egressos-constituem-65-4-dos-inscritos-no-enem-impresso).  

2. Algumas informações também podem ser encontradas aqui: [https://www.gov.br/inep/pt-br/assuntos/noticias/enem/divulgados-os-resultados-finais-do-exame](https://www.gov.br/inep/pt-br/assuntos/noticias/enem/divulgados-os-resultados-finais-do-exame)

Anexado à notícia 1, temos o PressKit que tem algumas informações sobre inscritos e link para o arquivo em excel com as mesmas informaçõe. Vamos usar esse documento para coletar as informações de inscritos por região e raça de 2020. 

In [19]:
data_2020 = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/presskit_ENEM2020_inscritos.xlsx",sheet_name="Inscritos_Raça",names=['uf_sigla','amarela','branca','indigena','nao_declarada','parda','preta','total'])
data_2020 = data_2020.dropna()

data_2020['uf'] = data_2020.apply(lambda row: map_estados(row['uf_sigla'],'nome'), axis=1)
data_2020['regiao'] = data_2020.apply(lambda row: map_estados(row['uf_sigla'],'regiao'), axis=1)
data_2020['ano'] = 2020
data_2020 = data_2020[['regiao',	'uf',	'total',	'ano', 	'uf_sigla']]
data_2020

Unnamed: 0,regiao,uf,total,ano,uf_sigla
0,Norte,Acre,40674,2020,AC
1,Nordeste,Alagoas,100723,2020,AL
2,Norte,Amazonas,160548,2020,AM
3,Norte,Amapá,46483,2020,AP
4,Nordeste,Bahia,444742,2020,BA
5,Nordeste,Ceará,322581,2020,CE
6,Centro-Oeste,Distrito Federal,113177,2020,DF
7,Sudeste,Espírito Santo,104532,2020,ES
8,Centro-Oeste,Goiás,209350,2020,GO
9,Nordeste,Maranhão,236840,2020,MA


### E 2021?

Assim como 2020, ainda não está disponível as sinopses estatísticas de 2021. Essas informações só devem ser disponibilizadas após a realização do exame. No entanto, já é possível ter acesso as informações de quantitativos de inscritos de 2021. [Neste link](https://www.gov.br/inep/pt-br/centrais-de-conteudo/press-kits) é possível acessar o press-kit com o link para as planilhas que contém o quantitivo de inscritos tanto para o ENEM impresso e o ENEM Digital. Nos arquivos do excel, estão apenas o total de inscritos, um pouco mais de detalhes estão disponíveis no pdf. 

O quantitivo de inscritos está por município. Vamos agrupar para ter as informações por estado e região como nas demais tabelas. No entanto, as tabelas não possuem informações por raça-cor. Essas informações estão disponíveis no próprio PDF do press-kit. 

In [20]:
data_2021_impresso = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/ENEM2021_inscritos_impresso.xlsx",names=['uf_sigla','municipio','total'])
data_2021_impresso = data_2021_impresso[['uf_sigla','total']].groupby(by=['uf_sigla'], as_index=False).agg({'total': 'sum'})
data_2021_digital = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/ENEM2021_inscritos_digital.xlsx",names=['uf_sigla','municipio','total'])
data_2021_digital = data_2021_digital[['uf_sigla','total']].groupby(by=['uf_sigla'], as_index=False).agg({'total': 'sum'})

In [21]:
data_2021 = pd.concat([data_2021_impresso, data_2021_digital]).groupby(['uf_sigla']).sum().reset_index()

In [22]:
data_2021['uf'] = data_2021.apply(lambda row: map_estados(row['uf_sigla'],'nome'), axis=1)
data_2021['regiao'] = data_2021.apply(lambda row: map_estados(row['uf_sigla'],'regiao'), axis=1)
data_2021['ano'] = 2021
data_2021 = data_2021[['regiao',	'uf',	'total',	'ano', 	'uf_sigla']]
data_2021 = data_2021.sort_values(by=['regiao'], ignore_index=True)
data_2021

Unnamed: 0,regiao,uf,total,ano,uf_sigla
0,Centro-Oeste,Distrito Federal,61463,2021,DF
1,Centro-Oeste,Goiás,129042,2021,GO
2,Centro-Oeste,Mato Grosso do Sul,38343,2021,MS
3,Centro-Oeste,Mato Grosso,51055,2021,MT
4,Nordeste,Alagoas,51265,2021,AL
5,Nordeste,Sergipe,49116,2021,SE
6,Nordeste,Bahia,239101,2021,BA
7,Nordeste,Ceará,208841,2021,CE
8,Nordeste,Maranhão,116224,2021,MA
9,Nordeste,Rio Grande do Norte,73141,2021,RN


In [23]:
data_frames_enem[2020] = data_2020.copy()
data_frames_enem[2021] = data_2021.copy()

In [24]:
for key in data_frames_enem.keys():
  total_line = ['Brasil','Brasil',data_frames_enem[key]['total'].sum(), key, 'BR']
  data_frames_enem[key] = data_frames_enem[key].append(pd.Series(total_line, index=data_frames_enem[key].columns), ignore_index=True)
  

In [25]:
data_frames_enem[2010]

Unnamed: 0,regiao,uf,total,ano,uf_sigla
0,Norte,Rondônia,51515,2010,RO
1,Norte,Acre,15484,2010,AC
2,Norte,Amazonas,124845,2010,AM
3,Norte,Roraima,14827,2010,RR
4,Norte,Pará,164882,2010,PA
5,Norte,Amapá,14431,2010,AP
6,Norte,Tocantins,28407,2010,TO
7,Nordeste,Maranhão,167451,2010,MA
8,Nordeste,Piauí,83933,2010,PI
9,Nordeste,Ceará,208646,2010,CE


In [26]:
all_concat = []
for key in data_frames_enem.keys():
  data_temp = data_frames_enem[key][['regiao','ano','total']].query("regiao == 'Brasil'")
  all_concat.append(data_temp)

In [27]:
data_final_enem = pd.concat(all_concat, ignore_index=True)
data_final_enem = data_final_enem[['ano','total']]
data_final_enem = data_final_enem.sort_values(by=['ano'],ignore_index=True)
data_final_enem

Unnamed: 0,ano,total
0,2009,4148720
1,2010,4626094
2,2011,5380856
3,2012,5791065
4,2013,7173563
5,2014,8722248
6,2015,7746427
7,2016,8627367
8,2017,6731341
9,2018,5513747


In [28]:
fig = px.line(data_final_enem, x="ano", y="total", title='Total de inscritos no ENEM: 2009-2021')
fig.show()

## Trabalhando com dados da COVID

Já com dos dados da COVID, vamos trabalhar com duas bases. A primeira com informações de casos e óbitos. Para isso, vamos utilizar um base disponibilizada pelo site [brasil.io](https://brasil.io) que desde do início da pandemia vem publicando atualizações diárias do número de óbitos e casos para todo o Brasil. O site possui outras bases abertas que foram pré-processadas e organizadas por eles. Vale a pena explorar o site. 

A segunda base é em relação ao número de vacinados. Essa base pode ser encontrada de forma geral nos links do Ministério da Saúde. No entanto, por muitas vezes esses estavam desatualizados. Sendo assim, vamos trabalhar com os dados diretamente os portais municipais. 

### Dados da vacinação

Os dados vacinação são mais difíceis de encontrar, então a busca tem que ser junto aos portais estaduais ou municipais. No caso de Aracaju, as informações estão organizadas em um porta, mas o total da vacinação não está organizado em um único arquivo. O arquivo que eu vou utilizar foi compilado por mim, manualmente, registrando os dados quase que diariamente. 

In [29]:
data_vacinacao = pd.read_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/vacinacao_sergipe.csv",
                            sep=";")
data_vacinacao

Unnamed: 0,data,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforço
0,2021-03-01,45836,24909,0,0
1,2021-03-02,48907,25744,0,0
2,2021-03-03,54155,26816,0,0
3,2021-03-04,61270,27275,0,0
4,2021-03-05,67793,28353,0,0
...,...,...,...,...,...
203,2021-10-21,1649165,1032568,40125,52957
204,2021-10-22,1642085,1049928,40125,56951
205,2021-10-23,1654478,1060613,40125,59037
206,2021-10-25,1656941,1069671,40125,61200


### Dados de Casos e Óbitos

Já os dados de casos e óbitos foram extraídos do Brasil.io que tem uma base completa, atualizada diariamente, com os números de todo Brasil. Vamos fazer um recorte do estado de Sergipe para que a gente possa trabalhar na visualização destas informações. 

In [30]:
dados_full = pd.read_csv('/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/caso_full.csv')
dados_full

Unnamed: 0,city,city_ibge_code,date,epidemiological_week,estimated_population,estimated_population_2019,is_last,is_repeated,last_available_confirmed,last_available_confirmed_per_100k_inhabitants,last_available_date,last_available_death_rate,last_available_deaths,order_for_place,place_type,state,new_confirmed,new_deaths
0,Rio Branco,1200401.0,2020-03-17,202012,413418.0,407319.0,False,False,3,0.72566,2020-03-17,0.0000,0,1,city,AC,3,0
1,,12.0,2020-03-17,202012,894470.0,881935.0,False,False,3,0.33539,2020-03-17,0.0000,0,1,state,AC,3,0
2,Rio Branco,1200401.0,2020-03-18,202012,413418.0,407319.0,False,False,3,0.72566,2020-03-18,0.0000,0,2,city,AC,0,0
3,,12.0,2020-03-18,202012,894470.0,881935.0,False,False,3,0.33539,2020-03-18,0.0000,0,2,state,AC,0,0
4,Rio Branco,1200401.0,2020-03-19,202012,413418.0,407319.0,False,False,4,0.96754,2020-03-19,0.0000,0,3,city,AC,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3000011,Tupirama,1721257.0,2021-10-26,202143,1922.0,1891.0,False,True,208,10822.06035,2021-09-06,0.0096,2,522,city,TO,0,0
3000012,Tupiratins,1721307.0,2021-10-26,202143,2729.0,2671.0,False,True,197,7218.76145,2021-09-06,0.0152,3,522,city,TO,0,0
3000013,Wanderlândia,1722081.0,2021-10-26,202143,11734.0,11683.0,False,True,1155,9843.19073,2021-09-06,0.0156,18,547,city,TO,0,0
3000014,Xambioá,1722107.0,2021-10-26,202143,11520.0,11540.0,False,True,2410,20920.13889,2021-09-06,0.0137,33,536,city,TO,0,0


Rode a próxima célula se deseja obter o recorte de Sergipe a partir dos dados gerais.

In [None]:
dados_gerais_sergipe = dados_full.query('state == "SE" and city.isnull()', engine='python')
dados_gerais_sergipe = dados_gerais_sergipe[['date','last_available_confirmed','last_available_deaths','new_confirmed','new_deaths']]
dados_gerais_sergipe = dados_gerais_sergipe.reset_index(drop=True)
dados_gerais_sergipe

Caso prefirar ler o arquivo de Sergipe direto do CSV, utilize a próxima célula.

In [31]:
dados_gerais_sergipe = pd.read_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/caso_full_sergipe.csv")
dados_gerais_sergipe

Unnamed: 0,date,last_available_confirmed,last_available_deaths,new_confirmed,new_deaths
0,2020-03-14,1,0,1,0
1,2020-03-15,1,0,0,0
2,2020-03-16,5,0,4,0
3,2020-03-17,5,0,0,0
4,2020-03-18,6,0,1,0
...,...,...,...,...,...
587,2021-10-22,278403,6025,17,1
588,2021-10-23,278420,6026,17,1
589,2021-10-24,278426,6027,6,1
590,2021-10-25,278444,6027,18,0


A linha a seguir pode ser usada para salvar um DataFrame em um arquivo CSV. Usei somente para gera o recorte de Sergipe em um arquivo. 

In [32]:
dados_gerais_sergipe.to_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/caso_full_sergipe.csv", index=False)

### Processando os dados

O nosso objetivo é enxergar os dados de duas formas: os dados da vacinação serão mostrados a partir do percentual da população vacinada em cada uma das doses. Já os dados de casos e óbitos vão ser mostrados a partir da média móvel de 7 dias dos registros diários.



#### **Vacinação**

Vamos calcular a % de pessoas vacinadas a cada dia para cada uma das doses aplciadas. Iremos trabalhar com 3 classificação desses dados:

1. Pessoas parcialmente imunizadas: consiste em pessoas que tomaram apenas a primeira dose das vacinas que possuem duas doses;
2. Pessoas completamente imunizadas: consiste em pessoas que tomaram a segunda dose mais as pessoas que tomaram a vacina de dose única. 
3. Pessoas que receberam a dose de reforço.

In [33]:
populacao_sergipe = 2318822 # Estimativa populacional de 2020

data_vacinacao['percent_parcial'] = data_vacinacao['aplicadas_dose1'] / populacao_sergipe
data_vacinacao['percent_completo'] = (data_vacinacao['aplicadas_dose2'] + data_vacinacao['aplicadas_dose_unica']) / populacao_sergipe
data_vacinacao['percent_reforco'] = data_vacinacao['aplicadas_dose_reforço'] / populacao_sergipe

data_vacinacao

Unnamed: 0,data,aplicadas_dose1,aplicadas_dose2,aplicadas_dose_unica,aplicadas_dose_reforço,percent_parcial,percent_completo,percent_reforco
0,2021-03-01,45836,24909,0,0,0.019767,0.010742,0.000000
1,2021-03-02,48907,25744,0,0,0.021091,0.011102,0.000000
2,2021-03-03,54155,26816,0,0,0.023355,0.011564,0.000000
3,2021-03-04,61270,27275,0,0,0.026423,0.011762,0.000000
4,2021-03-05,67793,28353,0,0,0.029236,0.012227,0.000000
...,...,...,...,...,...,...,...,...
203,2021-10-21,1649165,1032568,40125,52957,0.711208,0.462603,0.022838
204,2021-10-22,1642085,1049928,40125,56951,0.708155,0.470089,0.024560
205,2021-10-23,1654478,1060613,40125,59037,0.713499,0.474697,0.025460
206,2021-10-25,1656941,1069671,40125,61200,0.714562,0.478603,0.026393


In [34]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_parcial'],
                    mode='lines',
                    name='Parcial'))
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_completo'],
                    mode='lines',
                    name='Completo'))
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_reforco'],
                    mode='lines',
                    name='Reforço'))
fig.show()

#### **Casos e Óbitos**

Em realação aos casos e óbitos vamos trabalhar com a média móvel de 7 dias. A média móvel é calculada a partir dos registros diários dos últimos 7 dias. Então, para cada dia se olha os registros de 7 dias anteriores ao dia atual e calcula a média. Neste caso, isso é feito para amenizar as diferenças de registros que possam acontecer entre um dia e outro, principalmente aos finais de semana, onde o número de dados reportados são bem menores. 

In [35]:
dados_gerais_sergipe['mean_confirmed'] = dados_gerais_sergipe['new_confirmed'].rolling(window=7).mean()
dados_gerais_sergipe['mean_deaths'] = dados_gerais_sergipe['new_deaths'].rolling(window=7).mean()
dados_gerais_sergipe

Unnamed: 0,date,last_available_confirmed,last_available_deaths,new_confirmed,new_deaths,mean_confirmed,mean_deaths
0,2020-03-14,1,0,1,0,,
1,2020-03-15,1,0,0,0,,
2,2020-03-16,5,0,4,0,,
3,2020-03-17,5,0,0,0,,
4,2020-03-18,6,0,1,0,,
...,...,...,...,...,...,...,...
587,2021-10-22,278403,6025,17,1,16.142857,0.714286
588,2021-10-23,278420,6026,17,1,14.571429,0.857143
589,2021-10-24,278426,6027,6,1,15.000000,0.857143
590,2021-10-25,278444,6027,18,0,14.000000,0.714286


In [36]:

fig = go.Figure()

fig = make_subplots(
    rows=2, cols=1,
    row_heights=[0.5, 0.5],
)


fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_confirmed'],
                    mode='lines',
                    name='Casos'), row=1, col=1)
fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_deaths'],
                    mode='lines',
                    name='Óbitos'), row=2, col=1)




fig.show()

## Visualizando melhor os dados

Todas as visualizações criadas foram suficientes para nosso objetivo de olhar os dados com mais detalhes, fazer algumas observações, mas de certa forma podemos melhorar para que elas contem melhor a história que os dados trazem. Vamos exercitar um pouco isso.

### Dados das eleições

Com as visualizações vamos demostrar a distribuição de candidatoes a respeito de dois aspectos: 

* Cor e Raça
* Gênero


In [37]:
data_eleicoes_graph = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_COR_RACA']).agg({'SQ_CANDIDATO': 'count'})
data_eleicoes_graph = data_eleicoes_graph.reset_index()
data_eleicoes_graph = data_eleicoes_graph.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_eleicoes_graph

Unnamed: 0,NM_MUNICIPIO,DS_COR_RACA,TOTAL
0,AMPARO DE SÃO FRANCISCO,BRANCA,10
1,AMPARO DE SÃO FRANCISCO,PARDA,7
2,AMPARO DE SÃO FRANCISCO,PRETA,12
3,AQUIDABÃ,BRANCA,12
4,AQUIDABÃ,INDÍGENA,1
...,...,...,...
241,TOMAR DO GERU,SEM INFORMAÇÃO,11
242,UMBAÚBA,BRANCA,14
243,UMBAÚBA,PARDA,17
244,UMBAÚBA,PRETA,3


In [38]:

municipio_list = list(sorted(set(data_final_eleicoes['NM_MUNICIPIO'])))
municipio_choose = widgets.Dropdown(options=municipio_list, value='ARACAJU')
municipio_choose

Dropdown(index=2, options=('AMPARO DE SÃO FRANCISCO', 'AQUIDABÃ', 'ARACAJU', 'ARAUÁ', 'AREIA BRANCA', 'BARRA D…

In [39]:
field = 'DS_COR_RACA'
field_name = 'Cor/Raça'

my_plot_data = data_eleicoes_graph.query("NM_MUNICIPIO == '" + municipio_choose.value + "'").sort_values(by='TOTAL', ascending=False)
my_plot_data['PERCENT'] = my_plot_data['TOTAL'] / my_plot_data['TOTAL'].sum()
max_percent = my_plot_data.iloc[my_plot_data['TOTAL'].argmax()]

title = 'Distribuição dos vereadores por ' + field_name

highlight_bar = '#1B5583'
bars_color = ['#C0C0C0']*len(my_plot_data)
bars_color[0] = highlight_bar

fig = px.bar(
    my_plot_data, 
    x=field, 
    y='TOTAL', 
    title=title,
    labels={field: '', 'TOTAL': 'Total de Candidatos'},
    opacity=0.7,
    text="TOTAL",
    width=900,
    )

fig.update_yaxes( 
  showgrid=False,
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_xaxes(  
  showgrid=False,
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_traces(marker_color=bars_color, marker_line_color='#000000',
                  marker_line_width=1, opacity=0.7)


fig.update_layout(
    plot_bgcolor="#FFFFFF",
    title_font_color="#000000",
    title_font_size=25
)

fig.show()

Um outra visualização que podemos trabalhar com esses dados é referente a distribuição de homens e mulheres. Vamos criar uma visualização que permita mostrar essa distribuição em cada um dos municípios. 

In [40]:
data_genero = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_GENERO']).agg({'SQ_CANDIDATO': 'count'})
data_genero = data_genero.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_genero

Unnamed: 0_level_0,Unnamed: 1_level_0,TOTAL
NM_MUNICIPIO,DS_GENERO,Unnamed: 2_level_1
AMPARO DE SÃO FRANCISCO,FEMININO,11
AMPARO DE SÃO FRANCISCO,MASCULINO,18
AQUIDABÃ,FEMININO,16
AQUIDABÃ,MASCULINO,31
ARACAJU,FEMININO,207
...,...,...
TOBIAS BARRETO,MASCULINO,64
TOMAR DO GERU,FEMININO,16
TOMAR DO GERU,MASCULINO,27
UMBAÚBA,FEMININO,17


In [41]:
data_genero_total = data_genero.sum(level=[0])
data_genero_total

Unnamed: 0_level_0,TOTAL
NM_MUNICIPIO,Unnamed: 1_level_1
AMPARO DE SÃO FRANCISCO,29
AQUIDABÃ,47
ARACAJU,662
ARAUÁ,66
AREIA BRANCA,84
...,...
SÃO MIGUEL DO ALEIXO,16
TELHA,24
TOBIAS BARRETO,92
TOMAR DO GERU,43


In [42]:
for (index, rows) in data_genero.iterrows():
    data_genero.at[index, 'PERCENT'] = float(rows['TOTAL'] / data_genero_total.loc[index[0]].TOTAL)

data_genero = data_genero.reset_index()
data_genero['NM_MUNICIPIO'] = data_genero['NM_MUNICIPIO'].str.title()
data_genero['DS_GENERO'] = data_genero['DS_GENERO'].str.title()
data_genero

Unnamed: 0,NM_MUNICIPIO,DS_GENERO,TOTAL,PERCENT
0,Amparo De São Francisco,Feminino,11,0.379310
1,Amparo De São Francisco,Masculino,18,0.620690
2,Aquidabã,Feminino,16,0.340426
3,Aquidabã,Masculino,31,0.659574
4,Aracaju,Feminino,207,0.312689
...,...,...,...,...
145,Tobias Barreto,Masculino,64,0.695652
146,Tomar Do Geru,Feminino,16,0.372093
147,Tomar Do Geru,Masculino,27,0.627907
148,Umbaúba,Feminino,17,0.340000


In [43]:
data_feminino = data_genero.query("DS_GENERO == 'Feminino'")
data_masculino = data_genero.query("DS_GENERO == 'Masculino'")

In [44]:

fig = go.Figure()
fig.add_trace(go.Scatter(
    x=data_feminino['PERCENT'],
    y=data_feminino['NM_MUNICIPIO'].sort_values(ascending=False),
    marker=dict(color="#1B5583", size=12),
    mode="markers",
    name="Feminino",
    
))

fig.add_trace(go.Scatter(
    x=data_masculino['PERCENT'],
    y=data_masculino['NM_MUNICIPIO'].sort_values(ascending=False),
    marker=dict(color="#C0C0C0", size=12),
    mode="markers",
    name="Masculino",
))


fig.update_yaxes( 
  showgrid=True,
  gridcolor="#C0C0C0",
  linecolor="#C0C0C0",
  linewidth=1,
  tickfont_size=12
)

fig.update_xaxes(  
  showgrid=False,
  
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_layout(title="Proporação de Cadidaturas por Gênero em Sergipe",
                  xaxis_title="% de cadidatos",
                  height=1600,
                  width=900,
                  plot_bgcolor="#FFFFFF"
                  )

fig.show()

### Dados do ENEM 

Com os dados do ENEM, vamos trabalhar com algumas modificações para destacar algumas informações relevantes sobre os dados que processamos. A proposta é destacar momentos em que se tem um alto número de inscritos e aqueles baixo número. 

In [45]:
data_destaque_enem = data_final_enem.query("ano >= 2016 and ano <= 2020")
data_destaque_enem

Unnamed: 0,ano,total
7,2016,8627367
8,2017,6731341
9,2018,5513747
10,2019,5095270
11,2020,5687397


In [46]:

fig = go.Figure()

fig.add_trace(go.Scatter(x=data_final_enem['ano'], y=data_final_enem['total'],
                    mode='lines+markers',
                    name='ENEM', line={'width': 2, 'color': '#c0c0c0'}))

fig.add_trace(go.Scatter(x=data_destaque_enem['ano'], y=data_destaque_enem['total'],
                    mode='lines+markers',
                    name='Destaque', line={'width': 2, 'color': '#1B5583'}))

fig.add_annotation(x=2014,
            text="O maior número de inscritos foi registrado em 2014. <br />Foram quase 9 milhões de inscritos.",
            showarrow=False,
            yref='paper',
            y=1.1)

fig.add_annotation(y=int(data_final_enem[data_final_enem['ano'] == 2021]['total']),
            text="<span>Em 2021, foram pouco mais de <br />3 milhões de incritos <br />no ENEM.</span>",
            showarrow=False,
            xanchor='right',
            align='right',
            width=220,
            xref='paper',
            x=0.93)

fig.add_annotation(
            text="O Brasil já vinha de uma tendência <br />de queda nos últimos anos, <br />com leve aumento em 2020.",
            showarrow=False,
            xanchor='right',
            align='right',
            xref='paper',
            yref='paper',
            x=0.67,
            y=0.6,
            width=220)

fig.update_yaxes(  
  showgrid=True,
  gridcolor='#F0F0F0',
  linecolor="#C0C0C0",
  linewidth=1,
  range=[0, 1.05 * int(data_final_enem['total'].max())]
)

fig.update_xaxes(  
  showgrid=True,
  linecolor="#C0C0C0",
  linewidth=1,
)

fig.update_layout(title="ENEM registra o menor número de inscritos dos últimos 12 anos",
                  xaxis_title="Ano",
                  yaxis_title="Total de Inscritos",
                  plot_bgcolor="#FFFFFF",
                  width=1200,
                  showlegend=False
                  )

fig.show()

### Dados da COVID



In [47]:
fig = go.Figure()

fig = make_subplots(
    rows=3, cols=1,
    row_heights=[0.33, 0.33, 0.33],
    shared_xaxes=True,
    vertical_spacing=0.05
)


fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_confirmed'],
                    mode='lines',
                    name='Casos', line={'width': 2, 'color': '#1B5583'}, showlegend=False), row=1, col=1, )
fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_deaths'],
                    mode='lines',
                    name='Óbitos', line={'width': 2, 'color': '#B22222'}, showlegend=False), row=2, col=1)

fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_parcial'],
                    mode='lines',
                    name='Parcialmente', line={'width': 2, 'color': '#8B4000'}, ), row=3, col=1)
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_completo'],
                    mode='lines',
                    name='Completamente', line={'width': 2, 'color': '#FF5F1F'}), row=3, col=1)
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_reforco'],
                    mode='lines',
                    name='Com dose de reforço', line={'width': 2, 'color': '#FAC898'}), row=3, col=1)


fig.update_layout(title="Total de Casos, Óbitos e Vacinação em Sergipe",
                  plot_bgcolor="#FAFAFA",
                  showlegend=True,
                  width=1200,
                  height=800,
                  legend_y=0
                  )

fig.add_annotation(x=0.01, y=0.99,
            text="Total de casos",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_annotation(x=0.01, y=0.62,
            text="Total de óbitos",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_annotation(x=0.01, y=0.25,
            text="% da população imunizada",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_vrect(x0=data_vacinacao['data'].min(), x1=data_vacinacao['data'].max(), row='all', col=1,
              annotation_text="Período com vacinação", annotation_font_size=10, annotation_position="top left",
              fillcolor="#cccccC", opacity=0.25, line_width=0, line_dash='dot')

fig.add_vline(x=data_vacinacao['data'].min(), line_dash="dot", row='all', col=1, line_color='#c0c0c0')

fig.add_scatter(x = [fig.data[0].x[-1]], y = [fig.data[0].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#1B5583', 'size':5},
                     showlegend = False,
                     text = [round(fig.data[0].y[-1],2)],
                     textposition='middle right')


fig.add_scatter(x = [fig.data[1].x[-1]], y = [fig.data[1].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#B22222', 'size':5},
                     showlegend = False,
                     text = [round(fig.data[1].y[-1], 2)],
                     textposition='middle right', row=2, col=1)


fig.add_scatter(x = [fig.data[2].x[-1]], y = [fig.data[2].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#8B4000', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[2].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.add_scatter(x = [fig.data[3].x[-1]], y = [fig.data[3].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#FF5F1F', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[3].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.add_scatter(x = [fig.data[4].x[-1]], y = [fig.data[4].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#FAC898', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[4].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.layout.yaxis3.tickformat=',.0%'

fig.show()

## Obrigado!!!

Obrigado pessoal. Espero que tenham gostado do minicurso. Qualquer dúvida podde entrar em contato através do e-mail: adolfo@data2learning.com, pelo instagram [@profadolfoguimaraes](https://www.instagram.com/profadolfoguimaraes) ou pelo twitter [@adolfoguimaraes](https://www.twitter.com/adolfoguimaraes). 

![](https://camo.githubusercontent.com/3f58ec4dda7befb5b84a5ccfe1d846eb17a73b75/68747470733a2f2f6d656469612e67697068792e636f6d2f6d656469612f336f383578416f6a4e73686d7a6c795379632f67697068792e6769663f6369643d6563663035653437727739626d736e62686d6565346e723539766c786a796c6566667172397331646775397238626f37267269643d67697068792e6769662663743d67)

Até a próxima :)