<a href="https://colab.research.google.com/github/adolfoguimaraes/minicurso_dadosabertos/blob/main/Material.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Minicurso: Coletando, processando e visualizando dados abertos

Esse material faz parte do minicurso **Coletando, processando e visualizando dados abertos** ministrado pelo professor **Adolfo Guimarães**. Maiores informações, pode entrar em contato pelo e-mail: adolfo@data2learning.com.

Vamos trabalhar com três cenários: eleições, educação e covida. Vamos coletar, fazer alguns processamentos e construir algumas visualizações. 

Par o minicurso, já separei os dados em uma pasta que será compartilhada com vocês. No entanto, vou mostrar onde e como coletei os dados. Vale lembrar que oos dados podem está disponíveis em diferentes formatos de diferentes plataformas. No caso dos dados abertos, muitos são disponibilizados pelos órgãos públicos em formato CSV, Excel ou até mesmo PDF. A depender do formato disponibilizado, é necessário carrega-los e processá-los de diferentes maneiras.

Neste minicurso, os dados estão em formato Excel ou CSV. 

Esse notebook contém toda a parte de código necessário. Organizei dessa forma para que vocês possam aproveitar melhor o minicurso executando e modificando o que está feito. Acredito melhor para explicar o assunto. No entanto, vou propor algumas modificações para vocês fazerem ao longo do minicurso.

Vamos começar? :) 

![](https://camo.githubusercontent.com/3459bc23ab518d2f1eb4ab54057914eac02e3d5c/68747470733a2f2f6d656469612e67697068792e636f6d2f6d656469612f336f37544b554d3349674a4258326173394f2f67697068792e6769663f6369643d65636630356534376a35347a6a656c306463743479387464736e646162736179716666736d696977317935666d757561267269643d67697068792e6769662663743d67)

## Quais bibliotecas serão utilizadas?

Nessa etapa basicamente vamos utilizar a biblioteca [pandas](https://pandas.pydata.org/) que é uma biblioteca de análise de dados em Python que permite carregar os dados e fazer diferentes operações como se estivéssemos trabalhando diretamente com uma tabela. 

Para visualização vamos utilizar a biblioteca [Plotly](https://plotly.com/graphing-libraries/). Vale ressaltar que o python possui diversas bibliotecas para visualização. A escolha depende muito do objetivo que vocês querem com a visualização e com a facilidade de uso de cada pessoal. [Neste link](https://mode.com/blog/python-data-visualization-libraries/) vocês podem encontrar uma lista dessas bibliotecas com um breve comentário sobre cada uma. 





In [None]:
# Para o minicurso precisamos atualizar a biblioteca para versão mais nova. 

!pip install --upgrade plotly

In [None]:
# imports necessários 

import pandas as pd 
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import ipywidgets as widgets

## O que vamos fazer?

Vamos trabalhar com alguns dados abertos em 3 cenários: 

**Dados das últimas eleições**

O objetivo é ter um panorama dos candidatos eleitos na última eleição municipal. Vamos trabalhar com Aracaju, mas mostro como vocês podem fazer para outras cidades.. A proposta é visualizarmos algumas informações como vereadores eleitos, total de votos e divisão por algumas categorias como cor/raça e gênero.

**Dados da educação**

Em relação a educação, vamos trabalhar com as sinopses estatísticas para mostrar a redução dos números de inscritos no ENEM ao longo dos anos. A idéia é ver o percentual de redução de inscritos no exame nos últimas 12 anos. Apesar de trabalharmos com os dados totais, é possível fazer um recorte por região ou estado.

**Dados da COVID**

Por fim, em relação os dados da COVID, vamos mostrar como utiizar os dados disponibilizados pelo brasil.io mais os dados disponibilizados pelos estados para mostrar o andamento da vacinação em paralelo com os números de casos e óbitos. Nosso foco mais uma vez vai ser o estado de Sergipe.


**Atenção!!!**

A proposta é mostrar um pouco onde esses dados estão, como baixa-los, processa-los e criar visualização de apoio a análise. Vale ressaltar que esse tipo de análise é muito mais complexa do que os dados e as visualizações deste minicurso permitem fazer. Elas devem ser casadas com uma análise ampla de contextos locais e aspectos sociais juntamente com especialistas de cada uma das áreas. 






## Trabalhando com dados das Eleições

### Fonte dos Dados 

Os dados que vamos trabalhar nas eleições estão disponíveis no site do TSE através do link: https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1. Lá é possível encontrar os dados de vários pleitos eleitorais. Vale a pena explorar os dados. No nosso minicurso vamos trabalhar com dois arquivos: (1) Arquivo com os resultados das eleições e (2) Arquivo com as informações dos candidatos.

Vamos carregar esses dados.

In [None]:
data_votacao = pd.read_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/eleicoes/votacao_candidato_munzona_2020_SE.csv",
    sep=";",
    encoding='latin_1',
    na_values=['#NULO','#NULO#', -1])
data_votacao

In [None]:
data_votacao.columns

In [None]:
data_candidatos = pd.read_csv(
    "/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/eleicoes/consulta_cand_2020_SE.csv", 
    sep=";",
    encoding='latin_1',
    na_values=['#NULO','#NULO#', -1])
data_candidatos

In [None]:
data_votacao.query("NR_CANDIDATO == 50180")

### Processando os dados

Vamos deixar nos DataFrames apenas os dados que nos interessam para nosso objetivo. Para isso, vamos fazer 3 operações com os dados:

1. Filtra apenas por vereadores
2. Selecionar as colunas de interesse
3. Agrupar os valores somando o total de votos.



In [None]:
data_votacao['DS_CARGO'].value_counts()

In [None]:
data_votacao.columns

In [None]:
data_votacao_query = data_votacao.copy()
data_votacao_query = data_votacao_query.query("DS_CARGO == 'Vereador'")

select_columns = ['SQ_CANDIDATO','NR_CANDIDATO','NM_CANDIDATO','NM_URNA_CANDIDATO','SG_PARTIDO','NM_MUNICIPIO','DS_SIT_TOT_TURNO']
data_votacao_query = data_votacao_query.groupby(select_columns, as_index=False).agg({'QT_VOTOS_NOMINAIS': 'sum'})
data_votacao_query

In [None]:
select_columns_c = ['SQ_CANDIDATO',
    'NR_CANDIDATO',
    'NM_CANDIDATO',
    'DS_GENERO',
    'DS_GRAU_INSTRUCAO',
    'DS_ESTADO_CIVIL',
    'DS_COR_RACA',
    'DS_OCUPACAO',
    'ST_REELEICAO',
    'DS_CARGO']

data_candidatos_query = data_candidatos.copy()
data_candidatos_query = data_candidatos_query[select_columns_c]
data_candidatos_query = data_candidatos_query.query("DS_CARGO == 'VEREADOR'")
data_candidatos_query

Com as duas tabelas, o próximo passo é juntar essas informações em um único dataframe para que eu tenha a informação completa de cada um dos candidatos.

In [None]:
data_final_eleicoes = data_votacao_query.merge(
    data_candidatos_query,
    how='left',
    on=['SQ_CANDIDATO']
)
data_final_eleicoes

In [None]:
data_final_eleicoes = data_final_eleicoes[['SQ_CANDIDATO', 'NR_CANDIDATO_x', 'NM_CANDIDATO_x', 'NM_URNA_CANDIDATO',
       'SG_PARTIDO', 'NM_MUNICIPIO', 'QT_VOTOS_NOMINAIS',
       'DS_GENERO', 'DS_GRAU_INSTRUCAO', 'DS_ESTADO_CIVIL',
       'DS_COR_RACA', 'DS_OCUPACAO', 'ST_REELEICAO', 'DS_CARGO', 'DS_SIT_TOT_TURNO']]
data_final_eleicoes = data_final_eleicoes.rename(columns={'NR_CANDIDATO_x': 'NR_CANDIDATO', 'NM_CANDIDATO_x': 'NM_CANDIDATO' })
data_final_eleicoes

Podemos visualizar melhor esses dados através de um gráfico de barra. 

In [None]:

data_eleicoes_graph = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_COR_RACA']).agg({'SQ_CANDIDATO': 'count'})
data_eleicoes_graph = data_eleicoes_graph.reset_index()
data_eleicoes_graph = data_eleicoes_graph.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_eleicoes_graph = data_eleicoes_graph.query("NM_MUNICIPIO == 'ARACAJU'")

fig = px.bar(data_eleicoes_graph, x='DS_COR_RACA', y='TOTAL')
fig.show()

## Trabalhando com dados do ENEM



### Fonte dos Dados

Os dados de 2009 a 2019 foram extraídos do site de dados abertos do INEP. Os dados utilizados neste processamentos são as chamadas Sinopses Estatísticas, disponíveis em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/sinopses-estatisticas/enem.

Segundo o próprio site do INEP, "As Sinopses Estatísticas do Inep correspondem a um conjunto de tabelas com dados recolhidos por suas pesquisas estatísticas, avaliações e exames. As informações são organizadas por temas e distribuídas de acordo com as regiões brasileiras, suas respectivas unidades da federação e municípios. As informações podem ser obtidas via download, em formato ODS e XLSX, permitindo que o usuário crie os filtros de seu interesse. Para abrir os arquivos, que estão em formato de compressão específico (.zip), é necessário o uso de algum programa descompactador".

Para este processamento, foi utilizado apenas os arquivos .xlsx que estão disponíveis neste diretório na pasta "data/originais". Os arquivos contém uma série de planilhas com as mais diversas estatísticas relacionadas ao ENEM. O foco aqui vai ser na planilhas da primeira seção: Inscritos. Mais precisamente, o total de inscritos por região, estado e raça. 

Apesar de ter uma planilha específica para as informações por região, a planilha que tem as informações por raça também tem essa informação. Sendo assim, vamos usar apenas a planilha de Inscritos por Região / Unidade da Federação / Raça. Identificadas no documento .xlsx como a 1.4. 

### Métodos Auxiliares

In [None]:
regioes_brasil = {'AC': {"nome": "Acre", "sigla": "AC", "regiao": 'Norte'},
                'AL': {"nome": "Alagoas", "sigla": "AL", "regiao": 'Nordeste'},
                'AP': {"nome": "Amapá", "sigla": "AP", "regiao": 'Norte'},
                'AM': {"nome": "Amazonas", "sigla": "AM", "regiao": 'Norte'},
                'BA': {"nome": "Bahia", "sigla": "BA", "regiao": 'Nordeste'},
                'CE': {"nome": "Ceará", "sigla": "CE", "regiao": 'Nordeste'},
                'DF': {"nome": "Distrito Federal", "sigla": "DF", "regiao": 'Centro-Oeste'},
                'ES': {"nome": "Espírito Santo", "sigla": "ES", "regiao": 'Sudeste'},
                'GO': {"nome": "Goiás", "sigla": "GO", "regiao": 'Centro-Oeste'},
                'MA': {"nome": "Maranhão", "sigla": "MA", "regiao": 'Nordeste'},
                'MT': {"nome": "Mato Grosso", "sigla": "MT", "regiao": 'Centro-Oeste'},
                'MS': {"nome": "Mato Grosso do Sul", "sigla": "MS", "regiao": 'Centro-Oeste'},
                'MG': {"nome": "Minas Gerais", "sigla": "MG", "regiao": 'Sudeste'},
                'PA': {"nome": "Pará", "sigla": "PA", "regiao": 'Norte'},
                'PB': {"nome": "Paraíba", "sigla": "PB", "regiao": 'Nordeste'},
                'PR': {"nome": "Paraná", "sigla": "PR", "regiao": 'Sul'},
                'PE': {"nome": "Pernambuco", "sigla": "PE", "regiao": 'Nordeste'},
                'PI': {"nome": "Piauí", "sigla": "PI", "regiao": 'Nordeste'},
                'RJ': {"nome": "Rio de Janeiro", "sigla": "RJ", "regiao": 'Sudeste'},
                'RN': {"nome": "Rio Grande do Norte", "sigla": "RN", "regiao": 'Nordeste'},
                'RS': {"nome": "Rio Grande do Sul", "sigla": "RS", "regiao": 'Sul'},
                'RO':  {"nome": "Rondônia", "sigla": "RO", "regiao": 'Norte'},
                'RR': {"nome": "Roraima", "sigla": "RR", "regiao": 'Norte'},
                'SC': {"nome": "Santa Catarina", "sigla": "SC", "regiao": 'Sul'},
                'SP': {"nome": "São Paulo", "sigla": "SP", "regiao": 'Sudeste'},
                'SE': {"nome": "Sergipe", "sigla": "SE", "regiao": 'Nordeste'},
                'TO': {"nome": "Tocantins", "sigla": "TO", "regiao": 'Norte'}}


estado_uf = {
    'Acre': 'AC',
    'Alagoas': 'AL',
    'Amapá': 'AP' ,
    'Amazonas': 'AM',
    'Bahia': 'BA',
    'Ceará': 'CE',
    'Distrito Federal': 'DF' ,
    'Espírito Santo': 'ES',
    'Goiás': 'GO',
    'Maranhão': 'MA',
    'Mato Grosso': 'MT',
    'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG',
    'Pará': 'PA',
    'Paraíba': 'PB',
    'Paraná': 'PR',
    'Pernambuco': 'PE',
    'Piauí': 'PI',
    'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS',
    'Rondônia': 'RO',
    'Roraima': 'RR',
    'Santa Catarina': 'SC',
    'São Paulo': 'SP',
    'Sergipe': 'SE',
    'Tocantins': 'TO',
}

def map_uf(estado):
    
    try:
        return_estado = estado_uf[estado]
    except KeyError:
        return_estado = estado
        
    return return_estado

def map_estados(uf, value_return):
    
    return regioes_brasil[uf][value_return]

### Processando sinopses estatísticas de 2009 a 2019

In [None]:
'''
    Método que processa o arquivo de inscritos
        @ano: ano que deve ser processado
        @planilha: planilha que se encontra as informações
        @columns_names: nome das colunas no dataset resultante. 
        @skip: número de linhas que devem ser puladas para iniciar o processamento da planilha

'''
def inscritos_(ano, planilha, columns_names, skip):
    data_ = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/Sinopse ENEM " + str(ano) + ".xlsx", sheet_name=planilha, skiprows=skip,names=columns_names)
    data_ = data_.dropna()
    data_ = data_.reset_index(drop=True)
    data_['ano'] = ano
    data_['uf_sigla'] = data_.apply(lambda row: map_uf(row['uf']), axis=1)

    return data_

In [None]:
inscritos_(2019, '1.1', ['regiao','uf','total'],8)

In [None]:
anos_ = [2019, 2018, 2017, 2016, 2015, 2014,2013,2012,2011,2010,2009]

columns = ['regiao','uf','total']

data_frames_enem = {}

skip_rows = 8

for ano in anos_:
    if ano not in data_frames_enem.keys():
        data_frames_enem[ano] = inscritos_(ano, "1.1",columns_names=columns,skip=skip_rows)
    

In [None]:
data_frames_enem[2019]

### E 2020?

Não foram encontradas as sinopses estatísticas de 2020. O acesso dessas informações de 2020 e 2021 serão coletadas a partir de notícias ou outras fontes. 

1. As informações de inscritos podem ser encontrados no Press Kit divulgado pelo site do INEP, diposnível neste link: [https://www.gov.br/inep/pt-br/assuntos/noticias/enem/egressos-constituem-65-4-dos-inscritos-no-enem-impresso](https://www.gov.br/inep/pt-br/assuntos/noticias/enem/egressos-constituem-65-4-dos-inscritos-no-enem-impresso).  

2. Algumas informações também podem ser encontradas aqui: [https://www.gov.br/inep/pt-br/assuntos/noticias/enem/divulgados-os-resultados-finais-do-exame](https://www.gov.br/inep/pt-br/assuntos/noticias/enem/divulgados-os-resultados-finais-do-exame)

Anexado à notícia 1, temos o PressKit que tem algumas informações sobre inscritos e link para o arquivo em excel com as mesmas informaçõe. Vamos usar esse documento para coletar as informações de inscritos por região e raça de 2020. 

In [None]:
data_2020 = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/presskit_ENEM2020_inscritos.xlsx",sheet_name="Inscritos_Raça",names=['uf_sigla','amarela','branca','indigena','nao_declarada','parda','preta','total'])
data_2020 = data_2020.dropna()

data_2020['uf'] = data_2020.apply(lambda row: map_estados(row['uf_sigla'],'nome'), axis=1)
data_2020['regiao'] = data_2020.apply(lambda row: map_estados(row['uf_sigla'],'regiao'), axis=1)
data_2020['ano'] = 2020
data_2020 = data_2020[['regiao',	'uf',	'total',	'ano', 	'uf_sigla']]
data_2020

### E 2021?

Assim como 2020, ainda não está disponível as sinopses estatísticas de 2021. Essas informações só devem ser disponibilizadas após a realização do exame. No entanto, já é possível ter acesso as informações de quantitativos de inscritos de 2021. [Neste link](https://www.gov.br/inep/pt-br/centrais-de-conteudo/press-kits) é possível acessar o press-kit com o link para as planilhas que contém o quantitivo de inscritos tanto para o ENEM impresso e o ENEM Digital. Nos arquivos do excel, estão apenas o total de inscritos, um pouco mais de detalhes estão disponíveis no pdf. 

O quantitivo de inscritos está por município. Vamos agrupar para ter as informações por estado e região como nas demais tabelas. No entanto, as tabelas não possuem informações por raça-cor. Essas informações estão disponíveis no próprio PDF do press-kit. 

In [None]:
data_2021_impresso = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/ENEM2021_inscritos_impresso.xlsx",names=['uf_sigla','municipio','total'])
data_2021_impresso = data_2021_impresso[['uf_sigla','total']].groupby(by=['uf_sigla'], as_index=False).agg({'total': 'sum'})
data_2021_digital = pd.read_excel("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/enem/ENEM2021_inscritos_digital.xlsx",names=['uf_sigla','municipio','total'])
data_2021_digital = data_2021_digital[['uf_sigla','total']].groupby(by=['uf_sigla'], as_index=False).agg({'total': 'sum'})

In [None]:
data_2021 = pd.concat([data_2021_impresso, data_2021_digital]).groupby(['uf_sigla']).sum().reset_index()

In [None]:
data_2021['uf'] = data_2021.apply(lambda row: map_estados(row['uf_sigla'],'nome'), axis=1)
data_2021['regiao'] = data_2021.apply(lambda row: map_estados(row['uf_sigla'],'regiao'), axis=1)
data_2021['ano'] = 2021
data_2021 = data_2021[['regiao',	'uf',	'total',	'ano', 	'uf_sigla']]
data_2021 = data_2021.sort_values(by=['regiao'], ignore_index=True)
data_2021

In [None]:
data_frames_enem[2020] = data_2020.copy()
data_frames_enem[2021] = data_2021.copy()

In [None]:
for key in data_frames_enem.keys():
  total_line = ['Brasil','Brasil',data_frames_enem[key]['total'].sum(), key, 'BR']
  data_frames_enem[key] = data_frames_enem[key].append(pd.Series(total_line, index=data_frames_enem[key].columns), ignore_index=True)
  

In [None]:
data_frames_enem[2010]

In [None]:
all_concat = []
for key in data_frames_enem.keys():
  data_temp = data_frames_enem[key][['regiao','ano','total']].query("regiao == 'Brasil'")
  all_concat.append(data_temp)

In [None]:
data_final_enem = pd.concat(all_concat, ignore_index=True)
data_final_enem = data_final_enem[['ano','total']]
data_final_enem = data_final_enem.sort_values(by=['ano'],ignore_index=True)
data_final_enem

In [None]:
fig = px.line(data_final_eleicoes, x="ano", y="total", title='Total de inscritos no ENEM: 2009-2021')
fig.show()

## Trabalhando com dados da COVID

Já com dos dados da COVID, vamos trabalhar com duas bases. A primeira com informações de casos e óbitos. Para isso, vamos utilizar um base disponibilizada pelo site [brasil.io](https://brasil.io) que desde do início da pandemia vem publicando atualizações diárias do número de óbitos e casos para todo o Brasil. O site possui outras bases abertas que foram pré-processadas e organizadas por eles. Vale a pena explorar o site. 

A segunda base é em relação ao número de vacinados. Essa base pode ser encontrada de forma geral nos links do Ministério da Saúde. No entanto, por muitas vezes esses estavam desatualizados. Sendo assim, vamos trabalhar com os dados diretamente os portais municipais. 

### Dados da vacinação

Os dados vacinação são mais difíceis de encontrar, então a busca tem que ser junto aos portais estaduais ou municipais. No caso de Aracaju, as informações estão organizadas em um porta, mas o total da vacinação não está organizado em um único arquivo. O arquivo que eu vou utilizar foi compilado por mim, manualmente, registrando os dados quase que diariamente. 

In [None]:
data_vacinacao = pd.read_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/vacinacao_sergipe.csv",
                            sep=";")
data_vacinacao

### Dados de Casos e Óbitos

Já os dados de casos e óbitos foram extraídos do Brasil.io que tem uma base completa, atualizada diariamente, com os números de todo Brasil. Vamos fazer um recorte do estado de Sergipe para que a gente possa trabalhar na visualização destas informações. 

In [None]:
dados_full = pd.read_csv('/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/caso_full.csv')
dados_full

In [None]:
dados_gerais_sergipe = dados_full.query('state == "SE" and city.isnull()', engine='python')
dados_gerais_sergipe = dados_gerais_sergipe[['date','last_available_confirmed','last_available_deaths','new_confirmed','new_deaths']]
dados_gerais_sergipe = dados_gerais_sergipe.reset_index(drop=True)
dados_gerais_sergipe

In [None]:
dados_gerais_sergipe.to_csv("/content/drive/MyDrive/ApresentacaoIA/Minicursos/Coletando, processando e visualizando dados abertos/data/covid/caso_full_sergipe.csv", index=False)

### Processando os dados

O nosso objetivo é enxergar os dados de duas formas: os dados da vacinação serão mostrados a partir do percentual da população vacinada em cada uma das doses. Já os dados de casos e óbitos vão ser mostrados a partir da média móvel de 7 dias dos registros diários.



#### **Vacinação**

Vamos calcular a % de pessoas vacinadas a cada dia para cada uma das doses aplciadas. Iremos trabalhar com 3 classificação desses dados:

1. Pessoas parcialmente imunizadas: consiste em pessoas que tomaram apenas a primeira dose das vacinas que possuem duas doses;
2. Pessoas completamente imunizadas: consiste em pessoas que tomaram a segunda dose mais as pessoas que tomaram a vacina de dose única. 
3. Pessoas que receberam a dose de reforço.

In [None]:
populacao_sergipe = 2318822 # Estimativa populacional de 2020

data_vacinacao['percent_parcial'] = data_vacinacao['aplicadas_dose1'] / populacao_sergipe
data_vacinacao['percent_completo'] = (data_vacinacao['aplicadas_dose2'] + data_vacinacao['aplicadas_dose_unica']) / populacao_sergipe
data_vacinacao['percent_reforco'] = data_vacinacao['aplicadas_dose_reforço'] / populacao_sergipe

data_vacinacao

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_parcial'],
                    mode='lines',
                    name='Parcial'))
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_completo'],
                    mode='lines',
                    name='Completo'))
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_reforco'],
                    mode='lines',
                    name='Reforço'))
fig.show()

#### **Casos e Óbitos**

Em realação aos casos e óbitos vamos trabalhar com a média móvel de 7 dias. A média móvel é calculada a partir dos registros diários dos últimos 7 dias. Então, para cada dia se olha os registros de 7 dias anteriores ao dia atual e calcula a média. Neste caso, isso é feito para amenizar as diferenças de registros que possam acontecer entre um dia e outro, principalmente aos finais de semana, onde o número de dados reportados são bem menores. 

In [None]:
dados_gerais_sergipe['mean_confirmed'] = dados_gerais_sergipe['new_confirmed'].rolling(window=7).mean()
dados_gerais_sergipe['mean_deaths'] = dados_gerais_sergipe['new_deaths'].rolling(window=7).mean()
dados_gerais_sergipe

In [None]:

fig = go.Figure()

fig = make_subplots(
    rows=2, cols=1,
    row_heights=[0.5, 0.5],
)


fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_confirmed'],
                    mode='lines',
                    name='Casos'), row=1, col=1)
fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_deaths'],
                    mode='lines',
                    name='Óbitos'), row=2, col=1)




fig.show()

## Visualizando melhor os dados

Todas as visualizações criadas foram suficientes para nosso objetivo de olhar os dados com mais detalhes, fazer algumas observações, mas de certa forma podemos melhorar para que elas contem melhor a história que os dados trazem. Vamos exercitar um pouco isso.

### Dados das eleições

Com as visualizações vamos demostrar a distribuição de candidatoes a respeito de dois aspectos: 

* Cor e Raça
* Gênero


In [None]:
data_eleicoes_graph = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_COR_RACA']).agg({'SQ_CANDIDATO': 'count'})
data_eleicoes_graph = data_eleicoes_graph.reset_index()
data_eleicoes_graph = data_eleicoes_graph.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_eleicoes_graph

In [None]:

municipio_list = list(sorted(set(data_final_eleicoes['NM_MUNICIPIO'])))
municipio_choose = widgets.Dropdown(options=municipio_list, value='ARACAJU')
municipio_choose

In [None]:
field = 'DS_COR_RACA'
field_name = 'Cor/Raça'

my_plot_data = data_eleicoes_graph.query("NM_MUNICIPIO == '" + municipio_choose.value + "'").sort_values(by='TOTAL', ascending=False)
my_plot_data['PERCENT'] = my_plot_data['TOTAL'] / my_plot_data['TOTAL'].sum()
max_percent = my_plot_data.iloc[my_plot_data['TOTAL'].argmax()]

title = 'Distribuição dos vereadores por ' + field_name

highlight_bar = '#1B5583'
bars_color = ['#C0C0C0']*len(my_plot_data)
bars_color[0] = highlight_bar

fig = px.bar(
    my_plot_data, 
    x=field, 
    y='TOTAL', 
    title=title,
    labels={field: '', 'TOTAL': 'Total de Candidatos'},
    opacity=0.7,
    text="TOTAL",
    width=900,
    )

fig.update_yaxes( 
  showgrid=False,
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_xaxes(  
  showgrid=False,
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_traces(marker_color=bars_color, marker_line_color='#000000',
                  marker_line_width=1, opacity=0.7)


fig.update_layout(
    plot_bgcolor="#FFFFFF",
    title_font_color="#000000",
    title_font_size=25
)

fig.show()

Um outra visualização que podemos trabalhar com esses dados é referente a distribuição de homens e mulheres. Vamos criar uma visualização que permita mostrar essa distribuição em cada um dos municípios. 

In [None]:
data_genero = data_final_eleicoes.groupby(by=['NM_MUNICIPIO','DS_GENERO']).agg({'SQ_CANDIDATO': 'count'})
data_genero = data_genero.rename(columns={'SQ_CANDIDATO': 'TOTAL'})
data_genero

In [None]:
data_genero_total = data_genero.sum(level=[0])
data_genero_total

In [None]:
for (index, rows) in data_genero.iterrows():
    data_genero.at[index, 'PERCENT'] = float(rows['TOTAL'] / data_genero_total.loc[index[0]].TOTAL)

data_genero = data_genero.reset_index()
data_genero['NM_MUNICIPIO'] = data_genero['NM_MUNICIPIO'].str.title()
data_genero['DS_GENERO'] = data_genero['DS_GENERO'].str.title()
data_genero

In [None]:
data_feminino = data_genero.query("DS_GENERO == 'Feminino'")
data_masculino = data_genero.query("DS_GENERO == 'Masculino'")

In [None]:

fig = go.Figure()
fig.add_trace(go.Scatter(
    x=data_feminino['PERCENT'],
    y=data_feminino['NM_MUNICIPIO'].sort_values(ascending=False),
    marker=dict(color="#1B5583", size=12),
    mode="markers",
    name="Feminino",
    
))

fig.add_trace(go.Scatter(
    x=data_masculino['PERCENT'],
    y=data_masculino['NM_MUNICIPIO'].sort_values(ascending=False),
    marker=dict(color="#C0C0C0", size=12),
    mode="markers",
    name="Masculino",
))


fig.update_yaxes( 
  showgrid=True,
  gridcolor="#C0C0C0",
  linecolor="#C0C0C0",
  linewidth=1,
  tickfont_size=12
)

fig.update_xaxes(  
  showgrid=False,
  
  linecolor="#C0C0C0",
  linewidth=1
)

fig.update_layout(title="Proporação de Cadidaturas por Gênero em Sergipe",
                  xaxis_title="% de cadidatos",
                  height=1600,
                  width=900,
                  plot_bgcolor="#FFFFFF"
                  )

fig.show()

### Dados do ENEM 

Com os dados do ENEM, vamos trabalhar com algumas modificações para destacar algumas informações relevantes sobre os dados que processamos. A proposta é destacar momentos em que se tem um alto número de inscritos e aqueles baixo número. 

In [None]:
data_destaque_enem = data_final_enem.query("ano >= 2016 and ano <= 2020")
data_destaque_enem

In [None]:

fig = go.Figure()

fig.add_trace(go.Scatter(x=data_final_enem['ano'], y=data_final_enem['total'],
                    mode='lines+markers',
                    name='ENEM', line={'width': 2, 'color': '#c0c0c0'}))

fig.add_trace(go.Scatter(x=data_destaque_enem['ano'], y=data_destaque_enem['total'],
                    mode='lines+markers',
                    name='Destaque', line={'width': 2, 'color': '#1B5583'}))

fig.add_annotation(x=2014,
            text="O maior número de inscritos foi registrado em 2014. <br />Foram quase 9 milhões de inscritos.",
            showarrow=False,
            yref='paper',
            y=1.1)

fig.add_annotation(y=int(data_final_enem[data_final_enem['ano'] == 2021]['total']),
            text="<span>Em 2021, foram pouco mais de <br />3 milhões de incritos <br />no ENEM.</span>",
            showarrow=False,
            xanchor='right',
            align='right',
            width=220,
            xref='paper',
            x=0.93)

fig.add_annotation(
            text="O Brasil já vinha de uma tendência <br />de queda nos últimos anos, <br />com leve aumento em 2020.",
            showarrow=False,
            xanchor='right',
            align='right',
            xref='paper',
            yref='paper',
            x=0.67,
            y=0.6,
            width=220)

fig.update_yaxes(  
  showgrid=True,
  gridcolor='#F0F0F0',
  linecolor="#C0C0C0",
  linewidth=1,
  range=[0, 1.05 * int(data_final_enem['total'].max())]
)

fig.update_xaxes(  
  showgrid=True,
  linecolor="#C0C0C0",
  linewidth=1,
)

fig.update_layout(title="ENEM registra o menor número de inscritos dos últimos 12 anos",
                  xaxis_title="Ano",
                  yaxis_title="Total de Inscritos",
                  plot_bgcolor="#FFFFFF",
                  width=1200,
                  showlegend=False
                  )

fig.show()

### Dados da COVID



In [None]:
fig = go.Figure()

fig = make_subplots(
    rows=3, cols=1,
    row_heights=[0.33, 0.33, 0.33],
    shared_xaxes=True,
    vertical_spacing=0.05
)


fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_confirmed'],
                    mode='lines',
                    name='Casos', line={'width': 2, 'color': '#1B5583'}, showlegend=False), row=1, col=1, )
fig.add_trace(go.Scatter(x=dados_gerais_sergipe['date'], y=dados_gerais_sergipe['mean_deaths'],
                    mode='lines',
                    name='Óbitos', line={'width': 2, 'color': '#B22222'}, showlegend=False), row=2, col=1)

fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_parcial'],
                    mode='lines',
                    name='Parcialmente', line={'width': 2, 'color': '#8B4000'}, ), row=3, col=1)
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_completo'],
                    mode='lines',
                    name='Completamente', line={'width': 2, 'color': '#FF5F1F'}), row=3, col=1)
fig.add_trace(go.Scatter(x=data_vacinacao['data'], y=data_vacinacao['percent_reforco'],
                    mode='lines',
                    name='Com dose de reforço', line={'width': 2, 'color': '#FAC898'}), row=3, col=1)


fig.update_layout(title="Total de Casos, Óbitos e Vacinação em Sergipe",
                  plot_bgcolor="#FAFAFA",
                  showlegend=True,
                  width=1200,
                  height=800,
                  legend_y=0
                  )

fig.add_annotation(x=0.01, y=0.99,
            text="Total de casos",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_annotation(x=0.01, y=0.62,
            text="Total de óbitos",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_annotation(x=0.01, y=0.25,
            text="% da população imunizada",
            showarrow=False,
            xref='paper',
            yref='paper',
            )

fig.add_vrect(x0=data_vacinacao['data'].min(), x1=data_vacinacao['data'].max(), row='all', col=1,
              annotation_text="Período com vacinação", annotation_font_size=10, annotation_position="top left",
              fillcolor="#cccccC", opacity=0.25, line_width=0, line_dash='dot')

fig.add_vline(x=data_vacinacao['data'].min(), line_dash="dot", row='all', col=1, line_color='#c0c0c0')

fig.add_scatter(x = [fig.data[0].x[-1]], y = [fig.data[0].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#1B5583', 'size':5},
                     showlegend = False,
                     text = [round(fig.data[0].y[-1],2)],
                     textposition='middle right')


fig.add_scatter(x = [fig.data[1].x[-1]], y = [fig.data[1].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#B22222', 'size':5},
                     showlegend = False,
                     text = [round(fig.data[1].y[-1], 2)],
                     textposition='middle right', row=2, col=1)


fig.add_scatter(x = [fig.data[2].x[-1]], y = [fig.data[2].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#8B4000', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[2].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.add_scatter(x = [fig.data[3].x[-1]], y = [fig.data[3].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#FF5F1F', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[3].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.add_scatter(x = [fig.data[4].x[-1]], y = [fig.data[4].y[-1]],
                     mode = 'markers + text',
                     marker = {'color':'#FAC898', 'size':5},
                     showlegend = False,
                     text = ['{:.0%}'.format(fig.data[4].y[-1], 2)],
                     textposition='middle right', row=3, col=1)

fig.layout.yaxis3.tickformat=',.0%'

fig.show()

## Obrigado!!!

Obrigado pessoal. Espero que tenham gostado do minicurso. Qualquer dúvida podde entrar em contato através do e-mail: adolfo@data2learning.com, pelo instagram [@profadolfoguimaraes](https://www.instagram.com/profadolfoguimaraes) ou pelo twitter [@adolfoguimaraes](https://www.twitter.com/adolfoguimaraes). 

![](https://camo.githubusercontent.com/3f58ec4dda7befb5b84a5ccfe1d846eb17a73b75/68747470733a2f2f6d656469612e67697068792e636f6d2f6d656469612f336f383578416f6a4e73686d7a6c795379632f67697068792e6769663f6369643d6563663035653437727739626d736e62686d6565346e723539766c786a796c6566667172397331646775397238626f37267269643d67697068792e6769662663743d67)

Até a próxima :)