# Covid-19 Info Brasil 🌍

Dados e scripts para extrair a série histórica da pandemia COVID-19 no Brasil, de acordo com o Ministério da Saúde.

ATENÇÃO: O Ministério da Saúde disponibilizou um arquivo CSV com a série histórica completa por UF, de modo que não é necessário realizar a extração manual atualmente.

# 🤔 Contexto

Embora a comunicação e partilha de dados por parte do Ministério de Saúde Português tenha melhorado consideravelmente ao longo da crise do COVID-19, ainda está longe de ideal.

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
#pip install pandas==1.0.2 lxml bs4 html5lib

In [None]:
pip install pandas lxml bs4 html5lib

In [1]:
import requests
import json
import pandas as pd

In [2]:
# Baixa o arquivo
json_uf = requests.get('https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalMapa',
                       headers={'x-parse-application-id': 'unAFkcaNDeXajurGB7LChj8SgQYS2ptm'}).content

dados_uf = json.loads(json_uf)['results']

In [3]:
# Importa dados e colunas
df = pd.DataFrame(dados_uf)

# Ajusta horário
df['updatedAt'] = pd.to_datetime(df.updatedAt)
df['date'] = df['updatedAt'].dt.date.astype(str)
df['hour'] = df['updatedAt'].dt.hour.astype(str)
df['minute'] = df['updatedAt'].dt.minute.astype(str)
df['time'] =  df['hour'].str.cat(df['minute'], sep=':')

#df

In [4]:
# Troca nome dos estados para sigla
dicionario = {"Acre": "AC", "Alagoas": "AL", "Amapá": "AP", "Amazonas": "AM", "Bahia": "BA", "Ceará": "CE",
             "Distrito Federal": "DF", "Espírito Santo": "ES", "Goiás": "GO", "Maranhão": "MA",
              "Mato Grosso": "MT","Mato Grosso do Sul": "MS","Minas Gerais":"MG", "Paraná": "PR",
              "Paraíba": "PB", "Pará": "PA", "Pernambuco": "PE", "Piauí": "PI", "Rio Grande do Norte": "RN", 
              "Rio Grande do Sul": "RS", "Rio de Janeiro": "RJ", "Rondônia": "RO", "Roraima": "RR",
              "São Paulo": "SP", "Santa Catarina": "SC", "Sergipe": "SE", "Tocantins": "TO"
             }

df = df.replace({"nome": dicionario})

In [5]:
# Renomear colunas
#df.rename(columns={'nome':'uf', 'qtd_obito':'deaths', 'qtd_confirmado':'cases'}, inplace=True)

df.rename(columns={'nome':'uf'}, inplace=True)

df

Unnamed: 0,objectId,uf,qtd_confirmado,latitude,longitude,createdAt,updatedAt,percent,letalidade,qtd_obito,qtd_incidencia,date,hour,minute,time
0,uTN8WP10HY,AC,1447,-9.97499,-67.8243,2020-03-25T23:37:11.094Z,2020-05-10 21:33:14.144000+00:00,0%,46,41,1641,2020-05-10,21,33,21:33
1,XHUDIFEjQy,AL,2258,-9.66599,-35.735,2020-03-25T23:37:11.098Z,2020-05-10 21:33:33.845000+00:00,,38,126,677,2020-05-10,21,33,21:33
2,kfOtyvDHh3,AP,2613,0.034934,-51.0694,2020-03-25T23:37:11.100Z,2020-05-10 21:33:23.881000+00:00,,85,72,3090,2020-05-10,21,33,21:33
3,kZjftVxsJ2,AM,12599,-3.11866,-60.0212,2020-03-25T23:37:11.101Z,2020-05-10 21:33:44.120000+00:00,,242,1004,3040,2020-05-10,21,33,21:33
4,alzUcJAbsL,BA,5558,-12.9718,-38.5011,2020-03-25T23:37:11.114Z,2020-05-10 21:33:55.662000+00:00,,14,202,374,2020-05-10,21,33,21:33
5,ThJDLoQlin,CE,16692,-3.71664,-38.5423,2020-03-25T23:37:11.120Z,2020-05-10 21:35:06.825000+00:00,,122,1114,1828,2020-05-10,21,35,21:35
6,U8jHH89IkZ,DF,2682,-15.7795,-47.9297,2020-03-25T23:37:11.118Z,2020-05-10 21:34:21.910000+00:00,,14,42,889,2020-05-10,21,34,21:34
7,LlLUQQW7em,ES,4599,-20.3155,-40.3128,2020-03-25T23:37:11.118Z,2020-05-10 21:34:51.994000+00:00,,45,181,1144,2020-05-10,21,34,21:34
8,MOPNB3fPnM,GO,1093,-16.6864,-49.2643,2020-03-25T23:37:11.120Z,2020-05-10 21:35:19.739000+00:00,,7,47,156,2020-05-10,21,35,21:35
9,fwHJWgSphk,MA,7599,-2.53874,-44.2825,2020-03-25T23:37:11.116Z,2020-05-10 21:34:37.857000+00:00,,54,379,1074,2020-05-10,21,34,21:34


In [None]:
# Carrega a série histórica e junta com o dia atual, removendo duplicadas
final = pd.read_csv("/content/gdrive/My Drive/Colab Notebooks/MITCOVID19BR/dados/corona_brasil.csv").append(df,ignore_index=True)

final

In [8]:
# Exporta o CSV

final.to_csv("/content/gdrive/My Drive/Colab Notebooks/MITCOVID19BR/dados/corona_brasil.csv", index = False)

In [9]:
# Remove colunas desnecessárias
df = df.drop(['objectId', 'latitude', 'longitude','updatedAt',
              'createdAt', 'percent','letalidade','hour','minute'], axis=1)

df

Unnamed: 0,uf,qtd_confirmado,qtd_obito,qtd_incidencia,date,time
0,AC,1447,41,1641,2020-05-10,21:33
1,AL,2258,126,677,2020-05-10,21:33
2,AP,2613,72,3090,2020-05-10,21:33
3,AM,12599,1004,3040,2020-05-10,21:33
4,BA,5558,202,374,2020-05-10,21:33
5,CE,16692,1114,1828,2020-05-10,21:35
6,DF,2682,42,889,2020-05-10,21:34
7,ES,4599,181,1144,2020-05-10,21:34
8,GO,1093,47,156,2020-05-10,21:35
9,MA,7599,379,1074,2020-05-10,21:34


In [10]:
df

Unnamed: 0,uf,qtd_confirmado,qtd_obito,qtd_incidencia,date,time
0,AC,1447,41,1641,2020-05-10,21:33
1,AL,2258,126,677,2020-05-10,21:33
2,AP,2613,72,3090,2020-05-10,21:33
3,AM,12599,1004,3040,2020-05-10,21:33
4,BA,5558,202,374,2020-05-10,21:33
5,CE,16692,1114,1828,2020-05-10,21:35
6,DF,2682,42,889,2020-05-10,21:34
7,ES,4599,181,1144,2020-05-10,21:34
8,GO,1093,47,156,2020-05-10,21:35
9,MA,7599,379,1074,2020-05-10,21:34


### Sobre os dados

No arquivo corona_brasil.csv, você encontra a série histórica dos casos confirmados e mortes de COVID-19 segundo o [Ministério da Saúde](https://covid.saude.gov.br/).

O arquivo serie_ivis.csv traz a série histórica até 18 de março, quando eram incluídas através da Plataforma IVIS outras informações como casos suspeitos e descartados.

Saiba mais sobre a metodologia de extração e compilação dos dados abaixo e como utilizar o script.

**Licença dos dados**
A base de dados corona_brasil.csv é disponibilizada sob a licença Open Database License: http://opendatacommons.org/licenses/odbl/1.0/.

### Sobre a coleta dos dados

O projeto foi iniciado em meados de março, disponibilizando um script e a série histórica dos casos de coronavírus (COVID-19). Os dados não eram mostrados diretamente ao público, mas estavam disponíveis no servidor da Plataforma Integrada de Vigilância em Saúde (IVIS). Através da antiga interface - hoje já fora do ar - e do site atual sobre os casos de coronavírus só é possível disponibilizar números totais. Ao contrário da interface antiga, a atual sequer oferece o detalhamento de óbitos por estado ou opção de download dos dados em CSV.

Entre o dia 18/03/2020 e dia 26/03/2020, os dados foram atualizados unicamente por meio de tabelas disponíveis nos comunicados no blog do Ministério da Saúde e, até o dia 25/03, a inserção foi feita manualmente, contando com uma verificação em pares para checagem.

O script disponibilizado hoje automatiza a extração dos dados destes boletins - e não da plataforma, uma vez que ali não encontramos os dados completos e formatos tabulares. O script também concilia estes dados com a série histórica disponibilizada anteriormente.

Caso tenha alguma dúvida ou perceba alguma inconsistência, entre em contato abrindo uma "Issue" neste repositório do Github.

O arquivo corona_brasil_old.csv está atualizado até o dia 29 de março. Para facilitar o a compreensão dos dados, ele foi divido em dois, refletindo assim a mudança na metodologia de disponibilização dos dados adotada pelo Ministério da Saúde: o primeiro (serie_ivis) traz a série histórica da Plataforma IVIS até o dia 18 de março e o segundo (corona_br.csv) traz a série histórica completa e atualizada de casos confirmados e óbitos.

### serie_ivis

A tabela é baseada no formato originalmente adotado pelo Ministério da Saúde para armazenas os dados da COVID-19 na Plataforma Integrada de Vigilância em Saúde. Atualmente, porém, o órgão disponibiliza apenas números de óbitos e casos confirmados.

* uid = Número de identificação da UF
* date = Data de registro dos dados (%yyyy-%mm-%dd)
* time = Hora do registro dos dados (%hh:%mm)
* suspects = Casos suspeitos
* refuses = Descartados
* cases = Casos confirmados
* comments = Comentário sobre os dados adicionados na Plataforma IVIS (Ex: "Transmissão comunitária no município do Rio de Janeiro" ou "1 Portador assintomático")
* broadcast = Identificador para transmissão comunitária?
* deaths = Mortes/Óbitos
* uf = Coluna com a sigla da UF, adicionada pela primeira versão do script de extração.

Exisitam três variáveis também disponibilizadas no arquivo JSON (confirmado, local, deads), que foram descartadas pois estarem vazias. O registro pode ser conferido no histórico do git.

### Registros duplicados

O arquivo JSON disponibilizado continha registros duplicados. Estes foram identificados (vide o CSV correspondente) e removidos.

# 💡 Problemas, inconsistências e melhorias

Quaisquer sugestões de dados complementares (provenientes de fontes oficiais), inconsistências nos dados ou melhorias genéricas, à vontade ➡️ Issues ou Pull Requests.

# 📅️ Última atualização: 20 de Junho de 2020, 18:55

Outros projetos de monitoramento
O [Brasil.IO](https://brasil.io/dataset/covid19/boletim) compilado os dados a partir dos governos estaduais, com dados sobre município;

Para um levantamento realizado manualmente de casos em nível municipal, confira este projeto de [Wesley Cota](https://labs.wesleycota.com/sarscov2/br/) ou a iniciativa colaborativa [Mapa do Corona Virus](https://github.com/belisards/coronabr/blob/master/mapadocoronavirus.com).

[Kaggle Corona-Virus-Brazil](https://www.kaggle.com/unanimad/corona-virus-brazil)

Lista colaborativa no [fórum Dados Abertos](https://dadosabertos.social/t/dados-sobre-a-pandemia-do-novo-coronavirus/267);

Painel e projeções do [Observatório COVID-19 BR](https://covid19br.github.io/)

https://github.com/belisards/coronabr

**Acreditamos no poder dos dados para transformar a nossa sociedade para melhor transparencia e informação para todos.**

We believe in the power of data to transform our society for better transparency and for everyone.