<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br><br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)<br>
Aluno [Afonso Neris](https://www.linkedin.com/in/afonsoneris/)<br>

---

# **COVID Dashboard**

## 0\. TLDR

 - **Dashboard**: 
  - Google Data Studio ([link](https://datastudio.google.com/reporting/3cdcfc46-8412-4e6c-8c15-e577f3b1896c)).
 - **Processamento**:
  - Kaggle Notebook ([link](https://www.kaggle.com/code/afonsoneris/covid-dashboard)). 
 - **Fontes**: 
  - Corona Virus Brasil ([link](https://covid.saude.gov.br/) ([link](https://covid19.who.int/data));

## 1\. Contexto

A Covid-19, doença causada pelo coronavírus denominado SARS-CoV-2, foi identificada pela primeira vez na China, em dezembro de 2019.¹ Em 30 de janeiro de 2020, a Organização Mundial da Saúde (OMS) declarou que a epidemia da COVID-19 constituía uma Emergência de Saúde Pública de Importância Internacional (ESPII),² e, em 11 de março de 2020, uma pandemia.

## 2\. Pacotes e bibliotecas

In [2]:
!pip install unidecode

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[K     |████████████████████████████████| 235 kB 4.4 MB/s 
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.6


In [1]:
#Bibliotecas de Terceiros
import pandas as pd
from datetime import date
from unidecode import unidecode

ModuleNotFoundError: ignored

## 3\. Extração

Os dados usados para a análise foram retirados do site oficial do Governo Federal [Corona Virus Brasil](https://covid.saude.gov.br/).

O arquivo CSV filtrado está disponibilizado no link do github. Por se tratar de uma planilha de todos o país contendo mais de cinco milhões de linhas, disponibilizei os dados prontos para agilizar o entendimento desse artigo.


>* [Dados Brutos](https://github.com/afneris1/covid-19/tree/main/dataset/dados-brutos)
* [Dados Filtrados](https://github.com/afneris1/covid-19/tree/main/dataset/dados-filtrados)

In [None]:
#Download dos arquivos CSV
!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2020_Parte1_04nov2022.csv
!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2020_Parte2_04nov2022.csv

!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2021_Parte1_04nov2022.csv
!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2021_Parte2_04nov2022.csv

!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2022_Parte1_04nov2022.csv
!wget https://github.com/afneris1/covid-19/raw/main/dataset/dados-brutos/HIST_PAINEL_COVIDBR_2022_Parte2_04nov2022.csv

In [None]:
#Criando Dataframe
covid_2022_p1_df = pd.read_csv('HIST_PAINEL_COVIDBR_2022_Parte1_04nov2022.csv',sep=';',on_bad_lines='skip')
covid_2022_p2_df = pd.read_csv('HIST_PAINEL_COVIDBR_2022_Parte2_04nov2022.csv',sep=';',on_bad_lines='skip')
covid_2021_p1_df = pd.read_csv('HIST_PAINEL_COVIDBR_2021_Parte1_04nov2022.csv',sep=';',on_bad_lines='skip')
covid_2021_p2_df = pd.read_csv('HIST_PAINEL_COVIDBR_2021_Parte2_04nov2022.csv',sep=';',on_bad_lines='skip')
covid_2020_p1_df = pd.read_csv('HIST_PAINEL_COVIDBR_2020_Parte1_04nov2022.csv',sep=';',on_bad_lines='skip')
covid_2020_p2_df = pd.read_csv('HIST_PAINEL_COVIDBR_2020_Parte2_04nov2022.csv',sep=';',on_bad_lines='skip')

In [None]:
#Unindo Dataframe um abaixo do outro
df = pd.concat([covid_2020_p1_df,covid_2020_p2_df,covid_2021_p1_df,covid_2021_p2_df,covid_2022_p1_df,covid_2022_p2_df])

## 4\. Transformação

Devido ao tamanho dos arquivos, esse é um processo demorado pois algumas edições dos dados são feitas município por município.

In [None]:
#Alterando sigla para nome do estado
df.replace({
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AP': 'Amapá',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MT': 'Mato Grosso',
    'MS': 'Mato Grosso do Sul',
    'MG': 'Minas Gerais',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PR': 'Paraná',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'SC': 'Santa Catarina',
    'SP': 'São Paulo',
    'SE': 'Sergipe',
    'TO': 'Tocantins'
},inplace=True)


In [None]:
#Removendo linhas que contenha valor nulo na coluna município
df = df.dropna(subset=['municipio']).reset_index()

#Removendo colunas indesejadas
df.drop(columns={'index','coduf','codmun','codRegiaoSaude','semanaEpi','interior/metropolitana','Recuperadosnovos','emAcompanhamentoNovos'},inplace=True)

#Alterando Datetype
df[['populacaoTCU2019','casosAcumulado']] = df[['populacaoTCU2019','casosAcumulado']].astype(int)
df = df.astype({'data': 'datetime64[ns]'})

#Criando Colunas
df['rate_casos'] = (df['casosAcumulado'] / df ['populacaoTCU2019']).round(3)
df['rate_mortes'] = (df['obitosAcumulado'] / df ['populacaoTCU2019']).round(3)

#Removendo acentuação
df['municipio'] = df['municipio'].apply(lambda x : unidecode(x))

#Ordenando Dataframe
df.sort_values(by=['municipio','data'],inplace=True)



In [None]:
#Criando Lista com nome dos municipios
lista_municipio = list(df['municipio'].unique())
covid_df = pd.DataFrame()

for x in lista_municipio:
  df1 = df[df['municipio'] == x]

  #Criando Médias Móveis
  df1['mm7_casosNovos'] = df1.casosNovos.rolling(7).mean().round(2)
  df1['mm7_obitosNovos'] = df1.obitosNovos.rolling(7).mean().round(2)
  df1['mm14_casosNovos'] = df1.casosNovos.rolling(14).mean().round(2)
  df1['mm14_obitosNovos'] = df1.obitosNovos.rolling(14).mean().round(2)
  df1['mm21_casosNovos'] = df1.casosNovos.rolling(21).mean().round(2)
  df1['mm21_obitosNovos'] = df1.obitosNovos.rolling(21).mean().round(2)

  #Criando coluna com tendencia 
  df1['tendencia'] = df1['casosAcumulado'].diff().round(2)

  #Concatenando Dataframe
  covid_df = pd.concat([covid_df,df1])

Devido a limitações da plataforma de criação de dashboard, decidimos separar por região e filtrar apena municípios com mais de 10mil habitantes.

In [None]:
#Definindo Região
centro_oeste_df = covid_df[covid_df['regiao']== 'Centro-Oeste']
#Ordenando DataFrame
centro_oeste_df.sort_values(by=['municipio','data'],inplace=True)
#Filtrando municipios acima de 10 mil habitantes
centro_oeste_df = centro_oeste_df[centro_oeste_df['populacaoTCU2019'] > 10000]

#Definindo Região
nordeste_df = covid_df[covid_df['regiao']== 'Nordeste']
#Ordenando DataFrame
nordeste_df.sort_values(by=['municipio','data'],inplace=True)
#Filtrando municipios acima de 10 mil habitantes
nordeste_df = nordeste_df[nordeste_df['populacaoTCU2019'] > 10000]

#Definindo Região
norte_df = covid_df[covid_df['regiao']== 'Norte']
#Ordenando DataFrame
norte_df.sort_values(by=['municipio','data'],inplace=True)
#Filtrando municipios acima de 10 mil habitantes
norte_df = norte_df[norte_df['populacaoTCU2019'] > 10000]

#Definindo Região
sudeste_df = covid_df[covid_df['regiao']== 'Sudeste']
#Ordenando DataFrame
sudeste_df.sort_values(by=['municipio','data'],inplace=True)
#Filtrando municipios acima de 10 mil habitantes
sudeste_df = sudeste_df[sudeste_df['populacaoTCU2019'] > 10000]

#Definindo Região
sul_df = covid_df[covid_df['regiao']== 'Sul']
#Ordenando DataFrame
sul_df.sort_values(by=['municipio','data'],inplace=True)
#Filtrando municipios acima de 10 mil habitantes
sul_df = sul_df[sul_df['populacaoTCU2019'] > 10000]

## 5\. Carregamento





O output do notebook foi dividido em seis arquivos CSV:
 - covid.csv : Todas as regiões
 - centro_oeste.csv : Região Centro oeste
 - nordeste.csv : Região Norte
 - norte.csv : Região Norte
 - sudeste.csv : Região Sudeste
 - sul.csv : Região Sul

In [None]:
#Todo o Brasil
covid_df.to_csv('covid.csv',sep=',',index=False)

#Separado por regiões
centro_oeste_df.to_csv('centro_oeste.csv',sep=',',index=False)
nordeste_df.to_csv('nordeste.csv',sep=',',index=False)
norte_df.to_csv('norte.csv',sep=',',index=False)
sudeste_df.to_csv('sudeste.csv',sep=',',index=False)
sul_df.to_csv('sul.csv',sep=',',index=False)

## 6\. Referências 

1. Zhu N, Zhang D, Wang W, Li X, Yang B, Song J, et al. A novel coronavirus from patients with pneumonia in China, 2019. N Engl J Med [Internet]. 2020 Feb [cited 2020 Apr 7];382:727-33. Available from: http://doi.org/10.1056/NEJMoa2001017

2. World Health Organization. Statement on the second meeting of the international health regulations (2005) emergency committee regarding the outbreak of novel coronavirus (2019-nCoV) [Internet]. Geneva: World Health Organization; 2020 [cited 2020 Apr 7]. Available from: https://www.who.int/news-room/detail/30-01-2020-statement-on-the-second-meeting-of-the-international-health-regulations-(2005)-emergency-committee-regarding-the-outbreak-of-novel-coronavirus-(2019-ncov) 