<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados interativa. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/) e seu *dashboard* [Google Data Studio](https://datastudio.google.com/).

---

# **COVID Dashboard**

## 1\. Contexto

Escreva uma breve descrição do problema.

## 2\. Pacotes e bibliotecas

In [None]:
# importe todas as suas bibliotecas aqui, siga os padrões do PEP8:
#
# - 1º pacotes nativos do python: json, os, etc.;
# - 2º pacotes de terceiros: pandas, seabornm etc.;
# - 3º pacotes que você desenvolveu.
#

# Pacotes nativos do python
import os

# Pacotes de terceiros
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Pacotes para visualizações interativas
import plotly.express as px

# Configuração do Matplotlib para gráficos inline
%matplotlib inline


## 3\. Extração

In [None]:
# faça o código de extração dos dados:
#
# - coleta de dados;
# - wrangling da estrutura;
# - exploração do schema;
# - etc.

# URLs dos dados da COVID-19 no repositório do CSSE
url_confirmed = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"
url_deaths = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv"
url_recovered = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv"

# Leitura dos dados
confirmed = pd.read_csv(url_confirmed)
deaths = pd.read_csv(url_deaths)
recovered = pd.read_csv(url_recovered)

# Exibindo as primeiras linhas de cada dataset para entender sua estrutura
print("Confirmed Cases Data:")
print(confirmed.head())
print("\nDeaths Data:")
print(deaths.head())
print("\nRecovered Cases Data:")
print(recovered.head())

Confirmed Cases Data:
  Province/State Country/Region       Lat       Long  1/22/20  1/23/20  \
0            NaN    Afghanistan  33.93911  67.709953        0        0   
1            NaN        Albania  41.15330  20.168300        0        0   
2            NaN        Algeria  28.03390   1.659600        0        0   
3            NaN        Andorra  42.50630   1.521800        0        0   
4            NaN         Angola -11.20270  17.873900        0        0   

   1/24/20  1/25/20  1/26/20  1/27/20  ...  2/28/23  3/1/23  3/2/23  3/3/23  \
0        0        0        0        0  ...   209322  209340  209358  209362   
1        0        0        0        0  ...   334391  334408  334408  334427   
2        0        0        0        0  ...   271441  271448  271463  271469   
3        0        0        0        0  ...    47866   47875   47875   47875   
4        0        0        0        0  ...   105255  105277  105277  105277   

   3/4/23  3/5/23  3/6/23  3/7/23  3/8/23  3/9/23  
0  209

## 4\. Transformação

In [None]:
# faça o código de manipulação dos dados:
#
# - enriquecimento;
# - controle de qualidade;
# - etc.

# Função para transformar a estrutura dos dados
def melt_data(df, value_name):
    df_melted = df.melt(id_vars=['Province/State', 'Country/Region', 'Lat', 'Long'],
                        var_name='Date', value_name=value_name)
    return df_melted

# Aplicar a transformação para cada dataset
confirmed_long = melt_data(confirmed, 'Confirmed')
deaths_long = melt_data(deaths, 'Deaths')
recovered_long = melt_data(recovered, 'Recovered')

# Exibir as primeiras linhas dos datasets transformados
print("Confirmed Cases Long Format:")
print(confirmed_long.head())
print("\nDeaths Long Format:")
print(deaths_long.head())
print("\nRecovered Cases Long Format:")
print(recovered_long.head())


Confirmed Cases Long Format:
  Province/State Country/Region       Lat       Long     Date  Confirmed
0            NaN    Afghanistan  33.93911  67.709953  1/22/20          0
1            NaN        Albania  41.15330  20.168300  1/22/20          0
2            NaN        Algeria  28.03390   1.659600  1/22/20          0
3            NaN        Andorra  42.50630   1.521800  1/22/20          0
4            NaN         Angola -11.20270  17.873900  1/22/20          0

Deaths Long Format:
  Province/State Country/Region       Lat       Long     Date  Deaths
0            NaN    Afghanistan  33.93911  67.709953  1/22/20       0
1            NaN        Albania  41.15330  20.168300  1/22/20       0
2            NaN        Algeria  28.03390   1.659600  1/22/20       0
3            NaN        Andorra  42.50630   1.521800  1/22/20       0
4            NaN         Angola -11.20270  17.873900  1/22/20       0

Recovered Cases Long Format:
  Province/State Country/Region       Lat       Long     Date 

In [None]:
# Converter a coluna de data para o tipo datetime
confirmed_long['Date'] = pd.to_datetime(confirmed_long['Date'])
deaths_long['Date'] = pd.to_datetime(deaths_long['Date'])
recovered_long['Date'] = pd.to_datetime(recovered_long['Date'])

# Exibir as primeiras linhas para verificar a transformação
print(confirmed_long.head())


  confirmed_long['Date'] = pd.to_datetime(confirmed_long['Date'])
  deaths_long['Date'] = pd.to_datetime(deaths_long['Date'])
  recovered_long['Date'] = pd.to_datetime(recovered_long['Date'])


  Province/State Country/Region       Lat       Long       Date  Confirmed
0            NaN    Afghanistan  33.93911  67.709953 2020-01-22          0
1            NaN        Albania  41.15330  20.168300 2020-01-22          0
2            NaN        Algeria  28.03390   1.659600 2020-01-22          0
3            NaN        Andorra  42.50630   1.521800 2020-01-22          0
4            NaN         Angola -11.20270  17.873900 2020-01-22          0


## 5\. Carregamento

In [None]:
# faça o código para persistência dos dados:
#
# - salve-os no formato csv sem índice;
# - etc.

from google.colab import files

# Salvar os dados transformados em CSV sem o índice
confirmed_long.to_csv('confirmed_long.csv', index=False)
deaths_long.to_csv('deaths_long.csv', index=False)
recovered_long.to_csv('recovered_long.csv', index=False)

# Confirmar que os arquivos foram salvos
print("Arquivos salvos com sucesso!")

# Fazer o download dos arquivos CSV
files.download('confirmed_long.csv')
files.download('deaths_long.csv')
files.download('recovered_long.csv')

Arquivos salvos com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
# Função para unir os datasets
def merge_data(confirmed_df, deaths_df, recovered_df):
    # Unindo os datasets com base nas colunas comuns
    merged_df = pd.merge(confirmed_df, deaths_df, on=['Province/State', 'Country/Region', 'Lat', 'Long', 'Date'], how='outer')
    merged_df = pd.merge(merged_df, recovered_df, on=['Province/State', 'Country/Region', 'Lat', 'Long', 'Date'], how='outer')

    # Retornando o dataset unido
    return merged_df

# Unindo os três arquivos
covid_data = merge_data(confirmed_long, deaths_long, recovered_long)

# Exibindo as primeiras linhas para conferir o resultado
print(covid_data.head())

# Salvando o dataset unido em um único arquivo CSV
covid_data.to_csv('covid_data_combined.csv', index=False)

# Confirmando que o arquivo foi salvo
print("Arquivo 'covid_data_combined.csv' salvo com sucesso!")

# Fazendo o download do arquivo combinado
files.download('covid_data_combined.csv')


  Province/State Country/Region      Lat      Long       Date  Confirmed  \
0        Alberta         Canada  53.9333 -116.5765 2020-01-22        0.0   
1        Alberta         Canada  53.9333 -116.5765 2020-01-23        0.0   
2        Alberta         Canada  53.9333 -116.5765 2020-01-24        0.0   
3        Alberta         Canada  53.9333 -116.5765 2020-01-25        0.0   
4        Alberta         Canada  53.9333 -116.5765 2020-01-26        0.0   

   Deaths  Recovered  
0     0.0        NaN  
1     0.0        NaN  
2     0.0        NaN  
3     0.0        NaN  
4     0.0        NaN  
Arquivo 'covid_data_combined.csv' salvo com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Link para o Relatorio, no Looker Studio:

https://lookerstudio.google.com/reporting/9d2084a3-9687-409f-8ff3-67e0bdeebb6b