<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados interativa. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/) e seu *dashboard* [Google Data Studio](https://datastudio.google.com/).

---

# **COVID Dashboard**

Kaggle: https://www.kaggle.com/code/edvaldodiasdasilva/covid/notebook

G. Data Studio: https://lookerstudio.google.com/reporting/e50ee335-d64f-4bca-8af9-3b002ad176a9

## 1\. Contexto

Escreva uma breve descrição do problema.


O problema a ser abordado no COVID Dashboard é a necessidade de acompanhar e visualizar dados atualizados sobre a pandemia de COVID-19. Dada a rapidez com que as informações sobre casos, hospitalizações, recuperações e mortes mudam, é essencial ter uma interface visual que permita monitorar esses dados de forma clara e dinâmica. O dashboard deve proporcionar uma visão em tempo real da evolução da pandemia, permitindo que as autoridades de saúde pública e a população geral possam tomar decisões informadas.

## 2\. Pacotes e bibliotecas

In [15]:
# 1º Pacotes nativos do Python
import json
import os
import sys
import datetime

# 2º Pacotes de terceiros
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# 3º Pacotes desenvolvidos por você (caso existam)
# from my_module import my_function  # Exemplo de pacote próprio



...

Ellipsis

## 3\. Extração

In [16]:
# Importando as bibliotecas necessárias
import dash
from dash import dcc, html
from dash.dependencies import Input, Output
import plotly.express as px
import pandas as pd

# Iniciando o aplicativo Dash
app = dash.Dash(__name__)

# Função para carregar dados locais sobre COVID-19
def load_covid_data():
    df = pd.read_csv('covid_data.csv')
    df['date'] = pd.to_datetime(df['date'])
    return df

# Carregando os dados
covid_data = load_covid_data()

# Layout do dashboard
app.layout = html.Div([
    html.H1("COVID-19 Dashboard"),

    dcc.Dropdown(
        id='metric-dropdown',
        options=[
            {'label': 'Casos Confirmados', 'value': 'confirmed'},
            {'label': 'Hospitalizações', 'value': 'active'},
            {'label': 'Recuperados', 'value': 'recovered'},
            {'label': 'Mortes', 'value': 'deaths'}
        ],
        value='confirmed',  # Valor padrão
        clearable=False
    ),

    dcc.Graph(id='covid-graph'),

    dcc.Interval(
        id='interval-component',
        interval=1*60*1000,  # Atualiza a cada 1 minuto (60000ms)
        n_intervals=0
    )
])

# Callback para atualizar o gráfico com base na métrica escolhida e nos dados atualizados
@app.callback(
    Output('covid-graph', 'figure'),
    [Input('metric-dropdown', 'value'),
     Input('interval-component', 'n_intervals')]
)
def update_graph(selected_metric, n_intervals):
    # Carregar dados atualizados
    covid_data = load_covid_data()

    # Criando o gráfico com Plotly
    fig = px.line(covid_data, x='date', y=selected_metric,
                  title=f"Evolução de {selected_metric.capitalize()} por Data")

    fig.update_layout(xaxis_title='Data', yaxis_title=selected_metric.capitalize())

    return fig

# Rodando o servidor do aplicativo
if __name__ == '__main__':
    app.run_server(debug=True)




<IPython.core.display.Javascript object>

## 4\. Transformação

In [18]:
import pandas as pd
import numpy as np

# Função para ler e manipular os dados
def manipulate_data(file_path):
    # Leitura dos dados
    df = pd.read_csv(file_path)

    # Controle de Qualidade
    # Verificar e tratar dados faltantes
    df = df.fillna(0)  # Preenche valores faltantes com 0
    print("Dados faltantes tratados:")
    print(df.isnull().sum())  # Verificar se ainda há dados faltantes

    # Verificar e corrigir inconsistências
    df['confirmed'] = df['confirmed'].astype(int)
    df['active'] = df['active'].astype(int)
    df['recovered'] = df['recovered'].astype(int)
    df['deaths'] = df['deaths'].astype(int)

    # Enriquecimento
    # Adicionar coluna de taxa de mortalidade
    df['mortality_rate'] = df['deaths'] / df['confirmed']

    # Adicionar coluna de taxa de recuperação
    df['recovery_rate'] = df['recovered'] / df['confirmed']

    # Converter a coluna de data para datetime
    df['date'] = pd.to_datetime(df['date'])

    # Ordenar os dados por data
    df = df.sort_values(by='date')

    # Mostrar os dados transformados
    print("Dados manipulados:")
    print(df.head())

    return df

# Caminho para o arquivo CSV
file_path = 'covid_data.csv'

# Manipular os dados
df_manipulated = manipulate_data(file_path)

# Salvar os dados manipulados em um novo arquivo CSV
df_manipulated.to_csv('covid_data_manipulated.csv', index=False)


Dados faltantes tratados:
date         0
confirmed    0
active       0
recovered    0
deaths       0
dtype: int64
Dados manipulados:
        date  confirmed  active  recovered  deaths  mortality_rate  \
0 2024-08-01       1000     200        700     100        0.100000   
1 2024-08-02       1050     210        730     110        0.104762   
2 2024-08-03       1100     220        750     120        0.109091   
3 2024-08-04       1150     230        770     130        0.113043   
4 2024-08-05       1200     240        790     140        0.116667   

   recovery_rate  
0       0.700000  
1       0.695238  
2       0.681818  
3       0.669565  
4       0.658333  


## 5\. Carregamento

In [19]:
import pandas as pd

# Função para ler e manipular os dados
def manipulate_data(file_path):
    # Leitura dos dados
    df = pd.read_csv(file_path)

    # Controle de Qualidade
    # Verificar e tratar dados faltantes
    df = df.fillna(0)  # Preenche valores faltantes com 0
    print("Dados faltantes tratados:")
    print(df.isnull().sum())  # Verificar se ainda há dados faltantes

    # Verificar e corrigir inconsistências
    df['confirmed'] = df['confirmed'].astype(int)
    df['active'] = df['active'].astype(int)
    df['recovered'] = df['recovered'].astype(int)
    df['deaths'] = df['deaths'].astype(int)

    # Enriquecimento
    # Adicionar coluna de taxa de mortalidade
    df['mortality_rate'] = df['deaths'] / df['confirmed']

    # Adicionar coluna de taxa de recuperação
    df['recovery_rate'] = df['recovered'] / df['confirmed']

    # Converter a coluna de data para datetime
    df['date'] = pd.to_datetime(df['date'])

    # Ordenar os dados por data
    df = df.sort_values(by='date')

    return df

# Função para salvar os dados manipulados
def save_data(df, output_file_path):
    df.to_csv(output_file_path, index=False)
    print(f"Dados salvos em: {output_file_path}")

# Caminho para o arquivo CSV original e para o arquivo de saída
input_file_path = 'covid_data.csv'
output_file_path = 'covid_data_manipulated.csv'

# Manipular os dados
df_manipulated = manipulate_data(input_file_path)

# Salvar os dados manipulados
save_data(df_manipulated, output_file_path)


Dados faltantes tratados:
date         0
confirmed    0
active       0
recovered    0
deaths       0
dtype: int64
Dados salvos em: covid_data_manipulated.csv
