<a href="https://colab.research.google.com/github/GreisonMontenari/Cartorioebac/blob/main/Profissao_Analista_de_dados_M28_Exercicio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: COVID-19 Dashboard
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Análise Exploratória de Dados;</li>
  <li>Visualização Interativa de Dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados interativa. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/) e seu *dashboard* [Google Data Studio](https://datastudio.google.com/).

---

# **COVID Dashboard**

## 1\. Contexto

Escreva uma breve descrição do problema.

## 2\. Pacotes e bibliotecas

In [None]:
# 1º Pacotes nativos do Python
import json
import os
import sys
import datetime

# 2º Pacotes de terceiros
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# 3º Pacotes desenvolvidos por você (caso existam)
# from my_module import my_function  # Exemplo de pacote próprio



...


Ellipsis

## 3\. Extração

In [15]:
pip install dash plotly pandas

Collecting dash
  Downloading dash-2.18.2-py3-none-any.whl.metadata (10 kB)
Collecting Flask<3.1,>=1.0.4 (from dash)
  Downloading flask-3.0.3-py3-none-any.whl.metadata (3.2 kB)
Collecting Werkzeug<3.1 (from dash)
  Downloading werkzeug-3.0.6-py3-none-any.whl.metadata (3.7 kB)
Collecting dash-html-components==2.0.0 (from dash)
  Downloading dash_html_components-2.0.0-py3-none-any.whl.metadata (3.8 kB)
Collecting dash-core-components==2.0.0 (from dash)
  Downloading dash_core_components-2.0.0-py3-none-any.whl.metadata (2.9 kB)
Collecting dash-table==5.0.0 (from dash)
  Downloading dash_table-5.0.0-py3-none-any.whl.metadata (2.4 kB)
Collecting retrying (from dash)
  Downloading retrying-1.3.4-py3-none-any.whl.metadata (6.9 kB)
Downloading dash-2.18.2-py3-none-any.whl (7.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m51.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dash_core_components-2.0.0-py3-none-any.whl (3.8 kB)
Downloading dash_html_compo

In [16]:
!pip instal dash plotly pandas


ERROR: unknown command "instal" - maybe you meant "install"


In [20]:
import pandas as pd

# Criando um DataFrame com dados fictícios
data = {
    "date": ["2024-01-01", "2024-01-02", "2024-01-03", "2024-01-04"],
    "confirmed": [100, 150, 200, 250],
    "active": [50, 80, 100, 120],
    "recovered": [40, 50, 80, 100],
    "deaths": [10, 20, 20, 30]
}

df = pd.DataFrame(data)
df.to_csv("covid_data.csv", index=False)

print("Arquivo covid_data.csv criado com sucesso!")


Arquivo covid_data.csv criado com sucesso!


In [19]:
# Importando as bibliotecas necessárias
import dash
from dash import dcc, html
from dash.dependencies import Input, Output
import plotly.express as px
import pandas as pd
import os

# Iniciando o aplicativo Dash
app = dash.Dash(__name__)

# Função para carregar dados locais sobre COVID-19
def load_covid_data():
    file_path = 'covid_data.csv'

    if not os.path.exists(file_path):
        raise FileNotFoundError(f"O arquivo {file_path} não foi encontrado!")

    df = pd.read_csv(file_path)
    df['date'] = pd.to_datetime(df['date'])
    return df

# Tentativa de carregar os dados com tratamento de erro
try:
    covid_data = load_covid_data()
except FileNotFoundError as e:
    print(e)
    covid_data = pd.DataFrame(columns=['date', 'confirmed', 'active', 'recovered', 'deaths'])

# Layout do dashboard
app.layout = html.Div([
    html.H1("COVID-19 Dashboard"),

    dcc.Dropdown(
        id='metric-dropdown',
        options=[
            {'label': 'Casos Confirmados', 'value': 'confirmed'},
            {'label': 'Hospitalizações', 'value': 'active'},
            {'label': 'Recuperados', 'value': 'recovered'},
            {'label': 'Mortes', 'value': 'deaths'}
        ],
        value='confirmed',  # Valor padrão
        clearable=False
    ),

    dcc.Graph(id='covid-graph'),

    dcc.Interval(
        id='interval-component',
        interval=1*60*1000,  # Atualiza a cada 1 minuto (60000ms)
        n_intervals=0
    )
])

# Callback para atualizar o gráfico com base na métrica escolhida e nos dados atualizados
@app.callback(
    Output('covid-graph', 'figure'),
    [Input('metric-dropdown', 'value'),
     Input('interval-component', 'n_intervals')]
)
def update_graph(selected_metric, n_intervals):
    # Carregar dados atualizados
    try:
        covid_data = load_covid_data()
    except FileNotFoundError:
        return px.line(title="Erro: Arquivo de dados não encontrado")

    # Criando o gráfico com Plotly
    fig = px.line(
        covid_data,
        x='date',
        y=selected_metric,
        title=f"Evolução de {selected_metric.capitalize()} ao longo do tempo"
    )

    fig.update_layout(xaxis_title='Data', yaxis_title=selected_metric.capitalize())

    return fig

# Rodando o servidor do aplicativo
if __name__ == '__main__':
    app.run_server(debug=True)


O arquivo covid_data.csv não foi encontrado!


<IPython.core.display.Javascript object>

## 4\. Transformação

In [21]:
import os

file_path = "covid_data.csv"

if not os.path.exists(file_path):
    raise FileNotFoundError(f"Erro: O arquivo {file_path} não foi encontrado! Verifique o caminho e tente novamente.")


In [22]:
import pandas as pd
import numpy as np

# Função para ler e manipular os dados
def manipulate_data(file_path):
    # Leitura dos dados
    df = pd.read_csv(file_path)

    # Controle de Qualidade
    # Verificar e tratar dados faltantes
    df = df.fillna(0)  # Preenche valores faltantes com 0
    print("Dados faltantes tratados:")
    print(df.isnull().sum())  # Verificar se ainda há dados faltantes

    # Verificar e corrigir inconsistências
    df['confirmed'] = df['confirmed'].astype(int)
    df['active'] = df['active'].astype(int)
    df['recovered'] = df['recovered'].astype(int)
    df['deaths'] = df['deaths'].astype(int)

    # Enriquecimento
    # Adicionar coluna de taxa de mortalidade
    df['mortality_rate'] = df['deaths'] / df['confirmed']

    # Adicionar coluna de taxa de recuperação
    df['recovery_rate'] = df['recovered'] / df['confirmed']

    # Converter a coluna de data para datetime
    df['date'] = pd.to_datetime(df['date'])

    # Ordenar os dados por data
    df = df.sort_values(by='date')

    # Mostrar os dados transformados
    print("Dados manipulados:")
    print(df.head())

    return df

# Caminho para o arquivo CSV
file_path = 'covid_data.csv'

# Manipular os dados
df_manipulated = manipulate_data(file_path)

# Salvar os dados manipulados em um novo arquivo CSV
df_manipulated.to_csv('covid_data_manipulated.csv', index=False)


Dados faltantes tratados:
date         0
confirmed    0
active       0
recovered    0
deaths       0
dtype: int64
Dados manipulados:
        date  confirmed  active  recovered  deaths  mortality_rate  \
0 2024-01-01        100      50         40      10        0.100000   
1 2024-01-02        150      80         50      20        0.133333   
2 2024-01-03        200     100         80      20        0.100000   
3 2024-01-04        250     120        100      30        0.120000   

   recovery_rate  
0       0.400000  
1       0.333333  
2       0.400000  
3       0.400000  


## 5\. Carregamento

In [23]:
import pandas as pd
import os

# Caminho do arquivo CSV original e para o arquivo de saída
input_file_path = 'covid_data.csv'
output_file_path = 'covid_data_manipulated.csv'

# Criar um arquivo fictício caso não exista
if not os.path.exists(input_file_path):
    print(f"⚠️ O arquivo {input_file_path} não foi encontrado! Criando um arquivo de exemplo...")

    data = {
        "date": ["2024-01-01", "2024-01-02", "2024-01-03", "2024-01-04"],
        "confirmed": [100, 150, 200, 250],
        "active": [50, 80, 100, 120],
        "recovered": [40, 50, 80, 100],
        "deaths": [10, 20, 20, 30]
    }

    df = pd.DataFrame(data)
    df.to_csv(input_file_path, index=False)
    print("✅ Arquivo criado com sucesso!")

# Função para ler e manipular os dados
def manipulate_data(file_path):
    # Leitura dos dados
    df = pd.read_csv(file_path)

    # Controle de Qualidade
    df = df.fillna(0)  # Preenche valores faltantes com 0
    print("📌 Dados faltantes tratados:")
    print(df.isnull().sum())  # Verificar se ainda há dados faltantes

    # Verificar e corrigir inconsistências
    df['confirmed'] = df['confirmed'].astype(int)
    df['active'] = df['active'].astype(int)
    df['recovered'] = df['recovered'].astype(int)
    df['deaths'] = df['deaths'].astype(int)

    # Enriquecimento
    df['mortality_rate'] = df['deaths'] / df['confirmed']
    df['recovery_rate'] = df['recovered'] / df['confirmed']

    # Converter a coluna de data para datetime
    df['date'] = pd.to_datetime(df['date'])

    # Ordenar os dados por data
    df = df.sort_values(by='date')

    return df

# Função para salvar os dados manipulados
def save_data(df, output_file_path):
    df.to_csv(output_file_path, index=False)
    print(f"✅ Dados salvos em: {output_file_path}")

# Manipular os dados
df_manipulated = manipulate_data(input_file_path)

# Salvar os dados manipulados
save_data(df_manipulated, output_file_path)


📌 Dados faltantes tratados:
date         0
confirmed    0
active       0
recovered    0
deaths       0
dtype: int64
✅ Dados salvos em: covid_data_manipulated.csv


In [24]:
import pandas as pd

# Função para ler e manipular os dados
def manipulate_data(file_path):
    # Leitura dos dados
    df = pd.read_csv(file_path)

    # Controle de Qualidade
    # Verificar e tratar dados faltantes
    df = df.fillna(0)  # Preenche valores faltantes com 0
    print("Dados faltantes tratados:")
    print(df.isnull().sum())  # Verificar se ainda há dados faltantes

    # Verificar e corrigir inconsistências
    df['confirmed'] = df['confirmed'].astype(int)
    df['active'] = df['active'].astype(int)
    df['recovered'] = df['recovered'].astype(int)
    df['deaths'] = df['deaths'].astype(int)

    # Enriquecimento
    # Adicionar coluna de taxa de mortalidade
    df['mortality_rate'] = df['deaths'] / df['confirmed']

    # Adicionar coluna de taxa de recuperação
    df['recovery_rate'] = df['recovered'] / df['confirmed']

    # Converter a coluna de data para datetime
    df['date'] = pd.to_datetime(df['date'])

    # Ordenar os dados por data
    df = df.sort_values(by='date')

    return df

# Função para salvar os dados manipulados
def save_data(df, output_file_path):
    df.to_csv(output_file_path, index=False)
    print(f"Dados salvos em: {output_file_path}")

# Caminho para o arquivo CSV original e para o arquivo de saída
input_file_path = 'covid_data.csv'
output_file_path = 'covid_data_manipulated.csv'

# Manipular os dados
df_manipulated = manipulate_data(input_file_path)

# Salvar os dados manipulados
save_data(df_manipulated, output_file_path)


Dados faltantes tratados:
date         0
confirmed    0
active       0
recovered    0
deaths       0
dtype: int64
Dados salvos em: covid_data_manipulated.csv
