# Projeto DIO COVID-19

Super dica... os dados foram retirados no Kaggle.com

## Instalação de biblioteca

In [None]:
#opcional: instalado por falha na importacao do Plotly, msg modulo inexistente
pip install plotly

In [None]:
#opcional: pcufflinks concecta o Pandas ao Plotly.
pip install cufflinks

## Importar bibliotecas do Python

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

In [None]:
#bibliotecas de visualização com recrusos em java script
import plotly.express as px  
import plotly.graph_objects as go 

## Importar e visualizar o conjunto de dados

In [None]:
##Upload do arquivo
#from google.colab import files
#arq = files.upload()
url = "https://github.com/otavioaugust1/DIO_Unimed-BH_CienciaDeDados/blob/main/Desafio/Evolucao_do_COVID19_Brasil/covid_19_data.csv?raw=true"

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#importa campos como data e não como texto
df = pd.read_csv(url, parse_dates=['ObservationDate', 'Last Update'])

In [None]:
#chama o conjunto de dados para visualização em javascript
df

In [None]:
# Renomeando a tabela
df = df.rename(columns={"SNo":"Numero De Serie","ObservationDate":"Data De Observacao","Province/State":"Cidade/Estado","Country/Region":"Pais/Regiao","Last Update":"Ultima Atualização","Confirmed":"Confirmados","Deaths":"Obitos","Recovered":"Recuperados"})

In [None]:
df

## Conferência dos tipos de variáveis por coluna

In [None]:
df.dtypes

## Limpeza nos nomes das colunas

In [None]:
import re   

def corrige_colunas(col_name):  #correcao para eliminar caracteres especiais, maiúsculas, espaços em branco
    return re.sub(r"[/ | ]", "", col_name).lower()  #padrão de escrita das colunas é letra minúscula

In [None]:
corrige_colunas('AvqO/C  ou')   #teste da correcao

In [None]:
df.columns = [corrige_colunas(col) for col in df.columns] #lista as colunas, depois atribui novos nomes
df

## Exploração de amostras de dados 

In [None]:
df.paisregiao.value_counts()   #listagem de 5 primeiros e 5 últimos países

In [None]:
df.paisregiao.unique()  #listagem de todos os países

In [None]:
df.loc[df.paisregiao == 'Brazil']  #selecao de amostra do Brasil

In [None]:
brasil = df.loc[  #seleção com loc é por nome 
    (df.paisregiao == 'Brazil') &
    (df.confirmados > 0)
]

In [None]:
brasil

## Visualização de casos confirmados

In [None]:
px.line(brasil, 'datadeobservacao', 'confirmados', title="Casos confirmados no Brasil")
#gera e exibe gráfico de cados confirmados 

## Contagem de novos casos por dia

In [None]:
brasil['novoscasos'] = list(map(
    lambda x: 0 if (x==0) else brasil ['confirmados'].iloc[x] - brasil['confirmados'].iloc[x-1],
    np.arange(brasil.shape[0]) 
))  #pode desconsiderar a advertencia sobre sintaxe, porque a função está criada e nao intere.     

In [None]:
brasil

## Visualização de novos casos por dia

In [None]:
px.line(brasil, x='datadeobservacao', y='novoscasos', title="Novos casos por dia")

## Visualização de casos de óbito por dia

In [None]:
fig = go.Figure() #criacao de figura 

fig.add_trace(
        go.Scatter(x=brasil.datadeobservacao, y=brasil.obitos, name='Óbitos',
                  mode="lines+markers", line={'color':'blue'})
)
#criacao do layout
fig.update_layout(title="Óbitos por COVID-19 no Brasil")

fig.show()

## Cálculo da taxa média de crescimento de casos

In [None]:
# taxa_crescimento = (presente/passado)**(1/n) - 1
def taxa_crescimento(data, variable, data_inicio = None, data_fim = None):
    #Se data_inicio for none, define com a primeira data disponivel.
    if data_inicio == None:
        data_inicio = data.datadeobservacao.loc[data[variable] > 0].min() #minima data tem ao menos 1 caso
    else:
        data_inicio = pd.to_datetime(data_inicio) #passa a data como string ou texto
    
    if data_fim == None:
        data_fim = data.datadeobservacao.iloc[-1] #passa a ultima data
    else:
        data_fim = pd.to_datetime(data_fim)
        
    #Definição de valores do presente e passado
    passado = data.loc[data.datadeobservacao == data_inicio, variable].values[0]
    presente = data.loc[data.datadeobservacao == data_fim, variable].values[0]
    
    #Definição do numero de pontos no tempo que serão avaliados
    n = (data_fim - data_inicio).days
    
    #Calculo da taxa de crescimento
    taxa = (presente/passado)**(1/n) -1 
    
    return taxa*100 #retorna a taxa em porcentagem       


In [None]:
#Taxa de crescimento médio do COVID no Brasil em todo o periodo
taxa_crescimento(brasil, 'confirmados')

In [None]:
df.sample(5)

In [None]:
#Taxa de crecimento mpedio do COVID no Brasil por dia 
def taxa_crescimento_diaria(data, variable, data_inicio=None):
    #Se data_inicio for none, define com a primeira data disponivel.
    if data_inicio == None:
        data_inicio = data.datadeobservacao.loc[data[variable] > 0].min() #minima data tem ao menos 1 caso
    else:
        data_inicio = pd.to_datetime(data_inicio) #passa a data como string ou texto
        
    data_fim = data.datadeobservacao.max()
    #Define nro de pontos no tempo que serao avaliados
    n = (data_fim - data_inicio).days
    
    #Taxa calculada de variacao de um dia para o outro
    taxas = list(map(
        lambda x: (data[variable].iloc[x] - data[variable].iloc[x-1]) / data[variable].iloc[x-1],
        range(1, n+1)
    ))
    return np.array(taxas) * 100

In [None]:
tx_dia = taxa_crescimento_diaria(brasil, 'confirmados')

In [None]:
tx_dia

In [None]:
tx_dia

In [None]:
#Preparação da plotagem do gráfico
primeiro_dia = brasil.datadeobservacao.loc[brasil.confirmados > 0].min()

px.line(x=pd.date_range(primeiro_dia, brasil.datadeobservacao.max())[1:],
       y=tx_dia, title='Taxa de crescimento de casos confirmados no Brasil')

## Predições

In [None]:
#Biblioteca para modelagem
from statsmodels.tsa.seasonal import seasonal_decompose #traz tendencia, sazonalidade, ruido
import matplotlib.pyplot as plt

In [None]:
confirmados = brasil.confirmados
confirmados.index = brasil.datadeobservacao
confirmados

In [None]:
#Decomposição das series temporais
res = seasonal_decompose(confirmados)

In [None]:
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(12,10))

ax1.plot(res.observed) #serie dos casos observados
ax2.plot(res.trend) #serie das tendencias
ax3.plot(res.seasonal) #serie da sazonalidade
ax4.plot(confirmados.index, res.resid) #serie do ruído
ax4.axhline(0, linestyle= 'dashed', c='black') #traça linha divisoria em zero
plt.show  #exibe graficos

# ARIMA

In [None]:
# Instalação de biblioteca
pip install pmdarima

In [None]:
from pmdarima.arima import auto_arima
modelo = auto_arima(confirmados)


In [None]:
fig = go.Figure(go.Scatter(
    x=confirmados.index, y=confirmados, name='Observados'
))
fig.add_trace(go.Scatter(
    x=confirmados.index, y=modelo.predict_in_sample(), name='Preditos'
))
fig.add_trace(go.Scatter(
    x=pd.date_range('2020-05-30', '2020-06-30')  y=modelo.predict(30), name='Forecast'  
))
fig.update_layout(title='Previsão de casos confirmados no Brasil para os proximos 30 dias')
fig.show()

## Modelo de Crescimento

In [None]:
#instalação da biblioteca fbprophet
!pip install fbprophet 

In [None]:
from fbprophet import Prophet

In [None]:
#Preprocessamentos
train = confirmados.reset_index()[:-5]
test = confirmados.reset_index()[-5:]

In [None]:
#renomeando colunas
train.rename(columns={"datadeobservacao":'ds',"confirmados":'y'}, inplace=True)
test.rename(columns={"datadeobservacao":'ds',"confirmados":'y'}, inplace=True)

In [None]:
#Definir o modelo de crescimento
profeta = Prophet(growth="logistic", changepoints=['2020-03-21','2020-03-30','2020-04-25','2020-05-03','2020-05-10'])

In [None]:
#Ponto maximo 
pop = 211463256
train['cap'] = pop

In [None]:
#treina o modelo
profeta.fit(train)

In [None]:
#Construir previsões para o futuro
future_dates= profeta.make_future_dataframe(periods=200)
future_dates['cap'] = pop 
forecast = profeta.predict(future_dates)

In [None]:
#colocando no grafico
fig = go.Figure

fig.add_trace(go.Scatter(x=forecast.ds, y=forecast.yhat, name='Predição'))
fig.add_trace(go.Scatter(x=test.index, y=test, name='Observados - Teste'))
fig.add_trace(go.Scatter(x=train.ds, y=train.y name='Observados - Treino'))
fig.update_layout(title='Predições de casos confirmados no Brasil')
fig.show()