# <font color = #00995d>Análises COVID-19</font>

## <font color = #339dd7>Digital</font> <font color = #52569f>Innovation</font> <font color = #c34e6e>One</font>

### **Prof. Dr. :** Neylson Crepalde

### **Aluno :** Juliano França da Mata

*Vamos analisar as séries temporais sobre a contaminação do vírus COVID-19 pelo mundo.*

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go

*Agora, vamos importar os dados. É importante já dizer no comando `pd.read_csv` quais são as colunas que serão "parseadas" como datas. O pandas possui métodos robustos para trabalhar com esse tipo de informação.*

In [None]:
url = 'https://github.com/neylsoncrepalde/projeto_eda_covid/blob/master/covid_19_data.csv?raw=true'

# Passando Datas para formato 'datetime'
df = pd.read_csv(url, parse_dates=['ObservationDate', 'Last Update'])
df

*Agora, vamos conferir os tipos das variáveis para verificar que as colunas foram corretamente importadas.*

In [None]:
df.dtypes

In [None]:
df.info()

In [None]:
# Resumo estatístico do DataFrame, com quartis, mediana, etc
df.describe()

*Nomes de colunas não devem ter letras maiúsculas e nem caracteres especiais. Vamos utilizar uma função para corrigir os nomes das colunas.*

In [None]:
import re
def corrige_colunas(col_name):
    return re.sub(r"[/| ]", "", col_name).lower()

In [None]:
# Corrigindo nome de todas as colunas do 'df'
df.columns = [corrige_colunas(col) for col in df.columns]

In [None]:
df

## <font color = #00995d>Análises</font>

*Agora vamos começar a investigar as variáveis que temos à disposição. Sabemos que trata-se de séries temporais que estão divididas por Países. Para fazer qualquer análise, portanto, precisamos dividir os nossos dados. *

*Vamos verificar primeiro quantos países temos. *

In [None]:
# Nome de todos países
df.countryregion.unique()

In [None]:
# Selecionando Brasil
# Não possui os Estados definidos
df.loc[df.countryregion == 'Brazil']

*Opa. No caso do Brasil, não temos informação a nível de estado, apenas a nível do país. Ok, então. Vamos verificar como está o comportamento dos casos confirmados no Brasil desde o primeiro caso confirmado, 26 de fevereiro.*

## <font color = #00995d>Casos confirmados</font>

In [None]:
brasil = df.loc[(df.countryregion == 'Brazil') & 
                (df.confirmed > 0)]

In [None]:
brasil

In [None]:
px.line?

In [None]:
px.line(brasil, 'observationdate', 'confirmed', 
        labels={'observationdate':'Data', 'confirmed':'Número de casos confirmados'},
       title='Casos confirmados no Brasil')

## <font color = #00995d>Número de novos casos por dia</font>

In [None]:
# Vamos implementar uma função para fazer a contagem de novos casos
# desativar aviso de segurança
pd.options.mode.chained_assignment = None  # default='warn'

brasil['novoscasos'] = list(map(
    lambda x: 0 if (x==0) else brasil['confirmed'].iloc[x] - brasil['confirmed'].iloc[x-1],
    np.arange(brasil.shape[0])
))

In [None]:
brasil

In [None]:
# Visualizando
px.line(brasil, x='observationdate', y='novoscasos', title='Novos casos por dia',
       labels={'observationdate': 'Data', 'novoscasos': 'Novos casos'})

*O número de novos casos parece ser um excelente caso para modelagem. Será que conseguimos predizer quando o número de novos casos vai começar a cair?*

## <font color = #00995d>Mortes</font>

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(x=brasil.observationdate, y=brasil.deaths, name='Mortes', mode='lines+markers',
              line=dict(color='#8B0000'))
)
#Edita o layout
fig.update_layout(title='Mortes por COVID-19 no Brasil',
                   xaxis_title='Data',
                   yaxis_title='Número de mortes')
fig.show()

## <font color = #00995d>Taxa de crescimento</font>

*Vamos calcular a taxa de crescimento do COVID desde o primeiro caso.*

In [None]:
def taxa_crescimento(data, variable, data_inicio=None, data_fim=None):
    # Se data_inicio for None, define como a primeira data disponível no dataset
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio = pd.to_datetime(data_inicio)
        
    if data_fim == None:
        data_fim = data.observationdate.iloc[-1]
    else:
        data_fim = pd.to_datetime(data_fim)
    
    # Define os valores de presente e passado
    passado = data.loc[data.observationdate == data_inicio, variable].values[0]
    presente = data.loc[data.observationdate == data_fim, variable].values[0]
    
    # Define o número de pontos no tempo q vamos avaliar
    n = (data_fim - data_inicio).days
    
    # Calcula a taxa
    taxa = (presente/passado)**(1/n) - 1

    return taxa*100

In [None]:
# Taxa de crescimento médio do COVID no Brasil em todo período
cresc_medio = taxa_crescimento(brasil, 'confirmed')
print(f"O crescimento médio do COVID no Brasil no período avaliado foi de \033[31m{cresc_medio.round(2)}%.\033[m")

*Agora, vamos observar o comportamento da `taxa de crescimento no tempo`. Para isso, vamos definir uma função para calcular a taxa de crescimento diária.*

In [None]:
def taxa_crescimento_diaria(data, variable, data_inicio=None):
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio = pd.to_datetime(data_inicio)
        
    data_fim = data.observationdate.max()
    n = (data_fim - data_inicio).days
    # Taxa calculada de um dia para o outro
    taxas = list(map(
        lambda x: (data[variable].iloc[x] - data[variable].iloc[x-1]) / data[variable].iloc[x-1],
        range(1,n+1) # '+ 1' é para ir até o último ponto
    ))
    return np.array(taxas)*100

In [None]:
tx_dia = taxa_crescimento_diaria(brasil, 'confirmed')

In [None]:
tx_dia

In [None]:
primeiro_dia = brasil.observationdate.loc[brasil.confirmed > 0].min()
px.line(x=pd.date_range(primeiro_dia, brasil.observationdate.max())[1:],
        y=tx_dia, title='Taxa de crescimento de casos confirmados no Brasil',
       labels={'y':'Taxa de crescimento', 'x':'Data'})

## <font color = #00995d>Predições</font>

*Vamos construir um modelo de séries temporais para prever os novos casos. Antes analisemos a série temporal.*

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt

In [None]:
novoscasos = brasil.novoscasos
novoscasos.index = brasil.observationdate

res = seasonal_decompose(novoscasos)  # 'Res' de resultado da decomposição

fig, (ax1,ax2,ax3, ax4) = plt.subplots(4, 1,figsize=(20,16))
ax1.plot(res.observed, color = 'red')
ax2.plot(res.trend, color = 'orange')
ax3.plot(res.seasonal, color = '#912CEE')
ax4.scatter(novoscasos.index, res.resid)
ax4.axhline(0, linestyle='dashed', c = '#00995d')
plt.show()

## <font color = #00995d>Decompondo a série de confirmados</font>


In [None]:
confirmados = brasil.confirmed
confirmados.index = brasil.observationdate
confirmados

In [None]:
res2 = seasonal_decompose(confirmados) # 'Res' de resultado da decomposição

fig, (ax1,ax2,ax3, ax4) = plt.subplots(4, 1,figsize=(20,16))
ax1.plot(res2.observed, color = 'red') # Plotar observados
ax2.plot(res2.trend, color = 'orange')    # Plotar a tendência
ax3.plot(res2.seasonal, color = '#912CEE') # Plotar a sazonalidade
ax4.scatter(confirmados.index, res2.resid, )  # Plotar o ruído
ax4.axhline(0, linestyle='dashed', c='#00995d') # Plotar a linha
plt.show()

## <font color = #00995d>Predizendo o número de casos confirmados com um AUTO-ARIMA</font>

In [None]:
!pip install pmdarima

In [None]:
# melhor modelagem arima que encontrar automaticamente
from pmdarima.arima import auto_arima

In [None]:
modelo = auto_arima(confirmados)
modelo

In [None]:
pd.date_range('2020-05-01', '2020-05-19')

In [None]:
fig = go.Figure(go.Scatter(
    x=confirmados.index, 
    y=confirmados, name='Observed'
))

fig.add_trace(go.Scatter(x=confirmados.index, 
                         y = modelo.predict_in_sample(), name='Predicted'))

fig.add_trace(go.Scatter(x=pd.date_range('2020-05-20', '2020-06-20'), 
                         y=modelo.predict(15), name='Forecast'))

fig.update_layout(title='Previsão de casos confirmados para os próximos 15 dias',
                 yaxis_title='Casos confirmados', xaxis_title='Data')
fig.show()

## <font color = #00995d>Forecasting com Facebook Prophet</font> 

* Model de crescimento

In [None]:
!conda install -c conda-forge fbprophet -y

In [None]:
from fbprophet import Prophet

In [None]:
# preparando os dados
train = confirmados.reset_index()[:-5]
test = confirmados.reset_index()[-5:]

# renomeia colunas
train.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test = test.set_index("ds")
test = test['y']

# Definir modelo de crescimento com alguns pontos de mudança
profeta = Prophet(growth="logistic", 
                  changepoints=['2020-03-21', '2020-03-30', '2020-04-25', 
                                '2020-05-03', '2020-05-10'], 
                  yearly_seasonality=True, 
                  daily_seasonality=True)

# pop = 1000000
pop = 211463256 # https://www.ibge.gov.br/apps/populacao/projecao/box_popclock.php
train['cap'] = pop # População

# Treina o modelo
profeta.fit(train)

# Construindo previsões para o futuro
future_dates = profeta.make_future_dataframe(periods=200)
future_dates['cap'] = pop
forecast =  profeta.predict(future_dates)

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=forecast.ds, y=forecast.yhat, name='Predição'))
fig.add_trace(go.Scatter(x=test.index, y=test, name='Observados - Teste'))
fig.add_trace(go.Scatter(x=train.ds, y=train.y, name='Observados - Treino'))
fig.update_layout(title='Predições de casos confirmados no Brasil')
fig.show()

***✅ Agora é se inteirar, continuar estudando e "pau na máquina"!!! 💯***