# Projeto COVID-19

## Digital Inovation One

#### Estudo da evolução da COVID-19 apresentado no *Boot Camp* da Unimed BH em parceria com a DIO
##### Aluno: Moysés Dutra da Silva

In [None]:
#importando as bibliotecas
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go

In [None]:
#importando os dados do processo
url = 'https://github.com/neylsoncrepalde/projeto_eda_covid/blob/master/covid_19_data.csv?raw=true'
arquivo = './DATA/covid_19_data.csv'

In [None]:
df = pd.read_csv(arquivo, parse_dates=['ObservationDate','Last Update'])
df.head()

### Formatando as informações importadas

In [None]:
#conferir os tipos de cada coluna
df.dtypes

Nomes de colunas nao devem ter letras maiusculas e nem caracteres especiais. Vamos implementar uma funçao para fazer a limpeza dos nomes dessas colunas

In [None]:
import re #usando regex.   Substituindo "/" ou espaco " " por nada e retornando em minusculas
def corrige_colunas(col_name):
    return re.sub(r"[/| ]","", col_name).lower()

In [None]:
#corrigindo o nome das colunas do df
df.columns = [corrige_colunas(col) for col in df]
df.head()

### Criando o primeiro gráfico dos dados selecionados

#### Selecionando os dados do Brasil

In [None]:
df.loc[df.countryregion =='Brazil']

In [None]:
brasil = df.loc[(df.countryregion =='Brazil') & (df.confirmed > 0)]
brasil.shape

# Casos Confirmados


#### Gráfico da evolução dos casos confirmados

In [None]:
px.line(brasil, 'observationdate', 'confirmed', title = 'Casos confirmados no Brasil')

## Usando lambda para identificar novos casos confirmados por dia

In [None]:
#tecnica de programação funcional
brasil['novoscasos'] = list(map(lambda x : 0 if (x==0) else brasil['confirmed'].iloc[x]-brasil['confirmed'].iloc[x-1] ,
                                np.arange(brasil.shape[0])                                
                                ))

In [None]:
brasil.head()


In [None]:
px.line(brasil, 'observationdate', y='novoscasos', title = 'Novos casos por dia')

### Mortes

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(x = brasil.observationdate, y=brasil.deaths, name = 'Mortes', mode='lines+markers', line={'color':'red'})
)
fig.update_layout(title = 'Mortes por COVID-19 no Brasil')
fig.show()

### Taxa de crescimento

#### Avaliando uma série temporal

taxa = (presente / passado) ^(1/n) - 1


In [None]:
def taxa_crescimento(data, variavel, dt_inicio = None, dt_fim = None):
    #se dt_inicio for None ==> definir com a primeira data disponivel
    if dt_inicio == None:
        dt_inicio = data.observationdate.loc[data[variavel] >0].min()
    else:
        dt_inicio = pd.to_datetime(dt_inicio)
        
    #se dt_fim for None ==> definir com a ultima data disponivel
    if dt_fim == None:
        dt_fim = data.observationdate.iloc[-1]
    else:
        dt_fim = pd.to_datetime(dt_fim)
    
    #define os valores do presente e passado
    passado = data.loc[data.observationdate == dt_inicio, variavel].values[0]
    presente = data.loc[data.observationdate == dt_fim, variavel].values[0]
    
    n = (dt_fim - dt_inicio).days
    
#     Calculando a taxa
    taxa = (presente / passado) **(1/n)-1
    
    return taxa * 100
        

In [None]:
#Taxa de crescimento médio do COVID no Brasil em todo o periodo
print('O COVID-19 cresce em média diariamente: ',taxa_crescimento(brasil, 'confirmed') )

In [None]:
def taxa_crescimento_diaria(data, variavel, dt_inicio = None):
     #se dt_inicio for None ==> definir com a primeira data disponivel
    if dt_inicio == None:
        dt_inicio = data.observationdate.loc[data[variavel] >0].min()
    else:
        dt_inicio = pd.to_datetime(dt_inicio)
    
    dt_fim = data.observationdate.max()
    n = (dt_fim - dt_inicio).days
    
    #taxa calculada de um dia paa o outro
    taxas = list(map(
        lambda x: (data[variavel].iloc[x] - data[variavel].iloc[x-1])/data[variavel].iloc[x-1],
        range(1,n+1)
    ))
    return np.array(taxas) * 100

In [None]:
tx_dia = taxa_crescimento_diaria(brasil, 'confirmed')
tx_dia


In [None]:
primeiro_dia = brasil.observationdate.loc[brasil.confirmed>0].min()
px.line(x=pd.date_range(primeiro_dia, brasil.observationdate.max())[1:], 
       y=tx_dia, title='Taxa de crescimento de casos confirmados no Brasil')

## Predições

### Em uma série temporal podemos identificar fazenod a sua decomposição:
- Tendência
- Sazonalidade
- Ruído

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt


In [None]:
confirmados = brasil.confirmed
confirmados.index = brasil.observationdate
confirmados.head()

In [None]:
#fazendo a decomposicao da série temporal
res = seasonal_decompose(confirmados)
res

In [None]:
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4,1, figsize=(10,8))
ax1.plot(res.observed) #observacao
ax2.plot(res.trend) #tendencia
ax3.plot(res.seasonal) #sazonalidade
ax4.plot(confirmados.index, res.resid) #ruido
ax4.axhline(0, linestyle = 'dashed', c='black')
plt.show()

## Modelo ARIMA - média móvel integrada autoregressiva


In [None]:
#instalando o pacote
# !pip install pmdarima 

In [None]:
from pmdarima.arima import auto_arima
modelo = auto_arima(confirmados)

In [None]:
fig = go.Figure(go.Scatter(
    x=confirmados.index, y=confirmados, name='Observados'))

fig.add_trace(go.Scatter(
    x=confirmados.index, y=modelo.predict_in_sample(), name='Preditos'))


fig.add_trace(go.Scatter(
    x=pd.date_range('2020-05-20', '2020-06-20'), y=modelo.predict(31), name='Forecast'))


fig.update_layout(title='Previsão de csos confirmados no Brasil para os próximos 30 dias')
fig.show()

## Modelo de Crescimento

Vamos ustar a biblioteca fbprohet

comando:  !conda install -c conda-forge fbprophet -y


In [None]:
# !conda install -c conda-forge fbprophet -y
# !pip install fbprophet

In [None]:
from fbprophet import Prophet

In [None]:
#preprocessamento
train = confirmados.reset_index()[:-5]
test =  confirmados.reset_index()[-5:]

#renomeando as colunas
train.rename(columns={'observationdate':'ds', 'confirmed': 'y'}, inplace=True)
test.rename(columns={'observationdate':'ds', 'confirmed': 'y'}, inplace=True)

#definir o modelo de crescimento
preditor = Prophet(growth = 'logistic', changepoints=['2020-03-11', '2020-03-30', '2020-04-25',
                                                     '2020-05-03', '2020-05-10'])

# populacao_total = 211463256
populacao_total = 1000000
train['cap'] = populacao_total

#treinamento do modelo
preditor.fit(train)

#construindo previsoes  para o futuro
future_dates = preditor.make_future_dataframe(periods=200)
future_dates['cap']  = populacao_total
forecast = preditor.predict(future_dates)


In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=forecast.ds, y=forecast.yhat, name='Predição'))
# fig.add_trace(go.Scatter(x=test.index, y=test, name='Observados - Teste'))
fig.add_trace(go.Scatter(x=train.ds, y=train.y, name='Observados - Treino'))

fig.update_layout(title='Predições de casos confirmados no Brasil')
fig.show()