# Projeto covid-19


In [None]:
import pandas as pd
import numpy as np
from datetime import datetime 
import plotly.express as px
import plotly.graph_objects as go 
import re

In [None]:
url='https://github.com/neylsoncrepalde/projeto_eda_covid/blob/master/covid_19_data.csv?raw=true'

In [None]:
df = pd.read_csv(url, parse_dates=['ObservationDate', 'Last Update'])
df.dtypes

def corrige_colunas(col_name):
    return re.sub(r"[/| ]","",col_name).lower()

corrige_colunas("Adg/| all")

In [None]:
#list comprehension
df.columns = [corrige_colunas(col) for col in df.columns]

#Verificar somente valores únicos
df.countryregion.unique()

#Selecionando somente os dados do Brasil
df.loc[df.countryregion=='Brazil']

In [None]:
brasil = df.loc[(df.countryregion=='Brazil') & (df.confirmed>0)]
brasil

# Casos confirmados

In [None]:
#Gráfico de evolução dos casos confirmados
px.line(brasil,'observationdate','confirmed',title='Casos confirmados no Brasil')

# Novos casos por dia

In [None]:
brasil['novoscasos'] = list(map(
    lambda x: 0 if (x==0) else brasil['confirmed'].iloc[x] -brasil['confirmed'].iloc[x-1],
    np.arange(brasil.shape[0])
))

In [None]:
#Visualizando 

px.line(brasil, x='observationdate',y='novoscasos',title='Casos novos no Brasil')

# Mortes

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Scatter(x=brasil.observationdate, y=brasil.deaths,name='Mortes',
              mode='lines+markers', line={'color':'red'})

)
fig.update_layout(title='Mortes por COVID-19 no Brasil')

fig.show()

# Taxa de Crescimento

taxa_crescimento = (presente/passado)**(1/n)-1

In [None]:
def taxa_crescimento(data, variable, data_inicio=None, data_fim=None):
    # Se data_inicio for None, define como a primeira data disponível no dataset
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio = pd.to_datetime(data_inicio)
        
    if data_fim == None:
        data_fim = data.observationdate.iloc[-1]
    else:
        data_fim = pd.to_datetime(data_fim)
    
    # Define os valores de presente e passado
    passado = data.loc[data.observationdate == data_inicio, variable].values[0]
    presente = data.loc[data.observationdate == data_fim, variable].values[0]
    
    # Define o número de pontos no tempo q vamos avaliar
    n = (data_fim - data_inicio).days
    
    # Calcula a taxa
    taxa = (presente/passado)**(1/n) - 1

    return taxa*100                                  

In [None]:
cresc_medio = taxa_crescimento(brasil, 'confirmed')
print(f"O crescimento médio do COVID no Brasil no período avaliado foi de {cresc_medio.round(2)}%.")

In [None]:
def taxa_crescimento_diaria(data, variable, data_inicio=None):
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio = pd.to_datetime(data_inicio)
        
    data_fim = data.observationdate.max()
    n = (data_fim - data_inicio).days
    taxas = list(map(
        lambda x: (data[variable].iloc[x] - data[variable].iloc[x-1]) / data[variable].iloc[x-1],
        range(1,n+1)
    ))
    return np.array(taxas)*100

In [None]:
tx_dia = taxa_crescimento_diaria(brasil,'confirmed')
tx_dia

In [None]:
primeiro_dia = brasil.observationdate.loc[brasil.confirmed>0].min()

px.line(x=pd.date_range(primeiro_dia,brasil.observationdate.max())[1:],
       y=tx_dia,title='Taxa de crescimento de casos confirmados no Brasil')

# Predições

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
confirmados=brasil.confirmed
confirmados.index=brasil.observationdate
confirmados

In [None]:
res = seasonal_decompose(confirmados)

In [None]:

fig, (ax1,ax2,ax3, ax4) = plt.subplots(4, 1,figsize=(10,8))
ax1.plot(res.observed)
ax2.plot(res.trend)
ax3.plot(res.seasonal)
ax4.plot(confirmados.index, res.resid)
ax4.axhline(0, linestyle='dashed', c='black')
plt.show()


# Predizendo o número de casos confirmados com um AUTO-ARIMA


In [None]:
from pmdarima.arima import auto_arima

modelo = auto_arima(confirmados)
pd.date_range('2020-05-01', '2020-05-19')

fig = go.Figure(go.Scatter(
    x=confirmados.index, y=confirmados, name='Observed'
))

fig.add_trace(go.Scatter(x=confirmados.index, y = modelo.predict_in_sample(), name='Predicted'))

fig.add_trace(go.Scatter(x=pd.date_range('2020-05-20', '2020-06-20'), y=modelo.predict(30), name='Forecast'))

fig.update_layout(title='Previsão de casos confirmados para os próximos 15 dias',
                 yaxis_title='Casos confirmados', xaxis_title='Data')
fig.show()

In [None]:
!conda install -c conda-forge fbprophet -y

In [None]:
from fbprophet import Prophet

# preparando os dados
train = confirmados.reset_index()[:-5]
test = confirmados.reset_index()[-5:]

# renomeia colunas
train.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test = test.set_index("ds")
test = test['y']

profeta = Prophet(growth="logistic", changepoints=['2020-03-21', '2020-03-30', '2020-04-25', '2020-05-03', '2020-05-10'])

#pop = 1000000
pop = 211463256 #https://www.ibge.gov.br/apps/populacao/projecao/box_popclock.php
train['cap'] = pop

# Treina o modelo
profeta.fit(train)

# Construindo previsões para o futuro
future_dates = profeta.make_future_dataframe(periods=200)
future_dates['cap'] = pop
forecast =  profeta.predict(future_dates)

fig = go.Figure()

fig.add_trace(go.Scatter(x=forecast.ds, y=forecast.yhat, name='Predição'))
fig.add_trace(go.Scatter(x=test.index, y=test, name='Observados - Teste'))
fig.add_trace(go.Scatter(x=train.ds, y=train.y, name='Observados - Treino'))
fig.update_layout(title='Predições de casos confirmados no Brasil')
fig.show()

