### Vinicius Henrique | Production engineering

## A machine learning forecasting model for COVID-19 pandemic in Brazil

### Esse trabalho é uma adaptação de um artigo da SpringLink: *A machine learning forecasting model for COVID-19 pandemic in India*

### O artigo teve como base a investigação da evolução dos casos de Covid-19 na Índia utilizando uma base de dados disponibilizado pelo Kaggle

In [None]:
import pandas as pd

In [None]:
# Dates format %Y%m%d
df = pd.read_csv('covid_19_clean_complete.csv')

In [None]:
df['Date'].min()

In [None]:
df = df.loc[df['Country/Region'] == 'Brazil']
df.drop(['Province/State', 'Country/Region', 'WHO Region', 'Lat', 'Long', 'Date'], axis=1, inplace=True)
df = df.reset_index(drop=True)

## O modelo de regressão implementado no paper foi o Vector Autoregression (VAR)

### Dessa forma, para gerar resultados semelhantes aos do trabalho desenvolvido, será utilizado o mesmo modelo

In [None]:
from statsmodels.tsa.vector_ar.var_model import VAR
import matplotlib.pyplot as plt

In [None]:
# Creating the train and validation set
X_train, X_test = df[0:-10], df[-10:] #90% dos dados para treinamento e 10% para teste

In [None]:
# Fit the model
model = VAR(endog=X_train)

# Fit to a VAR model 
model_fit = model.fit(maxlags=15)

In [None]:
# Pegar o maxlags utilizado
lag_order = model_fit.k_ar

input_data = X_train.values[-lag_order:]

# Forecasting (Predicts)
pred = model_fit.forecast(y=input_data, steps=10)

# Transformando em DataFrame
pred = (pd.DataFrame(pred, index=X_test.index, columns=X_test.columns + '_pred'))

In [None]:
# Adicionando as datas nos indices para plotagem
pred = pred.rename(index={157:'2020-06-27',158:'2020-06-28',159:'2020-06-29',160:'2020-06-30',161:'2020-07-01',
                         162:'2020-07-02',163:'2020-07-03',164:'2020-07-04',165:'2020-07-05',166:'2020-07-06'})
X_test = X_test.rename(index={157:'2020-06-27',158:'2020-06-28',159:'2020-06-29',160:'2020-06-30',161:'2020-07-01',
                         162:'2020-07-02',163:'2020-07-03',164:'2020-07-04',165:'2020-07-05',166:'2020-07-06'})

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(12,5))
plt.xlabel('Date')

ax1 = X_test['Confirmed'].plot(color='blue', grid=True, label='Casos confirmados reais')
ax2 = pred['Confirmed_pred'].plot(color='red', grid=True, secondary_y=True, label='Casos confirmados previsto')

ax1.legend(loc=1)
ax2.legend(loc=2)
plt.title('Casos de Covid-19 confirmados no Brazil nos últimos 10 dias')
#plt.savefig('confirmados.png')
plt.show()

In [None]:
plt.figure(figsize=(12,5))
plt.xlabel('Date')

ax1 = X_test['Deaths'].plot(color='blue', grid=True, label='Casos mortes reais')
ax2 = pred['Deaths_pred'].plot(color='red', grid=True, secondary_y=True, label='Casos mortes previsto')

ax1.legend(loc=1)
ax2.legend(loc=2)
plt.title('Casos de Covid-19 mortes no Brazil nos últimos 10 dias')
#plt.savefig('mortes.png')
plt.show()

In [None]:
plt.figure(figsize=(12,5))
plt.xlabel('Date')

ax1 = X_test['Recovered'].plot(color='blue', grid=True, label='Casos recuperados reais')
ax2 = pred['Recovered_pred'].plot(color='red', grid=True, secondary_y=True, label='Casos recuperados previsto')

ax1.legend(loc=1)
ax2.legend(loc=2)
plt.title('Casos de Covid-19 confirmados no Brazil nos últimos 10 dias')
plt.show()

In [None]:
plt.figure(figsize=(12,5))
plt.xlabel('Date')

ax1 = X_test['Active'].plot(color='blue', grid=True, label='Casos ativos reais')
ax2 = pred['Active_pred'].plot(color='red', grid=True, secondary_y=True, label='Casos ativos previsto')

ax1.legend(loc=1)
ax2.legend(loc=2)
plt.title('Casos de Covid-19 ativos no Brazil nos últimos 10 dias')
plt.show()

### Links úteis:
- Paper: https://link.springer.com/article/10.1007/s00477-020-01827-8
- Dataset: https://www.kaggle.com/imdevskp/corona-virus-report
- Sklearn models: https://scikit-learn.org/stable/_static/ml_map.png
- Vector Autoregression (VAR): https://www.statsmodels.org/stable/generated/statsmodels.tsa.vector_ar.var_model.VAR.html