# Projeto COVID-19
## Digital Innovation One

Primeiro vamos importar algumas bibliotecas necessárias para o nosso projeto

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go

# Vamos importar os dados para o projeto

In [None]:
url = 'https://github.com/neylsoncrepalde/projeto_eda_covid/blob/master/covid_19_data.csv?raw=true'

In [None]:
df = pd.read_csv(url, parse_dates=['ObservationDate', 'Last Update'])
df

# Conferir os tipos de dados de cada coluna

In [None]:
df.dtypes

Nomes de colunas não devem ter letras maiúsculas e nem caracteres especiais. Vamos implementar uma função para fazer a limpeza dos nomes dessas colunas.

In [None]:
import re

def corrige_colunas(col_name):
    return re.sub(r"[/| ]", "", col_name).lower()

Exemplo:

In [None]:
corrige_colunas("agbBb/| P")

# Vamos corrigir todas as colunas do DF.

In [None]:
df.columns = [corrige_colunas(col) for col in df.columns]

In [None]:
df

Contagem de casos por países:

In [None]:
df.countryregion.value_counts()

Lista de países:

## Brasil

Vamos selecionar apenas os dados do Brasil para investigar

In [None]:
df.loc[df.countryregion == "Brazil"]

Linhas em que houveram ao menos um caso confirmado:

In [None]:
brasil = df.loc[
    (df.countryregion == "Brazil") &
    (df.confirmed > 0)

]

brasil

# Casos Confirmados

## Gráfico da evolução de casos confirmados

In [None]:
px.line(brasil, 'observationdate', 'confirmed', title = 'Casos confirmados no Brasil')

# Novos casos por dia

### Técnica de programação funcional

In [None]:
brasil['novos casos'] = list(map(
    
    lambda x: 0 if (x==0) else brasil['confirmed'].iloc[x] - brasil['confirmed'].iloc[x-1],
    np.arange(brasil.shape[0])

))

In [None]:
brasil

# Visualizando

In [None]:
px.line(brasil, x='observationdate', y='novos casos', title='Novos casos por dia')

# Mortes

In [None]:
#Camada de dados

fig = go.Figure()

fig.add_trace(
    go.Scatter(x=brasil.observationdate, y=brasil.deaths, name='Mortes', mode='lines+markers',
              line=dict(color='red'))
)

#Edita o layout
fig.update_layout(title='Mortes por COVID-19 no Brasil')
fig.show()


# Taxa de crescimento

### taxa_crescimento = (presente/passado)**(1/n) - 1

In [None]:
def taxa_crescimento(data, variable, data_inicio=None, data_fim=None):
    # Se data início for None, define como a primeira data de início.
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio.to_datetime(data_inicio)
    
    if data_fim==None:
        data_fim = data.observationdate.iloc[-1]
    else:
        data_fim = data_fim.to_datetime(data_fim)
    
    # Definindo os valores do presente e passado
    passado = data.loc[data.observationdate == data_inicio, variable].values[0]
    presente = data.loc[data.observationdate == data_fim, variable].values[0]
    
    #Define o número de pontos no tempo que vamos avaliar
    
    n = (data_fim - data_inicio).days
    
    # Calcular a taxa
    
    taxa = (presente/passado)**(1/n)-1
    
    
    #retornando a taxa em porcentagem
    return taxa*100
    

### Taxa de crescimento médio no Brasil em todo o período

In [None]:
taxa_crescimento(brasil, 'confirmed')

### Estabelecendo a taxa de crescimento diário

In [None]:
def taxa_crescimento_diario(data, variable, data_inicio=None):
     # Se data início for None, define como a primeira data de início.
    if data_inicio == None:
        data_inicio = data.observationdate.loc[data[variable] > 0].min()
    else:
        data_inicio.to_datetime(data_inicio)
    
    data_fim = data.observationdate.max()
    
    #Define o número de pontos no tempo que vamos avaliar
    
    n = (data_fim - data_inicio).days
    
# Taxa calculada de um dia para o outro
    taxas  = list(map(
        lambda x: (data[variable].iloc[x] - data[variable].iloc[x-1]) / data[variable].iloc[x-1],
        range(1, n+1) 
    ))
    return np.array(taxas) * 100

In [None]:
tx_dia = taxa_crescimento_diario(brasil, 'confirmed')

In [None]:
tx_dia

In [None]:
primeiro_dia = brasil.observationdate.loc[brasil.confirmed > 0].min()

px.line(x=pd.date_range(primeiro_dia, brasil.observationdate.max())[1:],
       y=tx_dia, title='Taxa de crescimento de casos confirmados no Brasil')

# Predições

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt

In [None]:
confirmados = brasil.confirmed
confirmados.index = brasil.observationdate
confirmados

In [None]:
res = seasonal_decompose(confirmados)

In [None]:
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(10,8))

ax1.plot(res.observed)
ax2.plot(res.trend)
ax3.plot(res.seasonal)
ax4.plot(confirmados.index, res.resid)
ax4.axhline(0, linestyle='dashed', c='black')
plt.show()

# Modelando dados com biblioteca ARIMA

In [None]:
%pip install pmdarima

In [None]:
from pmdarima.arima import auto_arima
modelo = auto_arima(confirmados)

In [None]:
fig = go.Figure(go.Scatter(
    
    x=confirmados.index, y=confirmados, name='Observados'
    
))


fig.add_trace(go.Scatter(
    x=confirmados.index, y=modelo.predict_in_sample(), name='Preditos'

))


fig.add_trace(go.Scatter(
    
    x=pd.date_range('2020-05-20', '2020-06-20'), y=modelo.predict(31), name='Forecast'
    
))


fig.update_layout(title='Previsão de casos confirmados no Brasil para os próximos 30 dias.')

fig.show()

# Modelo de crescimento com a biblioteca fbprophet

In [None]:
%conda install -c conda-forge fbprophet -y

In [None]:
from prophet import Prophet

In [None]:
# preparando os dados
train = confirmados.reset_index()[:-5]
test = confirmados.reset_index()[-5:]

# renomeia colunas
train.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test.rename(columns={"observationdate":"ds","confirmed":"y"},inplace=True)
test = test.set_index("ds")
test = test['y']

profeta = Prophet(growth="logistic", changepoints=['2020-03-21', '2020-03-30', '2020-04-25', '2020-05-03', '2020-05-10'])

#pop = 1000000
pop = 211463256 #https://www.ibge.gov.br/apps/populacao/projecao/box_popclock.php
train['cap'] = pop

# Treina o modelo
profeta.fit(train)

# Construindo previsões para o futuro
future_dates = profeta.make_future_dataframe(periods=200)
future_dates['cap'] = pop
forecast =  profeta.predict(future_dates)

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=forecast.ds, y=forecast.yhat, name='Predição'))
fig.add_trace(go.Scatter(x=test.index, y=test, name='Observados - Teste'))
fig.add_trace(go.Scatter(x=train.ds, y=train.y, name='Observados - Treino'))
fig.update_layout(title='Predições de casos confirmados no Brasil')
fig.show()