# 05-Conhecimentos de Python para Machine Learning

# Projeto 3: COVID 19 MUNDIAL

Este projeto analisa e implementa um algoritmo de Machine Learning para análise e previsão
da evolução do Covid19 no periódo de 24/02/2019 a 05/09/2019.

## Análise e Exploração de Dados

In [None]:
import numpy as np
import pandas as pd

In [None]:
covidmundial = pd.read_csv('./covid19_mundial.csv', sep=',')

In [None]:
covidmundial.head(3)

In [None]:
covidmundial.shape

In [None]:
# Número de mortes acumuladas por país

totaldeaths = covidmundial.groupby('country').cumulative_deaths.max()

In [None]:
# Organização em ordem decrescente

totaldeaths.sort_values(ascending=False).head(15)

In [None]:
# Casos acumulados por país

casos_total = covidmundial.groupby('country').cumulative_cases.max()

In [None]:
# Organização em ordem decrescente

casos_total.sort_values(ascending=False).head(15)

In [None]:
covidbrasil = covidmundial.loc[covidmundial.country == 'Brazil']

In [None]:
covidbrasil.head(3)

In [None]:
covidbrasil.shape

In [None]:
# Análise dos tipos de variáveis

covidbrasil.dtypes

In [None]:
# Análise dos valores missing

covidbrasil.isnull().sum()

In [None]:
covidmundial.isnull().sum()

### Análise de valores negativos

In [None]:
covidmundial.loc[covidmundial.new_cases < 0, :]

In [None]:
covidmundial.loc[covidmundial.new_cases < 0, :].count()

In [None]:
covidmundial.loc[covidmundial.new_deaths < 0, :].count()

In [None]:
covidbrasil.loc[covidbrasil.new_cases < 0, :].count()

In [None]:
covidbrasil.loc[covidbrasil.new_deaths < 0, :].count()

In [None]:
# Criação de um dataframe com a soma de todos os países por data

covidmundial_sum = covidmundial.groupby('date').agg({'new_cases':'sum','cumulative_cases':'sum',
                                                    'new_deaths':'sum','cumulative_deaths':'sum'}).reset_index()

In [None]:
covidmundial_sum

## Análise Estatística

In [None]:
covidbrasil.describe()

In [None]:
covidbrasil.new_cases.mode()

In [None]:
covidbrasil.new_deaths.mode()

### Análise dos Outliers

In [None]:
import plotly.express as px

In [None]:
px.box(covidbrasil, y='cumulative_cases')

In [None]:
px.box(covidbrasil, y='cumulative_deaths')

### Análise da Normalidade

In [None]:
import seaborn as sns

In [None]:
sns.histplot(covidbrasil, x='cumulative_cases', bins=20, color='brown', kde=True, stat='count');

In [None]:
sns.histplot(covidbrasil, x='cumulative_deaths', bins=20, color='brown', kde=True, stat='count');

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

In [None]:
stats.probplot(covidbrasil['cumulative_cases'], dist='norm', plot=plt)
plt.title('Análise da Normalidade')
plt.show()

In [None]:
stats.probplot(covidbrasil['cumulative_deaths'], dist='norm', plot=plt)
plt.title('Análise da Normalidade')
plt.show()

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(covidbrasil.cumulative_cases, dist='norm')
print('Estatistica do Teste (D) =', round(estatistica,2))
print('p_valor =', p)

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(covidbrasil.cumulative_deaths, dist='norm')
print('Estatistica do Teste (D) =', round(estatistica,2))
print('p_valor =', p)

### Gráfico de dispersão em função das datas

In [None]:
import plotly.express as px

In [None]:
disp = px.scatter(x=covidbrasil.date, y=covidbrasil.cumulative_cases)
disp.update_layout(width=900, height=400,title_text='Número de casos acumulados no Brasil')
disp.update_xaxes(title='Data')
disp.update_yaxes(title='Casos')
disp.show()

In [None]:
disp = px.scatter(x=covidbrasil.date, y=covidbrasil.cumulative_deaths)
disp.update_layout(width=900, height=400,title_text='Número de mortes acumuladas no Brasil')
disp.update_xaxes(title='Data')
disp.update_yaxes(title='Mortes')
disp.show()

In [None]:
plt.subplots(figsize=(10,5))
plt.stackplot(covidbrasil['date'], [covidbrasil['cumulative_cases'], covidbrasil['cumulative_deaths']],
              labels = ['cumulative_cases', 'cumulative_deaths'])
plt.legend(loc = 'upper left')
plt.title('Comparação da evolução dos casos e das mortes no Brasil');

## Correlação Linear

In [None]:
correlacoes = covidbrasil.corr(method='spearman')

In [None]:
correlacoes

In [None]:
plt.figure()
sns.heatmap(correlacoes, annot=True);

## Machine Learning

### Regressão Linear Simples

In [None]:
covidbrasil

In [None]:
covidbrasil.shape

In [None]:
import plotly.express as px

In [None]:
disp = px.scatter(x=covidbrasil.new_cases, y=covidbrasil.new_deaths)
disp.update_layout(width=900, height=400,title_text='Número de mortes em função do número de casos')
disp.update_xaxes(title='Novos casos')
disp.update_yaxes(title='Novas mortes')
disp.show()

In [None]:
x = covidbrasil.iloc[:, 4].values # índice 4 - novos casos
y = covidbrasil.iloc[:, 6].values # índice 6 - novas mortes

In [None]:
x

In [None]:
y

In [None]:
# Transformando em matriz
# a variável x precisa ser transformada em matriz
x = x.reshape(-1,1)

In [None]:
x

### Separando base de dados em teste e treinamento

In [None]:
from sklearn.model_selection import train_test_split
x_treinamento, x_teste, y_treinamento, y_teste = train_test_split(x,y,
                                                                  test_size = 0.25,
                                                                  random_state = 2)

In [None]:
x_treinamento

In [None]:
x_teste

In [None]:
y_treinamento

In [None]:
y_teste

In [None]:
x_treinamento.size

In [None]:
x_teste.size

In [None]:
y_treinamento.size

In [None]:
y_teste.size

### Criação do Modelo de Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x_treinamento, y_treinamento)
score = regressor.score(x_treinamento, y_treinamento)

In [None]:
# Gráfico com dados de treinamento

import matplotlib.pyplot as plt
plt.scatter(x_treinamento, y_treinamento)
plt.plot(x_treinamento, regressor.predict(x_treinamento), color='red');

In [None]:
score # R quadrado

In [None]:
previsoes = regressor.predict(x_teste)

In [None]:
# Gráfico com os dados de teste

plt.scatter(x_teste, y_teste)
plt.plot(x_teste, regressor.predict(x_teste), color='red');

In [None]:
previsao = regressor.predict(np.array(80000).reshape(1, -1)) # previsao para 80000 casos
previsao

In [None]:
# Coeficiente Linear

regressor.intercept_

In [None]:
# Coeficiente Angular

regressor.coef_

In [None]:
# Equação: mortes = 201,03944 + 0,02188*casos

### Métricas de Desempenho

In [None]:
# Coeficiente de Determinação (R^2)

regressor.score(x_teste, y_teste)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
print('Erro Médio Absoluto (MAE):', mean_absolute_error(y_teste, previsoes))
print('Erro Quadrático Médio (MSE):', mean_squared_error(y_teste, previsoes))
print('Raiz do Error Quadrático Médio (RMSE):', np.sqrt(mean_squared_error(y_teste, previsoes)))

### Regressão Polinomial

In [None]:
covidbrasil

In [None]:
x = covidbrasil.iloc[:, 0].values
x

In [None]:
# Transformar as datas em sequência numérica (1, 2, 3, 4...) e em matriz

x = np.arange(1,len(x) + 1).reshape(-1,1)
x

In [None]:
y = covidbrasil.iloc[:,5].values
y

### Separando base dados em treinamento e teste

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split

In [None]:
x_treinamento, x_teste, y_treinamento, y_teste = train_test_split(x, y, 
                                                                  test_size=0.25, 
                                                                  random_state=2)

In [None]:
x_treinamento.size

In [None]:
x_teste.size

In [None]:
y_treinamento.size

In [None]:
y_teste.size

In [None]:
poly = PolynomialFeatures(degree=2)
x_treinamento_poly = poly.fit_transform(x_treinamento)
x_teste_poly = poly.transform(x_teste)

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x_treinamento_poly, y_treinamento)
score = regressor.score(x_treinamento_poly, y_treinamento)

In [None]:
previsoes = regressor.predict(x_teste_poly)

In [None]:
# Criação de uma sequência para previsão

forecast = np.arange(len(x)+20).reshape(-1,1) # +20 é uma previsão de 20 dias a mais.

In [None]:
forecast.shape

In [None]:
x_train_total = poly.transform(forecast)
x_train_total.shape

In [None]:
x_train_total

In [None]:
previsao_total = regressor.predict(x_train_total)
len(previsao_total)

In [None]:
previsao_total

In [None]:
plt.subplots(figsize=(10,5))
plt.plot(forecast[: -20], y, color='red') # excluir os 20 últimos valores
plt.plot(forecast, previsao_total, linestyle='dashed')
plt.title('Casos de COVID-19 no Brasil')
plt.xlabel('A partir de 26/02/2020')
plt.ylabel('Número de casos')
plt.legend(['Casos Acumulados', 'Previsão']);

# a linha em vermelho são os 192 dias, ou seja, os casos reais
# a linha em azul representa a previsão, considerando os 20 dias a mais

In [None]:
previsao_total[200]

### Métricas de Desempenho

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
# Coeficiente de Determinação (R^2)
score

In [None]:
poly_teste_pred = regressor.predict(x_teste_poly)

In [None]:
print('Erro Médio Absoluto (MAE):', mean_absolute_error(poly_teste_pred, y_teste))
print('Erro Quadrático Médio (MSE):', mean_squared_error(poly_teste_pred, y_teste))
print('Raiz do Error Quadrático Médio (RMSE):', np.sqrt(mean_squared_error(poly_teste_pred, y_teste)))