<a href="https://colab.research.google.com/github/vvalcristina/alura_apirest/blob/master/COVID_19.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 **Análise de Dados Covid-19**



Análise das séries temporais sobre a contaminação do COVID-19.
Utilizando o DataSet do [Kagle](https://www.kaggle.com/imdevskp/corona-virus-report).

In [0]:
#Importações de dados
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go

In [0]:
#Importando o DataSet
df = pd.read_csv("covid_19_clean_complete.csv", parse_dates=['Date'])

In [3]:
#Verificando o DataFrame
df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered
0,,Afghanistan,33.0,65.0,2020-01-22,0,0,0
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0


**Pré-processamento dos dados**

Antes de iniciarmos as analises removeremos os Warnings do DataSet

In [0]:
import warnings
warnings.filterwarnings('ignore')

Antes de iniciarmos a análise existem 1 fator que devemos nos atentar, as colunas não podem ter caracteres especiais.


In [0]:
#Retirando os caracteres especiais
import re
def corrige_colunas(col_name):
    return re.sub(r"[/| ]", "", col_name)

In [0]:
df.columns = [corrige_colunas(col) for col in df.columns]

In [7]:
#Verificando os dados de coluna
cons = pd.DataFrame({'colunas' : df.columns,
                    'tipo': df.dtypes,
                    'nulos' : df.isna().sum(),
                    'quantidade' : df.shape[0],
                    'unicos': df.nunique()})
cons['percentual'] = round(cons['nulos'] / cons['quantidade'],2)

cons

Unnamed: 0,colunas,tipo,nulos,quantidade,unicos,percentual
ProvinceState,ProvinceState,object,23125,33125,80,0.7
CountryRegion,CountryRegion,object,0,33125,188,0.0
Lat,Lat,float64,0,33125,256,0.0
Long,Long,float64,0,33125,259,0.0
Date,Date,datetime64[ns],0,33125,125,0.0
Confirmed,Confirmed,int64,0,33125,5346,0.0
Deaths,Deaths,int64,0,33125,1750,0.0
Recovered,Recovered,int64,0,33125,3217,0.0


Observando as colunas percebemos que apenas a coluna Province/State possui 70% dos seus valores nulos.


In [8]:
df.head()

Unnamed: 0,ProvinceState,CountryRegion,Lat,Long,Date,Confirmed,Deaths,Recovered
0,,Afghanistan,33.0,65.0,2020-01-22,0,0,0
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0


O dataset possui os números de casos confirmados, mortos e recuperados. 

**Casos Ativos**

Para nossa análise os necessitamos saber o total de casos ativos, para isso subtraimos dos casos confirmados o número de mortes e casos recuperados.

In [0]:
#Casos ativos
df['Active'] = df['Confirmed'] - df['Deaths'] - df['Recovered']

**Casos nulos**

Nesse DataSet temos alguns valores nulos, então trataremos esses dados nessa etapa. A forma com que tratamos esses dados é feita de acordo com o método escolhido pelo cientista da análise. 

Nesta análise os valores nulos na coluna *ProvinceState* serão substituídos por um espaço. Já os valores nulos nas colunas *Confirmed, Deaths, Recovered e Ativos* substituímos os valores nulos por 0 (zero).

In [0]:
df[['ProvinceState']] = df[['ProvinceState']].fillna('')
df[['Confirmed','Deaths','Recovered','Active']] = df[['Confirmed','Deaths','Recovered','Active']].fillna('0')

Verificando como ficou nosso DataFrame.

In [11]:
df.head()

Unnamed: 0,ProvinceState,CountryRegion,Lat,Long,Date,Confirmed,Deaths,Recovered,Active
0,,Afghanistan,33.0,65.0,2020-01-22,0,0,0,0
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0


**Analisando os dados temporais**

Agora analisaremos as informações sobre as séries temporais que temos disponíveis.

In [12]:
df.Date.describe()

count                   33125
unique                    125
top       2020-04-09 00:00:00
freq                      265
first     2020-01-22 00:00:00
last      2020-05-25 00:00:00
Name: Date, dtype: object

Temos nesse DataFrame um total de 33125 dados temporais, sendo destes 125 dados únicos. 

A primeira data reportada nesse dataframe é 22 de janeiro de 2020 e a última dia 25 de maio de 2020.

**Agrupando os dados**

Para facilitar as análises os dados serão agrupados.

* Agruparemos os dados por data e região.

In [0]:
df_grouped = df.groupby(['Date', 'CountryRegion'])['Confirmed','Deaths','Recovered','Active'].sum().reset_index()

* Os dados serão organizados em ordem descrescente do local com maior numero de casos, para o menor.

In [14]:
df_grouped.sort_values(by='Confirmed', ascending=False)

Unnamed: 0,Date,CountryRegion,Confirmed,Deaths,Recovered,Active
23486,2020-05-25,US,1662302,98220,379157,1184925
23298,2020-05-24,US,1643246,97720,366736,1178790
23110,2020-05-23,US,1622612,97087,361239,1164286
22922,2020-05-22,US,1600937,95979,350135,1154823
22734,2020-05-21,US,1577147,94702,298418,1184027
...,...,...,...,...,...,...
6031,2020-02-23,Belarus,0,0,0,0
6033,2020-02-23,Belize,0,0,0,0
6034,2020-02-23,Benin,0,0,0,0
6035,2020-02-23,Bhutan,0,0,0,0


* Iremos agrupar os dados por região e ordenar pela ordem decrescente

In [0]:
df_region = df.groupby('CountryRegion')['Confirmed','Deaths','Recovered','Active'].sum().reset_index()

In [16]:
df_region.sort_values(by='Confirmed', ascending=False)

Unnamed: 0,CountryRegion,Confirmed,Deaths,Recovered,Active
174,US,55417854,3123056,8043776,44251022
85,Italy,11665792,1535321,4210157,5920314
158,Spain,11654432,1274893,5619895,4759644
178,United Kingdom,8883938,1291876,42668,7549394
66,Germany,8865057,311294,5940931,2612832
...,...,...,...,...,...
38,Comoros,557,20,112,425
103,MS Zaandam,503,110,0,393
131,Papua New Guinea,351,0,176,175
184,Western Sahara,298,0,180,118


* Agrupando o DataFrame por data a quantidade de casos recuperados, mortos e ativos. 

In [0]:
df_temp = df.groupby('Date')['Confirmed','Deaths','Recovered','Active'].sum().reset_index()

Reeorganizando o Dataframe por data de acordo com a quantidade de casos recuperados, mortos e ativos.

In [0]:
df_temp = df_temp.melt(id_vars="Date", value_vars=['Recovered', 'Deaths', 'Active'],
                 var_name='Case', value_name='Count')

In [19]:
df_temp.head(5)

Unnamed: 0,Date,Case,Count
0,2020-01-22,Recovered,28
1,2020-01-23,Recovered,30
2,2020-01-24,Recovered,35
3,2020-01-25,Recovered,38
4,2020-01-26,Recovered,51


**Análise de Dados**

Estou trabalhando com o Google Colab e é interessando definirmos o modo offline e renderizadores para que os gráficos sejam exibidos sempre.

In [20]:
from plotly.offline import plot, iplot, init_notebook_mode
init_notebook_mode(connected=True)

import plotly.io as pio
pio.renderers
pio.renderers.default = "colab"

Agora antes de criarmos os gráficos de análise de dados vamos configurar alguns layouts de exibição(cores).

In [0]:
recuperados = '#21bf73'
mortes = '#ff2e63'
ativos = '#fe9801'

In [22]:
import plotly.express as px
fig = px.area(df_temp, 
              x="Date", 
              y="Count", 
              color='Case', 
              height=600,
              title='Casos ao longo do tempo',
              color_discrete_sequence = [recuperados, mortes, ativos])
fig.update_layout(xaxis_rangeslider_visible=True)
fig.show()

**Casos ao longo do tempo**

Agora que temos o gráfico de dados plotados ao longo do tempo podemos plotar um mapa dos casos de acordo com as variações de quantidade de casos por região olhando o panorama mundial desde o final de janeiro até dia 21 de maio de 2020. 

Esse mapa é conhecido como [Mapa de Choropleth](https://plotly.com/python/choropleth-maps/) é composto por polígonos coloridos. É usado para representar variações espaciais de uma quantidade

In [23]:
fig = px.choropleth(df_grouped,                                                   
                    locations="CountryRegion",                                    
                    locationmode='country names',                                  
                    color=np.log(df_grouped["Confirmed"]),                      
                    hover_name='CountryRegion',                                  
                    hover_data=["Confirmed", "Deaths"],                           
                    animation_frame=df_grouped["Date"].dt.strftime('%d-%m-%Y'), 
                    title='Casos ao longo do tempo',                             
                    color_continuous_scale=px.colors.sequential.Oranges)           
fig.update_layout(autosize=True, width=1200, height=800)                          
fig.show()

**Mortes ao longo do tempo**

Conforme foram crescendo o número de casos de Covid-19 também foram crescendo o número de mortos.

In [24]:
fig = px.choropleth(df_grouped,                                                   
                    locations="CountryRegion",                                    
                    locationmode='country names',                                  
                    color=np.log(df_grouped["Deaths"]),                      
                    hover_name='CountryRegion',                                  
                    hover_data=["Confirmed", "Deaths"],                           
                    animation_frame=df_grouped["Date"].dt.strftime('%d-%m-%Y'), 
                    title='Mortes ao longo do tempo',                             
                    color_continuous_scale=px.colors.sequential.Oranges)           
fig.update_layout(autosize=False, width=1200, height=800)                          
fig.show()

**Painel**


Vamos construir um painel agrupando por país com o maior número de mortes por país.

In [25]:
pip install plotly==4.5.2



In [0]:
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
import plotly.express as px

In [29]:
df_complet = df[df['Date'] == max(df['Date'])]
df_complet.head()

Unnamed: 0,ProvinceState,CountryRegion,Lat,Long,Date,Confirmed,Deaths,Recovered,Active
32860,,Afghanistan,33.0,65.0,2020-05-25,11173,219,1097,9857
32861,,Albania,41.1533,20.1683,2020-05-25,1004,32,795,177
32862,,Algeria,28.0339,1.6596,2020-05-25,8503,609,4747,3147
32863,,Andorra,42.5063,1.5218,2020-05-25,763,51,663,49
32864,,Angola,-11.2027,17.8739,2020-05-25,70,4,18,48


In [30]:
fig = px.treemap(df_complet.sort_values(by='Deaths', ascending=False).reset_index(drop=True), 
                 path=["CountryRegion", "ProvinceState"],
                 values="Deaths",
                 height=600,
                 title='Número de Mortes Confirmadas',
                 color_discrete_sequence = px.colors.qualitative.Dark2)
fig.data[0].textinfo = 'label+text+value'
fig.show()

**Agrupando por país a curva da evolução de casos confirmados**

In [32]:
fig = px.line(df_grouped,
              x="Date",
              y="Confirmed",
              color='CountryRegion',
              height=600,
              title='Casos Confirmados',
              color_discrete_sequence = px.colors.qualitative.Dark2 )
fig.show()

**Agrupando por país a curva da evolução do número de mortes**

In [33]:

fig = px.line(df_grouped,
              x="Date",
              y="Deaths",
              color='CountryRegion',
              height=600,
              title='Mortes Confirmadas',
              color_discrete_sequence = px.colors.qualitative.Dark2)
fig.show()

**Gráficos de Folium**



In [0]:
df_temp = df[df['Date'] == max(df['Date'])]

In [0]:
import folium

In [37]:
m = folium.Map(location=[0, 0], tiles='cartodbpositron',
               min_zoom=1, max_zoom=4, zoom_start=1)

for i in range(0, len(df_temp)):
    folium.Circle(
        location=[df_temp.iloc[i]['Lat'], df_temp.iloc[i]['Long']],
        color='crimson', fill='crimson',
        tooltip =   '<li><bold>Country : '+str(df_temp.iloc[i]['CountryRegion'])+
                    '<li><bold>Province : '+str(df_temp.iloc[i]['ProvinceState'])+
                    '<li><bold>Confirmed : '+str(df_temp.iloc[i]['Confirmed'])+
                    '<li><bold>Deaths : '+str(df_temp.iloc[i]['Deaths']),
        radius=int(df_temp.iloc[i]['Confirmed'])**1.1).add_to(m)
m

**Análises dos dados**


Vamos analisar os dados do Brasil:

* Primeiro passo: investigar as variáveis que temos a nossa disposição. Temos as informaçẽos disponíveis por Estado? 

No Brasil não temos a informação de casos de COVID-19 a nível de estado. Verificaremos algumas outras varíaveis para verificar o avanço do COVID-19 no país.