In [5]:
import pandas as pd

In [3]:
file = 'countries-aggregated.csv'
df = pd.read_csv(file, sep = ',', parse_dates = ['Date'])

In [6]:
import warnings
warnings.filterwarnings('ignore')

In [5]:
df.head(10)

Unnamed: 0,Date,Country,Confirmed,Recovered,Deaths
0,2020-01-22,Afghanistan,0,0,0
1,2020-01-22,Albania,0,0,0
2,2020-01-22,Algeria,0,0,0
3,2020-01-22,Andorra,0,0,0
4,2020-01-22,Angola,0,0,0
5,2020-01-22,Antigua and Barbuda,0,0,0
6,2020-01-22,Argentina,0,0,0
7,2020-01-22,Armenia,0,0,0
8,2020-01-22,Australia,0,0,0
9,2020-01-22,Austria,0,0,0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21996 entries, 0 to 21995
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       21996 non-null  datetime64[ns]
 1   Country    21996 non-null  object        
 2   Confirmed  21996 non-null  int64         
 3   Recovered  21996 non-null  int64         
 4   Deaths     21996 non-null  int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 859.3+ KB


In [7]:
# Casos ativos = Casos Confirmados - Mortes - Casos Recoperados
df['Active'] = df['Confirmed'] - df['Deaths'] - df['Recovered']


In [9]:
# Preenchendo missing values 
df[['Confirmed', 'Deaths', 'Recovered', 'Active']] = df[['Confirmed', 'Deaths', 'Recovered', 'Active']].fillna(0)

In [33]:
# Convertendo datatypes
df['Recovered'] = df['Recovered'].astype(int)

In [11]:
# imprimindo 5 primeiras linhas
df.head()

Unnamed: 0,Date,Country,Confirmed,Recovered,Deaths,Active
0,2020-01-22,Afghanistan,0,0,0,0
1,2020-01-22,Albania,0,0,0,0
2,2020-01-22,Algeria,0,0,0,0
3,2020-01-22,Andorra,0,0,0,0
4,2020-01-22,Angola,0,0,0,0


**Examinando os dados temporais**

In [34]:
df.Date.describe()

count                   21996
unique                    117
top       2020-04-09 00:00:00
freq                      188
first     2020-01-22 00:00:00
last      2020-05-17 00:00:00
Name: Date, dtype: object

**Agrupando dados**

In [13]:
# Obtem o numero de casos confirmados, mortes, recuperados e ativos agrupado por data e por região.
df_agrupado = df.groupby(['Date', 'Country'])['Confirmed', 'Deaths', 'Recovered', 'Active'].sum().reset_index()

In [14]:
# Ordena o dataframe por mais casos confirmados
df_agrupado.sort_values(by = 'Confirmed', ascending = False)

Unnamed: 0,Date,Country,Confirmed,Deaths,Recovered,Active
21982,2020-05-17,US,1486757,89562,272265,1124930
21794,2020-05-16,US,1467820,88754,268376,1110690
21606,2020-05-15,US,1442824,87530,250747,1104547
21418,2020-05-14,US,1417774,85898,246414,1085462
21230,2020-05-13,US,1390406,84119,243430,1062857
...,...,...,...,...,...,...
5960,2020-02-22,Papua New Guinea,0,0,0,0
5961,2020-02-22,Paraguay,0,0,0,0
5962,2020-02-22,Peru,0,0,0,0
5964,2020-02-22,Poland,0,0,0,0


In [15]:
# Obtem o numero de casos confirmados, mortes, recuperados e ativos agrupando por região.
df_group_paises = df.groupby('Country')['Confirmed', 'Deaths', 'Recovered', 'Active'].sum().reset_index()

In [16]:
# ordena por paises com mais casos confirmados
df_group_paises.sort_values(by = 'Confirmed', ascending=False)

Unnamed: 0,Country,Confirmed,Deaths,Recovered,Active
174,US,42716908,2363356,5421209,34932343
85,Italy,9837185,1275127,3128568,5433490
158,Spain,9783911,1050686,4416887,4316338
36,China,8114893,342915,6062504,1709474
66,Germany,7432610,245782,4674896,2511932
...,...,...,...,...,...
19,Bhutan,401,0,158,243
132,Papua New Guinea,287,0,112,175
184,Western Sahara,244,0,132,112
38,Comoros,137,12,12,113


In [17]:
# Agrupa quantidade de casos recuperados, mortes e ativos por data
temp = df.groupby('Date')['Recovered', 'Deaths', 'Active'].sum().reset_index()

In [18]:
# Remodela o dataframe com variável e valor para ter quantidades de recuperados, mortos e ativos
temp = temp.melt(id_vars = "Date", value_vars = ['Recovered', 'Deaths', 'Active'],
                 var_name = 'Case', value_name = 'Count')

In [19]:
temp.head(20)

Unnamed: 0,Date,Case,Count
0,2020-01-22,Recovered,28
1,2020-01-23,Recovered,30
2,2020-01-24,Recovered,36
3,2020-01-25,Recovered,39
4,2020-01-26,Recovered,52
5,2020-01-27,Recovered,61
6,2020-01-28,Recovered,107
7,2020-01-29,Recovered,126
8,2020-01-30,Recovered,143
9,2020-01-31,Recovered,222


In [20]:
# habilita modo offline
from plotly.offline import plot, iplot, init_notebook_mode
init_notebook_mode(connected=True)

In [21]:
# Definindo o renderizador:
import plotly.io as pio
pio.renderers
pio.renderers.default = "notebook_connected"

In [22]:
# Cores
recuperados = '#21bf73'
mortes = '#ff2e63'
ativos = '#fe9801'

In [11]:
import plotly.express as px
fig = px.area(temp, 
              x="Date", 
              y="Count", 
              color='Case', 
              height=600,
              title='Casos ao longo do tempo',
              color_discrete_sequence = [recuperados, mortes, ativos])
fig.update_layout(xaxis_rangeslider_visible=True)
fig.show()

ModuleNotFoundError: No module named 'matplotlib.plotly'

Casos ao longo do tempo

In [24]:
import numpy as np

In [10]:
# Mapa de Choropleth é um mapa composto por polígonos coloridos. 
# É usado para representar variações espaciais de uma quantidade
fig = px.choropleth(df_agrupado,                                                   # casos agrupados por país
                    locations="Country",                                    # definindo as regiões no mapa
                    locationmode='country names',                                  # define o modo de localização para todas regiões
                    color=np.log(df_agrupado["Confirmed"]),                        # define a cor pelo o valor de casos confirmados (aplica o log)
                    hover_name='Country',                                   # define o texto interativo com o nome da região
                    hover_data=["Confirmed", "Deaths"],                            # define o texto interativo com o numero de casos confirmasos e mortes
                    animation_frame=df_agrupado["Date"].dt.strftime('%d-%m-%Y'),   # define o animate_frame com as datas
                    title='Casos ao longo do tempo',                               # define título
                    color_continuous_scale=px.colors.sequential.Magenta)           # define a paleta de cores
fig.update_layout(autosize=False, width=1000, height=800)                          # define tamanho da figura
fig.show()

NameError: name 'px' is not defined

Mortes ao longo do tempo

In [26]:
# Mapa de Choropleth é um mapa composto por polígonos coloridos. 
# É usado para representar variações espaciais de uma quantidade
fig = px.choropleth(df_agrupado,                                                   # casos agrupados por país
                    locations="Country",                                    # definindo as regiões no mapa
                    locationmode='country names',                                  # define o modo de localização para todas regiões
                    color=np.log(df_agrupado["Deaths"]),                        # define a cor pelo o valor de casos confirmados (aplica o log)
                    hover_name='Country',                                   # define o texto interativo com o nome da região
                    hover_data=["Confirmed", "Deaths"],                            # define o texto interativo com o numero de casos confirmasos e mortes
                    animation_frame=df_agrupado["Date"].dt.strftime('%d-%m-%Y'),   # define o animate_frame com as datas
                    title='Mortes ao longo do tempo',                               # define título
                    color_continuous_scale=px.colors.sequential.Magenta)           # define a paleta de cores
fig.update_layout(autosize=False, width=1200, height=800)
fig.show()

Painel

In [27]:
#!pip install plotly==4.5.2

In [28]:
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
import plotly.express as px

In [29]:
# filtra os dados considerando o último dia da base de dados
completo = df[df['Date'] == max(df['Date'])]

In [30]:
# imprime as 5 primeiras linhas
completo.head()

Unnamed: 0,Date,Country,Confirmed,Recovered,Deaths,Active
21808,2020-05-17,Afghanistan,6664,778,169,5717
21809,2020-05-17,Albania,946,715,31,200
21810,2020-05-17,Algeria,7019,3507,548,2964
21811,2020-05-17,Andorra,761,617,51,93
21812,2020-05-17,Angola,48,17,2,29


In [31]:
# Plota painel                        
fig = px.treemap(completo.sort_values(by='Confirmed', ascending=False).reset_index(drop=True), 
                 path=["Country"],
                 values="Confirmed",
                 height=600,
                 title='Número de Casos Confirmados',
                 color_discrete_sequence = px.colors.qualitative.Dark2)
fig.data[0].textinfo = 'label+text+value'
fig.show()
# Plota Painel
fig = px.treemap(completo.sort_values(by='Deaths', ascending=False).reset_index(drop=True), 
                 path=["Country"],
                 values="Deaths",
                 height=600,
                 title='Número de Mortes Confirmadas',
                 color_discrete_sequence = px.colors.qualitative.Dark2)
fig.data[0].textinfo = 'label+text+value'
fig.show()

Picos de casos confirmados e mortes

In [32]:
fig = px.line(df_agrupado,
              x="Date",
              y="Confirmed",
              color='Country/Region',
              height=600,
              title='Casos Confirmados',
              color_discrete_sequence = px.colors.qualitative.Dark2 )
fig.show()

fig = px.line(df_agrupado,
              x="Date",
              y="Deaths",
              color='Country/Region',
              height=600,
              title='Mortes Confirmadas',
              color_discrete_sequence = px.colors.qualitative.Dark2)
fig.show()

ValueError: Value of 'color' is not the name of a column in 'data_frame'. Expected one of ['Date', 'Country', 'Confirmed', 'Deaths', 'Recovered', 'Active'] but received: Country/Region