# Aprendizado de Máquina Aplicada à Análise de Dados do COVID-19

- Professor: Filipe Verri
- Aluno: Paulo Giovani de Faria Zeferino

Este terceiro notebook contém os passos iniciais do pré-processamento de dados utilizado para o desenvolvimento do artigo **Aprendizado de Máquina Aplicada à Análise de Dados do COVID-19**, solicitado pelo professor Filipe Verri para a disciplina PO-233/2020 Aprendizado de Máquina, oferecida pelo curso de pós-graduação do ITA. 

# 1. Importação das bibliotecas

In [3]:
# Importa as bibliotecas
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# Configura os parâmetros do Matplotlib
%matplotlib inline

plt.rcParams.update({'font.size': 20, 
                     'figure.figsize': (10, 8),
                     'figure.dpi': 90,
                     'savefig.dpi': 300,
                     'axes.grid': True,
                     'axes.axisbelow': True, 
                     'grid.color': 'k', 
                     'grid.linestyle': ':', 
                     'grid.linewidth': 0.5,
                     'grid.alpha': 0.5})

# 2. Importação do arquivo de dados

In [5]:
# Importa o arquivo de dados
covid_df = pd.read_csv('data/artigo/covid19.csv')

In [None]:
# Habilita/Desabilita a opção para exibir todas as linhas
#pd.set_option('display.max_rows', None)

In [None]:
# Ajusta a quantidade de casas decimais
#pd.set_option('display.float_format', lambda x: '%.4f' % x)
#pd.set_option('display.precision', 3)

# Volta para a formatação padrão
#pd.reset_option('display.float_format')

In [6]:
# Exibe o cabeçalho do arquivo
covid_df.head()

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.0,65.0,18734.0,38928346.0,25.0,652860.0,60.0,...,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.1533,20.1683,15418.0,2877797.0,63.0,27400.0,105.0,...,36.0,29.4,11.67,2.9,13.95,69.9,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.0339,1.6596,172781.0,43851044.0,73.0,2381740.0,18.0,...,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.5063,1.5218,91527.0,77265.0,88.0,470.0,164.0,...,,32.5,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0


In [7]:
# Descreve os tipos de dados de cada atributo
covid_df.dtypes

Código do País                                 object
País/Região                                    object
Província/Estado                               object
Latitude                                      float64
Longitude                                     float64
PIB 2019                                      float64
População                                     float64
População Urbana                              float64
Área (Km/2)                                   float64
Densidade (Km/2)                              float64
Taxa de Fertilidade                           float64
Média de Idade                                float64
Taxa de Fumantes                              float64
Taxa de Mortalidade por Doenças Pulmonares    float64
Total de Leitos Hospitalares                  float64
Temperatura Média (Janeiro - Março)           float64
Taxa de Umidade (Janeiro - Março)             float64
Data do Primeiro Caso                          object
Data                        

In [8]:
# Exibe a estatística descritiva do DataFrame, incluindo as colunas categóricas
covid_df.describe(include='all')

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
count,20995,22270,6800,22270.0,22270.0,20995.0,21250.0,20825.0,21250.0,21250.0,...,20740.0,16915.0,20315.0,20995.0,18615.0,18615.0,20995,22270,22270.0,22270.0
unique,169,185,80,,,,,,,,...,,,,,,,48,85,,
top,CHN,China,Tianjin,,,,,,,,...,,,,,,,1/10/2020,3/14/20,,
freq,2805,2805,85,,,,,,,,...,,,,,,,2805,262,,
mean,,,,21.480054,22.337539,2543497.0,222571900.0,64.702041,2386026.0,305.028,...,33.5,21.898492,28.760962,3.40779,15.581126,65.073592,,,1481.740144,79.564122
std,,,,24.712085,70.779624,4827528.0,483908400.0,20.319098,3762297.0,1749.463317,...,8.564572,7.623802,18.779781,2.257748,10.830042,16.848413,,,14556.717948,890.463746
min,,,,-51.7963,-135.0,593.0,801.0,13.0,0.0,2.0,...,15.0,3.7,6.29,0.1,-9.883333,10.983333,,,0.0,0.0
25%,,,,7.54,-23.0418,23918.0,5106626.0,55.0,54390.0,32.0,...,27.75,15.0,17.81,1.6,8.983333,52.083333,,,0.0,0.0
50%,,,,23.65975,20.921188,246953.0,21158260.0,64.0,305060.0,109.5,...,38.0,23.45,22.34,2.9,11.266667,71.4,,,2.0,0.0
75%,,,,41.2044,81.0,1730914.0,65273510.0,82.0,1943950.0,153.0,...,40.25,25.55,32.01,4.2,25.783333,77.0,,,113.0,1.0


In [9]:
# Exibe o número de observações distintas para cada coluna do DataFrame
covid_df.nunique()

Código do País                                 169
País/Região                                    185
Província/Estado                                80
Latitude                                       254
Longitude                                      257
PIB 2019                                       170
População                                      173
População Urbana                                74
Área (Km/2)                                    173
Densidade (Km/2)                               126
Taxa de Fertilidade                             47
Média de Idade                                  34
Taxa de Fumantes                               112
Taxa de Mortalidade por Doenças Pulmonares     160
Total de Leitos Hospitalares                    68
Temperatura Média (Janeiro - Março)            135
Taxa de Umidade (Janeiro - Março)              136
Data do Primeiro Caso                           48
Data                                            85
Casos Confirmados              

# 3. Pré-processamento dos Dados


In [10]:
# Cria uma cópia do dataframe
df = covid_df.copy(deep=True)

In [11]:
# Exibe o cabeçalho
df.head()

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.0,65.0,18734.0,38928346.0,25.0,652860.0,60.0,...,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.1533,20.1683,15418.0,2877797.0,63.0,27400.0,105.0,...,36.0,29.4,11.67,2.9,13.95,69.9,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.0339,1.6596,172781.0,43851044.0,73.0,2381740.0,18.0,...,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.5063,1.5218,91527.0,77265.0,88.0,470.0,164.0,...,,32.5,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0


In [12]:
# Exibe o total de valores ausentes de cada coluna
df.isnull().sum()#.sort_values(ascending = False)

Código do País                                 1275
País/Região                                       0
Província/Estado                              15470
Latitude                                          0
Longitude                                         0
PIB 2019                                       1275
População                                      1020
População Urbana                               1445
Área (Km/2)                                    1020
Densidade (Km/2)                               1020
Taxa de Fertilidade                            1530
Média de Idade                                 1530
Taxa de Fumantes                               5355
Taxa de Mortalidade por Doenças Pulmonares     1955
Total de Leitos Hospitalares                   1275
Temperatura Média (Janeiro - Março)            3655
Taxa de Umidade (Janeiro - Março)              3655
Data do Primeiro Caso                          1275
Data                                              0
Casos Confir

In [13]:
# Número distintos de países, de acordo com código
df['Código do País'].nunique()

169

In [14]:
# Exibe somente as linhas onde o Código do Pais é nulo
df[pd.isnull(covid_df['Código do País'])]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,,Angola,,-11.202700,17.873900,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0
88,,Diamond Princess,,0.000000,0.000000,,,,,,...,,,,,,,,1/22/20,0,0
179,,Papua New Guinea,,-6.315000,143.955500,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/22/20,0,0
239,,West Bank and Gaza,,31.952200,35.233200,,,,,,...,,,,,,,,1/22/20,0,0
245,,Kosovo,,42.602636,20.902977,,,,,,...,,,,,,,,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22263,,Malawi,,-13.254308,34.301525,,19129952.0,18.0,94280.0,203.0,...,18.0,,,,,,,4/15/20,16,2
22266,,South Sudan,,6.877000,31.307000,,11193725.0,25.0,610952.0,18.0,...,19.0,,,,,,,4/15/20,4,0
22267,,Western Sahara,,24.215500,-12.885800,,597339.0,87.0,266000.0,2.0,...,28.0,,,,,,,4/15/20,6,0
22268,,Sao Tome and Principe,,0.186360,6.613081,,,,,,...,,,,,,,,4/15/20,4,0


## 3.1 - Remove as linhas com os dados dos navios de cruzeiro

In [15]:
# Lista com o nome dos navios de cruzeiro em quarentena
navios = ['Diamond Princess', 'MS Zaandam', 'MS Westerdam', 'World Dream', 'Costa Serena', 'Costa Victoria', 'Norwegian Jewel', 
          'Grand Princess', 'A Sara', 'Costa Magica', 'Braemar', 'Costa Luminosa', 'Silver Explorer', 'Silver Shadow', 
          'Ruby Princess', 'Ovation of the Seas', 'Voyager of the Seas', 'Artania', 'Costa Favolosa', 'Horizon', 
          'Oasis of the Seas', 'Liberty of the Seas', 'Coral Princess', 'Celebrity Solstice', 'Disney Wonder', 'Greg Mortimer',
          'Pride of America', 'Celebrity Flora', 'MS Rotterdam', 'River Anuket']

# Habilita/Desabilita a opção par exibir todas as linhas
pd.set_option('display.max_rows', False)

# Exibe as linhas onde o 'País/Região' seja algum navio de cruzeiro
df[df['País/Região'].isin(navios)]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
88,,Diamond Princess,,0.0,0.0,,,,,,...,,,,,,,,1/22/20,0,0
250,,MS Zaandam,,0.0,0.0,,,,,,...,,,,,,,,1/22/20,0,0
350,,Diamond Princess,,0.0,0.0,,,,,,...,,,,,,,,1/23/20,0,0
512,,MS Zaandam,,0.0,0.0,,,,,,...,,,,,,,,1/23/20,0,0
612,,Diamond Princess,,0.0,0.0,,,,,,...,,,,,,,,1/24/20,0,0
774,,MS Zaandam,,0.0,0.0,,,,,,...,,,,,,,,1/24/20,0,0
874,,Diamond Princess,,0.0,0.0,,,,,,...,,,,,,,,1/25/20,0,0
1036,,MS Zaandam,,0.0,0.0,,,,,,...,,,,,,,,1/25/20,0,0
1136,,Diamond Princess,,0.0,0.0,,,,,,...,,,,,,,,1/26/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [16]:
# Linhas onde o 'País/Região' seja algum navio de cruzeiro
linhas = df[df['País/Região'].isin(navios)]

# Remove as linhas com os dados somente dos navios de cruzeiro em quarentena
df = df.drop(linhas.index)

In [17]:
# Exibe o dataframe
df

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.000000,65.000000,18734.0,38928346.0,25.0,652860.0,60.0,...,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.153300,20.168300,15418.0,2877797.0,63.0,27400.0,105.0,...,36.0,29.40,11.67,2.9,13.950000,69.900000,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.033900,1.659600,172781.0,43851044.0,73.0,2381740.0,18.0,...,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.506300,1.521800,91527.0,77265.0,88.0,470.0,164.0,...,,32.50,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,,Angola,,-11.202700,17.873900,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0
5,ATG,Antigua and Barbuda,,17.060800,-61.796400,1688.0,97929.0,26.0,440.0,223.0,...,34.0,,11.76,3.8,,,3/12/2020,1/22/20,0,0
6,ARG,Argentina,,-38.416100,-63.616700,445469.0,45195774.0,93.0,2736690.0,17.0,...,32.0,23.95,29.27,5.0,32.816667,43.616667,3/2/2020,1/22/20,0,0
7,ARM,Armenia,,40.069100,45.038200,13444.0,2963243.0,63.0,28470.0,104.0,...,35.0,26.90,23.86,4.2,7.100000,58.500000,2/29/2020,1/22/20,0,0
8,AUS,Australia,Australian Capital Territory,-35.473500,149.012400,1376255.0,25499884.0,86.0,7682300.0,3.0,...,38.0,14.90,18.79,3.8,25.783333,64.233333,1/24/2020,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


## 3.2 - Atualiza o Código do País -> NaN

Foram utilizadas as informações disponíveis nos seguintes sites:

- https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3
- https://www.iban.com/country-codes
- https://laendercode.net/en/3-letter-list.html

In [20]:
# Exibe somente as linhas onde o Código do Pais é nulo
df[pd.isnull(df['Código do País'])]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,,Angola,,-11.202700,17.873900,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0
179,,Papua New Guinea,,-6.315000,143.955500,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/22/20,0,0
239,,West Bank and Gaza,,31.952200,35.233200,,,,,,...,,,,,,,,1/22/20,0,0
245,,Kosovo,,42.602636,20.902977,,,,,,...,,,,,,,,1/22/20,0,0
246,,Burma,,21.916200,95.956000,,,,,,...,,,,,,,,1/22/20,0,0
251,,Botswana,,-22.328500,24.684900,,2351627.0,73.0,566730.0,4.0,...,24.0,,,,,,,1/22/20,0,0
252,,Burundi,,-3.373100,29.918900,,11890784.0,14.0,25680.0,463.0,...,17.0,,,,,,,1/22/20,0,0
253,,Sierra Leone,,8.460555,-11.779889,,7976983.0,43.0,72180.0,111.0,...,19.0,,,,,,,1/22/20,0,0
255,,Malawi,,-13.254308,34.301525,,19129952.0,18.0,94280.0,203.0,...,18.0,,,,,,,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [21]:
# Exibe somente as linhas para um país específico
pais = 'Angola'

df[df['País/Região'] == pais]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0
266,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/23/20,0,0
528,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/24/20,0,0
790,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/25/20,0,0
1052,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/26/20,0,0
1314,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/27/20,0,0
1576,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/28/20,0,0
1838,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/29/20,0,0
2100,,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/30/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [22]:
# País desejado e novo ID para o lugar de NaN
pais = 'Angola'
sigla = 'AGO'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [23]:
# Exibe somente as linhas para um país específico
pais = 'Papua New Guinea'

df[df['País/Região'] == pais]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
179,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/22/20,0,0
441,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/23/20,0,0
703,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/24/20,0,0
965,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/25/20,0,0
1227,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/26/20,0,0
1489,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/27/20,0,0
1751,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/28/20,0,0
2013,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/29/20,0,0
2275,,Papua New Guinea,,-6.315,143.9555,,8947024.0,13.0,452860.0,20.0,...,22.0,,,,,,,1/30/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [24]:
# País desejado e novo ID para o lugar de NaN
pais = 'Papua New Guinea'
sigla = 'PNG'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [25]:
# País desejado e novo ID para o lugar de NaN
pais = 'West Bank and Gaza'
sigla = 'PSE'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [26]:
# País desejado e novo ID para o lugar de NaN
pais = 'Kosovo'
sigla = 'XKX'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [27]:
# País desejado e novo ID para o lugar de NaN
pais = 'Burma'
sigla = 'MMR'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [28]:
# País desejado e novo ID para o lugar de NaN
pais = 'Botswana'
sigla = 'BWA'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [29]:
# País desejado e novo ID para o lugar de NaN
pais = 'Burundi'
sigla = 'BDI'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [30]:
# País desejado e novo ID para o lugar de NaN
pais = 'Sierra Leone'
sigla = 'SLE'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [31]:
# País desejado e novo ID para o lugar de NaN
pais = 'Malawi'
sigla = 'MWI'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [32]:
# País desejado e novo ID para o lugar de NaN
pais = 'South Sudan'
sigla = 'SSD'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [35]:
# País desejado e novo ID para o lugar de NaN
pais = 'Western Sahara'
sigla = 'ESH'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [34]:
# País desejado e novo ID para o lugar de NaN
pais = 'Sao Tome and Principe'
sigla = 'STP'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [36]:
# País desejado e novo ID para o lugar de NaN
pais = 'Yemen'
sigla = 'YEM'

# Atualiza o ID dessas linhas
df.loc[((df['País/Região'] == pais) & (df['Código do País'].isnull()), 'Código do País')] = sigla

In [37]:
# Exibe somente as linhas onde o Código do Pais é nulo
df[pd.isnull(df['Código do País'])]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades


## 3.3 - Atualiza o PIB 2019 -> NaN

Foram utilizadas as informações disponíveis nos seguintes sites:

- https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3
- https://pt.countryeconomy.com/paises

In [38]:
# Cria uma cópia do dataframe atual
df2 = df.copy(deep=True)

In [39]:
# Exibe o dataframe
df2

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),...,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.000000,65.000000,18734.0,38928346.0,25.0,652860.0,60.0,...,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.153300,20.168300,15418.0,2877797.0,63.0,27400.0,105.0,...,36.0,29.40,11.67,2.9,13.950000,69.900000,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.033900,1.659600,172781.0,43851044.0,73.0,2381740.0,18.0,...,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.506300,1.521800,91527.0,77265.0,88.0,470.0,164.0,...,,32.50,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,AGO,Angola,,-11.202700,17.873900,,32866272.0,67.0,1246700.0,26.0,...,17.0,,,,,,,1/22/20,0,0
5,ATG,Antigua and Barbuda,,17.060800,-61.796400,1688.0,97929.0,26.0,440.0,223.0,...,34.0,,11.76,3.8,,,3/12/2020,1/22/20,0,0
6,ARG,Argentina,,-38.416100,-63.616700,445469.0,45195774.0,93.0,2736690.0,17.0,...,32.0,23.95,29.27,5.0,32.816667,43.616667,3/2/2020,1/22/20,0,0
7,ARM,Armenia,,40.069100,45.038200,13444.0,2963243.0,63.0,28470.0,104.0,...,35.0,26.90,23.86,4.2,7.100000,58.500000,2/29/2020,1/22/20,0,0
8,AUS,Australia,Australian Capital Territory,-35.473500,149.012400,1376255.0,25499884.0,86.0,7682300.0,3.0,...,38.0,14.90,18.79,3.8,25.783333,64.233333,1/24/2020,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [40]:
# Habilita a exibição de todas as colunas
pd.set_option('display.max_columns', False)

In [41]:
# Exibe somente as linhas onde o PIB 2019 é nulo
df2[pd.isnull(df2['PIB 2019'])]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,AGO,Angola,,-11.202700,17.873900,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/22/20,0,0
179,PNG,Papua New Guinea,,-6.315000,143.955500,,8947024.0,13.0,452860.0,20.0,3.6,22.0,,,,,,,1/22/20,0,0
239,PSE,West Bank and Gaza,,31.952200,35.233200,,,,,,,,,,,,,,1/22/20,0,0
245,XKX,Kosovo,,42.602636,20.902977,,,,,,,,,,,,,,1/22/20,0,0
246,MMR,Burma,,21.916200,95.956000,,,,,,,,,,,,,,1/22/20,0,0
251,BWA,Botswana,,-22.328500,24.684900,,2351627.0,73.0,566730.0,4.0,2.9,24.0,,,,,,,1/22/20,0,0
252,BDI,Burundi,,-3.373100,29.918900,,11890784.0,14.0,25680.0,463.0,5.5,17.0,,,,,,,1/22/20,0,0
253,SLE,Sierra Leone,,8.460555,-11.779889,,7976983.0,43.0,72180.0,111.0,4.3,19.0,,,,,,,1/22/20,0,0
255,MWI,Malawi,,-13.254308,34.301525,,19129952.0,18.0,94280.0,203.0,4.3,18.0,,,,,,,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [42]:
# Exibe o cabeçalho do dataframe
df2.head()

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.0,65.0,18734.0,38928346.0,25.0,652860.0,60.0,4.6,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.1533,20.1683,15418.0,2877797.0,63.0,27400.0,105.0,1.6,36.0,29.4,11.67,2.9,13.95,69.9,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.0339,1.6596,172781.0,43851044.0,73.0,2381740.0,18.0,3.1,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.5063,1.5218,91527.0,77265.0,88.0,470.0,164.0,,,32.5,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/22/20,0,0


In [43]:
sigla = 'AGO'

df2[df2['Código do País'] == sigla]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/22/20,0,0
266,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/23/20,0,0
528,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/24/20,0,0
790,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/25/20,0,0
1052,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/26/20,0,0
1314,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/27/20,0,0
1576,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/28/20,0,0
1838,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/29/20,0,0
2100,AGO,Angola,,-11.2027,17.8739,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/30/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [44]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'AGO'
coluna = 'PIB 2019'
valor = 105902

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [45]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'PNG'
coluna = 'PIB 2019'
valor = 23498

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [46]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'PSE'
coluna = 'PIB 2019'
valor = 14616

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [47]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'MMR'
coluna = 'PIB 2019'
valor = 68668

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [48]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'BWA'
coluna = 'PIB 2019'
valor = 18615

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [49]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'BDI'
coluna = 'PIB 2019'
valor = 3037

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [50]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'SLE'
coluna = 'PIB 2019'
valor = 4085

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [51]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'MWI'
coluna = 'PIB 2019'
valor = 7065

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [52]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'SSD'
coluna = 'PIB 2019'
valor = 3438

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [53]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'STP'
coluna = 'PIB 2019'
valor = 422

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [54]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'YEM'
coluna = 'PIB 2019'
valor = 26914

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [55]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'XKX'
coluna = 'PIB 2019'
valor = 7939

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [56]:
# País desejado, coluna e novo valor para o lugar de NaN na coluna
sigla = 'ESH'
coluna = 'PIB 2019'
valor = 9065

# Atualiza o ID dessas linhas
df2.loc[((df2['Código do País'] == sigla) & (df2[coluna].isnull()), coluna)] = valor

In [57]:
# Exibe o dataframe
df2

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
0,AFG,Afghanistan,,33.000000,65.000000,18734.0,38928346.0,25.0,652860.0,60.0,4.6,18.0,,37.62,0.5,6.216667,56.933333,2/23/2020,1/22/20,0,0
1,ALB,Albania,,41.153300,20.168300,15418.0,2877797.0,63.0,27400.0,105.0,1.6,36.0,29.40,11.67,2.9,13.950000,69.900000,3/7/2020,1/22/20,0,0
2,DZA,Algeria,,28.033900,1.659600,172781.0,43851044.0,73.0,2381740.0,18.0,3.1,29.0,,8.77,1.9,19.566667,61.716667,2/24/2020,1/22/20,0,0
3,AND,Andorra,,42.506300,1.521800,91527.0,77265.0,88.0,470.0,164.0,,,32.50,,2.5,7.383333,75.233333,3/1/2020,1/22/20,0,0
4,AGO,Angola,,-11.202700,17.873900,105902.0,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/22/20,0,0
5,ATG,Antigua and Barbuda,,17.060800,-61.796400,1688.0,97929.0,26.0,440.0,223.0,2.0,34.0,,11.76,3.8,,,3/12/2020,1/22/20,0,0
6,ARG,Argentina,,-38.416100,-63.616700,445469.0,45195774.0,93.0,2736690.0,17.0,2.3,32.0,23.95,29.27,5.0,32.816667,43.616667,3/2/2020,1/22/20,0,0
7,ARM,Armenia,,40.069100,45.038200,13444.0,2963243.0,63.0,28470.0,104.0,1.8,35.0,26.90,23.86,4.2,7.100000,58.500000,2/29/2020,1/22/20,0,0
8,AUS,Australia,Australian Capital Territory,-35.473500,149.012400,1376255.0,25499884.0,86.0,7682300.0,3.0,1.8,38.0,14.90,18.79,3.8,25.783333,64.233333,1/24/2020,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


## 3.4 - Atualiza a População, População Urbana, Área, Densidade, Taxa de Fertilidade, Média de Idade e Taxa de Fumantes -> NaN

Foram utilizadas as informações disponíveis nos seguintes sites:

- https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3
- https://pt.countryeconomy.com/paises
- https://tobaccoatlas.org/
- https://www.worldometers.info/world-population/population-by-country/
- https://www.indexmundi.com/factbook/countries
- https://www.who.int/tobacco/global_report/en/
- https://www.cia.gov/library/publications/the-world-factbook/
- https://data.worldbank.org/indicator/SH.MED.BEDS.ZS
- https://www.nationmaster.com/country-info/stats/Health/Tobacco/Total-adult-smokers
- https://www.worldlifeexpectancy.com/cause-of-death/lung-disease/by-country/

O processo de atualização foi semelhante ao utilizado para atualizar os dados do PIB.


## 3.5 - Atualiza a Temperatura Média e a Umidade -> NaN

Foram utilizadas as informações disponíveis nos seguintes sites:

- https://weather-and-climate.com/
- https://stat.world/en
- http://data.un.org/Data.aspx?d=CLINO&f=ElementCode%3A11
- https://weather-and-climate.com/average-monthly-Humidity-perc,Port-Au-Prince,Haiti

O processo de atualização foi semelhante ao utilizado para atualizar os dados do PIB.


In [58]:
# Cria uma cópia do dataframe
df3 = df2.copy(deep=True)

In [61]:
# Verifica as linhas nulas de uma atributo
coluna = 'Temperatura Média (Janeiro - Março)'

df3[df3[coluna].isnull()]

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
4,AGO,Angola,,-11.202700,17.873900,105902.0,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,,,,1/22/20,0,0
5,ATG,Antigua and Barbuda,,17.060800,-61.796400,1688.0,97929.0,26.0,440.0,223.0,2.0,34.0,,11.76,3.8,,,3/12/2020,1/22/20,0,0
32,CPV,Cabo Verde,,16.538800,-23.041800,175900.0,555987.0,68.0,4030.0,138.0,2.3,28.0,17.6,18.77,2.1,,,3/19/2020,1/22/20,0,0
47,TDC,Chad,,15.454200,18.732200,11026.0,16425864.0,23.0,1259200.0,13.0,5.8,17.0,6.8,22.93,0.4,,,3/18/2020,1/22/20,0,0
84,COG,Congo (Kinshasa),,-4.038300,21.758700,11576.0,,,,,,,,29.06,1.6,,,3/9/2020,1/22/20,0,0
85,CRI,Costa Rica,,9.748900,-83.753400,61021.0,5094118.0,80.0,51060.0,100.0,1.8,33.0,13.4,20.42,1.2,,,3/4/2020,1/22/20,0,0
96,DOM,Dominican Republic,,18.735700,-70.162700,89475.0,10847910.0,85.0,48320.0,225.0,2.4,28.0,14.1,11.43,1.6,,,2/29/2020,1/22/20,0,0
99,SLV,El Salvador,,13.794200,-88.896500,26871.0,6486205.0,73.0,20720.0,313.0,2.1,28.0,6.7,13.86,1.3,,,3/18/2020,1/22/20,0,0
101,ERI,Eritrea,,15.179400,39.782300,2110.0,3546421.0,63.0,101000.0,35.0,4.1,19.0,,27.14,0.7,,,3/20/2020,1/22/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [62]:
# Cria um dicionário com os dados da temperatura e da umidade
dados_temp = {'Angola': [24.56, 80],
              'Antigua and Barbuda': [25.89, 79],
              'Cabo Verde': [23, 70],
              'Chad': [26.03, 22],
              'Congo (Kinshasa)': [25.9, 83],
              'Costa Rica': [26.15, 80],
              'Dominican Republic': [24.43, 83],
              'El Salvador': [25.43, 62],
              'Eritrea': [26.25, 58.3],
              'Fiji': [27.08, 81],
              'Haiti': [25.27, 42],
              'Holy See': [6.07, 79],
              'Madagascar': [25.75, 80],
              'Nicaragua': [26.02, 75],
              'Niger': [24.38, 20],
              'Papua New Guinea': [25.37, 79],
              'San Marino': [7.31, 80],
              'Trinidad and Tobago': [26.41, 80],
              'Uganda': [25.14, 79],
              'Zimbabwe': [23.70, 79],
              'Dominica': [25.69, 75],
              'Mozambique': [26.06, 79],
              'Syria': [10.71, 70],
              'Timor-Leste': [26.90, 80],
              'Belize': [24.28, 74],
              'Laos': [22.60, 70],
              'Libya': [16.78, 65],
              'West Bank and Gaza': [12.45, 60],
              'Guinea-Bissau': [27.33, 72],
              'Mali': [25.49, 21],
              'Saint Kitts and Nevis': [25.40, 79],
              'Kosovo': [2.79, 82],
              'Burma': [22.49, 63],
              'Botswana': [27.11, 68],
              'Burundi': [21.07, 80],
              'Sierra Leone': [27.55, 95],
              'Malawi': [23.49, 81],
              'South Sudan': [26.45, 42],
              'Western Sahara': [19.52, 71],
              'Sao Tome and Principe': [27.57, 92],
              'Yemen': [23.39, 78]
}

In [63]:
# Colunas a serem atualizadas
colunas = ['Temperatura Média (Janeiro - Março)', 'Taxa de Umidade (Janeiro - Março)']

# Percorre o dicionário e atualiza o dataframe com seus valores
for item in dados_temp.keys():
    pais = item
    temperatura = dados_temp.get(item)[0]
    umidade = dados_temp.get(item)[1]
    #print(item, temperatura, umidade)
    
    # Atualiza essas linhas
    df3.loc[(df3['País/Região'] == pais), colunas] = [temperatura, umidade]

In [64]:
# Dados do Brasil
df3[df3['País/Região'] == 'Brazil']

Unnamed: 0,Código do País,País/Região,Província/Estado,Latitude,Longitude,PIB 2019,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Temperatura Média (Janeiro - Março),Taxa de Umidade (Janeiro - Março),Data do Primeiro Caso,Data,Casos Confirmados,Fatalidades
28,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/22/20,0,0
290,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/23/20,0,0
552,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/24/20,0,0
814,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/25/20,0,0
1076,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/26/20,0,0
1338,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/27/20,0,0
1600,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/28/20,0,0
1862,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/29/20,0,0
2124,BRA,Brazil,,-14.235,-51.9253,1847020.0,212559417.0,88.0,8358140.0,25.0,1.7,33.0,15.3,26.57,2.2,25.816667,81.683333,2/24/2020,1/30/20,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...


## 3.6 - Atualizando a data do primeiro caso -> NaN

In [67]:
# Cria uma cópia do dataframe
df4 = df3.copy(deep=True)

In [68]:
# Exibe somente as linhas das colunas com valores nulos
valores_nan = df4.isna()
colunas_nan = valores_nan.any()

# Lista com o nome das colunas que tem valores nulos
colunas = df4.columns[colunas_nan].tolist()

# Exibe o dataframe
df4[['Código do País', 'País/Região'] + colunas]

Unnamed: 0,Código do País,País/Região,Província/Estado,População,População Urbana,Área (Km/2),Densidade (Km/2),Taxa de Fertilidade,Média de Idade,Taxa de Fumantes,Taxa de Mortalidade por Doenças Pulmonares,Total de Leitos Hospitalares,Data do Primeiro Caso
0,AFG,Afghanistan,,38928346.0,25.0,652860.0,60.0,4.6,18.0,,37.62,0.5,2/23/2020
1,ALB,Albania,,2877797.0,63.0,27400.0,105.0,1.6,36.0,29.40,11.67,2.9,3/7/2020
2,DZA,Algeria,,43851044.0,73.0,2381740.0,18.0,3.1,29.0,,8.77,1.9,2/24/2020
3,AND,Andorra,,77265.0,88.0,470.0,164.0,,,32.50,,2.5,3/1/2020
4,AGO,Angola,,32866272.0,67.0,1246700.0,26.0,5.6,17.0,,,,
5,ATG,Antigua and Barbuda,,97929.0,26.0,440.0,223.0,2.0,34.0,,11.76,3.8,3/12/2020
6,ARG,Argentina,,45195774.0,93.0,2736690.0,17.0,2.3,32.0,23.95,29.27,5.0,3/2/2020
7,ARM,Armenia,,2963243.0,63.0,28470.0,104.0,1.8,35.0,26.90,23.86,4.2,2/29/2020
8,AUS,Australia,Australian Capital Territory,25499884.0,86.0,7682300.0,3.0,1.8,38.0,14.90,18.79,3.8,1/24/2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...


In [69]:
# Países com a data do primeiro caso NaN ->  Serão atualizados

coluna = 'Data do Primeiro Caso'

df4[df4[coluna].isnull()]['País/Região'].unique()

array(['Angola', 'Papua New Guinea', 'West Bank and Gaza', 'Kosovo',
       'Burma', 'Botswana', 'Burundi', 'Sierra Leone', 'Malawi',
       'South Sudan', 'Western Sahara', 'Sao Tome and Principe', 'Yemen'],
      dtype=object)

## 3.7 - Exporta a nova base de dados

Alguns valores ausentes foram preenchidos com 0 ou com a imputação da média da coluna. Em seguida, o DataFrame, foi utilizado para gerar o arquivo **covid19_beta.csv**.

In [780]:
# Exporta o DataFrame
df6.to_csv('data/artigo/covid19_beta.csv', index=False)