# Explorando o Dataset “COVID-19 Dataset”

O conjunto de dados utilizado nesta atividade contém informaçoes sobre a evoluçao da pandemia de COVID-19 em diversos países ao redor do mundo. Sua última atualizaçao ocorreu em setembro de 2020. A análise será conduzida com base em dois arquivos principais:
• covid 19 clean complete.csv: contém registros diários sobre a situaçao da pandemia em cada país ou província.
• worldmeter data.csv: inclui informaçoes demográficas, como a populaçao de cada país e o continente correspondente.
Antes de iniciar a análise, é recomendado explorar a descriçao do dataset, verificar o dicionário de variáveis e examinar as principais colunas dos arquivos CSV para compreender o escopo e as possibilidades de extraçao de conhecimento a partir dos dados.
Os itens a seguir propõem tarefas específicas que devem ser realizadas utilizando a biblioteca Pandas. Para cada item, são oferecidas instruçoes passo a passo que podem ser seguidas ou adaptadas conforme a preferência do(a) estudante.

# 1. Análise exploratória inicial 
importar o arquivo covid 19 clean complete.csv e responder: <br>
(a) Qual é a dimensão da base de dados (número de linhas e colunas)?; <br>
(b) Quais são os nomes das colunas?;<br>
(c) Qual o tipo de dado de cada coluna?;<br>
(d) Transformar a coluna de datas (caso esteja como tipo object) para o tipo datetime64 utilizando pd.to datetime(); <br>
(e) Obter um resumo estatístico dos dados com .describe(); <br>
(f) Verificar a presença de colunas com valores nulos (NaN).<br>

In [3]:
import os
import pandas as pd
import shutil
from dotenv import load_dotenv
import os

import kagglehub

# Carrega as variáveis do .env
load_dotenv()  

# Acessa as credenciais
KAGGLE_USERNAME = os.getenv("KAGGLE_USERNAME")
KAGGLE_KEY = os.getenv("KAGGLE_KEY")

print(f"Usuário Kaggle: {KAGGLE_USERNAME}") 

Usuário Kaggle: None


  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# Download latest version
path = kagglehub.dataset_download("imdevskp/corona-virus-report")

print("Path to dataset files:", path)

Path to dataset files: /home/usuario/.cache/kagglehub/datasets/imdevskp/corona-virus-report/versions/166


In [76]:
# 1. Define os caminhos
caminho_cache = os.path.expanduser("~/.cache/kagglehub/datasets/imdevskp/corona-virus-report/versions/166/covid_19_clean_complete.csv")
dir_destino = "data/raw/covid_19_clean_complete.csv"  # Caminho relativo ao projeto

# 2. Cria o diretório './data/raw' se não existir
os.makedirs(os.path.dirname(dir_destino), exist_ok=True)

# 3. Copia o arquivo do cache para o diretório do projeto
try:
    shutil.copy(caminho_cache, dir_destino)
    print(f"Arquivo salvo em: {os.path.abspath(dir_destino)}")
except FileNotFoundError:
    print("Erro: Arquivo não encontrado no cache. Verifique o caminho.")
except Exception as e:
    print(f"Erro ao copiar: {e}")

# 4. Lê o arquivo CSV com pandas
try:
    df = pd.read_csv(dir_destino)
    print("\nDados carregados com sucesso! Primeiras linhas:\n", df.head())
    
except Exception as e:
    print(f"Erro ao ler o CSV: {e}")

Arquivo salvo em: /home/usuario/NIAS/notebooks/data/raw/covid_19_clean_complete.csv

Dados carregados com sucesso! Primeiras linhas:
   Province/State Country/Region       Lat       Long        Date  Confirmed  \
0            NaN    Afghanistan  33.93911  67.709953  2020-01-22          0   
1            NaN        Albania  41.15330  20.168300  2020-01-22          0   
2            NaN        Algeria  28.03390   1.659600  2020-01-22          0   
3            NaN        Andorra  42.50630   1.521800  2020-01-22          0   
4            NaN         Angola -11.20270  17.873900  2020-01-22          0   

   Deaths  Recovered  Active             WHO Region  
0       0          0       0  Eastern Mediterranean  
1       0          0       0                 Europe  
2       0          0       0                 Africa  
3       0          0       0                 Europe  
4       0          0       0                 Africa  


In [6]:
import pandas as pd

# Carrega o CSV
df = pd.read_csv(caminho_cache)
# Mostra as primeiras linhas
df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.93911,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0,Africa


In [7]:
# (a) Qual é a dimensão da base de dados (número de linhas e colunas)?;
df.shape

(49068, 10)

In [8]:
# (b) Quais são os nomes das colunas?;
df.columns


Index(['Province/State', 'Country/Region', 'Lat', 'Long', 'Date', 'Confirmed',
       'Deaths', 'Recovered', 'Active', 'WHO Region'],
      dtype='object')

In [30]:
# (c) Qual o tipo de dado de cada coluna?;
df.dtypes

Country/Region       object
Continent            object
Population          float64
TotalCases            int64
NewCases            float64
TotalDeaths         float64
NewDeaths           float64
TotalRecovered      float64
NewRecovered        float64
ActiveCases         float64
Serious,Critical    float64
Tot Cases/1M pop    float64
Deaths/1M pop       float64
TotalTests          float64
Tests/1M pop        float64
WHO Region           object
dtype: object

In [10]:
# (d) Transformar a coluna de datas (caso esteja como tipo object) para o tipo datetime64 utilizando pd.to datetime();
df["Date"] = pd.to_datetime(df["Date"])

In [11]:
# (e) Obter um resumo estatístico dos dados com .describe();
df.describe()

Unnamed: 0,Lat,Long,Date,Confirmed,Deaths,Recovered,Active
count,49068.0,49068.0,49068,49068.0,49068.0,49068.0,49068.0
mean,21.43373,23.528236,2020-04-24 12:00:00,16884.9,884.17916,7915.713,8085.012
min,-51.7963,-135.0,2020-01-22 00:00:00,0.0,0.0,0.0,-14.0
25%,7.873054,-15.3101,2020-03-08 18:00:00,4.0,0.0,0.0,0.0
50%,23.6345,21.7453,2020-04-24 12:00:00,168.0,2.0,29.0,26.0
75%,41.20438,80.771797,2020-06-10 06:00:00,1518.25,30.0,666.0,606.0
max,71.7069,178.065,2020-07-27 00:00:00,4290259.0,148011.0,1846641.0,2816444.0
std,24.95032,70.44274,,127300.2,6313.584411,54800.92,76258.9


In [12]:
# (f) Verificar a presença de colunas com valores nulos (NaN).
nulo = pd.DataFrame(df.isnull().sum()/df.shape[0]*100).round(3)
nulo.style.set_caption("Dados Nulos por coluna").background_gradient()

Unnamed: 0,0
Province/State,70.115
Country/Region,0.0
Lat,0.0
Long,0.0
Date,0.0
Confirmed,0.0
Deaths,0.0
Recovered,0.0
Active,0.0
WHO Region,0.0


# 2. Análise por províncias da China: <br>
identificar as 5 províncias chinesas com maior número de casos confirmados. <br>
(a) Listar as províncias da China presentes no dataset;<br>
(b) Filtrar o dataframe contendo apenas os registros dessas províncias;<br>
(c) Selecionar apenas as colunas: Confirmed, Active, Deaths, Recovered;<br>
(d) Agrupar os dados por província utilizando a funçao groupby();<br>
(e) Gerar um novo dataframe contendo as 5 províncias com o maior número de casos confirmados.<br>

In [13]:
df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.93911,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0,Africa


In [14]:
# (a) Listar as províncias da China presentes no dataset;
df_china = df[df["Country/Region"] == "China"]
df_china["Province/State"].unique()

array(['Anhui', 'Beijing', 'Chongqing', 'Fujian', 'Gansu', 'Guangdong',
       'Guangxi', 'Guizhou', 'Hainan', 'Hebei', 'Heilongjiang', 'Henan',
       'Hong Kong', 'Hubei', 'Hunan', 'Inner Mongolia', 'Jiangsu',
       'Jiangxi', 'Jilin', 'Liaoning', 'Macau', 'Ningxia', 'Qinghai',
       'Shaanxi', 'Shandong', 'Shanghai', 'Shanxi', 'Sichuan', 'Tianjin',
       'Tibet', 'Xinjiang', 'Yunnan', 'Zhejiang'], dtype=object)

In [15]:
# (b) Filtrar o dataframe contendo apenas os registros dessas províncias;
top5 =  ["Hunan",  "Zhejiang",  "Henan",  "Guandong", "Hubei"] 
df_china_5 = df_china[df_china["Province/State"].isin(top5)]  

In [16]:
# (c) Selecionar apenas as colunas: Confirmed, Active, Deaths, Recovered;
df_china_5[["Province/State", "Confirmed", "Active", "Deaths", "Recovered"]]

Unnamed: 0,Province/State,Confirmed,Active,Deaths,Recovered
59,Henan,5,5,0,0
61,Hubei,444,399,17,28
62,Hunan,4,4,0,0
80,Zhejiang,10,10,0,0
320,Henan,5,5,0,0
...,...,...,...,...,...
48626,Zhejiang,1270,1,1,1268
48866,Henan,1276,1254,22,0
48868,Hubei,68135,0,4512,63623
48869,Hunan,1019,0,4,1015


In [17]:
# (d) Agrupar os dados por província utilizando a funçao groupby();
df_china[["Province/State", "Confirmed", "Active", "Deaths", "Recovered"]].groupby("Province/State").sum().style.set_caption("Analise da COVID-19 nas províncias Chinesas").background_gradient()

Unnamed: 0_level_0,Confirmed,Active,Deaths,Recovered
Province/State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Anhui,172497,15722,1007,155768
Beijing,108512,23282,1383,83847
Chongqing,101756,10608,1013,90135
Fujian,59855,6760,159,52936
Gansu,23786,2282,341,21163
Guangdong,268051,29668,1273,237110
Guangxi,44368,5105,336,38927
Guizhou,25341,2334,335,22672
Hainan,29584,2661,993,25930
Hebei,56848,55848,1000,0


In [18]:
# (e) Gerar um novo dataframe contendo as 5 províncias com o maior número de casos confirmados.
top5 = df_china[["Province/State", "Confirmed", "Active", "Deaths", "Recovered"]].groupby("Province/State").sum().sort_values("Confirmed", ascending=False).head(5).style.set_caption("Análise da COVID-19 nas províncias Chinesas").background_gradient()

top5

Unnamed: 0_level_0,Confirmed,Active,Deaths,Recovered
Province/State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Hubei,11473248,1433798,651932,9387518
Guangdong,268051,29668,1273,237110
Henan,222581,218953,3628,0
Zhejiang,220824,21888,159,198777
Hunan,178641,15540,662,162439


# 3. Tratamento de dados
(a) Escreva uma funçao que receba uma linha do dataframe como argumento e concatene os valores das colunas Country/Region e Province/State, caso esta última não seja nula;<br>
(b) Utilize a funçao pandas.notna() para verificar se a coluna Province/State contém valor válido;<br>
(c) Crie uma cópia do dataframe original;<br>
(d) Aplique a funçao anterior com o método .apply() sobre o dataframe;<br>
(e) Remova a coluna Province/State do novo dataframe.

In [35]:
# (a) Escreva uma funçao que receba uma linha do dataframe como argumento e concatene os valores das colunas Country/Region e Province/State, caso esta última não seja nula
def concat_province(row):
    if pd.notna(row["Province/State"]):
        return row["Country/Region"] + " " + row["Province/State"]
    else:
        return row["Country/Region"]

In [34]:
# (b) Utilize a funçao pandas.notna() para verificar se a coluna Province/State contém valor válido;
df["Province/State"].notna()

0        False
1        False
2        False
3        False
4        False
         ...  
49063    False
49064    False
49065    False
49066    False
49067    False
Name: Province/State, Length: 49068, dtype: bool

In [36]:
#(c) Crie uma cópia do dataframe original;
df_copy = df.copy()

In [None]:
#(d) Aplique a funçao anterior com o método .apply() sobre o dataframe;
df_copy["Country/Region"] = df_copy.apply(concat_province, axis=1)
df_copy.head()

In [38]:
#(e) Remova a coluna Province/State do novo dataframe.
df_copy.drop("Province/State", axis=1, inplace=True)

df_copy

Unnamed: 0,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,Afghanistan,33.939110,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,Albania,41.153300,20.168300,2020-01-22,0,0,0,0,Europe
2,Algeria,28.033900,1.659600,2020-01-22,0,0,0,0,Africa
3,Andorra,42.506300,1.521800,2020-01-22,0,0,0,0,Europe
4,Angola,-11.202700,17.873900,2020-01-22,0,0,0,0,Africa
...,...,...,...,...,...,...,...,...,...
49063,Sao Tome and Principe,0.186400,6.613100,2020-07-27,865,14,734,117,Africa
49064,Yemen,15.552727,48.516388,2020-07-27,1691,483,833,375,Eastern Mediterranean
49065,Comoros,-11.645500,43.333300,2020-07-27,354,7,328,19,Africa
49066,Tajikistan,38.861000,71.276100,2020-07-27,7235,60,6028,1147,Europe


# 4. Ranking de mortes por milhão de habitantes por continente
com base no arquivo worldmeter data.csv, estime o número relativo de mortes por continente.<br> (a) Importe o arquivo worldmeter data.csv; <br>
(b) Selecione apenas as colunas relativas `a populaçao, países e continentes;<br>
(c) Agrupe os dados de COVID-19 por país (utilize o dataframe modificado no item anterior);<br>
(d) Faça a junçao dos dois dataframes com base no nome dos países, mantendo apenas as colunas: número de mortes, populaçao e continente;<br>
(e) Agrupe o novo dataframe por continente;<br>
(f) Crie uma nova coluna com o número de mortes por milhão de habitantes, utilizando afórmula: (mortes / população) * 10^6;<br>
(g) Ordene os dados do novo dataframe, gerando um ranking de continentes com base na taxa de mortalidade ajustada pela populaçao.


In [None]:
# (a) Importe o arquivo worldmeter data.csv;
caminho_cache = os.path.expanduser("~/.cache/kagglehub/datasets/imdevskp/corona-virus-report/versions/166/worldometer_data.csv")
dir_destino = "data/raw/worldometer_data.csv"  # Caminho relativo ao projeto

os.makedirs(os.path.dirname(dir_destino), exist_ok=True)
try:
    shutil.copy(caminho_cache, dir_destino)
    print(f"Arquivo salvo em: {os.path.abspath(dir_destino)}")
except FileNotFoundError:
    print("Erro: Arquivo não encontrado no cache. Verifique o caminho.")
except Exception as e:
    print(f"Erro ao copiar: {e}")

try:
    wm = pd.read_csv(dir_destino)
    print("\nDados carregados com sucesso! Primeiras linhas:")
    wm.head()
except Exception as e:
    print(f"Erro ao ler o CSV: {e}")

Arquivo salvo em: /home/usuario/NIAS/notebooks/data/raw/worldometer_data.csv

Dados carregados com sucesso! Primeiras linhas:


In [27]:
# (b) Selecione apenas as colunas relativas `a populaçao, países e continentes;
wm[["Country/Region", "Population", "Continent"]]

Unnamed: 0,Country/Region,Population,Continent
0,USA,3.311981e+08,North America
1,Brazil,2.127107e+08,South America
2,India,1.381345e+09,Asia
3,Russia,1.459409e+08,Europe
4,South Africa,5.938157e+07,Africa
...,...,...,...
204,Montserrat,4.992000e+03,North America
205,Caribbean Netherlands,2.624700e+04,North America
206,Falkland Islands,3.489000e+03,South America
207,Vatican City,8.010000e+02,Europe


In [50]:
# (c) Agrupe os dados de COVID-19 por país (utilize o dataframe modificado no item anterior);
wm.merge(df_copy, on="Country/Region")


Unnamed: 0,Country/Region,Continent,Population,TotalCases,NewCases,TotalDeaths,NewDeaths,TotalRecovered,NewRecovered,ActiveCases,...,Tests/1M pop,WHO Region_x,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region_y
0,Brazil,South America,212710692.0,2917562,,98644.0,,2047660.0,,771258.0,...,62085.0,Americas,-14.2350,-51.9253,2020-01-22,0,0,0,0,Americas
1,Brazil,South America,212710692.0,2917562,,98644.0,,2047660.0,,771258.0,...,62085.0,Americas,-14.2350,-51.9253,2020-01-23,0,0,0,0,Americas
2,Brazil,South America,212710692.0,2917562,,98644.0,,2047660.0,,771258.0,...,62085.0,Americas,-14.2350,-51.9253,2020-01-24,0,0,0,0,Americas
3,Brazil,South America,212710692.0,2917562,,98644.0,,2047660.0,,771258.0,...,62085.0,Americas,-14.2350,-51.9253,2020-01-25,0,0,0,0,Americas
4,Brazil,South America,212710692.0,2917562,,98644.0,,2047660.0,,771258.0,...,62085.0,Americas,-14.2350,-51.9253,2020-01-26,0,0,0,0,Americas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31579,Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,...,,Africa,24.2155,-12.8858,2020-07-23,10,1,8,1,Africa
31580,Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,...,,Africa,24.2155,-12.8858,2020-07-24,10,1,8,1,Africa
31581,Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,...,,Africa,24.2155,-12.8858,2020-07-25,10,1,8,1,Africa
31582,Western Sahara,Africa,598682.0,10,,1.0,,8.0,,1.0,...,,Africa,24.2155,-12.8858,2020-07-26,10,1,8,1,Africa


In [51]:
df_copy.columns, wm.columns

(Index(['Country/Region', 'Lat', 'Long', 'Date', 'Confirmed', 'Deaths',
        'Recovered', 'Active', 'WHO Region'],
       dtype='object'),
 Index(['Country/Region', 'Continent', 'Population', 'TotalCases', 'NewCases',
        'TotalDeaths', 'NewDeaths', 'TotalRecovered', 'NewRecovered',
        'ActiveCases', 'Serious,Critical', 'Tot Cases/1M pop', 'Deaths/1M pop',
        'TotalTests', 'Tests/1M pop', 'WHO Region'],
       dtype='object'))

In [55]:
# (d) Faça a junçao dos dois dataframes com base no nome dos países, mantendo apenas as colunas: número de mortes, populaçao e continente;
df_merged = pd.merge(
    wm[['Country/Region', 'Population', 'Continent']],
    df_copy[['Country/Region', 'Deaths']],
    on='Country/Region',
    how='inner'
)
df_merged

Unnamed: 0,Country/Region,Population,Continent,Deaths
0,Brazil,212710692.0,South America,0
1,Brazil,212710692.0,South America,0
2,Brazil,212710692.0,South America,0
3,Brazil,212710692.0,South America,0
4,Brazil,212710692.0,South America,0
...,...,...,...,...
31579,Western Sahara,598682.0,Africa,1
31580,Western Sahara,598682.0,Africa,1
31581,Western Sahara,598682.0,Africa,1
31582,Western Sahara,598682.0,Africa,1


In [None]:
# (e) Agrupe o novo dataframe por continente;
df_merged = pd.merge(
    wm[['Country/Region', 'Population', 'Continent']],
    df_copy[['Country/Region', 'Deaths']],
    on='Country/Region',
    how='inner'
)
df_merged.groupby("Continent").head()

Unnamed: 0,Country/Region,Population,Continent,Deaths
0,Brazil,212710700.0,South America,0
1,Brazil,212710700.0,South America,0
2,Brazil,212710700.0,South America,0
3,Brazil,212710700.0,South America,0
4,Brazil,212710700.0,South America,0
188,India,1381345000.0,Asia,0
189,India,1381345000.0,Asia,0
190,India,1381345000.0,Asia,0
191,India,1381345000.0,Asia,0
192,India,1381345000.0,Asia,0


In [63]:
# (f) Crie uma nova coluna com o número de mortes por milhão de habitantes, utilizando a fórmula: (mortes / população) * 10^6;
df_merged["Deaths_by_million"] = (df_merged['Deaths'] / df_merged['Population']) * 10**6