# Sobre o conjunto de dados

A doença por coronavírus (COVID-19) é uma doença infecciosa causada pelo vírus SARS-CoV-2.

A maioria das pessoas infectadas com o vírus experimentará doenças respiratórias leves a moderadas e se recuperará sem a necessidade de tratamento especial. No entanto, alguns ficarão gravemente doentes e precisarão de atenção médica. Pessoas idosas e aqueles com condições médicas subjacentes, como doenças cardiovasculares, diabetes, doenças respiratórias crônicas ou câncer, são mais propensos a desenvolver doenças graves. Qualquer pessoa pode ficar doente com COVID-19 e ficar gravemente doente ou morrer em qualquer idade.

A melhor maneira de prevenir e retardar a transmissão é estar bem informado sobre a doença e como o vírus se espalha. Proteja-se e aos outros da infecção, permanecendo a pelo menos 1 metro de distância dos outros, usando uma máscara devidamente ajustada e lavando as mãos ou usando uma fricção à base de álcool com frequência. Vacine-se quando for a sua vez e siga as orientações locais.

O vírus pode se espalhar da boca ou nariz de uma pessoa infectada em pequenas partículas líquidas quando tosse, espirra, fala, canta ou respira. Essas partículas variam de gotículas respiratórias maiores a aerossóis menores. É importante praticar a etiqueta respiratória, por exemplo, tossindo em um cotovelo flexionado, e ficar em casa e se auto-isolar até se recuperar se você se sentir mal.

Todo projeto deve iniciar com a análise dos dados, para tanto faz-se necessário:
- Importar as bibliotecas necessárias;
- Importar as bases a serem utilizadas no projeto;
- Visualizar os dados contidos na base;
- Verificar a inconsistência do domínio dos dados;
- Corrigir as inconsistências do domínio (tipo) dos dados;
- Verificar colunas não necessárias no modelo e excluí-las;
- Verificar a existência de dados não preenchidos na base;
- Decidir o quê deverá ser feito com estas colunas/linhas (excluir, preencher com determinados valores, ...)
- Visualizar novamente a base;
- Análise estatística rápida da base, obtendo a: média, mediana, moda, desvio padrão, quartis...
- Aplicar filtros para entender os dados;


## De acordo com a descrição, faça o tratamento dos dados e responda as seguintes questões:

### Os top 10 países que mais registraram casos de COVID?
### Os top 10 países que mais apresentaram casos de morte por COVID?
### Onde os casos ainda são altos?

In [25]:
# Importar as bibliotecas necessárias para realizar a análise de dados
import pandas as pd
import numpy as np

In [26]:
# Importar a base de dados
baseDados = pd.read_csv('covid_worldwide.csv')

In [27]:
# Visualizar as 10 primeiras linhas
baseDados.head(10)

Unnamed: 0,Serial Number,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Total Test,Population
0,1,USA,104196861,1132935,101322779,1741147,1159832679,334805269
1,2,India,44682784,530740,44150289,1755,915265788,1406631776
2,3,France,39524311,164233,39264546,95532,271490188,65584518
3,4,Germany,37779833,165711,37398100,216022,122332384,83883596
4,5,Brazil,36824580,697074,35919372,208134,63776166,215353593
5,6,Japan,32588442,68399,21567425,10952618,92144639,125584838
6,7,S. Korea,30197066,33486,29740877,422703,15804065,51329899
7,8,Italy,25453789,186833,25014986,251970,265478247,60262770
8,9,UK,24274361,204171,24020088,50102,522526476,68497907
9,10,Russia,21958696,395108,21356008,207580,273400000,145805947


In [28]:
# Visualizar as 5 últimas linhas
baseDados.tail()

Unnamed: 0,Serial Number,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Total Test,Population
226,227,Diamond Princess,712,13.0,699.0,0,,
227,228,Vatican City,29,,29.0,0,,799.0
228,229,Western Sahara,10,1.0,9.0,0,,626161.0
229,230,MS Zaandam,9,2.0,7.0,0,,
230,231,Tokelau,5,,,5,,1378.0


In [29]:
# Visualizar a quantidade de linhas e colunas da base de dados
baseDados.shape

(231, 8)

* linhas = 231
* colunas = 8

In [30]:
# Verificar os tipos dos campos, se estes estão nulos ou não
baseDados.info()

# Exibindo a soma de valores nulos
baseDados.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Serial Number    231 non-null    int64 
 1   Country          231 non-null    object
 2   Total Cases      231 non-null    object
 3   Total Deaths     225 non-null    object
 4   Total Recovered  210 non-null    object
 5   Active Cases     212 non-null    object
 6   Total Test       213 non-null    object
 7   Population       228 non-null    object
dtypes: int64(1), object(7)
memory usage: 14.6+ KB


Serial Number       0
Country             0
Total Cases         0
Total Deaths        6
Total Recovered    21
Active Cases       19
Total Test         18
Population          3
dtype: int64

In [31]:
# Transformar os campos tipo Object para Float, com exceção do nome dos países

# pegando as colunas de interesse
colunas = baseDados.columns[2:]

# convertendo colunas para float, sem perder valores importantes da tabela (no caso as strings com virgula são perdidos se não tratadas)
for coluna in colunas:
    baseDados[coluna] = baseDados[coluna].apply(lambda x: float(x.replace(',', '')) if isinstance(x, str) else x)

# Exibindo novos tipos
baseDados.info()

# Exibindo base convertida
display(baseDados)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Serial Number    231 non-null    int64  
 1   Country          231 non-null    object 
 2   Total Cases      231 non-null    float64
 3   Total Deaths     225 non-null    float64
 4   Total Recovered  210 non-null    float64
 5   Active Cases     212 non-null    float64
 6   Total Test       213 non-null    float64
 7   Population       228 non-null    float64
dtypes: float64(6), int64(1), object(1)
memory usage: 14.6+ KB


Unnamed: 0,Serial Number,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Total Test,Population
0,1,USA,104196861.0,1132935.0,101322779.0,1741147.0,1.159833e+09,3.348053e+08
1,2,India,44682784.0,530740.0,44150289.0,1755.0,9.152658e+08,1.406632e+09
2,3,France,39524311.0,164233.0,39264546.0,95532.0,2.714902e+08,6.558452e+07
3,4,Germany,37779833.0,165711.0,37398100.0,216022.0,1.223324e+08,8.388360e+07
4,5,Brazil,36824580.0,697074.0,35919372.0,208134.0,6.377617e+07,2.153536e+08
...,...,...,...,...,...,...,...,...
226,227,Diamond Princess,712.0,13.0,699.0,0.0,,
227,228,Vatican City,29.0,,29.0,0.0,,7.990000e+02
228,229,Western Sahara,10.0,1.0,9.0,0.0,,6.261610e+05
229,230,MS Zaandam,9.0,2.0,7.0,0.0,,


In [32]:
# Tratar os dados inconsistentes (sem valor)

# os valores com dados nulos não poderão ser usados para as comparações necessárias para responder as perguntas

baseDados = baseDados.fillna(-1)

In [33]:
# Excluir o campos desnecessários na base


# Os campos desnecessários foram escolhidos baseados nas perguntas que foram feitas

campos_desnecessarios = ['Serial Number', 'Total Recovered', 'Total Test']
baseDadosNova = baseDados.drop(columns=campos_desnecessarios)

baseDadosNova.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Country       231 non-null    object 
 1   Total Cases   231 non-null    float64
 2   Total Deaths  231 non-null    float64
 3   Active Cases  231 non-null    float64
 4   Population    231 non-null    float64
dtypes: float64(4), object(1)
memory usage: 9.2+ KB


In [34]:
# Visualizar a base de dados novamente

display(baseDadosNova)

Unnamed: 0,Country,Total Cases,Total Deaths,Active Cases,Population
0,USA,104196861.0,1132935.0,1741147.0,3.348053e+08
1,India,44682784.0,530740.0,1755.0,1.406632e+09
2,France,39524311.0,164233.0,95532.0,6.558452e+07
3,Germany,37779833.0,165711.0,216022.0,8.388360e+07
4,Brazil,36824580.0,697074.0,208134.0,2.153536e+08
...,...,...,...,...,...
226,Diamond Princess,712.0,13.0,0.0,-1.000000e+00
227,Vatican City,29.0,-1.0,0.0,7.990000e+02
228,Western Sahara,10.0,1.0,0.0,6.261610e+05
229,MS Zaandam,9.0,2.0,0.0,-1.000000e+00


In [35]:
# Verificar as informações estatísticas da base importada, como: média, mediana, desvio padrão e quartis

print(baseDadosNova.describe())

        Total Cases  Total Deaths  Active Cases    Population
count  2.310000e+02  2.310000e+02  2.310000e+02  2.310000e+02
mean   2.923460e+06  2.927703e+04  8.351401e+04  2.812322e+07
std    9.479286e+06  1.041073e+05  7.344789e+05  1.016625e+08
min    5.000000e+00 -1.000000e+00 -1.000000e+00 -1.000000e+00
25%    2.400100e+04  1.795000e+02  1.850000e+01  4.063530e+05
50%    2.065920e+05  1.965000e+03  7.390000e+02  5.511370e+06
75%    1.296146e+06  1.390850e+04  9.328500e+03  2.152480e+07
max    1.041969e+08  1.132935e+06  1.095262e+07  1.406632e+09


In [36]:
# Aplicar filtros necessários para responder as 3 questões acima

top_10_casos = baseDadosNova.groupby('Country')['Total Cases'].max().nlargest(10)
top_10_mortes = baseDadosNova.groupby('Country')['Total Deaths'].max().nlargest(10)

### Os top 10 países que mais registraram casos de COVID?

In [37]:
print(top_10_casos)

Country
USA         104196861.0
India        44682784.0
France       39524311.0
Germany      37779833.0
Brazil       36824580.0
Japan        32588442.0
S. Korea     30197066.0
Italy        25453789.0
UK           24274361.0
Russia       21958696.0
Name: Total Cases, dtype: float64


### Os top 10 países que mais apresentaram casos de morte por COVID?

In [38]:
print(top_10_mortes)

Country
USA        1132935.0
Brazil      697074.0
India       530740.0
Russia      395108.0
Mexico      332198.0
Peru        218931.0
UK          204171.0
Italy       186833.0
Germany     165711.0
France      164233.0
Name: Total Deaths, dtype: float64


### Onde os casos ainda são altos?

Para responder essa pergunta, poderiamos utilizar somente o campo de casos ativos e exibir os top 10 também, mas iremos utilizar a quantidade de população e os casos para fazer uma porcentagem e atribuir um valor para que este seja usado como parametro, iremos adicionar uma coluna nova na base:

In [39]:
baseDadosNova['Active Cases Percentage'] = (baseDadosNova['Active Cases']/baseDadosNova['Population']) * 100
display(baseDadosNova)

Unnamed: 0,Country,Total Cases,Total Deaths,Active Cases,Population,Active Cases Percentage
0,USA,104196861.0,1132935.0,1741147.0,3.348053e+08,0.520048
1,India,44682784.0,530740.0,1755.0,1.406632e+09,0.000125
2,France,39524311.0,164233.0,95532.0,6.558452e+07,0.145662
3,Germany,37779833.0,165711.0,216022.0,8.388360e+07,0.257526
4,Brazil,36824580.0,697074.0,208134.0,2.153536e+08,0.096648
...,...,...,...,...,...,...
226,Diamond Princess,712.0,13.0,0.0,-1.000000e+00,-0.000000
227,Vatican City,29.0,-1.0,0.0,7.990000e+02,0.000000
228,Western Sahara,10.0,1.0,0.0,6.261610e+05,0.000000
229,MS Zaandam,9.0,2.0,0.0,-1.000000e+00,-0.000000


Agora temos a porcentagem de casos acontecendo referente a população, vamos assumir que uma métrica boa para assumir que os casos são altos seja de 10%, então...