# Sobre o conjunto de dados

A doença por coronavírus (COVID-19) é uma doença infecciosa causada pelo vírus SARS-CoV-2.

A maioria das pessoas infectadas com o vírus experimentará doenças respiratórias leves a moderadas e se recuperará sem a necessidade de tratamento especial. No entanto, alguns ficarão gravemente doentes e precisarão de atenção médica. Pessoas idosas e aqueles com condições médicas subjacentes, como doenças cardiovasculares, diabetes, doenças respiratórias crônicas ou câncer, são mais propensos a desenvolver doenças graves. Qualquer pessoa pode ficar doente com COVID-19 e ficar gravemente doente ou morrer em qualquer idade.

A melhor maneira de prevenir e retardar a transmissão é estar bem informado sobre a doença e como o vírus se espalha. Proteja-se e aos outros da infecção, permanecendo a pelo menos 1 metro de distância dos outros, usando uma máscara devidamente ajustada e lavando as mãos ou usando uma fricção à base de álcool com frequência. Vacine-se quando for a sua vez e siga as orientações locais.

O vírus pode se espalhar da boca ou nariz de uma pessoa infectada em pequenas partículas líquidas quando tosse, espirra, fala, canta ou respira. Essas partículas variam de gotículas respiratórias maiores a aerossóis menores. É importante praticar a etiqueta respiratória, por exemplo, tossindo em um cotovelo flexionado, e ficar em casa e se auto-isolar até se recuperar se você se sentir mal.

Todo projeto deve iniciar com a análise dos dados, para tanto faz-se necessário:
- Importar as bibliotecas necessárias;
- Importar as bases a serem utilizadas no projeto;
- Visualizar os dados contidos na base;
- Verificar a inconsistência do domínio dos dados;
- Corrigir as inconsistências do domínio (tipo) dos dados;
- Verificar colunas não necessárias no modelo e excluí-las;
- Verificar a existência de dados não preenchidos na base;
- Decidir o quê deverá ser feito com estas colunas/linhas (excluir, preencher com determinados valores, ...)
- Visualizar novamente a base;
- Análise estatística rápida da base, obtendo a: média, mediana, moda, desvio padrão, quartis...
- Aplicar filtros para entender os dados;


## De acordo com a descrição, faça o tratamento dos dados e responda as seguintes questões:

### Os top 10 países que mais registraram casos de COVID?
### Os top 10 países que mais apresentaram casos de morte por COVID?
### Onde os casos ainda são altos?

In [6]:
# Importar as bibliotecas necessárias para realizar a análise de dados
import pandas as pd

In [7]:
# Importar a base de dados
base = pd.read_csv('covid_worldwide.csv')

In [5]:
# Visualizar as 10 primeiras linhas
base.head(10)

Unnamed: 0,Serial Number,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Total Test,Population
0,1,USA,104196861,1132935,101322779,1741147,1159832679,334805269
1,2,India,44682784,530740,44150289,1755,915265788,1406631776
2,3,France,39524311,164233,39264546,95532,271490188,65584518
3,4,Germany,37779833,165711,37398100,216022,122332384,83883596
4,5,Brazil,36824580,697074,35919372,208134,63776166,215353593
5,6,Japan,32588442,68399,21567425,10952618,92144639,125584838
6,7,S. Korea,30197066,33486,29740877,422703,15804065,51329899
7,8,Italy,25453789,186833,25014986,251970,265478247,60262770
8,9,UK,24274361,204171,24020088,50102,522526476,68497907
9,10,Russia,21958696,395108,21356008,207580,273400000,145805947


In [4]:
# Visualizar as 5 últimas linhas
base.tail(5)

Unnamed: 0,Serial Number,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Total Test,Population
226,227,Diamond Princess,712,13.0,699.0,0,,
227,228,Vatican City,29,,29.0,0,,799.0
228,229,Western Sahara,10,1.0,9.0,0,,626161.0
229,230,MS Zaandam,9,2.0,7.0,0,,
230,231,Tokelau,5,,,5,,1378.0


In [5]:
# Visualizar a quantidade de linhas e colunas da base de dados
base.shape

(231, 8)

In [6]:
# Verificar os tipos dos campos, se estes estão nulos ou não
base.dtypes

Serial Number       int64
Country            object
Total Cases        object
Total Deaths       object
Total Recovered    object
Active Cases       object
Total Test         object
Population         object
dtype: object

In [8]:
# Transformar os campos tipo Object para Float, com exceção do nome dos países
#  Removendo as ',' entre os números
base["Total Cases"]= base["Total Cases"].str.replace(',','')
base["Total Deaths"]= base["Total Deaths"].str.replace(',','')
base["Total Recovered"]= base["Total Recovered"].str.replace(',','')
base["Active Cases"]= base["Active Cases"].str.replace(',','')
base["Total Test"]= base["Total Test"].str.replace(',','')
base["Population"]= base["Population"].str.replace(',','')

#  Transformando os campos tipo Object para Float
base["Total Cases"] = pd.to_numeric(base["Total Cases"], errors="coerce")
base["Total Deaths"] = pd.to_numeric(base["Total Deaths"], errors="coerce")
base["Total Recovered"] = pd.to_numeric(base["Total Recovered"], errors="coerce")
base["Active Cases"] = pd.to_numeric(base["Active Cases"], errors="coerce")
base["Total Test"] = pd.to_numeric(base["Total Test"], errors="coerce")
base["Population"] = pd.to_numeric(base["Population"], errors="coerce")

#  Verificando os tipos novamente
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Serial Number    231 non-null    int64  
 1   Country          231 non-null    object 
 2   Total Cases      231 non-null    int64  
 3   Total Deaths     225 non-null    float64
 4   Total Recovered  210 non-null    float64
 5   Active Cases     212 non-null    float64
 6   Total Test       213 non-null    float64
 7   Population       228 non-null    float64
dtypes: float64(5), int64(2), object(1)
memory usage: 14.6+ KB


In [10]:
# Tratar os dados inconsistentes (sem valor)
base = base.dropna(how="any", axis=0)
base.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 206 entries, 0 to 229
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Country       206 non-null    object 
 1   Total Cases   206 non-null    int64  
 2   Total Deaths  206 non-null    float64
 3   Active Cases  206 non-null    float64
dtypes: float64(2), int64(1), object(1)
memory usage: 8.0+ KB


In [9]:
# Excluir o campos desnecessários na base
base = base.drop("Serial Number", axis=1)
base = base.drop("Total Recovered", axis=1)
base = base.drop("Total Test", axis=1)
base = base.drop("Population", axis=1)

In [10]:
# Visualizar a base de dados novamente
display(base)

Unnamed: 0,Country,Total Cases,Total Deaths,Active Cases
0,USA,104196861,1132935.0,1741147.0
1,India,44682784,530740.0,1755.0
2,France,39524311,164233.0,95532.0
3,Germany,37779833,165711.0,216022.0
4,Brazil,36824580,697074.0,208134.0
...,...,...,...,...
217,Anguilla,3904,12.0,13.0
218,Macao,3488,120.0,11.0
219,Saint Pierre Miquelon,3452,2.0,1001.0
220,Wallis and Futuna,3427,7.0,2982.0


In [11]:
# Verificar as informações estatísticas da base importada, como: média, mediana, desvio padrão e quartis
#  Apresentando a média, desvio padrão e quartis
base.describe()

Unnamed: 0,Total Cases,Total Deaths,Active Cases
count,195.0,195.0,195.0
mean,3329258.0,33787.04,98210.17
std,10195030.0,112527.2,798812.2
min,1403.0,1.0,0.0
25%,37865.5,313.0,78.0
50%,297757.0,3155.0,1253.0
75%,1723625.0,16877.0,10848.5
max,104196900.0,1132935.0,10952620.0


In [11]:
#  Apresentando a mediana
base.median(numeric_only=True)

Total Cases     268920.5
Total Deaths      2798.5
Active Cases      1152.0
dtype: float64

In [13]:
# Aplicar filtros necessários para responder as 3 questões acima
#  Primeira pergunta
dic_tc = {
    "País": [],
    "Total de Casos": []
}
dic_tc['País'] = base['Country']
dic_tc['Total de Casos'] = base['Total Cases']
base_tc = pd.DataFrame(dic_tc)
base_tc = base_tc.sort_values(by = ['Total de Casos'], ascending = False)

#  Segunda pergunta
dic_td = {
    "País": [],
    "Total de Mortes": []
}
dic_td['País'] = base['Country']
dic_td['Total de Mortes'] = base['Total Deaths']
base_td = pd.DataFrame(dic_td)
base_td = base_td.sort_values(by = ['Total de Mortes'], ascending = False)

#  Terceira pergunta
dic_ac = {
    "País": [],
    "Casos Ativos": []
}
dic_ac['País'] = base['Country']
dic_ac['Casos Ativos'] = base['Active Cases']
base_ac = pd.DataFrame(dic_ac)
base_ac = base_ac.sort_values(by = ['Casos Ativos'], ascending = False)

In [14]:
# Exibir 10 países que mais registraram casos de COVID
base_tc.head(10)

Unnamed: 0,País,Total de Casos
0,USA,104196861
1,India,44682784
2,France,39524311
3,Germany,37779833
4,Brazil,36824580
5,Japan,32588442
6,S. Korea,30197066
7,Italy,25453789
8,UK,24274361
9,Russia,21958696


In [15]:
# Exibir 10 países que mais apresentaram casos de mortes por COVID
base_td.head(10)

Unnamed: 0,País,Total de Mortes
0,USA,1132935.0
4,Brazil,697074.0
1,India,530740.0
9,Russia,395108.0
18,Mexico,332198.0
34,Peru,218931.0
8,UK,204171.0
7,Italy,186833.0
3,Germany,165711.0
2,France,164233.0


In [17]:
# Exibir onde os casos ainda são altos
base_ac.head(10)

Unnamed: 0,País,Casos Ativos
5,Japan,10952618.0
0,USA,1741147.0
20,Poland,925549.0
12,Vietnam,870843.0
18,Mexico,429421.0
15,Taiwan,423489.0
6,S. Korea,422703.0
40,Hong Kong,354439.0
64,Costa Rica,316307.0
7,Italy,251970.0
