# Sobre o conjunto de dados

A doença por coronavírus (COVID-19) é uma doença infecciosa causada pelo vírus SARS-CoV-2.

A maioria das pessoas infectadas com o vírus experimentará doenças respiratórias leves a moderadas e se recuperará sem a necessidade de tratamento especial. No entanto, alguns ficarão gravemente doentes e precisarão de atenção médica. Pessoas idosas e aqueles com condições médicas subjacentes, como doenças cardiovasculares, diabetes, doenças respiratórias crônicas ou câncer, são mais propensos a desenvolver doenças graves. Qualquer pessoa pode ficar doente com COVID-19 e ficar gravemente doente ou morrer em qualquer idade.

A melhor maneira de prevenir e retardar a transmissão é estar bem informado sobre a doença e como o vírus se espalha. Proteja-se e aos outros da infecção, permanecendo a pelo menos 1 metro de distância dos outros, usando uma máscara devidamente ajustada e lavando as mãos ou usando uma fricção à base de álcool com frequência. Vacine-se quando for a sua vez e siga as orientações locais.

O vírus pode se espalhar da boca ou nariz de uma pessoa infectada em pequenas partículas líquidas quando tosse, espirra, fala, canta ou respira. Essas partículas variam de gotículas respiratórias maiores a aerossóis menores. É importante praticar a etiqueta respiratória, por exemplo, tossindo em um cotovelo flexionado, e ficar em casa e se auto-isolar até se recuperar se você se sentir mal.

Todo projeto deve iniciar com a análise dos dados, para tanto faz-se necessário:
- Importar as bibliotecas necessárias;
- Importar as bases a serem utilizadas no projeto;
- Visualizar os dados contidos na base;
- Verificar a inconsistência do domínio dos dados;
- Corrigir as inconsistências do domínio (tipo) dos dados;
- Verificar colunas não necessárias no modelo e excluí-las;
- Verificar a existência de dados não preenchidos na base;
- Decidir o quê deverá ser feito com estas colunas/linhas (excluir, preencher com determinados valores, ...)
- Visualizar novamente a base;
- Análise estatística rápida da base, obtendo a: média, mediana, moda, desvio padrão, quartis...
- Aplicar filtros para entender os dados;


## De acordo com a descrição, faça o tratamento dos dados e responda as seguintes questões:

### Os top 10 países que mais registraram casos de COVID?
### Os top 10 países que mais apresentaram casos de morte por COVID?
### Onde os casos ainda são altos?

In [None]:
# Importar as bibliotecas necessárias para realizar a análise de dados
import pandas as pd
import numpy as np


In [None]:
# Importar a base de dados
from google.colab import drive
drive.mount('/content/drive')
caminho_do_arquivo = '/content/drive/MyDrive/Colab Notebooks/covid_worldwide.csv'


import pandas as pd
df = pd.read_csv(caminho_do_arquivo)

Mounted at /content/drive


In [None]:
# Visualizar as 10 primeiras linhas
print(df.head(10))


   Serial Number   Country  Total Cases Total Deaths Total Recovered  \
0              1       USA  104,196,861    1,132,935     101,322,779   
1              2     India   44,682,784      530,740      44,150,289   
2              3    France   39,524,311      164,233      39,264,546   
3              4   Germany   37,779,833      165,711      37,398,100   
4              5    Brazil   36,824,580      697,074      35,919,372   
5              6     Japan   32,588,442       68,399      21,567,425   
6              7  S. Korea   30,197,066       33,486      29,740,877   
7              8     Italy   25,453,789      186,833      25,014,986   
8              9        UK   24,274,361      204,171      24,020,088   
9             10    Russia   21,958,696      395,108      21,356,008   

  Active Cases     Total Test     Population  
0    1,741,147  1,159,832,679    334,805,269  
1        1,755    915,265,788  1,406,631,776  
2       95,532    271,490,188     65,584,518  
3      216,022    1

In [None]:
# Visualizar as 5 últimas linhas
print(df.tail(5))


     Serial Number           Country Total Cases Total Deaths Total Recovered  \
226            227  Diamond Princess         712           13             699   
227            228      Vatican City          29          NaN              29   
228            229    Western Sahara          10            1               9   
229            230        MS Zaandam           9            2               7   
230            231           Tokelau           5          NaN             NaN   

    Active Cases Total Test Population  
226            0        NaN        NaN  
227            0        NaN        799  
228            0        NaN    626,161  
229            0        NaN        NaN  
230            5        NaN      1,378  


In [None]:
# Visualizar a quantidade de linhas e colunas da base de dados
print(df.shape)


(231, 8)


In [None]:
# Verificar os tipos dos campos, se estes estão nulos ou não
print(df.dtypes)
print(df.isnull().sum())



Serial Number       int64
Country            object
Total Cases        object
Total Deaths       object
Total Recovered    object
Active Cases       object
Total Test         object
Population         object
dtype: object
Serial Number       0
Country             0
Total Cases         0
Total Deaths        6
Total Recovered    21
Active Cases       19
Total Test         18
Population          3
dtype: int64


In [None]:
# Transformar os campos tipo Object para Float, com exceção do nome dos países
def converter_para_float(coluna):
    if coluna.name != 'nome_do_pais':  # Substitua 'nome_do_pais' pelo nome real da sua coluna de países
        return pd.to_numeric(coluna, errors='coerce')
    return coluna

df_transformado = df.apply(converter_para_float)


In [None]:
# Tratar os dados inconsistentes (sem valor)
import pandas as pd
df = df.dropna()
df = df.dropna(how='all')
print(df.isnull().sum())

Serial Number      0
Country            0
Total Cases        0
Total Deaths       0
Total Recovered    0
Active Cases       0
Total Test         0
Population         0
dtype: int64


In [None]:
# Excluir o campos desnecessários na base
# Para excluir linhas onde as colunas 'coluna1' ou 'coluna2' contêm 'N/A'
df = df.dropna(subset=['Total Recovered', 'Active Cases'])


In [None]:
# Visualizar a base de dados novamente
import pandas as pd
pd.set_option('display.max_rows', None)
print(df)

     Serial Number                 Country  Total Cases Total Deaths  \
0                1                     USA  104,196,861    1,132,935   
1                2                   India   44,682,784      530,740   
2                3                  France   39,524,311      164,233   
3                4                 Germany   37,779,833      165,711   
4                5                  Brazil   36,824,580      697,074   
5                6                   Japan   32,588,442       68,399   
6                7                S. Korea   30,197,066       33,486   
7                8                   Italy   25,453,789      186,833   
8                9                      UK   24,274,361      204,171   
9               10                  Russia   21,958,696      395,108   
11              12                   Spain   13,731,478      118,434   
12              13                 Vietnam   11,526,508       43,186   
13              14               Australia   11,295,446       18

In [None]:
# Verificar as informações estatísticas da base importada, como: média, mediana, desvio padrão e quartis

import pandas as pd


# Para obter um resumo estatístico da base de dados
estatisticas = df.describe()

# Imprimir o resumo estatístico
print(estatisticas)

#estatisticas = df.describe(include='all')

       Serial Number
count     195.000000
mean      107.189744
std        64.303965
min         1.000000
25%        51.500000
50%       104.000000
75%       162.000000
max       225.000000


In [None]:
# Aplicar filtros necessários para responder as 3 questões acima

In [None]:
#Os top 10 países que mais registraram casos de COVID?

top10_casos = df.sort_values(by='Total Cases', ascending=False).head(10)
print(top10_casos)



     Serial Number                 Country Total Cases Total Deaths  \
73              74                 Belarus     994,037        7,118   
131            132           French Guiana      98,028          420   
74              75                  Latvia     975,355        6,218   
132            133                     DRC      95,514        1,463   
200            201                   Niger       9,931          312   
201            202  St. Vincent Grenadines       9,585          123   
15              16                  Taiwan   9,569,611       16,356   
202            203     Antigua and Barbuda       9,106          146   
133            134                 Senegal      88,902        1,971   
134            135                  Malawi      88,559        2,686   

    Total Recovered Active Cases  Total Test  Population  
73          985,592        1,327  13,646,641   9,432,800  
131          11,254       86,354     651,257     314,169  
74          968,830          307   7,858,

In [None]:
#Os top 10 países que mais apresentaram casos de morte por COVID?

top10_mortes = df.sort_values(by='Total Deaths', ascending=False).head(10)
print(top10_mortes)



     Serial Number          Country Total Cases Total Deaths Total Recovered  \
145            146       Mauritania      63,665          997          62,437   
93              94          Réunion     485,895          919         418,572   
98              99  North Macedonia     346,428        9,638         336,623   
75              76     Saudi Arabia     827,962        9,574         815,528   
57              58        Lithuania   1,296,865        9,545       1,282,528   
64              65       Costa Rica   1,186,176        9,158         860,711   
213            214            Palau       5,986            9           5,976   
177            178    Liechtenstein      21,340           89          21,237   
198            199     Sint Maarten      11,010           89          10,905   
142            143             Fiji      68,820          883          66,780   

    Active Cases  Total Test  Population  
145          231   1,009,957   4,901,981  
93        66,404   1,603,660     

In [None]:
#Onde os casos ainda são altos?


paises_altos_casos = df.sort_values(by='Active Cases', ascending=False).head(10)
print(top10_mortes)


     Serial Number          Country Total Cases Total Deaths Total Recovered  \
145            146       Mauritania      63,665          997          62,437   
93              94          Réunion     485,895          919         418,572   
98              99  North Macedonia     346,428        9,638         336,623   
75              76     Saudi Arabia     827,962        9,574         815,528   
57              58        Lithuania   1,296,865        9,545       1,282,528   
64              65       Costa Rica   1,186,176        9,158         860,711   
213            214            Palau       5,986            9           5,976   
177            178    Liechtenstein      21,340           89          21,237   
198            199     Sint Maarten      11,010           89          10,905   
142            143             Fiji      68,820          883          66,780   

    Active Cases  Total Test  Population  
145          231   1,009,957   4,901,981  
93        66,404   1,603,660     