# Análise de um dataset sobre a pandemia do coronavírus

#### Dataset: https://www.kaggle.com/datasets/whenamancodes/covid-19-coronavirus-pandemic-dataset

#### Decidi fazer um estudo com um dataset sobre o coronavírus devido o impacto mundial que causou a pandemia. 
##### Download do arquivo .csv em 15 de novembro de 2022.

In [2]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

In [3]:
data = pd.read_csv('../data/Covid_Live.csv')

In [4]:
data.head()

Unnamed: 0,#,"Country,\nOther",Total\nCases,Total\nDeaths,New\nDeaths,Total\nRecovered,Active\nCases,"Serious,\nCritical",Tot Cases/\n1M pop,Deaths/\n1M pop,Total\nTests,Tests/\n1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 230 entries, 0 to 229
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   #                  230 non-null    int64  
 1   Country,
Other     230 non-null    object 
 2   Total
Cases        230 non-null    object 
 3   Total
Deaths       225 non-null    object 
 4   New
Deaths         3 non-null      float64
 5   Total
Recovered    214 non-null    object 
 6   Active
Cases       215 non-null    object 
 7   Serious,
Critical  147 non-null    object 
 8   Tot Cases/
1M pop  228 non-null    object 
 9   Deaths/
1M pop     223 non-null    object 
 10  Total
Tests        214 non-null    object 
 11  Tests/
1M pop      214 non-null    object 
 12  Population         228 non-null    object 
dtypes: float64(1), int64(1), object(11)
memory usage: 23.5+ KB


In [6]:
data.dtypes

#                       int64
Country,\nOther        object
Total\nCases           object
Total\nDeaths          object
New\nDeaths           float64
Total\nRecovered       object
Active\nCases          object
Serious,\nCritical     object
Tot Cases/\n1M pop     object
Deaths/\n1M pop        object
Total\nTests           object
Tests/\n1M pop         object
Population             object
dtype: object

### Formato deste dataframe

In [7]:
print(f"Número de linhas: {data.shape[0]}\n"
f"Número de colunas: {data.shape[1]}")

Número de linhas: 230
Número de colunas: 13


###### Retirando a coluna "#" devido a não utilidade para a análise


In [8]:
data.drop(["#"], axis =1, inplace = True)

###### Renomeando as colunas para melhor entendimento


In [9]:
data.columns = ["pais", "total_casos", "total_obitos", "obitos_recentes", "total_recuperados", "casos_ativos", "estado_serio_critico", "casos_por_milhao", "obitos_por_milhao", "total_testes", "testes_por_milhao", "populacao"]

In [10]:
data.tail()

Unnamed: 0,pais,total_casos,total_obitos,obitos_recentes,total_recuperados,casos_ativos,estado_serio_critico,casos_por_milhao,obitos_por_milhao,total_testes,testes_por_milhao,populacao
225,Niue,80,,,80.0,0,,49322.0,,,,1622.0
226,Vatican City,29,,,29.0,0,,36295.0,,,,799.0
227,Tuvalu,20,,,,20,,1658.0,,,,12066.0
228,Western Sahara,10,1.0,,9.0,0,,16.0,2.0,,,626161.0
229,MS Zaandam,9,2.0,,7.0,0,,,,,,


In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 230 entries, 0 to 229
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   pais                  230 non-null    object 
 1   total_casos           230 non-null    object 
 2   total_obitos          225 non-null    object 
 3   obitos_recentes       3 non-null      float64
 4   total_recuperados     214 non-null    object 
 5   casos_ativos          215 non-null    object 
 6   estado_serio_critico  147 non-null    object 
 7   casos_por_milhao      228 non-null    object 
 8   obitos_por_milhao     223 non-null    object 
 9   total_testes          214 non-null    object 
 10  testes_por_milhao     214 non-null    object 
 11  populacao             228 non-null    object 
dtypes: float64(1), object(11)
memory usage: 21.7+ KB


In [19]:
print("Contagem de valores nulos: ")
data.isnull().sum()

Contagem de valores nulos: 


pais                      0
total_casos               0
total_obitos              5
obitos_recentes         227
total_recuperados        16
casos_ativos             15
estado_serio_critico     83
casos_por_milhao          2
obitos_por_milhao         7
total_testes             16
testes_por_milhao        16
populacao                 2
dtype: int64

In [13]:
print("Informações sobre o Brasil: ")
data.query("pais == 'Brazil'")

Informações sobre o Brasil: 


Unnamed: 0,pais,total_casos,total_obitos,obitos_recentes,total_recuperados,casos_ativos,estado_serio_critico,casos_por_milhao,obitos_por_milhao,total_testes,testes_por_milhao,populacao
3,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593


In [14]:
# Trocar object por int64 nas colunas onde serão feitos cálculos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 230 entries, 0 to 229
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   pais                  230 non-null    object 
 1   total_casos           230 non-null    object 
 2   total_obitos          225 non-null    object 
 3   obitos_recentes       3 non-null      float64
 4   total_recuperados     214 non-null    object 
 5   casos_ativos          215 non-null    object 
 6   estado_serio_critico  147 non-null    object 
 7   casos_por_milhao      228 non-null    object 
 8   obitos_por_milhao     223 non-null    object 
 9   total_testes          214 non-null    object 
 10  testes_por_milhao     214 non-null    object 
 11  populacao             228 non-null    object 
dtypes: float64(1), object(11)
memory usage: 21.7+ KB


In [15]:
colunas = ["total_casos", 
           "total_obitos", 
           "total_recuperados", 
           "casos_ativos",
           "estado_serio_critico", 
           "casos_por_milhao", 
           "obitos_por_milhao", 
           "total_testes", 
           "testes_por_milhao", 
           "populacao"]

In [16]:
for col in colunas:
    data[col] = data[col].str.replace(",", "")
    data[col] = pd.to_numeric(data[col], errors='coerce')         

In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 230 entries, 0 to 229
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   pais                  230 non-null    object 
 1   total_casos           230 non-null    int64  
 2   total_obitos          225 non-null    float64
 3   obitos_recentes       3 non-null      float64
 4   total_recuperados     214 non-null    float64
 5   casos_ativos          215 non-null    float64
 6   estado_serio_critico  147 non-null    float64
 7   casos_por_milhao      228 non-null    float64
 8   obitos_por_milhao     223 non-null    float64
 9   total_testes          214 non-null    float64
 10  testes_por_milhao     214 non-null    float64
 11  populacao             228 non-null    float64
dtypes: float64(10), int64(1), object(1)
memory usage: 21.7+ KB


In [18]:
data.isnull().sum()

pais                      0
total_casos               0
total_obitos              5
obitos_recentes         227
total_recuperados        16
casos_ativos             15
estado_serio_critico     83
casos_por_milhao          2
obitos_por_milhao         7
total_testes             16
testes_por_milhao        16
populacao                 2
dtype: int64