## Análise de dados de COVID-19 em Toronto

<b> Seguindo a metodologia CRISP-DM </b>

<b> 1. Entendimento do negócio </b>

O dataset traz informações sobre os casos de COVID registrados na cidade de Toronto, no Canadá. O objetivo desta análise é identificar padrões relacionados a infecção pelo vírus que podem ser úteis na prevenção de novos casos. "Os dados analisados aqui foram retirados do Ministério da Saúde do Canadá"

<b> 2. Entendimento dos dados </b>

<b> 2.1 Coleta de dados </b>

In [2]:
# Dados importados do Ministério da Saúde do Canadá:

import pandas as pd

dataset = pd.read_csv('COVID19 cases Toronto.csv')

dataset.head()

Unnamed: 0,_id,Outbreak Associated,Age Group,Neighbourhood Name,FSA,Source of Infection,Classification,Episode Date,Reported Date,Client Gender,Outcome,Currently Hospitalized,Currently in ICU,Currently Intubated,Ever Hospitalized,Ever in ICU,Ever Intubated
0,44294,Sporadic,50-59,Malvern,M1B,Institutional,CONFIRMED,2020-03-25,2020-03-27,MALE,RESOLVED,No,No,No,No,No,No
1,44295,Sporadic,20-29,Malvern,M1B,Community,CONFIRMED,2020-03-20,2020-03-28,MALE,RESOLVED,No,No,No,Yes,No,No
2,44296,Sporadic,60-69,Malvern,M1B,Travel,CONFIRMED,2020-03-04,2020-03-08,FEMALE,RESOLVED,No,No,No,Yes,Yes,Yes
3,44297,Outbreak Associated,50-59,Rouge,M1B,N/A - Outbreak associated,CONFIRMED,2020-05-02,2020-05-04,FEMALE,RESOLVED,No,No,No,No,No,No
4,44298,Sporadic,30-39,Rouge,M1B,Close contact,CONFIRMED,2020-05-31,2020-06-06,FEMALE,RESOLVED,No,No,No,No,No,No


<b> 2.2 Descrição dos dados </b>

<b> Colunas </b> 

* **ID**: ID do paciente 
<br>
* **Outbreak Associated**: como o paciente foi contaminado
<br>
* **Age Group**: faixa etária do paciente
<br>
* **Neighbourhood Name**: bairro onde o paciente mora
<br>
* **FSA**: identificação postal do paciente
<br>
* **Source of Infection**: como o paciente foi infectado
<br>
* **Classification**: resultado de seu exame de COVID
<br>
* **Episode Date**: data da infecção
<br>
* **Reported Date**: data do diagnóstico
<br>
* **Client Gender**: gênero do paciente
<br>
* **Outcome**: situação do paciente
<br>
* **Currently Hospitalized**: se o paciente está hospitalizado
<br>
* **Currently in ICU**: se o paciente está em UTI
<br>
* **Currently Intubated**: se o paciente está entubado
<br>
* **Ever Hospitalized**: se o paciente já foi hospitalizado
<br>
* **Ever in ICU**: se o paciente já esteve em UTI
<br>
* **Ever Intubated**: se o paciente já foi entubado

In [43]:
# coletando informações iniciais

# verificando os tipos de dado em cada coluna do dataset e o número de ocorrências

dataset.info()

# verificando estatísticas em cada coluna

dataset.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14911 entries, 0 to 14910
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     14911 non-null  int64         
 1   Outbreak Associated     14911 non-null  object        
 2   Age Group               14879 non-null  object        
 3   Neighbourhood Name      14298 non-null  object        
 4   FSA                     14344 non-null  object        
 5   Source of Infection     14911 non-null  object        
 6   Classification          14911 non-null  object        
 7   Episode Date            14911 non-null  datetime64[ns]
 8   Reported Date           14911 non-null  datetime64[ns]
 9   Client Gender           14911 non-null  object        
 10  Outcome                 14911 non-null  object        
 11  Currently Hospitalized  14911 non-null  int64         
 12  Currently in ICU        14911 non-null  int64 

Unnamed: 0,_id,Currently Hospitalized,Currently in ICU,Currently Intubated,Ever Hospitalized,Ever in ICU,Ever Intubated
count,14911.0,14911.0,14911.0,14911.0,14911.0,14911.0,14911.0
mean,51749.0,0.989873,0.998055,0.998323,0.876065,0.973174,0.980752
std,4304.579267,0.100124,0.044059,0.040914,0.329519,0.16158,0.137398
min,44294.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,48021.5,1.0,1.0,1.0,1.0,1.0,1.0
50%,51749.0,1.0,1.0,1.0,1.0,1.0,1.0
75%,55476.5,1.0,1.0,1.0,1.0,1.0,1.0
max,59204.0,1.0,1.0,1.0,1.0,1.0,1.0


In [42]:
# verificando o período em os casos coletados ocorreram

dataset['Reported Date'].describe()

  dataset['Reported Date'].describe()


count                   14911
unique                    142
top       2020-05-29 00:00:00
freq                      437
first     2020-01-23 00:00:00
last      2020-07-13 00:00:00
Name: Reported Date, dtype: object

<b> Informações iniciais:

* <b> 14911 pacientes serão analisados
* <b> Os dados foram coletados entre janeiro e julho de 2020

<b> 3. Preparação dos dados </b>

<b> Os dados já estão ordenados por ID

<b> 3.1 Limpando os dados

In [56]:
# verificando a quantidade de dados nulos em cada coluna

dataset.isnull().sum()

_id                       0
Outbreak Associated       0
Age Group                 0
Neighbourhood Name        0
FSA                       0
Source of Infection       0
Classification            0
Episode Date              0
Reported Date             0
Client Gender             0
Outcome                   0
Currently Hospitalized    0
Currently in ICU          0
Currently Intubated       0
Ever Hospitalized         0
Ever in ICU               0
Ever Intubated            0
dtype: int64

In [51]:
# susbtituindo dados nulos em "Age Group" pelo dado mais frequente

dataset['Age Group'].fillna(dataset['Age Group'].value_counts().index[0], inplace=True)

In [53]:
# susbtituindo dados nulos em "Neighbourhood Name" por uma classe 'Unknown'

dataset['Neighbourhood Name'].fillna('Unknown', inplace=True)

In [55]:
# susbtituindo dados nulos em "FSA" por uma classe 'Unknown'

dataset['FSA'].fillna('Unknown', inplace=True)

<b> 3.2 Formatando os dados </b>

In [5]:
# convertendo 'objects' em 'datetime' nas colunas de dados

dataset['Episode Date'] = pd.to_datetime(dataset['Episode Date'])
dataset['Reported Date'] = pd.to_datetime(dataset['Reported Date'])

# substituindo os valores "YES/NO" por valores "1/0" (não são booleanos!)

dataset.replace(['No', 'Yes'], [1, 0], inplace=True)

# por que não usar o astype no lugar do replace?

dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14911 entries, 0 to 14910
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     14911 non-null  int64         
 1   Outbreak Associated     14911 non-null  object        
 2   Age Group               14879 non-null  object        
 3   Neighbourhood Name      14298 non-null  object        
 4   FSA                     14344 non-null  object        
 5   Source of Infection     14911 non-null  object        
 6   Classification          14911 non-null  object        
 7   Episode Date            14911 non-null  datetime64[ns]
 8   Reported Date           14911 non-null  datetime64[ns]
 9   Client Gender           14911 non-null  object        
 10  Outcome                 14911 non-null  object        
 11  Currently Hospitalized  14911 non-null  int64         
 12  Currently in ICU        14911 non-null  int64 

<b> 4. Exploração dos dados

In [57]:
# verificando quantos dias o paciente levou para reportar o caso

# usando dt.days