# Limpeza e estruturação de dados -  Covid 19 por CEP

Objetivo: Limpar a base e estruturar os dados para criar um gráfico em Power Bi

In [1]:
# Importando as bibliotecas
import pandas as pd
import numpy as np


In [2]:
# Carregando os dados
dados = pd.read_csv('Dados_CEP_MRJ_covid_19.csv', sep=';', encoding='latin-1', low_memory=False)

In [3]:
# Visualizando o dataframe
dados.head()

Unnamed: 0,dt_notific,dt_inicio_sintomas,bairro_resid__estadia,ap_residencia_estadia,evolução,dt_óbito,CEP,Data_atualização
0,27/04/20,22/04/20,TANQUE,4.0,recuperado,,22725030,14/10/20
1,12/04/20,05/04/20,JACAREPAGUA,4.0,recuperado,,22713560,14/10/20
2,13/05/20,12/04/20,CORDOVIL,3.1,recuperado,,21010290,14/10/20
3,27/04/20,24/04/20,INHAUMA,3.2,recuperado,,21051400,14/10/20
4,27/04/20,20/04/20,MADUREIRA,3.3,recuperado,,21310010,14/10/20


In [4]:
# Analisando a quantidade de dados unicos para cada variavel
dados.nunique()

dt_notific                 218
dt_inicio_sintomas         238
bairro_resid__estadia      162
ap_residencia_estadia       10
evolução                     3
dt_óbito                   209
CEP                      16181
Data_atualização             1
dtype: int64

In [5]:
# Analisando o formato dos dados de cada varivel
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97494 entries, 0 to 97493
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   dt_notific             97475 non-null  object 
 1   dt_inicio_sintomas     97471 non-null  object 
 2   bairro_resid__estadia  97494 non-null  object 
 3   ap_residencia_estadia  97494 non-null  float64
 4   evolução               97494 non-null  object 
 5   dt_óbito               8089 non-null   object 
 6   CEP                    97494 non-null  int64  
 7   Data_atualização       97494 non-null  object 
dtypes: float64(1), int64(1), object(6)
memory usage: 6.0+ MB


In [6]:
# Analisando a quantidade de dados de cada categoria unica da variavel evolução
dados['evolução'].value_counts()

recuperado    88676
bito          8093
ativo           725
Name: evolução, dtype: int64

In [7]:
# Analisando a quantidade de notificação por bairro
dados['bairro_resid__estadia'].value_counts()

BARRA DA TIJUCA    4205
CAMPO GRANDE       4003
TIJUCA             3926
COPACABANA         3879
BANGU              2687
                   ... 
JOA                  23
LAPA                 15
VILA KENNEDY         13
GERICINO             11
GRUMARI               1
Name: bairro_resid__estadia, Length: 162, dtype: int64

In [8]:
# Visualizando a quantidade de dados unicos da variavel ap_residencia_estadia
dados['ap_residencia_estadia'].nunique()

10

In [50]:
# Criando nova variavel só com as data de inicio de sintomas
dt_sintomas = dados['dt_inicio_sintomas']

In [51]:
# Analisandoa quantidade de dados unicos da variavel dt_inicio_sintomas
dados['dt_inicio_sintomas'].nunique()

238

In [52]:
# Transformando a nova variavel em uma lista
dt_sintomas.tolist()

['22/04/20',
 '05/04/20',
 '12/04/20',
 '24/04/20',
 '20/04/20',
 '24/04/20',
 '27/04/20',
 '17/04/20',
 '04/05/20',
 '27/03/20',
 '01/04/20',
 '24/03/20',
 '15/04/20',
 '16/04/20',
 '22/03/20',
 '20/04/20',
 '09/04/20',
 '02/05/20',
 '05/05/20',
 '14/04/20',
 '01/05/20',
 '24/04/20',
 '24/04/20',
 '16/04/20',
 '15/04/20',
 '08/04/20',
 '07/04/20',
 '14/04/20',
 '14/04/20',
 '02/05/20',
 '01/04/20',
 '31/03/20',
 '25/04/20',
 '22/04/20',
 '29/04/20',
 '12/04/20',
 '07/04/20',
 '14/04/20',
 '24/03/20',
 '18/04/20',
 '25/04/20',
 '10/04/20',
 '13/04/20',
 '14/04/20',
 '11/05/20',
 '07/05/20',
 '10/04/20',
 '12/04/20',
 '13/05/20',
 '13/05/20',
 '02/05/20',
 '16/04/20',
 '10/05/20',
 '10/05/20',
 '07/05/20',
 '05/05/20',
 '15/04/20',
 '29/04/20',
 '13/04/20',
 '16/04/20',
 '06/04/20',
 '05/05/20',
 '27/04/20',
 '13/04/20',
 '27/04/20',
 '25/04/20',
 '12/04/20',
 '17/04/20',
 '18/04/20',
 '22/04/20',
 '06/04/20',
 '18/04/20',
 '19/04/20',
 '30/04/20',
 '11/05/20',
 '16/04/20',
 '01/05/20',

In [53]:
# Criando um novo dataframe com esse conjunto de dados
df_dt_sintomas = pd.DataFrame(dt_sintomas)

In [54]:
# Visualizando o novo dataframe
df_dt_sintomas.head()

Unnamed: 0,dt_inicio_sintomas
0,22/04/20
1,05/04/20
2,12/04/20
3,24/04/20
4,20/04/20
...,...
97489,25/07/20
97490,22/04/20
97491,05/06/20
97492,27/08/20


In [14]:
# Exluindo valores nan ou vazio
df_dt_sintomas = df_dt_sintomas.dropna()

Criando novas variaveis filtrando por região de residencia e data de inicio de sintomas 

In [16]:
dados1 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 1.0).groupby(dados['dt_inicio_sintomas']).count()

In [17]:
dados21 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 2.1).groupby(dados['dt_inicio_sintomas']).count()

In [18]:
dados22 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 2.2).groupby(dados['dt_inicio_sintomas']).count()

In [19]:
dados31 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 3.1).groupby(dados['dt_inicio_sintomas']).count()

In [20]:
dados32 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 3.2).groupby(dados['dt_inicio_sintomas']).count()

In [21]:
dados33 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 3.3).groupby(dados['dt_inicio_sintomas']).count()

In [22]:
dados4 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 4.0).groupby(dados['dt_inicio_sintomas']).count()

In [23]:
dados51 =dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 5.1).groupby(dados['dt_inicio_sintomas']).count()

In [24]:
dados52 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 5.2).groupby(dados['dt_inicio_sintomas']).count()

In [25]:
dados53 = dados.filter(items = ['ap_residencia_estadia']).where(dados['ap_residencia_estadia'] == 5.3).groupby(dados['dt_inicio_sintomas']).count()

In [26]:
# Criando variaveis só com os valores da variavel ap_residencia_estadia na variavel de filtraçao por região e data de sintoma
col_dados1 = dados1['ap_residencia_estadia']
col_dados21 = dados21['ap_residencia_estadia']
col_dados22 = dados22['ap_residencia_estadia']
col_dados31 = dados31['ap_residencia_estadia']
col_dados32 = dados32['ap_residencia_estadia']
col_dados33 = dados33['ap_residencia_estadia']
col_dados4 = dados4['ap_residencia_estadia']
col_dados51 = dados51['ap_residencia_estadia']
col_dados52 = dados52['ap_residencia_estadia']
col_dados53 = dados53['ap_residencia_estadia']


In [93]:
# Criando dicionario com os dados
dic1 = {'Centro e Adjacências': col_dados1, ' Zona Sul': col_dados21, 'Grande Tijuca': col_dados22, 'Região da Leopoldina': col_dados31, ' Grande Méier':col_dados32,
        'Região de Madureira e Adjacências': col_dados33, 'Região de Jacarepaguá e Adjacências': col_dados4, 'Região de Bangu e Adjacências':col_dados51,
         'Região de  Campo Grande e Adjacências': col_dados52, 'Região de Santa Cruz e Adjacências': col_dados53}

In [94]:
# Criando novo dataframe com o dicionário
dados_covid_ap = pd.DataFrame(dic1)

In [95]:
# mostrando o novo dataframe criado
dados_covid_ap.head()

Unnamed: 0_level_0,Centro e Adjacências,Zona Sul,Grande Tijuca,Região da Leopoldina,Grande Méier,Região de Madureira e Adjacências,Região de Jacarepaguá e Adjacências,Região de Bangu e Adjacências,Região de Campo Grande e Adjacências,Região de Santa Cruz e Adjacências
dt_inicio_sintomas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
01/01/20,2,0,0,0,0,0,0,0,0,0
01/02/20,0,1,0,0,0,0,0,0,0,0
01/03/20,2,7,3,3,4,2,4,2,1,0
01/04/20,27,104,42,41,41,72,66,33,32,11
01/05/20,93,332,145,221,168,185,314,141,111,59


In [96]:
# salvando dataframe em um arquivo csv
dados_covid_ap.to_csv('dados_covid19_Area_PLanejamento_Saude.csv')

In [102]:
# Carregando o arquivo salvo anteriomente
covid_dados = pd.read_csv('dados_covid19_Area_PLanejamento_Saude.csv')

In [103]:
# Visualizando os tipo de dados no data frame
covid_dados.dtypes

dt_inicio_sintomas                       object
Centro e Adjacências                      int64
 Zona Sul                                 int64
Grande Tijuca                             int64
Região da Leopoldina                      int64
 Grande Méier                             int64
Região de Madureira e Adjacências         int64
Região de Jacarepaguá e Adjacências       int64
Região de Bangu e Adjacências             int64
Região de  Campo Grande e Adjacências     int64
Região de Santa Cruz e Adjacências        int64
dtype: object

In [104]:
# Mudando o tipo de dado da coluna 'dt_inicio_sintomas' para data
covid_dados['dt_inicio_sintomas'] = covid_dados['dt_inicio_sintomas'].astype('datetime64')

In [100]:
covid_dados.head()

Unnamed: 0_level_0,Centro e Adjacências,Zona Sul,Grande Tijuca,Região da Leopoldina,Grande Méier,Região de Madureira e Adjacências,Região de Jacarepaguá e Adjacências,Região de Bangu e Adjacências,Região de Campo Grande e Adjacências,Região de Santa Cruz e Adjacências,dt_inicio_sintomas
dt_inicio_sintomas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
01/01/20,2,0,0,0,0,0,0,0,0,0,01/01/20
01/02/20,0,1,0,0,0,0,0,0,0,0,01/02/20
01/03/20,2,7,3,3,4,2,4,2,1,0,01/03/20
01/04/20,27,104,42,41,41,72,66,33,32,11,01/04/20
01/05/20,93,332,145,221,168,185,314,141,111,59,01/05/20
...,...,...,...,...,...,...,...,...,...,...,...
30/09/20,10,47,6,27,8,9,16,5,7,9,30/09/20
31/03/20,10,40,16,17,18,19,27,11,11,10,31/03/20
31/05/20,20,34,12,26,17,31,41,26,14,9,31/05/20
31/07/20,14,51,32,45,31,54,77,29,28,12,31/07/20


In [105]:
# Criando nova coluna como codigo de semana 
covid_dados['Cod_Semanas_Ep'] = covid_dados['dt_inicio_sintomas'].dt.week

In [106]:
# Definindo as semanas epidemiologica como período 
covid_dados['Semanas epidemiologica'] = covid_dados['dt_inicio_sintomas'].dt.to_period('W')

In [107]:
#  Observando os dados
covid_dados.nunique()

dt_inicio_sintomas                       238
Centro e Adjacências                      63
 Zona Sul                                116
Grande Tijuca                             77
Região da Leopoldina                      99
 Grande Méier                             89
Região de Madureira e Adjacências        104
Região de Jacarepaguá e Adjacências      133
Região de Bangu e Adjacências             77
Região de  Campo Grande e Adjacências     77
Região de Santa Cruz e Adjacências        47
Cod_Semanas_Ep                            44
Semanas epidemiologica                    44
dtype: int64

In [108]:
# Observando os dados por semana epidemiologica
covid_dados.loc[covid_dados['Cod_Semanas_Ep'] == 1]

Unnamed: 0,dt_inicio_sintomas,Centro e Adjacências,Zona Sul,Grande Tijuca,Região da Leopoldina,Grande Méier,Região de Madureira e Adjacências,Região de Jacarepaguá e Adjacências,Região de Bangu e Adjacências,Região de Campo Grande e Adjacências,Região de Santa Cruz e Adjacências,Cod_Semanas_Ep,Semanas epidemiologica
0,2020-01-01,2,0,0,0,0,0,0,0,0,0,1,2019-12-30/2020-01-05
1,2020-01-02,0,1,0,0,0,0,0,0,0,0,1,2019-12-30/2020-01-05
2,2020-01-03,2,7,3,3,4,2,4,2,1,0,1,2019-12-30/2020-01-05
3,2020-01-04,27,104,42,41,41,72,66,33,32,11,1,2019-12-30/2020-01-05
4,2020-01-05,93,332,145,221,168,185,314,141,111,59,1,2019-12-30/2020-01-05


In [109]:
# Ordenando o dataframe por semana epidemiologica
covid_dados.sort_values(['Cod_Semanas_Ep', 'dt_inicio_sintomas'], ascending=[True, False], inplace= True)

In [44]:
# salvando o dataframe em um arquivo csv
covid_dados.to_csv('dados_covid19_Semana_Epid_1.csv')