# Notebook de limpeza e tratamento dos dados

Para a realização dessa tarefa levou-se em consideração as especifícações contidas no arquivo do projeto postado do Google Classroom: "Para fins da análise considerada no escopo deste projeto, vamos excluir todos os atributos relativos às comorbidades, sintomas, etnia, profissão, outras datas que não a de notificação, origem e outros que não estiverem envolvidos no contexto do trabalho solicitado. Estes atributos serão considerados irrelevantes para fins de simplificação. Exclua todas as linhas em que houver dados faltantes para os atributos remanescentes."

## Importando as lib usadas na tarefa

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import unidecode
import re

import seaborn as sns
import matplotlib.pyplot as plt

## Lendo o dataset com pandas

In [8]:
file = '/home/dayvson/disc/rna/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv'
df_dataset = pd.read_csv(file, sep=';', encoding='ISO 8859-1')
df_dataset

Unnamed: 0,_idade,_faixa etária,_sexo,_bairro,_classificacao,_comorb_renal,_comorb_diabetes,_comorb_imuno,_comorb_cardio,_conclusao,...,_distrito,_bairro_mapa,_comorb_respiratoria,_comorb_cromossomica,_comorb_hepatica,_comorb_neurologica,_comorb_hemato,_comorb_obessidade,_origem,_evolução
0,74.0,70a - 79a,M,,Confirmado,Não,Não,Não,Não,,...,,,Não,Não,,,,,"eSUS VE,",
1,51.0,50a - 59a,F,ALEIXO,Confirmado,Não,Não,Não,Não,,...,SUL,ALEIXO,Não,Não,,,,,"eSUS VE,",
2,53.0,50a - 59a,M,PARQUE10,Confirmado,Não,Não,Não,Não,,...,SUL,PARQUE 10 DE NOVEMBRO,Não,Não,,,,,"eSUS VE,",
3,50.0,50a - 59a,M,SAO JORGE,Em análise,Não,Não,Não,Não,Recuperado,...,OESTE,SÃO JORGE,Não,Não,,,,,"eSUS VE,",
4,37.0,30a - 39a,F,,Em análise,Não,Não,Não,Não,Recuperado,...,,,Não,Não,,,,,"eSUS VE,",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
107216,68.0,60a - 69a,M,NOVA ESPERANCA,Descartado,Não,Não,Não,Não,Recuperado,...,OESTE,NOVA ESPERANÇA,Não,Não,,,,,"SIVEP, eSUS VE, GAL",Internado
107217,30.0,30a - 39a,M,COROADO,Descartado,Não,Não,Não,Não,Recuperado,...,LESTE,COROADO,Não,Não,Não,Não,Não,Não,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar
107218,46.0,40a - 49a,M,BRAGA MENDES,Confirmado,Não,Não,Não,Não,,...,NORTE,CIDADE DE DEUS,Não,Não,,,,,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar
107219,71.0,70a - 79a,M,PLANALTO,Descartado,Não,Não,Não,Sim,Recuperado,...,OESTE,PLANALTO,Sim,Não,Não,Não,Não,Não,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar


## Explorando os atributos

In [10]:
df_exp.count()

_idade                  107105
_faixa etária           107221
_sexo                   106404
_bairro                 105100
_classificacao          107221
_comorb_renal            93946
_comorb_diabetes         94601
_comorb_imuno            93813
_comorb_cardio           94648
_conclusao               64162
_dt_notificacao         107212
_taxa                   101431
_dt_evolucao             39272
_raca                    82627
_dt_sintomas            103592
_criterio                 8148
_tipo_teste              71577
_sintoma_garganta        97232
_sintoma_dispneia        98019
_sintoma_febre           98144
_sintoma_tosse           98089
_sintoma_outros          98088
_etnia                      35
_profiss_saude           89002
_srag                     8990
_se_notificacao         107212
_distrito               101431
_bairro_mapa            101431
_comorb_respiratoria     93957
_comorb_cromossomica     93843
_comorb_hepatica          3279
_comorb_neurologica       3357
_comorb_

## Processo de limpeza dos dados

### Passo 1: 

"Para fins da análise considerada no escopo deste projeto, vamos excluir todos os atributos relativos às comorbidades, sintomas, etnia, profissão, outras datas que não a de notificação, origem e outros que não estiverem envolvidos no contexto do trabalho solicitado. Estes atributos serão considerados irrelevantes para fins de simplificação. Exclua todas as linhas em que houver dados faltantes para os atributos remanescentes."

#### Deletando atributos relativos às comorbidades

In [20]:
col_to_del = []
for col in df_dataset.columns:
    #print(col)
    if re.search(r'comorb', col):
        print(col)
        col_to_del.append(col)

_comorb_renal
_comorb_diabetes
_comorb_imuno
_comorb_cardio
_comorb_respiratoria
_comorb_cromossomica
_comorb_hepatica
_comorb_neurologica
_comorb_hemato
_comorb_obessidade


In [45]:
df_new_dataset = df_dataset.drop(col_to_del, axis=1)
df_new_dataset

Unnamed: 0,_idade,_faixa etária,_sexo,_bairro,_classificacao,_conclusao,_dt_notificacao,_taxa,_dt_evolucao,_raca,...,_sintoma_tosse,_sintoma_outros,_etnia,_profiss_saude,_srag,_se_notificacao,_distrito,_bairro_mapa,_origem,_evolução
0,74.0,70a - 79a,M,,Confirmado,,04/05/2020,,,,...,Sim,Não,,Não,,19.0,,,"eSUS VE,",
1,51.0,50a - 59a,F,ALEIXO,Confirmado,,04/05/2020,0444325958,,,...,Não,Não,,Não,,19.0,SUL,ALEIXO,"eSUS VE,",
2,53.0,50a - 59a,M,PARQUE10,Confirmado,,04/05/2020,0228326141,,Parda,...,Não,Não,,Não,,19.0,SUL,PARQUE 10 DE NOVEMBRO,"eSUS VE,",
3,50.0,50a - 59a,M,SAO JORGE,Em análise,Recuperado,04/05/2020,0381446445,,Branca,...,Sim,Sim,,Não,,19.0,OESTE,SÃO JORGE,"eSUS VE,",
4,37.0,30a - 39a,F,,Em análise,Recuperado,04/05/2020,,,Branca,...,Sim,Não,,Não,,19.0,,,"eSUS VE,",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
107216,68.0,60a - 69a,M,NOVA ESPERANCA,Descartado,Recuperado,03/04/2020,0466526709,18/04/2020,Parda,...,Sim,Sim,,Não,SRAG não especificado,14.0,OESTE,NOVA ESPERANÇA,"SIVEP, eSUS VE, GAL",Internado
107217,30.0,30a - 39a,M,COROADO,Descartado,Recuperado,30/04/2020,0160758781,07/05/2020,Parda,...,Sim,Sim,,Não,SRAG não especificado,18.0,LESTE,COROADO,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar
107218,46.0,40a - 49a,M,BRAGA MENDES,Confirmado,,28/07/2020,0117699678,27/07/2020,Parda,...,Sim,Sim,,Não,Em aberto,31.0,NORTE,CIDADE DE DEUS,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar
107219,71.0,70a - 79a,M,PLANALTO,Descartado,Recuperado,25/06/2020,0507022258,04/07/2020,Parda,...,Sim,Sim,,Não,SRAG não especificado,26.0,OESTE,PLANALTO,"SIVEP, eSUS VE, GAL",Em tratamento domiciliar


#### Deletando desintomas, etnia, profissão, outras datas que não a de notificação, origem e outros que não estiverem envolvidos no contexto do trabalho solicitado. 

In [22]:
df_new_dataset.columns

Index(['_idade', '_faixa etária', '_sexo', '_bairro', '_classificacao',
       '_conclusao', '_dt_notificacao', '_taxa', '_dt_evolucao', '_raca',
       '_dt_sintomas', '_criterio', '_tipo_teste', '_sintoma_garganta',
       '_sintoma_dispneia', '_sintoma_febre', '_sintoma_tosse',
       '_sintoma_outros', '_etnia', '_profiss_saude', '_srag',
       '_se_notificacao', '_distrito', '_bairro_mapa', '_origem', '_evolução'],
      dtype='object')

In [38]:
df_dataset_clean = df_new_dataset.drop(['_etnia', '_origem', '_profiss_saude', '_dt_evolucao', '_dt_sintomas', 
                     '_dt_evolucao', '_taxa', '_srag', '_criterio', '_se_notificacao',
                     '_distrito','_sintoma_garganta', '_sintoma_dispneia', '_sintoma_febre',
                     '_sintoma_tosse', '_sintoma_outros', '_evolução', '_bairro_mapa', '_raca', '_faixa etária'], axis=1)
df_dataset_clean

Unnamed: 0,_idade,_sexo,_bairro,_classificacao,_conclusao,_dt_notificacao,_tipo_teste
0,74.0,M,,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
1,51.0,F,ALEIXO,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
2,53.0,M,PARQUE10,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
3,50.0,M,SAO JORGE,Em análise,Recuperado,04/05/2020,
4,37.0,F,,Em análise,Recuperado,04/05/2020,
...,...,...,...,...,...,...,...
107216,68.0,M,NOVA ESPERANCA,Descartado,Recuperado,03/04/2020,RT-PCR
107217,30.0,M,COROADO,Descartado,Recuperado,30/04/2020,
107218,46.0,M,BRAGA MENDES,Confirmado,,28/07/2020,TESTE RÁPIDO - ANTICORPO
107219,71.0,M,PLANALTO,Descartado,Recuperado,25/06/2020,


## Detalhando  colunas

In [49]:
df_exp = df_dataset_clean.copy()
df_exp

Unnamed: 0,_idade,_sexo,_bairro,_classificacao,_conclusao,_dt_notificacao,_tipo_teste
0,74.0,M,,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
1,51.0,F,ALEIXO,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
2,53.0,M,PARQUE10,Confirmado,,04/05/2020,TESTE RÁPIDO - ANTICORPO
3,50.0,M,SAO JORGE,Em análise,Recuperado,04/05/2020,
4,37.0,F,,Em análise,Recuperado,04/05/2020,
...,...,...,...,...,...,...,...
107216,68.0,M,NOVA ESPERANCA,Descartado,Recuperado,03/04/2020,RT-PCR
107217,30.0,M,COROADO,Descartado,Recuperado,30/04/2020,
107218,46.0,M,BRAGA MENDES,Confirmado,,28/07/2020,TESTE RÁPIDO - ANTICORPO
107219,71.0,M,PLANALTO,Descartado,Recuperado,25/06/2020,


In [50]:
df_exp._classificacao.value_counts()

Descartado    53359
Confirmado    36671
Em análise    17191
Name: _classificacao, dtype: int64

In [51]:
df_exp._conclusao.value_counts()

Recuperado    60671
Óbito          3491
Name: _conclusao, dtype: int64

## Passo 2:

"Exclua todas as linhas em que houver dados faltantes para os atributos remanescentes."

In [55]:
df_dataset_clean.dropna(inplace=True)
df_dataset_clean

Unnamed: 0,_idade,_sexo,_bairro,_classificacao,_conclusao,_dt_notificacao,_tipo_teste
7,40.0,F,BETHANIA,Descartado,Recuperado,03/05/2020,TESTE RÁPIDO - ANTICORPO
11,35.0,F,CACHOEIRINHA,Descartado,Recuperado,03/05/2020,TESTE RÁPIDO - ANTICORPO
33,43.0,M,CHAPADA,Descartado,Recuperado,03/05/2020,RT-PCR
64,44.0,M,CHAPADA,Descartado,Recuperado,03/05/2020,TESTE RÁPIDO - ANTICORPO
65,36.0,M,VIVER MELHOR - LAGO AZUL,Descartado,Recuperado,03/05/2020,TESTE RÁPIDO - ANTICORPO
...,...,...,...,...,...,...,...
107207,1.0,M,PARQUE 10 DE NOVEMBRO,Descartado,Recuperado,15/04/2020,TESTE RÁPIDO - ANTICORPO
107210,81.0,M,SANTA LUZIA,Descartado,Óbito,09/05/2020,RT-PCR
107212,68.0,M,JORGE TEIXEIRA,Confirmado,Recuperado,01/06/2020,RT-PCR
107215,45.0,F,TARUMA,Confirmado,Recuperado,05/06/2020,TESTE RÁPIDO - ANTICORPO


In [56]:
df_dataset_clean._classificacao.value_counts()

Descartado    27051
Confirmado     6360
Name: _classificacao, dtype: int64

### Passo 3:
Eliminar casos não confirmados

In [26]:
df_dataset_clean = df_dataset_clean[df_dataset_clean['_classificacao'] == 'Confirmado']
df_dataset_clean

Unnamed: 0,_idade,_sexo,_bairro,_classificacao,_conclusao,_dt_notificacao,_tipo_teste
678,25.0,F,ADRIANOPOLIS,Confirmado,Recuperado,20/03/2020,RT-PCR
679,41.0,F,BETANIA,Confirmado,Recuperado,27/03/2020,RT-PCR
66797,37.0,M,CIDADE NOVA,Confirmado,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
66799,44.0,M,SAO JORGE,Confirmado,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
66800,27.0,F,COLONIA TERRA NOVA,Confirmado,Recuperado,24/04/2020,TESTE RÁPIDO - ANTICORPO
...,...,...,...,...,...,...,...
107196,14.0,F,DA PAZ,Confirmado,Recuperado,25/06/2020,TESTE RÁPIDO - ANTÍGENO
107202,5.0,F,REDENCAO,Confirmado,Recuperado,18/06/2020,TESTE RÁPIDO - ANTÍGENO
107204,70.0,F,DOM PEDRO I,Confirmado,Recuperado,02/06/2020,TESTE RÁPIDO - ANTÍGENO
107212,68.0,M,JORGE TEIXEIRA,Confirmado,Recuperado,01/06/2020,RT-PCR


In [27]:
df_dataset_clean.drop(['_classificacao'], axis=1, inplace=True)

In [28]:
df_dataset_clean.reset_index(drop=True, inplace=True)

In [29]:
df_dataset_clean

Unnamed: 0,_idade,_sexo,_bairro,_conclusao,_dt_notificacao,_tipo_teste
0,25.0,F,ADRIANOPOLIS,Recuperado,20/03/2020,RT-PCR
1,41.0,F,BETANIA,Recuperado,27/03/2020,RT-PCR
2,37.0,M,CIDADE NOVA,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
3,44.0,M,SAO JORGE,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
4,27.0,F,COLONIA TERRA NOVA,Recuperado,24/04/2020,TESTE RÁPIDO - ANTICORPO
...,...,...,...,...,...,...
6355,14.0,F,DA PAZ,Recuperado,25/06/2020,TESTE RÁPIDO - ANTÍGENO
6356,5.0,F,REDENCAO,Recuperado,18/06/2020,TESTE RÁPIDO - ANTÍGENO
6357,70.0,F,DOM PEDRO I,Recuperado,02/06/2020,TESTE RÁPIDO - ANTÍGENO
6358,68.0,M,JORGE TEIXEIRA,Recuperado,01/06/2020,RT-PCR


In [30]:
df_dataset_clean._conclusao.value_counts()

Recuperado    6347
Óbito           13
Name: _conclusao, dtype: int64

## Renomeando as colunas do dataset

In [31]:
new_columns = []
for col in df_dataset_clean.columns:
    nc = unidecode.unidecode(col.replace('_', '', 1))
    print(nc)
    new_columns.append(nc)

idade
sexo
bairro
conclusao
dt_notificacao
tipo_teste


In [32]:
d_names = dict(zip(df_dataset_clean, new_columns))
df_dataset_clean.rename(d_names, axis=1, inplace=True)

In [33]:
df_dataset_clean

Unnamed: 0,idade,sexo,bairro,conclusao,dt_notificacao,tipo_teste
0,25.0,F,ADRIANOPOLIS,Recuperado,20/03/2020,RT-PCR
1,41.0,F,BETANIA,Recuperado,27/03/2020,RT-PCR
2,37.0,M,CIDADE NOVA,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
3,44.0,M,SAO JORGE,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
4,27.0,F,COLONIA TERRA NOVA,Recuperado,24/04/2020,TESTE RÁPIDO - ANTICORPO
...,...,...,...,...,...,...
6355,14.0,F,DA PAZ,Recuperado,25/06/2020,TESTE RÁPIDO - ANTÍGENO
6356,5.0,F,REDENCAO,Recuperado,18/06/2020,TESTE RÁPIDO - ANTÍGENO
6357,70.0,F,DOM PEDRO I,Recuperado,02/06/2020,TESTE RÁPIDO - ANTÍGENO
6358,68.0,M,JORGE TEIXEIRA,Recuperado,01/06/2020,RT-PCR


### Alterando o tipo da idade

In [34]:
df_dataset_clean.idade = df_dataset_clean.idade.astype('int64')

In [35]:
df_dataset_clean

Unnamed: 0,idade,sexo,bairro,conclusao,dt_notificacao,tipo_teste
0,25,F,ADRIANOPOLIS,Recuperado,20/03/2020,RT-PCR
1,41,F,BETANIA,Recuperado,27/03/2020,RT-PCR
2,37,M,CIDADE NOVA,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
3,44,M,SAO JORGE,Recuperado,27/04/2020,TESTE RÁPIDO - ANTICORPO
4,27,F,COLONIA TERRA NOVA,Recuperado,24/04/2020,TESTE RÁPIDO - ANTICORPO
...,...,...,...,...,...,...
6355,14,F,DA PAZ,Recuperado,25/06/2020,TESTE RÁPIDO - ANTÍGENO
6356,5,F,REDENCAO,Recuperado,18/06/2020,TESTE RÁPIDO - ANTÍGENO
6357,70,F,DOM PEDRO I,Recuperado,02/06/2020,TESTE RÁPIDO - ANTÍGENO
6358,68,M,JORGE TEIXEIRA,Recuperado,01/06/2020,RT-PCR


### Exportando o novo dataset para CSV

In [36]:
df_dataset_clean.to_csv('dataset/dataset_limpo_covid19_manaus.csv', index=False)