# Etapa 2 - Limpeza dos Dados

In [34]:
import pandas as pd
import pandera as pa

In [37]:
#Criação do dataframe e checagem dos dados
df = pd.read_csv("93f4e8c2-430f-4142-86b3-96dab4905b4e.csv", parse_dates=['data_inicio_primeiros_sintomas','data_notificacao','data_obito'])
df.head(10)

Unnamed: 0,_id,sexo,idade,raca,etnia,morbidades_previas,outras_morbidades_previas,evolucao,data_inicio_primeiros_sintomas,data_notificacao,data_obito,classificacao_final
0,1,Masculino,9 meses,Ignorado,,Doenças Respiratórias Crônicas,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-02,NaT,DESCARTADO
1,2,Feminino,46,Branca,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-28,2021-03-03,NaT,EM ANÁLISE
2,3,Masculino,78,Branca,,"Doenças Cardíacas ou Vasculares, Doença Hepáti...",,ÓBITO,2021-01-06,2021-01-08,2021-01-26,CONFIRMADO
3,4,Feminino,62,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-23,2021-03-02,NaT,EM ANÁLISE
4,5,Masculino,26,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-01,NaT,DESCARTADO
5,6,Masculino,39,Ignorado,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-18,2021-03-02,NaT,DESCARTADO
6,7,Feminino,1,Ignorado,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-20,2021-02-28,NaT,DESCARTADO
7,8,Feminino,34,Branca,,Sobrepeso/Obesidade,,RECUPERADO,2021-01-12,2021-01-22,NaT,CONFIRMADO
8,9,Masculino,61,Ignorado,,,,RECUPERADO,2021-02-01,2021-02-12,NaT,CONFIRMADO
9,10,Masculino,59,Branca,,Imunossupressão,,RECUPERADO,2021-01-22,2021-01-25,NaT,CONFIRMADO


In [36]:
#Verificação dos tipos de dados
df.dtypes

_id                                 int64
sexo                               object
idade                              object
raca                               object
etnia                             float64
morbidades_previas                 object
outras_morbidades_previas          object
evolucao                           object
data_inicio_primeiros_sintomas     object
data_notificacao                   object
data_obito                         object
classificacao_final                object
dtype: object

In [4]:
#Observações:

#A coluna 'idade' permanecerá como 'object' porque também aceita os meses como idade, conforme o dicionário da base de dados (casosgravescovid.json)

#A coluna 'etnia' será convertida para 'object', conforme o dicionário da base de dados (casosgravescovid.json)

#A coluna 'data_inicio_primeiros_sintomas' deveria ser do tipo datetime, conforme registrado no dicionário da
#base de dados (casosgravescovid.json), mas há inconsistências nas células preenchidas, como por exemplo uma data com 
#seguinte formato: '00/01/1900'. Logo, essas células serão tratadas na etapa de transformação.

#As colunas 'data_notificacao' e 'data_obito' serão convertidas para 'datetime', conforme o dicionário da base de dados (casosgravescovid.json)

In [5]:
#Inclusão do parâmetro 'parse_dates' no dataframe

In [38]:
df.dtypes

_id                                        int64
sexo                                      object
idade                                     object
raca                                      object
etnia                                    float64
morbidades_previas                        object
outras_morbidades_previas                 object
evolucao                                  object
data_inicio_primeiros_sintomas            object
data_notificacao                  datetime64[ns]
data_obito                        datetime64[ns]
classificacao_final                       object
dtype: object

In [7]:
#Validação dos dados

In [8]:
#O parâmetro 'nullable=True' foi adcionado em algumas colunas para validar os campos nulos

#As colunas 'etnia' e 'data_inicio_primeiros_sintomas' serão validadas mais adiante na etapa de limpeza

In [39]:
schema = pa.DataFrameSchema(
    columns = {
        "_id": pa.Column(pa.Int),
        "sexo": pa.Column(pa.String),
        "idade": pa.Column(pa.String),
        "raca": pa.Column(pa.String, nullable=True),
        #"etnia": pa.Column(pa.String),
        "morbidades_previas": pa.Column(pa.String, nullable=True),
        "outras_morbidades_previas": pa.Column(pa.String, nullable=True),
        "evolucao": pa.Column(pa.String, nullable=True),
        #"data_inicio_primeiros_sintomas": pa.Column(pa.DateTime),
        "data_notificacao": pa.Column(pa.DateTime),
        "data_obito": pa.Column(pa.DateTime, nullable=True),
        "classificacao_final": pa.Column(pa.String)
    }
)

In [40]:
schema.validate(df)

Unnamed: 0,_id,sexo,idade,raca,etnia,morbidades_previas,outras_morbidades_previas,evolucao,data_inicio_primeiros_sintomas,data_notificacao,data_obito,classificacao_final
0,1,Masculino,9 meses,Ignorado,,Doenças Respiratórias Crônicas,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-02,NaT,DESCARTADO
1,2,Feminino,46,Branca,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-28,2021-03-03,NaT,EM ANÁLISE
2,3,Masculino,78,Branca,,"Doenças Cardíacas ou Vasculares, Doença Hepáti...",,ÓBITO,2021-01-06,2021-01-08,2021-01-26,CONFIRMADO
3,4,Feminino,62,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-23,2021-03-02,NaT,EM ANÁLISE
4,5,Masculino,26,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-01,NaT,DESCARTADO
...,...,...,...,...,...,...,...,...,...,...,...,...
5495,5496,Masculino,2 meses,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2020-10-31,2020-11-04,NaT,DESCARTADO
5496,5497,Masculino,79,Parda,,"Doenças Respiratórias Crônicas, Diabetes",EX TABAGISTA,ÓBITO,00/01/1900,2020-12-16,2020-11-19,CONFIRMADO
5497,5498,Masculino,79,Parda,,Doenças Cardíacas ou Vasculares,,INTERNADO LEITO DE ISOLAMENTO,2020-12-14,2020-12-17,NaT,EM ANÁLISE
5498,5499,Masculino,44,Parda,,"Doenças Cardíacas ou Vasculares, Sobrepeso/Obe...",,INTERNADO LEITO DE ISOLAMENTO,2020-11-29,2020-12-01,NaT,DESCARTADO


In [41]:
#Renomear a coluna '_id' para 'id'
df = df.rename(columns={"_id":"id"})

In [42]:
df.head()

Unnamed: 0,id,sexo,idade,raca,etnia,morbidades_previas,outras_morbidades_previas,evolucao,data_inicio_primeiros_sintomas,data_notificacao,data_obito,classificacao_final
0,1,Masculino,9 meses,Ignorado,,Doenças Respiratórias Crônicas,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-02,NaT,DESCARTADO
1,2,Feminino,46,Branca,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-28,2021-03-03,NaT,EM ANÁLISE
2,3,Masculino,78,Branca,,"Doenças Cardíacas ou Vasculares, Doença Hepáti...",,ÓBITO,2021-01-06,2021-01-08,2021-01-26,CONFIRMADO
3,4,Feminino,62,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-23,2021-03-02,NaT,EM ANÁLISE
4,5,Masculino,26,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-01,NaT,DESCARTADO


In [43]:
#Localizando linhas com datas inconsistentes
df.loc[df.data_inicio_primeiros_sintomas == "00/01/1900"]

Unnamed: 0,id,sexo,idade,raca,etnia,morbidades_previas,outras_morbidades_previas,evolucao,data_inicio_primeiros_sintomas,data_notificacao,data_obito,classificacao_final
14,15,Feminino,93,Branca,,"Diabetes, Doenças Cardíacas ou Vasculares, Sob...",NEOPLASIA DE PELE,ÓBITO,00/01/1900,2021-01-07,2021-01-21,CONFIRMADO
57,58,Masculino,53,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,00/01/1900,2020-06-30,NaT,DESCARTADO
201,202,Feminino,18,Branca,,,PUÉRPERA,,00/01/1900,2020-07-08,NaT,INCONCLUSIVO
416,417,Feminino,57,Parda,,Doenças Cardíacas ou Vasculares,,RECUPERADO,00/01/1900,2021-03-30,NaT,CONFIRMADO
510,511,Masculino,11,,,,,INTERNADO LEITO DE ISOLAMENTO,00/01/1900,2020-04-08,NaT,DESCARTADO
...,...,...,...,...,...,...,...,...,...,...,...,...
5255,5256,Feminino,41,Branca,,,,,00/01/1900,2020-07-06,NaT,INCONCLUSIVO
5360,5361,Feminino,74,Preta,,,,ÓBITO,00/01/1900,2020-04-23,2020-04-29,CONFIRMADO
5386,5387,Masculino,80,Parda,,,,RECUPERADO,00/01/1900,2020-05-28,NaT,CONFIRMADO
5400,5401,Feminino,76,Parda,,Doenças Cardíacas ou Vasculares,hipertensa e dpoc e efisema pulmonar,ÓBITO,00/01/1900,2020-12-21,2020-12-19,CONFIRMADO


In [44]:
#Visualização de todos os dados não informados por coluna (nulos)
df.isna().sum()

id                                   0
sexo                                 0
idade                                0
raca                              1291
etnia                             5500
morbidades_previas                3689
outras_morbidades_previas         4520
evolucao                           157
data_inicio_primeiros_sintomas       0
data_notificacao                     0
data_obito                        4231
classificacao_final                  0
dtype: int64

In [45]:
#Substituição de datas inconsistêntes para valor não informado
df.replace("00/01/1900", pd.NaT, inplace=True)

In [46]:
#Visualização de todos os dados não informados por coluna (nulos)
df.isna().sum()

id                                   0
sexo                                 0
idade                                0
raca                              1291
etnia                             5500
morbidades_previas                3689
outras_morbidades_previas         4520
evolucao                           157
data_inicio_primeiros_sintomas     195
data_notificacao                     0
data_obito                        4231
classificacao_final                  0
dtype: int64

In [47]:
#Alteração do tipo de dados da coluna 'data_inicio_primeiros_sintomas' para 'datetime'
df["data_inicio_primeiros_sintomas"] = df["data_inicio_primeiros_sintomas"].astype("datetime64")

In [48]:
#Alteração do tipo de dados da coluna 'etnia' para 'object'
df["etnia"] = df["etnia"].astype("object")

In [49]:
df.dtypes

id                                         int64
sexo                                      object
idade                                     object
raca                                      object
etnia                                     object
morbidades_previas                        object
outras_morbidades_previas                 object
evolucao                                  object
data_inicio_primeiros_sintomas    datetime64[ns]
data_notificacao                  datetime64[ns]
data_obito                        datetime64[ns]
classificacao_final                       object
dtype: object

In [None]:
#Validação dos dados

In [None]:
#O parâmetro 'nullable=True' foi adcionado nas colunas 'etnia' e 'data_inicio_primeiros_sintomas' para validar os campos nulos

In [54]:
schema = pa.DataFrameSchema(
    columns = {
        "id": pa.Column(pa.Int),
        "sexo": pa.Column(pa.String),
        "idade": pa.Column(pa.String),
        "raca": pa.Column(pa.String, nullable=True),
        "etnia": pa.Column(pa.String, nullable=True),
        "morbidades_previas": pa.Column(pa.String, nullable=True),
        "outras_morbidades_previas": pa.Column(pa.String, nullable=True),
        "evolucao": pa.Column(pa.String, nullable=True),
        "data_inicio_primeiros_sintomas": pa.Column(pa.DateTime, nullable=True),
        "data_notificacao": pa.Column(pa.DateTime),
        "data_obito": pa.Column(pa.DateTime, nullable=True),
        "classificacao_final": pa.Column(pa.String)
    }
)

In [55]:
schema.validate(df)

Unnamed: 0,id,sexo,idade,raca,etnia,morbidades_previas,outras_morbidades_previas,evolucao,data_inicio_primeiros_sintomas,data_notificacao,data_obito,classificacao_final
0,1,Masculino,9 meses,Ignorado,,Doenças Respiratórias Crônicas,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-02,NaT,DESCARTADO
1,2,Feminino,46,Branca,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-28,2021-03-03,NaT,EM ANÁLISE
2,3,Masculino,78,Branca,,"Doenças Cardíacas ou Vasculares, Doença Hepáti...",,ÓBITO,2021-01-06,2021-01-08,2021-01-26,CONFIRMADO
3,4,Feminino,62,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-23,2021-03-02,NaT,EM ANÁLISE
4,5,Masculino,26,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2021-02-24,2021-03-01,NaT,DESCARTADO
...,...,...,...,...,...,...,...,...,...,...,...,...
5495,5496,Masculino,2 meses,Parda,,,,INTERNADO LEITO DE ISOLAMENTO,2020-10-31,2020-11-04,NaT,DESCARTADO
5496,5497,Masculino,79,Parda,,"Doenças Respiratórias Crônicas, Diabetes",EX TABAGISTA,ÓBITO,NaT,2020-12-16,2020-11-19,CONFIRMADO
5497,5498,Masculino,79,Parda,,Doenças Cardíacas ou Vasculares,,INTERNADO LEITO DE ISOLAMENTO,2020-12-14,2020-12-17,NaT,EM ANÁLISE
5498,5499,Masculino,44,Parda,,"Doenças Cardíacas ou Vasculares, Sobrepeso/Obe...",,INTERNADO LEITO DE ISOLAMENTO,2020-11-29,2020-12-01,NaT,DESCARTADO
