# Limpeza de dados - Covid-19 ES, Brasil

Nesse notebook vou ajustar os dados da Covid-19 do ES para posteriormente analisar eles.

Sumário:
1. Obter
2. Identificar
3. Limpar

## Obter

Inicialmente vou importar as bibliotecas necessárias para a a limpeza da base (pandas e numpy). Além disso vou importar a base de dados de Covid-19 no ES, que está em um arquivo csv com ";" como separador, e passar a base para um dataframe. A base pode ser encontrada no link: https://bi.s3.es.gov.br/covid19/MICRODADOS.csv

In [93]:
import pandas as pd
import numpy as np

In [94]:
df=pd.read_csv("https://bi.s3.es.gov.br/covid19/MICRODADOS.csv", sep=";", encoding='latin1')

## Identificar

Para uma primeira visualização vou ver as primeiras 5 linhas e usar a função `.info()` para ver os tipos de dados.

In [95]:
df.head()

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataColetaSorologia,DataColetaSorologiaIGG,DataEncerramento,DataObito,Classificacao,...,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua,ResultadoRT_PCR,ResultadoTesteRapido,ResultadoSorologia,ResultadoSorologia_IGG,TipoTesteRapido
0,2021-06-27,2021-06-09,2021-06-21,2021-06-27,,,,2021-06-14,,Suspeito,...,Não,Não,Não,Não,Não,Não Informado,Não Informado,Não Informado,Não Informado,Não Informado
1,2021-06-27,2021-06-27,2021-06-27,2021-06-27,2021-06-27,,,,,Suspeito,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
2,2021-06-27,2021-06-27,2021-06-27,2021-06-27,2021-06-27,,,,,Suspeito,...,Sim,Sim,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
3,2021-06-27,2021-06-27,2021-06-25,,2021-06-27,,,,,Descartados,...,Não,Não,Não,Sim,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
4,2021-06-27,2021-06-27,2021-06-27,2021-06-27,2021-06-27,,,,,Suspeito,...,Não,Não,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno


In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1604042 entries, 0 to 1604041
Data columns (total 45 columns):
 #   Column                   Non-Null Count    Dtype 
---  ------                   --------------    ----- 
 0   DataNotificacao          1604042 non-null  object
 1   DataCadastro             1604042 non-null  object
 2   DataDiagnostico          1604042 non-null  object
 3   DataColeta_RT_PCR        793205 non-null   object
 4   DataColetaTesteRapido    570362 non-null   object
 5   DataColetaSorologia      87051 non-null    object
 6   DataColetaSorologiaIGG   133966 non-null   object
 7   DataEncerramento         1379188 non-null  object
 8   DataObito                14600 non-null    object
 9   Classificacao            1604042 non-null  object
 10  Evolucao                 1604042 non-null  object
 11  CriterioConfirmacao      1604042 non-null  object
 12  StatusNotificacao        1604042 non-null  object
 13  Municipio                1604042 non-null  object
 14  Ba

Já podemos observar algums pontos de melhoria de nossos dados:
1. `DataColeta_RT_PCR`, `DataColetaTesteRapido`, `DataColetaSorologia`, `DataColetaSorologiaIGG`, `DataEncerramento` e `DataObito` contém dados vazios, porém não é um problema, pois nem todos os pacientes fizeram esses testes ou tiveram seu caso encerrado ou faleceram.


2. `Bairro` falta alguns dados.


3. `DataNotificacao`, `DataCadastro`, `DataDiagnostico`, `DataColeta_RT_PCR`, `DataColetaTesteRapido`, `DataColetaSorologia`, `DataColetaSorologiaIGG`, `DataEncerramento` e `DataObito` estão em formato `object` quando deveria ser `datetime`.


4. `IdadeNaDataNotificacao` é tipo `object` quando deveria ser `int`.


5. `Febre`, `DificuldadeRespiratoria`, `Tosse`, `Coriza`, `DorGarganta`, `Diarreia`, `Cefaleia`, `ComorbidadePulmao`, `ComorbidadeCardio`, `ComorbidadeRenal`, `ComorbidadeDiabetes`, `ComorbidadeTabagismo`, `ComorbidadeObesidade`, `FicouInternado`, `ViagemBrasil`, `ViagemInternacional`, `ProfissionalSaude`, `PossuiDeficiencia`, `MoradorDeRua`, `ResultadoRT_PCR`, `ResultadoTesteRapido`, `ResultadoSorologia`, `ResultadoSorologia_IGG` estão no tipo `object` quando deveriam ser `boolean`

Agora vou ver os principais valores das colunas `Classificacao`, `Evolucao`, `CriterioConfirmacao`, `StatusNotificacao`, `Municipio`, `Bairro`, `FaixaEtaria`, `IdadeNaDataNotificacao`, `Sexo`, `RacaCor`, `Escolaridade`, `Gestante` e `TipoTesteRapido`.

In [97]:
df.Classificacao.value_counts()

Descartados    816731
Confirmados    514907
Suspeito       272404
Name: Classificacao, dtype: int64

Parece estar tudo certo na coluna `Classificacao`

In [98]:
df.Evolucao.value_counts()

Ignorado                   805506
Cura                       491831
-                          291883
Óbito pelo COVID-19         11417
Óbito por outras causas      3405
Name: Evolucao, dtype: int64

A coluna `Evolucao` tem várias linhas preenchidas com o valor "-".

In [99]:
df[df['Evolucao']=="-"].DataObito.value_counts()

2021-03-31    1
2021-06-06    1
2021-04-02    1
2021-04-14    1
2020-08-10    1
Name: DataObito, dtype: int64

Dentre eles existem apenas 5 óbito, então está mais relacionado a evoluções ignoradas que óbitos.

In [100]:
df.CriterioConfirmacao.value_counts()

Laboratorial             1310226
Clinico                   133956
-                         109634
Clinico Epdemiologico      50226
Name: CriterioConfirmacao, dtype: int64

A coluna `CriterioConfirmacao` tem várias linhas preenchidas com o valor "-".

In [101]:
df.StatusNotificacao.value_counts()

Encerrado    1379188
Em Aberto     224854
Name: StatusNotificacao, dtype: int64

A coluna `StatusNotificacao` parece correta.

In [102]:
df.Municipio.value_counts()

SERRA                     219957
VITORIA                   188547
VILA VELHA                185074
CARIACICA                 138046
LINHARES                   84100
                           ...  
SALETE                         1
SANTO ANTONIO DE JESUS         1
OLIMPIA                        1
GOIANESIA DO PARA              1
MARECHAL DEODORO               1
Name: Municipio, Length: 1237, dtype: int64

A coluna `Municipio` parece correta.

In [103]:
df.Bairro.value_counts()

CENTRO             105897
Não Encontrado      69931
JARDIM CAMBURI      26325
PRAIA DA COSTA      17686
JARDIM DA PENHA     15378
                    ...  
PALMEIRINHA             1
ESPERANÇA               1
SÃO BERNARDO            1
SÃO BERNARDO            1
PONTA GROSSA            1
Name: Bairro, Length: 3630, dtype: int64

Tem muitos bairros marcados como "Não Encontrado" e o bairro "Centro" devem ser vários diferentes de várias cidades.

In [104]:
df.FaixaEtaria.value_counts()

30 a 39 anos       379529
20 a 29 anos       317824
40 a 49 anos       299316
50 a 59 anos       200881
10 a 19 anos       120748
60 a 69 anos       114269
0 a 4 anos          58730
70 a 79 anos        48770
05 a 9 anos         37226
80 a 89 anos        21455
90 anos ou mais      5234
-                      60
Name: FaixaEtaria, dtype: int64

Tem 48 faixas etárias como "-"

In [105]:
df.IdadeNaDataNotificacao.value_counts()

0 anos, -31 dias             231
34 anos, 1 meses, 30 dias    161
32 anos, 2 meses, 30 dias    160
39 anos, 1 meses, 1 dias     151
39 anos, 4 meses, 7 dias     149
                            ... 
96 anos, 5 meses, 17 dias      1
98 anos, 4 meses, 20 dias      1
92 anos, 8 meses, 20 dias      1
95 anos, 2 meses, 7 dias       1
101 anos, 8 meses, 1 dias      1
Name: IdadeNaDataNotificacao, Length: 36094, dtype: int64

Tem pessoas com idade negativa.

In [106]:
df.Sexo.value_counts()

F    886481
M    717174
I       387
Name: Sexo, dtype: int64

Parece que está tudo correto na coluna `Sexo`.

In [107]:
df.RacaCor.value_counts()

Parda       552745
Branca      480618
Ignorado    368579
Amarela     102948
Preta        94077
Indigena      5075
Name: RacaCor, dtype: int64

A coluna `RacaCor` parece correta.

In [108]:
df.Escolaridade.value_counts()

Ignorado                                                       561967
Ensino médio completo (antigo colegial ou 2º grau )            364506
Educação superior completa                                     198012
5ª à 8ª série incompleta do EF (antigo ginásio ou 1º grau)      99879
Ensino médio incompleto (antigo colegial ou 2º grau )           79288
Ensino fundamental completo (antigo ginásio ou 1º grau)         75496
1ª a 4ª série incompleta do EF (antigo primário ou 1º grau)     60286
Não se aplica                                                   49537
Educação superior incompleta                                    42968
4ª série completa do EF (antigo primário ou 1º grau)            39741
Analfabeto                                                      32362
Name: Escolaridade, dtype: int64

Tem linhas como "Não se aplica" e outras como "Ignorado".

In [109]:
df.Gestante.value_counts()

Não                           873469
Não se aplica                 715166
3º trimeste                     5691
Ignorado                        4557
2º trimeste                     2588
1º trimeste                     2058
Idade gestacional ignorada       513
Name: Gestante, dtype: int64

Tem "Ignorado" e "Idade gestacional ignorada".

In [110]:
df.TipoTesteRapido.value_counts()

Não Informado            1195407
Teste rápido Antígeno     287125
Teste rápido IgM/IgG      111561
Ignorado                    9949
Name: TipoTesteRapido, dtype: int64

Tem "Não Informado" e "Ignorado".

Olhando as colunas de data, existem algumas incorretas

In [111]:
df[(~df.DataColetaTesteRapido.str.get(0).isin(['2'])) & (~df.DataColetaTesteRapido.isna())]

Unnamed: 0,DataNotificacao,DataCadastro,DataDiagnostico,DataColeta_RT_PCR,DataColetaTesteRapido,DataColetaSorologia,DataColetaSorologiaIGG,DataEncerramento,DataObito,Classificacao,...,ViagemBrasil,ViagemInternacional,ProfissionalSaude,PossuiDeficiencia,MoradorDeRua,ResultadoRT_PCR,ResultadoTesteRapido,ResultadoSorologia,ResultadoSorologia_IGG,TipoTesteRapido
41934,2021-06-17,2021-06-17,2021-06-10,,0202-06-15,,,,,Suspeito,...,Não,Não,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
128566,2021-05-30,2021-06-22,2021-05-25,,0201-05-30,,,,,Descartados,...,Não Informado,Não Informado,Sim,Não,Sim,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
167064,2021-05-23,2021-05-23,2021-03-14,,1983-03-27,,,2021-06-16,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
431416,2021-03-27,2021-04-11,2021-03-24,,1920-03-27,,,2021-05-03,,Descartados,...,Não,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido Antígeno
941290,2020-11-27,2020-11-27,2020-11-15,,0027-11-20,,,2021-01-25,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido IgM/IgG
995097,2020-11-16,2020-11-16,2020-11-06,,0016-11-20,,,2021-01-21,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Teste rápido IgM/IgG
1123784,2020-10-16,2020-10-16,2020-10-16,1969-05-01,1969-05-01,,,2020-10-16,,Descartados,...,Não,Não Informado,Não,Não,Não,Negativo,Negativo,Não Reagente,Não Informado,Não Informado
1198583,2020-09-25,2020-09-29,2020-09-25,,0025-09-20,,,2020-09-25,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Não Informado
1231192,2020-09-14,2020-09-16,2020-09-06,,1969-06-13,,,,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Não Informado
1266009,2020-08-28,2020-09-18,2020-08-28,,0207-08-28,,,2020-08-28,,Descartados,...,Não Informado,Não Informado,Não,Não,Não,Não Informado,Negativo,Não Informado,Não Informado,Não Informado


In [112]:
datas=['DataNotificacao', 'DataCadastro', 'DataDiagnostico', 'DataColeta_RT_PCR', 'DataColetaTesteRapido', 'DataColetaSorologia', 'DataColetaSorologiaIGG', 'DataEncerramento', 'DataObito']
soma=0
for i in datas:
    soma=soma+len(df[(~df[i].str.get(0).isin(['2'])) & (~df[i].isna())])
print(soma)

56


### Resumo

- `Bairro` contém dados em branco e outros como "Não encontrado".
- `DataColeta_RT_PCR`, `DataColetaTesteRapido` e `DataEncerramento` tem dados de data no formato incorreto.
- `DataNotificacao`, `DataCadastro`, `DataDiagnostico`, `DataColeta_RT_PCR`, `DataColetaTesteRapido`, `DataColetaSorologia`, `DataColetaSorologiaIGG`, `DataEncerramento` e `DataObito` estão em formato `object` quando deveria ser `datetime`.
- `IdadeNaDataNotificacao` é tipo `object` quando deveria ser `int`.
- `Febre`, `DificuldadeRespiratoria`, `Tosse`, `Coriza`, `DorGarganta`, `Diarreia`, `Cefaleia`, `ComorbidadePulmao`, `ComorbidadeCardio`, `ComorbidadeRenal`, `ComorbidadeDiabetes`, `ComorbidadeTabagismo`, `ComorbidadeObesidade`, `FicouInternado`, `ViagemBrasil`, `ViagemInternacional`, `ProfissionalSaude`, `PossuiDeficiencia`, `MoradorDeRua`, `ResultadoRT_PCR`, `ResultadoTesteRapido`, `ResultadoSorologia`, `ResultadoSorologia_IGG` estão no tipo `object` quando deveriam ser `boolean`.
- A coluna `Evolucao` tem várias linhas preenchidas com o valor "-".
- A coluna `CriterioConfirmacao` tem várias linhas preenchidas com o valor "-".
- Tem 48 linhas em `FaixaEtaria` como "-".
- Tem pessoas `IdadeNaDataNotificacao` com idade negativa.
- A coluna `Gestante`tem dados como "Ignorado" e "Idade gestacional ignorada"
- A coluna `TipoTesteRapido`tem dados como "Não informado" e "Ignorado"
- A coluna `Escolaridade` tem linhas como "Não se aplica" e outras como "Ignorado"

## Limpar Dados

Para limpar os dados vou para cada um dos problemas acima:

1. Definir como esses dados serão limpos
2. Executar essa limpeza
3. Testar se a limpeza deu certo

### Definir
Para a coluna de bairro irei transformar os vazios em "Não encontrado".

### Limpar

In [113]:
df.Bairro.fillna("Não Encontrado", inplace=True)

### Testar

In [114]:
df.Bairro.isna().sum()

0

### Definir

Para as colunas `DataColeta_RT_PCR`, `DataColetaTesteRapido` e `DataEncerramento` vou excluir as linhas com dado incorreto.

### Limpar

In [115]:
datas=['DataNotificacao', 'DataCadastro', 'DataDiagnostico', 'DataColeta_RT_PCR', 'DataColetaTesteRapido', 'DataColetaSorologia', 'DataColetaSorologiaIGG', 'DataEncerramento', 'DataObito']
for i in datas:
    df.drop(index=df[(~df[i].str.get(0).isin(['2'])) & (~df[i].isna())].index,inplace=True)

### Testar

In [116]:
datas=['DataNotificacao', 'DataCadastro', 'DataDiagnostico', 'DataColeta_RT_PCR', 'DataColetaTesteRapido', 'DataColetaSorologia', 'DataColetaSorologiaIGG', 'DataEncerramento', 'DataObito']
soma=0
for i in datas:
    soma=soma+len(df[(~df[i].str.get(0).isin(['2'])) & (~df[i].isna())])
print(soma)

0


### Definir

Vou mudar o tipo de dado das colunas `DataNotificacao`, `DataCadastro`, `DataDiagnostico`, `DataColeta_RT_PCR`, `DataColetaTesteRapido`, `DataColetaSorologia`, `DataColetaSorologiaIGG`, `DataEncerramento` e `DataObito` para tipo datetime.

### Limpar

In [117]:
datas=['DataNotificacao', 'DataCadastro', 'DataDiagnostico', 'DataColeta_RT_PCR', 'DataColetaTesteRapido', 'DataColetaSorologia', 'DataColetaSorologiaIGG', 'DataEncerramento', 'DataObito']
for i in datas:
    df[i]=pd.to_datetime(df[i],format='%Y-%m-%d')

### Testar

In [118]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1603988 entries, 0 to 1604041
Data columns (total 45 columns):
 #   Column                   Non-Null Count    Dtype         
---  ------                   --------------    -----         
 0   DataNotificacao          1603988 non-null  datetime64[ns]
 1   DataCadastro             1603988 non-null  datetime64[ns]
 2   DataDiagnostico          1603988 non-null  datetime64[ns]
 3   DataColeta_RT_PCR        793177 non-null   datetime64[ns]
 4   DataColetaTesteRapido    570340 non-null   datetime64[ns]
 5   DataColetaSorologia      87041 non-null    datetime64[ns]
 6   DataColetaSorologiaIGG   133952 non-null   datetime64[ns]
 7   DataEncerramento         1379151 non-null  datetime64[ns]
 8   DataObito                14600 non-null    datetime64[ns]
 9   Classificacao            1603988 non-null  object        
 10  Evolucao                 1603988 non-null  object        
 11  CriterioConfirmacao      1603988 non-null  object        
 12  

### Definir

Vou mudar a coluna `IdadeNaDataNotificacao` para apenas a idade em anos da pessoa e transformar em tipo `int`.

### Limpar

In [34]:
df['IdadeNaDataNotificacao']=df['IdadeNaDataNotificacao'].str.split(' ',expand=True)[0].astype(int)

In [35]:
df.IdadeNaDataNotificacao=df.IdadeNaDataNotificacao.replace(-1,0)

### Testar

In [36]:
df.IdadeNaDataNotificacao.unique()

array([ 54,  48,  42,  28,  32,  33,  91,  41,  78,  35,  36,  16,  13,
        20,  40,  45,  62,  43,  24,  47,  46,  49,  44,  12,  39,  94,
        31,  37,   4,  26,  60,  29,  23,  17,  34,   8,   6,  51,   5,
        61,  11,  19,   7,  58,  81,  53,  63,  27,  83,  38,   0,  21,
         3,  75,  30,  56,  50,  85,   9,  52,  10,  77,  68,  55,  22,
        92,   2,  90,  71,  15,  57,  18,  64,  65,  59,  14,   1,  25,
        66,  69,  84,  79,  70,  74,  67,  73,  80,  82,  72,  76,  87,
       101,  86,  98,  89,  88, 100,  93,  96,  97,  95,  99, 102, 106,
       107, 105, 104, 117, 103, 115, 110, 111, 112, 108, 114, 109])

In [37]:
df.IdadeNaDataNotificacao.dtype

dtype('int32')

### Definir

Vou transformar as colunas `Febre`, `DificuldadeRespiratoria`, `Tosse`, `Coriza`, `DorGarganta`, `Diarreia`, `Cefaleia`, `ComorbidadePulmao`, `ComorbidadeCardio`, `ComorbidadeRenal`, `ComorbidadeDiabetes`, `ComorbidadeTabagismo`, `ComorbidadeObesidade`, `FicouInternado`, `ViagemBrasil`, `ViagemInternacional`, `ProfissionalSaude`, `PossuiDeficiencia`, `MoradorDeRua`, `ResultadoRT_PCR`, `ResultadoTesteRapido`, `ResultadoSorologia`, `ResultadoSorologia_IGG` para o tipo `boolean`.

### Limpar

In [38]:
def trans_bool(x):
    if x=='Sim':
        return True
    if x=='Não':
        return False

def trans_teste1(x):
    if x=="Positivo":
        return True
    elif x=="Negativo":
        return False
    else:
        return np.nan

def trans_teste2(x):
    if x=="Reagente":
        return True
    elif x=="Não Reagente":
        return False
    else:
        return np.nan
    
colunas=['Febre', 'DificuldadeRespiratoria', 'Tosse', 'Coriza',
       'DorGarganta', 'Diarreia', 'Cefaleia', 'ComorbidadePulmao',
       'ComorbidadeCardio', 'ComorbidadeRenal', 'ComorbidadeDiabetes',
       'ComorbidadeTabagismo', 'ComorbidadeObesidade', 'FicouInternado',
       'ViagemBrasil', 'ViagemInternacional', 'ProfissionalSaude',
       'PossuiDeficiencia', 'MoradorDeRua']

for i in colunas:
    df[i]=df[i].apply(lambda x: trans_bool(x))
    df[i]=df[i].astype(bool)
    
colunas2=["ResultadoRT_PCR", "ResultadoTesteRapido"]
for i in colunas2:
    df[i]=df[i].apply(lambda x: trans_teste1(x))

colunas3=["ResultadoSorologia", "ResultadoSorologia_IGG"]
for i in colunas3:
    df[i]=df[i].apply(lambda x: trans_teste2(x))

### Testar

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1596156 entries, 0 to 1596217
Data columns (total 45 columns):
 #   Column                   Non-Null Count    Dtype         
---  ------                   --------------    -----         
 0   DataNotificacao          1596156 non-null  datetime64[ns]
 1   DataCadastro             1596156 non-null  datetime64[ns]
 2   DataDiagnostico          1596156 non-null  datetime64[ns]
 3   DataColeta_RT_PCR        788792 non-null   datetime64[ns]
 4   DataColetaTesteRapido    565823 non-null   datetime64[ns]
 5   DataColetaSorologia      86868 non-null    datetime64[ns]
 6   DataColetaSorologiaIGG   133718 non-null   datetime64[ns]
 7   DataEncerramento         1368896 non-null  datetime64[ns]
 8   DataObito                14534 non-null    datetime64[ns]
 9   Classificacao            1596156 non-null  object        
 10  Evolucao                 1596156 non-null  object        
 11  CriterioConfirmacao      1596156 non-null  object        
 12  

### Definir

Vou substituir os valores "-" na coluna `Evolucao` por "Ignorado".

### Limpar

In [40]:
df.Evolucao=df.Evolucao.replace("-","Ignorado")

### Testar

In [41]:
df.Evolucao.value_counts()

Ignorado                   1091480
Cura                        489918
Óbito pelo COVID-19          11369
Óbito por outras causas       3389
Name: Evolucao, dtype: int64

### Definir

Vou substituir os valores "-" na coluna `CriterioConfirmacao` por "Não Confirmado".

### Limpar

In [42]:
df.CriterioConfirmacao=df.CriterioConfirmacao.replace("-","Não Confirmado")

### Testar

In [43]:
df.CriterioConfirmacao.value_counts()

Laboratorial             1300435
Clinico                   134214
Não Confirmado            111365
Clinico Epdemiologico      50142
Name: CriterioConfirmacao, dtype: int64

### Definir

Vou substituir os valores "-" na coluna `FaixaEtaria` por "0 a 4 anos", pois todos tem 0 anos:

In [44]:
df[df["FaixaEtaria"]=="-"]["IdadeNaDataNotificacao"].value_counts()

0    60
Name: IdadeNaDataNotificacao, dtype: int64

### Limpar

In [45]:
df.FaixaEtaria=df.FaixaEtaria.replace("-", "0 a 4 anos")

### Testar

In [46]:
df.FaixaEtaria.value_counts()

30 a 39 anos       377718
20 a 29 anos       316132
40 a 49 anos       297955
50 a 59 anos       200008
10 a 19 anos       119983
60 a 69 anos       113783
0 a 4 anos          58481
70 a 79 anos        48539
05 a 9 anos         36979
80 a 89 anos        21358
90 anos ou mais      5220
Name: FaixaEtaria, dtype: int64

### Definir

Vou substituir todos os valores "idade gestacional ignorada" por "ignorado" na coluna `Gestante`.

### Limpar

In [47]:
df.Gestante=df.Gestante.replace("Idade gestacional ignorada","Ignorado")

### Testar

In [48]:
df.Gestante.value_counts()

Não              869463
Não se aplica    711356
3º trimeste        5646
Ignorado           5066
2º trimeste        2574
1º trimeste        2051
Name: Gestante, dtype: int64

### Definir

Vou substituir na coluna `TipoTesteRapido` "Não informado" por "Ignorado".

### Limpar

In [49]:
df.TipoTesteRapido=df.TipoTesteRapido.replace("Não Informado","Ignorado")

### Testar

In [50]:
df.TipoTesteRapido.value_counts()

Ignorado                 1202052
Teste rápido Antígeno     282901
Teste rápido IgM/IgG      111203
Name: TipoTesteRapido, dtype: int64

### Definir

Vou substituir na coluna `Escolaridade` "Não se aplica" por "Ignorado".

### Limpar

In [51]:
df.Escolaridade=df.Escolaridade.replace("Não se aplica","Ignorado")

### Testar

In [52]:
df.Escolaridade.value_counts()

Ignorado                                                       607600
Ensino médio completo (antigo colegial ou 2º grau )            363181
Educação superior completa                                     197153
5ª à 8ª série incompleta do EF (antigo ginásio ou 1º grau)      99447
Ensino médio incompleto (antigo colegial ou 2º grau )           78930
Ensino fundamental completo (antigo ginásio ou 1º grau)         75191
1ª a 4ª série incompleta do EF (antigo primário ou 1º grau)     60022
Educação superior incompleta                                    42744
4ª série completa do EF (antigo primário ou 1º grau)            39612
Analfabeto                                                      32276
Name: Escolaridade, dtype: int64

## Exportar

Por fim, vou exportar o arquivo final em um arquivo csv com os dados finais já limpos.

In [53]:
df.to_csv('Covid19ES.csv', sep=";",index=False)