# Grupo Fleury Dataset
Vou analizar os dados disponibilizados pelo Grupo Fleury, que são esses dos arquivos
- Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv
- Grupo_Fleury_Dataset_Covid19_Pacientes.csv

Primeiro vamos analizar o arquivo dos Pacientes do Covid 19 no grupo Fleury

In [220]:
import pandas as pd

In [2]:
pacientes = pd.read_csv('Grupo_Fleury_Dataset_Covid19_Pacientes.csv', sep='|')

In [3]:
pacientes.shape

(129596, 7)

Temos 129596 pacientes

In [4]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP
0,1AD07C7A1E4D80B608DD7A650766CCF0,M,1961,Brasil,SP,SAO PAULO,CCCC
1,7B10786D64F27D7732503D915A38DE6F,M,1945,Brasil,SP,SAO PAULO,CCCC
2,83C018729869BB1BAB8819021D8E048E,F,1973,Brasil,SP,SAO PAULO,CCCC
3,74F422BB575BF224F676EE88DD77301F,M,2000,Brasil,SP,SAO PAULO,CCCC
4,3EDBAA8DBC42EE7F1CBBE2482B8CE42D,M,1972,Brasil,SP,SAO PAULO,CCCC


Será que temos registros duplicados, caso sim vamos a deletar os registros duplicados

In [8]:
!sort -u Grupo_Fleury_Dataset_Covid19_Pacientes.csv > Covid19_Pacientes.csv

Lemos o arquivo sem registros duplicados que é **Covid19_Pacientes.csv**

In [35]:
pacientes = pd.read_csv('Covid19_Pacientes.csv', sep='|')

In [36]:
pacientes.shape

(129596, 7)

Note-se que o numero de registros é igual do que o arquivo original, isto quer dizer que não se acharam registros duplicados. Porem o primeiro registro passou a ser header e o header passou a ser registro, vamos arrumar isto.

In [37]:
pacientes.tail(1)

Unnamed: 0,00007BB4274722A63A38D415ACCD7705,F,1955,Brasil,RJ,MMMM,CCCC
129595,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP


In [38]:
pacientes.head(1)

Unnamed: 0,00007BB4274722A63A38D415ACCD7705,F,1955,Brasil,RJ,MMMM,CCCC
0,000085C48A31F50AE4F147392F6F35CF,M,1972,Brasil,RJ,RIO DE JANEIRO,CCCC


In [227]:
col_names = ['ID_PACIENTE', 'IC_SEXO', 'AA_NASCIMENTO', 'CD_PAIS', 'CD_UF', 'CD_MUNICIPIO', 'CD_CEP']
pacientes = pd.read_csv('Covid19_Pacientes.csv', sep='|', names=col_names)

In [40]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP
0,00007BB4274722A63A38D415ACCD7705,F,1955,Brasil,RJ,MMMM,CCCC
1,000085C48A31F50AE4F147392F6F35CF,M,1972,Brasil,RJ,RIO DE JANEIRO,CCCC
2,0000A150D4C8B92A4F8D280C6D4656B0,M,2020,Brasil,RJ,MMMM,CCCC
3,000230CE71238C85771268A5B7D807BC,F,1989,Brasil,RJ,MMMM,CCCC
4,0002632EFE862D6479C37F4E21AE33AB,M,1981,Brasil,SP,SAO PAULO,01455


e deletamos o ultimo registro

In [41]:
pacientes.tail(1)

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP
129596,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP


In [228]:
pacientes.drop(pacientes.tail(1).index, inplace=True)

In [223]:
pacientes.shape

(129596, 7)

Analizamos as colunas

In [30]:
pacientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 129596 entries, 0 to 129595
Data columns (total 7 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   ID_PACIENTE    129596 non-null  object
 1   IC_SEXO        129596 non-null  object
 2   AA_NASCIMENTO  129596 non-null  object
 3   CD_PAIS        129596 non-null  object
 4   CD_UF          129596 non-null  object
 5   CD_MUNICIPIO   129596 non-null  object
 6   CD_CEP         129596 non-null  object
dtypes: object(7)
memory usage: 7.9+ MB


Cada registro tem 7 colunas com os datos descritos acima. No dicionario de dados está descrição de cada coluna.

**AA_NASCIMENTO** que é o ano de nascimento do Paciente, tem valores numericos exeto pelo string **AAAA**, segundo o dicionado de dados, esse é o valor asignado quando o ano de nascimento é igual ou anterior a 1930. Vou adicionar uma nova coluna no Dataframe que vai ser **idade** do paciente, que vai ser obtido segundo o ano de nascimento, quanto o ano for AAAA a idade do paciente deberia ser de pelo menos de 90 anos, pois estamos no ano 2020, porém vamos colocar de 95 anos que é a meia entre 90 e 100 anos.

In [229]:
def to_age(year):
    if year == 'AAAA': return 95
    else: return pd.Timestamp('now').year - int(year)
    
pacientes['idade'] = pacientes['AA_NASCIMENTO'].apply(to_age)

In [230]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP,idade
0,00007BB4274722A63A38D415ACCD7705,F,1955,Brasil,RJ,MMMM,CCCC,65
1,000085C48A31F50AE4F147392F6F35CF,M,1972,Brasil,RJ,RIO DE JANEIRO,CCCC,48
2,0000A150D4C8B92A4F8D280C6D4656B0,M,2020,Brasil,RJ,MMMM,CCCC,0
3,000230CE71238C85771268A5B7D807BC,F,1989,Brasil,RJ,MMMM,CCCC,31
4,0002632EFE862D6479C37F4E21AE33AB,M,1981,Brasil,SP,SAO PAULO,01455,39


Analizando a varíavel **IC_SEXO**

In [47]:
pacientes['IC_SEXO'].unique()

array(['F', 'M'], dtype=object)

Vamos mapeiar esses valores para 0 caso for F e 1 caso for M

In [231]:
pacientes['IC_SEXO'] = pacientes['IC_SEXO'].map( {'F': 0, 'M': 1} ).astype(int)

In [49]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP,idade
0,00007BB4274722A63A38D415ACCD7705,0,1955,Brasil,RJ,MMMM,CCCC,65
1,000085C48A31F50AE4F147392F6F35CF,1,1972,Brasil,RJ,RIO DE JANEIRO,CCCC,48
2,0000A150D4C8B92A4F8D280C6D4656B0,1,2020,Brasil,RJ,MMMM,CCCC,0
3,000230CE71238C85771268A5B7D807BC,0,1989,Brasil,RJ,MMMM,CCCC,31
4,0002632EFE862D6479C37F4E21AE33AB,1,1981,Brasil,SP,SAO PAULO,01455,39


In [50]:
pacientes['CD_PAIS'].unique()

array(['Brasil'], dtype=object)

Apenas tem um valor, essa coluna vai ser deletada

In [51]:
pacientes['CD_UF'].unique()

array(['RJ', 'SP', 'PE', 'BA', 'PR', 'RS', 'DF', 'MG', 'AM', 'PI', 'AL',
       'CE', 'RN', 'ES', 'PA', 'SC', 'GO', 'PB', 'MS', 'SE', 'AC', 'MA',
       'TO', 'MT', 'RO', 'AP'], dtype=object)

Mudamos o tipo de coluna do object para Categorical

In [232]:
pacientes.CD_UF = pd.Categorical(pacientes.CD_UF)

Asignamos codigos a cada valor categorico

In [233]:
pacientes['CD_UF_CODE'] = pacientes.CD_UF.cat.codes

In [234]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,AA_NASCIMENTO,CD_PAIS,CD_UF,CD_MUNICIPIO,CD_CEP,idade,CD_UF_CODE
0,00007BB4274722A63A38D415ACCD7705,0,1955,Brasil,RJ,MMMM,CCCC,65,18
1,000085C48A31F50AE4F147392F6F35CF,1,1972,Brasil,RJ,RIO DE JANEIRO,CCCC,48,18
2,0000A150D4C8B92A4F8D280C6D4656B0,1,2020,Brasil,RJ,MMMM,CCCC,0,18
3,000230CE71238C85771268A5B7D807BC,0,1989,Brasil,RJ,MMMM,CCCC,31,18
4,0002632EFE862D6479C37F4E21AE33AB,1,1981,Brasil,SP,SAO PAULO,01455,39,24


In [56]:
pacientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 129596 entries, 0 to 129595
Data columns (total 9 columns):
 #   Column         Non-Null Count   Dtype   
---  ------         --------------   -----   
 0   ID_PACIENTE    129596 non-null  object  
 1   IC_SEXO        129596 non-null  int64   
 2   AA_NASCIMENTO  129596 non-null  object  
 3   CD_PAIS        129596 non-null  object  
 4   CD_UF          129596 non-null  category
 5   CD_MUNICIPIO   129596 non-null  object  
 6   CD_CEP         129596 non-null  object  
 7   idade          129596 non-null  int64   
 8   CD_UF_CODE     129596 non-null  int8    
dtypes: category(1), int64(2), int8(1), object(5)
memory usage: 8.2+ MB


Seleção de varíaveis que não iremos utilizar, porque tem valores desconhecidos e outras que já utilizamos para extrair outro valor.

In [235]:
drop_colunas = ['AA_NASCIMENTO', 'CD_PAIS', 'CD_UF', 'CD_MUNICIPIO', 'CD_CEP']

In [236]:
pacientes = pacientes.drop(drop_colunas, axis=1)

In [237]:
pacientes.head()

Unnamed: 0,ID_PACIENTE,IC_SEXO,idade,CD_UF_CODE
0,00007BB4274722A63A38D415ACCD7705,0,65,18
1,000085C48A31F50AE4F147392F6F35CF,1,48,18
2,0000A150D4C8B92A4F8D280C6D4656B0,1,0,18
3,000230CE71238C85771268A5B7D807BC,0,31,18
4,0002632EFE862D6479C37F4E21AE33AB,1,39,24


Ficamos com essas columnas e salvamos num arquivo **Covid19_Pacientes_clean.csv**

In [238]:
pacientes.to_csv('Covid19_Pacientes_clean.csv', index=False, header=True)

## Analise do arquivo de resultados dos examenes dos pacientes
- Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv

In [3]:
resultados_exames = pd.read_csv('Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv', sep='|', encoding='latin-1')

In [4]:
resultados_exames.shape

(2496591, 8)

~2.5 milhões de registros de resutaldos dos examenes dos pacientes.

Podemos ter registros repetidos, para isso fazemos o seguinte para deletar os repetidos. 

In [5]:
!sort -u Grupo_Fleury_Dataset_Covid19_Resultados_Exames.csv > Covid19_Resultados_Exames.csv

Lemos o arquivo sem registros duplicados que é Covid19_Resultados_Exames.csv

In [104]:
resultados_exames = pd.read_csv('Covid19_Resultados_Exames.csv', sep='|', encoding='latin-1')

In [7]:
resultados_exames.shape

(2494613, 8)

Note-se que a quantidade de registros diminui em 1978, por tanto tinhamos 1978 registros redundantes. Aqui também acontece que os nomes de colunas passou a ser registro, arrumamos isso.

In [12]:
resultados_exames.tail(1)

Unnamed: 0,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78,ng/mL,Unnamed: 7
2494612,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA


In [293]:
col_names = ['ID_PACIENTE', 'DT_COLETA', 'DE_ORIGEM', 'DE_EXAME', 'DE_ANALITO', 'DE_RESULTADO', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA']
resultados_exames = pd.read_csv('Covid19_Resultados_Exames.csv', sep='|', names=col_names, encoding='latin-1')

In [294]:
resultados_exames.drop(resultados_exames.tail(1).index, inplace=True)

In [107]:
resultados_exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78,ng/mL,
1,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ACIDO FOLICO, soro",Ácido fólico - Eletroquimioluminescência,186,ng/mL,"Superior a 3,9"
2,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ACIDO URICO, soro","Ácido Úrico, soro",27,mg/dL,"2,4 a 5,7"
3,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ALUMINIO, plasma",Alumínio,10,microg/L,Até 10
4,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ANTICORPOS ANTI-PEROXIDASE TIROIDIANA, soro",Anticorpos Anti-Peroxidase Tiroidiana,inferior a 34,U/mL,inferior a 34


In [18]:
resultados_exames.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2494613 entries, 0 to 2494612
Data columns (total 8 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   ID_PACIENTE          object
 1   DT_COLETA            object
 2   DE_ORIGEM            object
 3   DE_EXAME             object
 4   DE_ANALITO           object
 5   DE_RESULTADO         object
 6   CD_UNIDADE           object
 7   DE_VALOR_REFERENCIA  object
dtypes: object(8)
memory usage: 171.3+ MB


Vamos a calcular a densidade de cada exame e subtipo de exame, isto para ter uma noção da quantidade de vezes com que foi realizado cada exame, e poder usar ela como feature ou não.

In [40]:
exames_agrupados = resultados_exames[['DE_EXAME', 'DE_ANALITO']].groupby(['DE_EXAME', 'DE_ANALITO'])['DE_ANALITO'] \
                                             .count() \
                                             .reset_index(name="VEZES") \
                                             .sort_values(['VEZES'], ascending=False)

In [41]:
exames_agrupados

Unnamed: 0,DE_EXAME,DE_ANALITO,VEZES
277,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimiolumin.-Índice",84996
279,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",84986
278,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimioluminescência",83767
280,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",83753
797,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",50223
...,...,...,...
945,"QUANTIFICACAO DE INIBIDOR DE FATOR IX, plasma",Dosagem de fator IX,1
1141,"TRIAGEM DE ANFETAMINAS E METANFETAMINAS, urina","Anfetaminas e Metanfetaminas, urina",1
759,"MAG, ANTICORPOS, soro","MAG, anticorpos",1
852,PESQUISA DE MICROSPORIDIA NAS FEZES,"Microsporidia, pesquisa, fezes",1


Salvamos esse agrupamento de examenes num arquivo csv

In [43]:
exames_agrupados.to_csv(r'examens_agrupados.csv', index=False, sep='|')

Vamos analizar esses exames com detalhe.

Primeiro vamos analizar quais exames que não são importantes para poder modelar o problema. Olhamos na coluna do "DE_ANALITO", lá encontramos registros como:
- 'COVID 19, Material': descreve o material utilizado no PCR

Por tanto vamos deletar registros com esta informação

In [295]:
drop_DE_ANALITO = 'Covid 19, Material'

In [296]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'] == drop_DE_ANALITO].index
resultados_exames.drop(indexNames , inplace=True)

Também tem muito exame onde se analizam anticorpos IgG e IgM porém não são referentes ao COVID 19, exemplo:
- 'CITOMEGALOVIRUS, ANTICORPOS IgG, soro'  'CMV, IgG'
- 'CITOMEGALOVIRUS, ANTICORPOS IgM, soro'  'CMV, IgM'
- 'RUBEOLA, ANTICORPOS IgG, soro' 'Rubeola, IgG'
- 'RUBEOLA, ANTICORPOS IgM, soro' 'Rubeola, IgM'
- 'VIRUS EPSTEIN BARR (ANTIGENO DO CAPSIDEO VIRAL), ANTICORPOS IgM, soro' 'Epstein-Barr, IgM'
- 'VIRUS EPSTEIN BARR (ANTIGENO DO CAPSIDEO VIRAL), ANTICORPOS IgG, soro' 'Epstein-Barr, IgG'
- 'ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGM, soro' 'Zika vírus - IgM'
- 'ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGM, soro' 'Zika vírus - IgM - Índice'
- 'HERPES SIMPLEX, TIPO 1, ANTICORPOS IgG, soro' 'Herpes Simplex, Tipo 1, IgG'
- 'HERPES SIMPLEX, TIPO 2, ANTICORPOS IgG, soro' 'Herpes Simplex, Tipo 2, IgG'
- 'SARAMPO, ANTICORPOS IgG, soro' 'Sarampo, Anticorpos IgG'
- 'SARAMPO, ANTICORPOS IgM, soro' 'Sarampo, Anticorpos IgM'
- 'CHLAMYDIA TRACHOMATIS, ANTICORPOS IgG, soro' 'Chlamydia Trachomatis, IgG'
- 'CHLAMYDIA TRACHOMATIS, ANTICORPOS IgM, soro' 'Chlamydia Trachomatis, IgM'
- 'VARICELLA-ZOSTER VIRUS, ANTICORPOS IgG, soro' 'Varicella-Zoster, anticorpos IgG'
- 'VARICELLA-ZOSTER VIRUS, ANTICORPOS IgM, soro' 'Varicella-Zoster, anticorpos IgM'
- 'ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGG, soro'	'Zika vírus - IgG - Índice'
- 'ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGG, soro'	'Zika vírus - IgG'
- 'DENGUE, ANTICORPOS IgG, PROVA RÁPIDA, soro'	'Dengue, IgG'
- 'DENGUE, ANTICORPOS IgM, PROVA RÁPIDA, soro'	'Dengue, IgM
- 'DENGUE, ANTICORPOS IgG, soro'	'Dengue, IgG'
- 'DENGUE, ANTICORPOS IgM, soro'	'Dengue, IgM'
- 'HERPES SIMPLEX, TIPO  1 e 2, ANTICORPOS IgG, soro'	'Herpes Simplex, Tipo 1 e 2, IgG'
- 'HERPES SIMPLEX, TIPO 1 e 2, ANTICORPO IgM, soro'	'Herpes Simplex, Tipo 1 e 2, IgM'
- 'CAXUMBA, ANTICORPOS IgG, soro'	'Caxumba, IgG'
- 'CAXUMBA, ANTICORPOS IgM, soro'	'Caxumba, IgM
- 'HELICOBACTER PYLORI, ANTICORPOS IgG, soro'	'Helicobacter Pylori, IgG'
- 'ERITROVIRUS B19, ANTICORPOS IgM, soro'	'Eritrovírus B19, IgM'
- 'ANTICORPOS IgM CONTRA O VIRUS DA HEPATITE A (ANTI-VHA IgM)'	'Anti-VHA, IgM'
- 'ANTICORPO IgM CONTRA ANTIGENO DO CORE DO VIRUS DA HEPATITE B, soro'	'Anti-HBc, IgM'
- 'TOXOPLASMA, ANTICORPOS IgG, soro'	'Toxoplasma, IgG'
- 'TOXOPLASMA, ANTICORPOS IgM, soro'	'Toxoplasma, IgM'

Por tanto vamos a deletar esses registros que possam conter esses exames

In [297]:
drop_DE_EXAME = []
drop_DE_ANALITO = []

In [298]:
drop_DE_EXAME.append('CITOMEGALOVIRUS, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('CMV, IgG')
drop_DE_EXAME.append('CITOMEGALOVIRUS, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('CMV, IgM')

drop_DE_EXAME.append('RUBEOLA, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Rubeola, IgG')
drop_DE_EXAME.append('RUBEOLA, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Rubeola, IgM')

drop_DE_EXAME.append('VIRUS EPSTEIN BARR (ANTIGENO DO CAPSIDEO VIRAL), ANTICORPOS IgM, soro') 
drop_DE_ANALITO.append('Epstein-Barr, IgM')
drop_DE_EXAME.append('VIRUS EPSTEIN BARR (ANTIGENO DO CAPSIDEO VIRAL), ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Epstein-Barr, IgG')

drop_DE_EXAME.append('ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGM, soro')
drop_DE_ANALITO.append('Zika vírus - IgM')
drop_DE_EXAME.append('ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGM, soro')
drop_DE_ANALITO.append('Zika vírus - IgM - Índice')

drop_DE_EXAME.append('HERPES SIMPLEX, TIPO 1, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Herpes Simplex, Tipo 1, IgG')
drop_DE_EXAME.append('HERPES SIMPLEX, TIPO 2, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Herpes Simplex, Tipo 2, IgG')

drop_DE_EXAME.append('SARAMPO, ANTICORPOS IgG, soro') 
drop_DE_ANALITO.append('Sarampo, Anticorpos IgG')
drop_DE_EXAME.append('SARAMPO, ANTICORPOS IgM, soro') 
drop_DE_ANALITO.append('Sarampo, Anticorpos IgM')

drop_DE_EXAME.append('CHLAMYDIA TRACHOMATIS, ANTICORPOS IgG, soro') 
drop_DE_ANALITO.append('Chlamydia Trachomatis, IgG')
drop_DE_EXAME.append('CHLAMYDIA TRACHOMATIS, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Chlamydia Trachomatis, IgM')

drop_DE_EXAME.append('VARICELLA-ZOSTER VIRUS, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Varicella-Zoster, anticorpos IgG')
drop_DE_EXAME.append('VARICELLA-ZOSTER VIRUS, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Varicella-Zoster, anticorpos IgM')

drop_DE_EXAME.append('ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGG, soro')
drop_DE_ANALITO.append('Zika vírus - IgG - Índice')
drop_DE_EXAME.append('ZIKA VÍRUS, PESQUISA DE ANTICORPOS DA CLASSE IGG, soro')
drop_DE_ANALITO.append('Zika vírus - IgG')

drop_DE_EXAME.append('DENGUE, ANTICORPOS IgG, PROVA RÁPIDA, soro')
drop_DE_ANALITO.append('Dengue, IgG')
drop_DE_EXAME.append('DENGUE, ANTICORPOS IgM, PROVA RÁPIDA, soro')
drop_DE_ANALITO.append('Dengue, IgM')

drop_DE_EXAME.append('DENGUE, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Dengue, IgG')
drop_DE_EXAME.append('DENGUE, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Dengue, IgM')

drop_DE_EXAME.append('HERPES SIMPLEX, TIPO  1 e 2, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Herpes Simplex, Tipo 1 e 2, IgG')
drop_DE_EXAME.append('HERPES SIMPLEX, TIPO 1 e 2, ANTICORPO IgM, soro')
drop_DE_ANALITO.append('Herpes Simplex, Tipo 1 e 2, IgM')


drop_DE_EXAME.append('ENDOMISIO, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Endomisio, Anticorpos IgG')

drop_DE_EXAME.append('CAXUMBA, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Caxumba, IgG')
drop_DE_EXAME.append('CAXUMBA, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Caxumba, IgM')


drop_DE_EXAME.append('HELICOBACTER PYLORI, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Helicobacter Pylori, IgG')

drop_DE_EXAME.append('ERITROVIRUS B19, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Eritrovírus B19, IgM')

drop_DE_EXAME.append('ANTICORPOS IgM CONTRA O VIRUS DA HEPATITE A (ANTI-VHA IgM)')
drop_DE_ANALITO.append('Anti-VHA, IgM')

drop_DE_EXAME.append('ANTICORPO IgM CONTRA ANTIGENO DO CORE DO VIRUS DA HEPATITE B, soro')
drop_DE_ANALITO.append('Anti-HBc, IgM')

drop_DE_EXAME.append('TOXOPLASMA, ANTICORPOS IgG, soro')
drop_DE_ANALITO.append('Toxoplasma, IgG')
drop_DE_EXAME.append('TOXOPLASMA, ANTICORPOS IgM, soro')
drop_DE_ANALITO.append('Toxoplasma, IgM')

In [115]:
indexNames

Int64Index([    371,     372,     401,     402,     403,     404,     409,
                410,     525,     526,
            ...
            2492184, 2492185, 2492190, 2492191, 2493511, 2493512, 2494539,
            2494540, 2494567, 2494568],
           dtype='int64', length=21121)

In [299]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'].isin(drop_DE_ANALITO)].index
resultados_exames.drop(indexNames , inplace=True)

In [300]:
resultados_exames.shape

(2420233, 8)

Também temos dados que representam a mesma coisa, pois tem o seu valor original e o valor normalizado dele na forma de porcentagem, exemplo:
<img src='covid_images/1.png'>

Vamos manter os valores normalizados e deletar os originais

In [301]:
index_deletar = ['Neutrófilos', 'Monócitos', 'Linfócitos', 'Basófilos', 'Eosinófilos', \
                 'Bastonetes', 'Reticulócitos', 'Metamielócitos', 'Mielócitos', \
                 'Promielócitos', 'Blastos', 'Plasmócitos']

In [302]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'].isin(index_deletar)].index
resultados_exames.drop(indexNames , inplace=True)

In [303]:
resultados_exames.shape

(2240474, 8)

In [73]:
resultados_exames.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2240474 entries, 0 to 2494611
Data columns (total 8 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   ID_PACIENTE          object
 1   DT_COLETA            object
 2   DE_ORIGEM            object
 3   DE_EXAME             object
 4   DE_ANALITO           object
 5   DE_RESULTADO         object
 6   CD_UNIDADE           object
 7   DE_VALOR_REFERENCIA  object
dtypes: object(8)
memory usage: 153.8+ MB


## Analise dos labels referentes ao COVID

### PCR
Tem muitos teste de PCR, porém para gente interessa o PCR relacionado com COVID19.

Exame relacionado com isso:
- DE_ANALITO: 'Covid 19, Detecção por PCR' tem 50223 ocorrencias

Vamos analizar o resultado desse teste

In [136]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['DE_RESULTADO'].unique()

array(['NÃO DETECTADO', 'NÃO DETECTADO (NEGATIVO)',
       'DETECTADO (POSITIVO)', 'DETECTADO', 'Inconclusivo ',
       'Inconclusivo', 'INCONCLUSIVO', 'INCONCLUSIVO '], dtype=object)

In [137]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['DE_RESULTADO'].value_counts()

NÃO DETECTADO               19285
NÃO DETECTADO (NEGATIVO)    18287
DETECTADO                    8159
DETECTADO (POSITIVO)         4362
Inconclusivo                   48
INCONCLUSIVO                   41
Inconclusivo                   40
INCONCLUSIVO                    1
Name: DE_RESULTADO, dtype: int64

Vamos deletar os resultados **Inconclusivos**, que no total são 130, pois é uma pequena quantidade em relação no total.

In [304]:
resultados_deletar = ['Inconclusivo ', 'Inconclusivo', 'INCONCLUSIVO', 'INCONCLUSIVO ']

In [305]:
index_covid = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR', 'DE_RESULTADO']

In [306]:
index_to_delete = index_covid[index_covid.isin(resultados_deletar) == True].index

In [307]:
resultados_exames.drop(index_to_delete , inplace=True)

In [308]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['DE_RESULTADO'].unique()

array(['NÃO DETECTADO', 'NÃO DETECTADO (NEGATIVO)',
       'DETECTADO (POSITIVO)', 'DETECTADO'], dtype=object)

Agora temos 4 tipos de respostas redundantes, vamos converter apenas para uma resposta binaria, onde:
- 1 -> positivo/detectado
- 0 -> não detetado/negativo

In [309]:
index_covid_pcr = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR', 'DE_RESULTADO']

In [310]:
index_covid_pcr.replace({'NÃO DETECTADO': 0, \
                     'NÃO DETECTADO (NEGATIVO)': 0, \
                     'DETECTADO (POSITIVO)': 1, \
                     'DETECTADO': 1}, inplace=True) 

In [311]:
resultados_exames.loc[index_covid_pcr.index, 'DE_RESULTADO'] = index_covid_pcr.values

In [312]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['DE_RESULTADO'].unique()

array([0, 1], dtype=object)

Note-se que temos mais exames COVID19 PCR negativos do que positivos, por tanto, os dados estão desbalanceados

In [313]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['DE_RESULTADO'].value_counts()

0    37572
1    12521
Name: DE_RESULTADO, dtype: int64

### IgG
Vamos listar os exames relacionados com IgG apenas para COVID19
- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Quimiolumin.-Índice'
- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Quimioluminescência'
- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa - Índice'
- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa'


- 'SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO'	'Covid 19, Antic IgM/IgG, teste rápido-Observ'

SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO	Covid 19, Anticorpos IgG, teste rápido

SARS-COV-2, ANTICORPOS IgG, soro	Covid 19, Anticorpos IgG, Elisa - Índice
SARS-COV-2, ANTICORPOS IgG, soro	Covid 19, Anticorpos IgG, Elisa

Quando analizamos esses exames, por exemplo
- 'COVID19, ANTICORPOS IgG, soro' 'Covid 19, Anticorpos IgG, Quimiolumin.-Índice'
- 'COVID19, ANTICORPOS IgG, soro' 'Covid 19, Anticorpos IgG, Quimioluminescência'

Notamos que ambos quem dizer a mesma coisa, pois **'Covid 19, Anticorpos IgG, Quimiolumin.-Índice'** é o valor original do resultado, enquanto que **'Covid 19, Anticorpos IgG, Quimioluminescência** aplica um umbral de 0.8 a esse valor original do exame anterior, se ele for inferior do 0,8, o resultado deste exame é NÂO REAGENTE, caso contrario é REAGENTE. Note-se que também existem valores de Indeterminado, o qual deletaremos mais pra frente, pois não fica claro porque que fica assim, ademas disso tem poucos registros com esse estado.

In [314]:
drop_DE_ANALITO = 'Covid 19, Anticorpos IgG, Quimiolumin.-Índice'

In [315]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'] == drop_DE_ANALITO].index
resultados_exames.drop(indexNames , inplace=True)

In [316]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimioluminescência']['DE_RESULTADO'].value_counts()

NÃO REAGENTE     73795
REAGENTE          7894
Indeterminado     2078
Name: DE_RESULTADO, dtype: int64

Deletamos os registros indeterminados, pois não fica claro, quando que acaba sendo indeterminado.

In [317]:
resultados_deletar = ['Indeterminado']
index_igg_indeterminado = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimioluminescência', 'DE_RESULTADO']
index_to_delete = index_igg_indeterminado[index_igg_indeterminado.isin(resultados_deletar) == True].index
resultados_exames.drop(index_to_delete , inplace=True)

In [318]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimioluminescência']['DE_RESULTADO'].value_counts()

NÃO REAGENTE    73795
REAGENTE         7894
Name: DE_RESULTADO, dtype: int64

Fazemos a conversão para valores numéricos:
- 1 -> 'REAGENTE'
- 0 -> 'NÃO REAGENTE'

In [319]:
index_covid_igg = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimioluminescência', 'DE_RESULTADO']

In [320]:
index_covid_igg.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 

In [321]:
resultados_exames.loc[index_covid_igg.index, 'DE_RESULTADO'] = index_covid_igg.values

In [322]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Quimioluminescência']['DE_RESULTADO'].value_counts()

0    73795
1     7894
Name: DE_RESULTADO, dtype: int64

- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa - Índice'
- 'COVID19, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa'

In [174]:
resultados_exames[resultados_exames['DE_ANALITO'].str.contains('Covid 19, Anticorpos IgG, Elisa')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
1417,0022EB7AEA16787058664AE513C81C64,11/05/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa - Índice",031,,"inferior a 0,80"
1418,0022EB7AEA16787058664AE513C81C64,11/05/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",NÃO REAGENTE,,Não reagente
3342,00580F44A90B9EA70A2D629821660AB0,30/04/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa - Índice",023,,"inferior a 0,80"
3343,00580F44A90B9EA70A2D629821660AB0,30/04/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",NÃO REAGENTE,,Não reagente
3365,00597A74024C3E3C091753B54697C26C,08/05/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa - Índice",031,,"inferior a 0,80"
...,...,...,...,...,...,...,...,...
2490135,FFA9E255E059B3665B77A75240438486,28/04/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",NÃO REAGENTE,,Não reagente
2491209,FFC4E71F192F5AEC77DFF9A43089FF21,08/05/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa - Índice",848,,"inferior a 0,80"
2491210,FFC4E71F192F5AEC77DFF9A43089FF21,08/05/2020,LAB,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",REAGENTE,,Não reagente
2492384,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa - Índice",012,,"inferior a 0,80"


In [323]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa - Índice'].index
resultados_exames.drop(indexNames , inplace=True)

In [324]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa']['DE_RESULTADO'].value_counts()

NÃO REAGENTE     3301
REAGENTE          543
Indeterminado     105
Name: DE_RESULTADO, dtype: int64

In [325]:
resultados_deletar = ['Indeterminado']
index_igg_indeterminado = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa', 'DE_RESULTADO']
index_to_delete = index_igg_indeterminado[index_igg_indeterminado.isin(resultados_deletar) == True].index
resultados_exames.drop(index_to_delete , inplace=True)

In [326]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa']['DE_RESULTADO'].value_counts()

NÃO REAGENTE    3301
REAGENTE         543
Name: DE_RESULTADO, dtype: int64

In [327]:
index_covid_igg = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa', 'DE_RESULTADO']

In [328]:
index_covid_igg.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 

In [329]:
resultados_exames.loc[index_covid_igg.index, 'DE_RESULTADO'] = index_covid_igg.values

In [330]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, Elisa']['DE_RESULTADO'].value_counts()

0    3301
1     543
Name: DE_RESULTADO, dtype: int64

- 'SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO'	'Covid 19, Antic IgM/IgG, teste rápido-Observ'
- 'SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO'	'Covid 19, Anticorpos IgG, teste rápido'

In [183]:
resultados_exames[resultados_exames['DE_EXAME'].str.contains('SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
358,0002632EFE862D6479C37F4E21AE33AB,26/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19,Antic IgM/IgG,teste rápido-Interpret",Sem evidência sorológica de infecção por SARS-...,,
359,0002632EFE862D6479C37F4E21AE33AB,26/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Antic IgM/IgG, teste rápido-Observ",A dinâmica de produção de anticorpos na COVID-...,,
360,0002632EFE862D6479C37F4E21AE33AB,26/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Anticorpos IgG, teste rápido",NÃO REAGENTE,,Não reagente
361,0002632EFE862D6479C37F4E21AE33AB,26/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Anticorpos IgM, teste rápido",NÃO REAGENTE,,Não reagente
1210,001A0DF9C9CD2364E82BD7EFFB986DAE,27/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19,Antic IgM/IgG,teste rápido-Interpret",Sem evidência sorológica de infecção por SARS-...,,
...,...,...,...,...,...,...,...,...
2493600,FFF1A8DAF4556625DAE23B0A06F02037,25/05/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Anticorpos IgM, teste rápido",NÃO REAGENTE,,Não reagente
2494006,FFF9A90B9075869736C88DD5548C2C47,09/06/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19,Antic IgM/IgG,teste rápido-Interpret",Evidência sorológica de infecção pregressa por...,,
2494007,FFF9A90B9075869736C88DD5548C2C47,09/06/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Antic IgM/IgG, teste rápido-Observ",A dinâmica de produção de anticorpos na COVID-...,,
2494008,FFF9A90B9075869736C88DD5548C2C47,09/06/2020,LAB,"SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO","Covid 19, Anticorpos IgG, teste rápido",REAGENTE,,Não reagente


Encontramos 4 subexames (DE_ANALITO) principais, por paciente onde para o DE_EXAME:
- Covid 19,Antic IgM/IgG,teste rápido-Interpret
- Covid 19, Antic IgM/IgG, teste rápido-Observ
- Covid 19, Anticorpos IgG, teste rápido
- Covid 19, Anticorpos IgM, teste rápido

Deletamos os dois primeiros subexames que são a observação e interpretação, a conclusão sobre os anticorpos ficam em os últmos dois subexames, por tanto, mantemos as duas últimas:

In [331]:
resultados_deletar = ['Covid 19,Antic IgM/IgG,teste rápido-Interpret', 'Covid 19, Antic IgM/IgG, teste rápido-Observ']
indexNames = resultados_exames[resultados_exames['DE_ANALITO'].isin(resultados_deletar)].index
resultados_exames.drop(indexNames , inplace=True)

In [332]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, teste rápido']['DE_RESULTADO'].value_counts()

NÃO REAGENTE    2853
REAGENTE         183
Name: DE_RESULTADO, dtype: int64

In [333]:
index_covid_igg = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, teste rápido', 'DE_RESULTADO']
index_covid_igg.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 
resultados_exames.loc[index_covid_igg.index, 'DE_RESULTADO'] = index_covid_igg.values
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgG, teste rápido']['DE_RESULTADO'].value_counts()

0    2853
1     183
Name: DE_RESULTADO, dtype: int64

- 'SARS-COV-2, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa - Índice'
- 'SARS-COV-2, ANTICORPOS IgG, soro'	'Covid 19, Anticorpos IgG, Elisa'

In [334]:
resultados_exames[resultados_exames['DE_EXAME'].str.contains('SARS-COV-2, ANTICORPOS IgG, soro')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
4617,006C31B2A7125A71EBADD880BBE62364,30/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
21728,0233869ECE16722480922E0A490160D5,01/05/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
26455,029533878A1869C608308001D72093AF,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Antic IgA/IgG, Elisa-Interpretação",Sem evidência sorológica de infecção por SARS-...,,
26456,029533878A1869C608308001D72093AF,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Antic IgA/IgG, Elisa - observação","Se persistir a hipótese diagnóstica, sugere-se...",,
26457,029533878A1869C608308001D72093AF,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa - Índice",016,,"inferior a 0,80"
...,...,...,...,...,...,...,...,...
2492380,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Antic IgA/IgG, Elisa-Interpretação",Sem evidência sorológica de infecção por SARS-...,,
2492381,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Antic IgA/IgG, Elisa - observação","Se persistir a hipótese diagnóstica, sugere-se...",,
2492382,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa - Índice",038,,"inferior a 0,80"
2492383,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa",NÃO REAGENTE,,Não reagente


In [335]:
resultados_deletar = ['Covid 19, Antic IgA/IgG, Elisa-Interpretação', 'Covid 19, Antic IgA/IgG, Elisa - observação']
indexNames = resultados_exames[resultados_exames['DE_ANALITO'].isin(resultados_deletar)].index
resultados_exames.drop(indexNames , inplace=True)

In [336]:
resultados_deletar = ['Covid 19, Anticorpos IgA, Elisa - Índice']
indexNames = resultados_exames[resultados_exames['DE_ANALITO'].isin(resultados_deletar)].index
resultados_exames.drop(indexNames , inplace=True)

In [193]:
resultados_exames[resultados_exames['DE_EXAME'].str.contains('SARS-COV-2, ANTICORPOS IgG, soro')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
4617,006C31B2A7125A71EBADD880BBE62364,30/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
21728,0233869ECE16722480922E0A490160D5,01/05/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
26458,029533878A1869C608308001D72093AF,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa",NÃO REAGENTE,,Não reagente
26460,029533878A1869C608308001D72093AF,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
35891,0398DADDFED16167749B90FAB9D1D2F8,08/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa",NÃO REAGENTE,,Não reagente
...,...,...,...,...,...,...,...,...
2485015,FF3099DD9E18B7C516CC44D0C387058D,28/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
2486130,FF51D43C0EEFA57DCEA8D1B858C47ACE,01/05/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
2489440,FFA1E24BD081DA0E36E9B3B55B7D63A4,29/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Elisa",0,,Não reagente
2492383,FFD4549AF74B98D04BD6445A5D938390,06/04/2020,LAB,"SARS-COV-2, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgA, Elisa",NÃO REAGENTE,,Não reagente


In [337]:
resultados_exames[resultados_exames['DE_ANALITO'].str.contains('Covid 19, Anticorpos IgG, Elisa')]['DE_RESULTADO'].value_counts()

0    3301
1     543
Name: DE_RESULTADO, dtype: int64

In [198]:
resultados_exames[resultados_exames['DE_ANALITO'].str.contains('Covid 19, Anticorpos IgA, Elisa')]['DE_RESULTADO'].value_counts()

NÃO REAGENTE     2612
REAGENTE          800
Indeterminado     282
Name: DE_RESULTADO, dtype: int64

In [338]:
resultados_deletar = ['Indeterminado']
index_iga_indeterminado = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgA, Elisa', 'DE_RESULTADO']
index_to_delete = index_iga_indeterminado[index_iga_indeterminado.isin(resultados_deletar) == True].index
resultados_exames.drop(index_to_delete , inplace=True)

In [339]:
index_covid_iga = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgA, Elisa', 'DE_RESULTADO']
index_covid_iga.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 
resultados_exames.loc[index_covid_iga.index, 'DE_RESULTADO'] = index_covid_iga.values
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgA, Elisa']['DE_RESULTADO'].value_counts()

0    2612
1     800
Name: DE_RESULTADO, dtype: int64

- Rotulos IgG
    - 'Covid 19, Anticorpos IgG, Quimioluminescência'
    - 'Covid 19, Anticorpos IgG, Elisa'
    - 'Covid 19, Anticorpos IgG, teste rápido'

### IgM
'SARS-CoV-2, ANTICORPOS IgM E IgG, TESTE RÁPIDO'	'Covid 19, Anticorpos IgM, teste rápido'

In [187]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, teste rápido']['DE_RESULTADO'].value_counts()

NÃO REAGENTE    2859
REAGENTE         177
Name: DE_RESULTADO, dtype: int64

In [340]:
index_covid_igm = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, teste rápido', 'DE_RESULTADO']
index_covid_igm.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 
resultados_exames.loc[index_covid_igm.index, 'DE_RESULTADO'] = index_covid_igm.values
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, teste rápido']['DE_RESULTADO'].value_counts()

0    2859
1     177
Name: DE_RESULTADO, dtype: int64

In [None]:
COVID19, ANTICORPOS IgM, soro	Covid 19, Anticorpos IgM, Quimiolumin.-Índice
COVID19, ANTICORPOS IgM, soro	Covid 19, Anticorpos IgM, Quimioluminescência

In [203]:
resultados_exames[resultados_exames['DE_EXAME'].str.contains('COVID19, ANTICORPOS IgM, soro')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
73,00007BB4274722A63A38D415ACCD7705,15/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",NÃO REAGENTE,,Não reagente
74,00007BB4274722A63A38D415ACCD7705,15/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",03,UA/mL,"inferior a 0,8"
352,0000A150D4C8B92A4F8D280C6D4656B0,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",REAGENTE,,Não reagente
353,0000A150D4C8B92A4F8D280C6D4656B0,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",21,UA/mL,"inferior a 0,8"
356,000230CE71238C85771268A5B7D807BC,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",REAGENTE,,Não reagente
...,...,...,...,...,...,...,...,...
2494598,FFFEDE2AD60338139A0CEB7019D1B687,05/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",06,UA/mL,"inferior a 0,8"
2494603,FFFEF2D4D69B8D55ED11FFB5E0DD661D,13/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",NÃO REAGENTE,,Não reagente
2494604,FFFEF2D4D69B8D55ED11FFB5E0DD661D,13/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",06,UA/mL,"inferior a 0,8"
2494607,FFFFD7BD5939EF03FA62545752DF57D9,04/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",NÃO REAGENTE,,Não reagente


In [341]:
indexNames = resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, Quimiolumin.-Índice'].index
resultados_exames.drop(indexNames , inplace=True)

In [342]:
resultados_exames[resultados_exames['DE_ANALITO'].str.contains('Covid 19, Anticorpos IgM, Quimioluminescência')]['DE_RESULTADO'].value_counts()

NÃO REAGENTE     73748
REAGENTE          5557
Indeterminado     4448
Name: DE_RESULTADO, dtype: int64

In [343]:
resultados_deletar = ['Indeterminado']
index_igm_indeterminado = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, Quimioluminescência', 'DE_RESULTADO']
index_to_delete = index_igm_indeterminado[index_igm_indeterminado.isin(resultados_deletar) == True].index
resultados_exames.drop(index_to_delete , inplace=True)

In [344]:
index_covid_igm = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, Quimioluminescência', 'DE_RESULTADO']
index_covid_igm.replace({'REAGENTE': 1, \
                     'NÃO REAGENTE': 0 }, inplace=True) 
resultados_exames.loc[index_covid_igm.index, 'DE_RESULTADO'] = index_covid_igm.values
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Anticorpos IgM, Quimioluminescência']['DE_RESULTADO'].value_counts()

0    73748
1     5557
Name: DE_RESULTADO, dtype: int64

In [218]:
resultados_exames[resultados_exames['DE_ANALITO'].str.contains('Covid 19, Anticorpos IgM, Quimioluminescência')]

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
73,00007BB4274722A63A38D415ACCD7705,15/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente
352,0000A150D4C8B92A4F8D280C6D4656B0,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",1,,Não reagente
356,000230CE71238C85771268A5B7D807BC,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",1,,Não reagente
365,00026AF3CD39CC9D4CB97A70B0CBEEBF,06/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente
429,000361AFC8886D4D822B30F6F5BE75EF,19/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente
...,...,...,...,...,...,...,...,...
2494589,FFFEBBE5EEBFC9987D55450A2BB031B1,29/05/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",1,,Não reagente
2494593,FFFECD3D227E71B0F889C0683D70C194,08/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente
2494597,FFFEDE2AD60338139A0CEB7019D1B687,05/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente
2494603,FFFEF2D4D69B8D55ED11FFB5E0DD661D,13/06/2020,LAB,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",0,,Não reagente


Rotulos IgM
- 'Covid 19, Anticorpos IgM, Quimioluminescência'
- 'Covid 19, Anticorpos IgM, teste rápido'

## Arquivo general

In [345]:
resultados_exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78,ng/mL,
1,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ACIDO FOLICO, soro",Ácido fólico - Eletroquimioluminescência,186,ng/mL,"Superior a 3,9"
2,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ACIDO URICO, soro","Ácido Úrico, soro",27,mg/dL,"2,4 a 5,7"
3,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ALUMINIO, plasma",Alumínio,10,microg/L,Até 10
4,00007BB4274722A63A38D415ACCD7705,13/05/2020,LAB,"ANTICORPOS ANTI-PEROXIDASE TIROIDIANA, soro",Anticorpos Anti-Peroxidase Tiroidiana,inferior a 34,U/mL,inferior a 34


In [346]:
resultados_exames.DE_ORIGEM.value_counts()

LAB    2049366
Name: DE_ORIGEM, dtype: int64

In [347]:
drop_columns = ['DE_ORIGEM', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA']
resultados_exames = resultados_exames.drop(drop_columns, axis=1)

In [348]:
resultados_exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_EXAME,DE_ANALITO,DE_RESULTADO
0,00007BB4274722A63A38D415ACCD7705,13/05/2020,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78
1,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO FOLICO, soro",Ácido fólico - Eletroquimioluminescência,186
2,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO URICO, soro","Ácido Úrico, soro",27
3,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ALUMINIO, plasma",Alumínio,10
4,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ANTICORPOS ANTI-PEROXIDASE TIROIDIANA, soro",Anticorpos Anti-Peroxidase Tiroidiana,inferior a 34


In [349]:
resultados_exames.to_csv('resultados_exames.csv', index=False, sep='|')

In [350]:
resultados_exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_EXAME,DE_ANALITO,DE_RESULTADO
0,00007BB4274722A63A38D415ACCD7705,13/05/2020,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78
1,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO FOLICO, soro",Ácido fólico - Eletroquimioluminescência,186
2,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO URICO, soro","Ácido Úrico, soro",27
3,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ALUMINIO, plasma",Alumínio,10
4,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ANTICORPOS ANTI-PEROXIDASE TIROIDIANA, soro",Anticorpos Anti-Peroxidase Tiroidiana,inferior a 34


In [351]:
resultados_exames.shape

(2049366, 5)

Vamos eliminar todos os exames com densidade menor do que 400, pois temos mais de 100 mil pacientes, e 400 exames no total significa que poucos pacientes fizeram esses exames. 

In [251]:
exames_agrupados.head()

Unnamed: 0,DE_EXAME,DE_ANALITO,VEZES
277,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimiolumin.-Índice",84996
279,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimiolumin.-Índice",84986
278,"COVID19, ANTICORPOS IgG, soro","Covid 19, Anticorpos IgG, Quimioluminescência",83767
280,"COVID19, ANTICORPOS IgM, soro","Covid 19, Anticorpos IgM, Quimioluminescência",83753
797,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",50223


In [352]:
exames_agrupados.shape

(1279, 3)

In [353]:
exames_agrupados[exames_agrupados['VEZES'] < 400]

Unnamed: 0,DE_EXAME,DE_ANALITO,VEZES
1256,"VITAMINA E (tocoferol), soro","Vitamina E (tocoferol), soro",399
910,"PROTEINA C-REATIVA, plasma",Proteína C-Reativa,387
244,"CKMB massa, plasma","CK-MB, Eletroquimioluminescência",363
289,"CREATININA, plasma",Creatinina,363
1139,"TRANSFERRINA, soro",Transferrina,360
...,...,...,...
945,"QUANTIFICACAO DE INIBIDOR DE FATOR IX, plasma",Dosagem de fator IX,1
1141,"TRIAGEM DE ANFETAMINAS E METANFETAMINAS, urina","Anfetaminas e Metanfetaminas, urina",1
759,"MAG, ANTICORPOS, soro","MAG, anticorpos",1
852,PESQUISA DE MICROSPORIDIA NAS FEZES,"Microsporidia, pesquisa, fezes",1


In [354]:
DE_EXAME_to_delete = exames_agrupados[exames_agrupados['VEZES'] < 400][['DE_EXAME']].values
DE_ANALITO_to_delete = exames_agrupados[exames_agrupados['VEZES'] < 400][['DE_ANALITO']].values

In [267]:
print(len(DE_EXAME_to_delete))
print(len(DE_ANALITO_to_delete))

1013
1013


In [355]:
import numpy as np

In [356]:
np.where(DE_ANALITO_to_delete == 'Covid 19, Anticorpos IgA, Elisa')

(array([53]), array([0]))

In [357]:
DE_EXAME_to_delete = np.delete(DE_EXAME_to_delete, 53)
DE_ANALITO_to_delete = np.delete(DE_ANALITO_to_delete, 53)

In [358]:
for exame, analito in zip(DE_EXAME_to_delete, DE_ANALITO_to_delete):
    indexNames = resultados_exames[(resultados_exames['DE_EXAME'] == exame) & (resultados_exames['DE_ANALITO'] == analito)].index
    resultados_exames.drop(indexNames , inplace=True)

In [359]:
resultados_exames.shape

(2000542, 5)

In [360]:
resultados_exames.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_EXAME,DE_ANALITO,DE_RESULTADO
0,00007BB4274722A63A38D415ACCD7705,13/05/2020,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,78
1,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO FOLICO, soro",Ácido fólico - Eletroquimioluminescência,186
2,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ACIDO URICO, soro","Ácido Úrico, soro",27
3,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ALUMINIO, plasma",Alumínio,10
4,00007BB4274722A63A38D415ACCD7705,13/05/2020,"ANTICORPOS ANTI-PEROXIDASE TIROIDIANA, soro",Anticorpos Anti-Peroxidase Tiroidiana,inferior a 34


In [361]:
resultados_exames.to_csv('resultados_exames_densos.csv', index=False, sep='|')

Para recuperar o resultado_exames

In [None]:
col_names = ['ID_PACIENTE', 'DT_COLETA', 'DE_EXAME', 'DE_ANALITO', 'DE_RESULTADO']
pacientes = pd.read_csv('resultados_exames_densos.csv', sep='|', names=col_names)

## Resultado por paciente

In [273]:
resultados_exames['ID_PACIENTE'].value_counts()

CE1F4D06FE83023E08DF680EC7324BF5    649
A9DEF7F65875D4B92E59D50F9B21DCF2    644
FD10C24CA5986B00FFDDED743447EC81    643
4AD9371C8FAF9B4B3C409589E09104CE    587
FC5675885071BBF89EE97CFFBB80B5D8    558
                                   ... 
D5777D57B14E3CB2E2ED600C2EC86742      1
B24C127D85F494A6145A60EE30246FE7      1
C01D8355ABF56655EB5989E8789E663A      1
5BFE3D28F619425E2E25D160F267E198      1
0F4844A9976A99DC30DE8E011C0BA4DF      1
Name: ID_PACIENTE, Length: 128706, dtype: int64

In [281]:
exames_por_paciente = resultados_exames['ID_PACIENTE'].value_counts().reset_index()
exames_por_paciente.columns = ['ID_PACIENTE', 'QUANTIDADE_EXAMES']
exames_por_paciente.to_csv('exames_por_paciente.csv', index=False, sep='|')

In [282]:
resultados_exames['ID_PACIENTE'].value_counts()

CE1F4D06FE83023E08DF680EC7324BF5    649
A9DEF7F65875D4B92E59D50F9B21DCF2    644
FD10C24CA5986B00FFDDED743447EC81    643
4AD9371C8FAF9B4B3C409589E09104CE    587
FC5675885071BBF89EE97CFFBB80B5D8    558
                                   ... 
D5777D57B14E3CB2E2ED600C2EC86742      1
B24C127D85F494A6145A60EE30246FE7      1
C01D8355ABF56655EB5989E8789E663A      1
5BFE3D28F619425E2E25D160F267E198      1
0F4844A9976A99DC30DE8E011C0BA4DF      1
Name: ID_PACIENTE, Length: 128706, dtype: int64

Vamos aceptar pacientes que pelo menos tenham feito 18 exames e deletar os restantes.

In [362]:
drop_pacientes = exames_por_paciente[exames_por_paciente['QUANTIDADE_EXAMES'] < 18]['ID_PACIENTE']
drop_pacientes = drop_pacientes.values

In [363]:
index_to_delete = resultados_exames[resultados_exames.ID_PACIENTE.isin(drop_pacientes) == True].index
resultados_exames.drop(index_to_delete , inplace=True)

In [364]:
resultados_exames.shape

(1803555, 5)

In [365]:
resultados_exames['ID_PACIENTE'].value_counts()

CE1F4D06FE83023E08DF680EC7324BF5    649
A9DEF7F65875D4B92E59D50F9B21DCF2    644
FD10C24CA5986B00FFDDED743447EC81    643
4AD9371C8FAF9B4B3C409589E09104CE    587
FC5675885071BBF89EE97CFFBB80B5D8    558
                                   ... 
A420012B68C72D4CD71088AD560A302F     18
4EFF38F5EC982B7A9F1AEFB154154A3C     18
C2060E3D27DC2CAEF2A28E14E108061D     18
3DBB1C0ADD2799027ED193569CE8B4C1     18
AFBA550AA6D3DE60D29DB92B431AC854     18
Name: ID_PACIENTE, Length: 26032, dtype: int64

In [366]:
resultados_exames.to_csv('resultados_exames_pacientes_densos.csv', index=False, sep='|')

## Vamos separar em dataset para cada label

### Covid19 PCR

In [368]:
resultados_exames[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR']

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_EXAME,DE_ANALITO,DE_RESULTADO
348,000085C48A31F50AE4F147392F6F35CF,22/05/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",0
425,00029A8E0091126C7A0D22568D37C5AA,20/05/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",0
607,0005E27C2FE72D781FC713004443FEA3,22/04/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",0
698,000CD49E7C56F5A9DFFA9C831CD621F7,01/06/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",1
864,00125406784443918658079BE96D4397,10/06/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",1
...,...,...,...,...,...
2492425,FFD5ACEB7EF7CEF057A71A80620604FB,02/06/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",1
2493009,FFE4087BE81DEB1BEFE175A933720780,04/05/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",1
2493241,FFED17CF58D8643F298D45D30DC5CED0,05/05/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",0
2493431,FFF04BC909F4AC6EFB11B94FC5FAFDEE,02/06/2020,"NOVO CORONAVÍRUS 2019 (SARS-CoV-2), DETECÇÃO P...","Covid 19, Detecção por PCR",0


In [375]:
pacientes_covid19_PCR = resultados_exames.loc[resultados_exames['DE_ANALITO'] == 'Covid 19, Detecção por PCR', 'ID_PACIENTE'].values

In [376]:
resultados_exames_covid19 = resultados_exames[resultados_exames['ID_PACIENTE'].isin(pacientes_covid19_PCR)]

In [377]:
resultados_exames_covid19.shape

(586943, 5)

In [378]:
resultados_exames_covid19.head()

Unnamed: 0,ID_PACIENTE,DT_COLETA,DE_EXAME,DE_ANALITO,DE_RESULTADO
150,000085C48A31F50AE4F147392F6F35CF,01/06/2020,"25 HIDROXI-VITAMINA D, soro",25 Hidroxi - vitamina D,62
151,000085C48A31F50AE4F147392F6F35CF,01/06/2020,"ACIDO URICO, soro","Ácido Úrico, soro",46
152,000085C48A31F50AE4F147392F6F35CF,01/06/2020,"ALBUMINA, soro",Albumina,42
153,000085C48A31F50AE4F147392F6F35CF,01/06/2020,"ANTIGENO PROSTATICO ESPECIFICO(PSA), soro",PSA Total,15
154,000085C48A31F50AE4F147392F6F35CF,01/06/2020,"BILIRRUBINAS, soro",Bilirrubina Direta,21


In [381]:
resultados_exames_covid19[resultados_exames_covid19['DE_ANALITO'] == 'Covid 19, Detecção por PCR']['ID_PACIENTE'].value_counts()

F08EBB2FD9844C9679107208DBB4AD75    5
841EB1E4FE638D5BECBA309D10D0BD40    4
5A3A9DFE5D87B8B75F24BDB55EEFA3E0    4
D5ACD36E23071C2D34496045886F3125    4
5F1AE16293D837CBCAAB5F9E7F1B01A8    4
                                   ..
A5124057D96987E4C4B6E04C8C3E1967    1
9801789770A6F65B7BD163C8EE6335F7    1
86BD7ED4537F28D43418AB0FF23B1B21    1
3F383643E175D314186A35D7E9148A93    1
DDBF3B1A9E48D766A17B2B32161BD039    1
Name: ID_PACIENTE, Length: 8518, dtype: int64

In [383]:
resultados_exames_covid19['DT_COLETA'] =  pd.to_datetime(resultados_exames_covid19['DT_COLETA'], format='%d/%m/%Y')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [385]:
resultados_exames_covid19.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 586943 entries, 150 to 2494118
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   ID_PACIENTE   586943 non-null  object        
 1   DT_COLETA     586943 non-null  datetime64[ns]
 2   DE_EXAME      586943 non-null  object        
 3   DE_ANALITO    586943 non-null  object        
 4   DE_RESULTADO  586943 non-null  object        
dtypes: datetime64[ns](1), object(4)
memory usage: 26.9+ MB


In [390]:
resultados_pcr = resultados_exames_covid19[resultados_exames_covid19['DE_ANALITO'] == 'Covid 19, Detecção por PCR']

Progreção de contagio segundo as datas

In [393]:
resultados_pcr_prograsao = resultados_pcr.groupby(['ID_PACIENTE'], sort=False) \
                            .apply(lambda x: x.sort_values(['DT_COLETA'], ascending=True)) \
                            .reset_index(drop=True)
resultados_pcr_prograsao.to_csv('resultados_pcr_prograsao.csv', encoding='utf-8', sep='|', index=False)

Guardamos o resultado da ultima data

In [400]:
paciente_covid_resultado_final = resultados_pcr.loc[resultados_pcr.groupby('ID_PACIENTE').DT_COLETA.idxmax()]

In [401]:
paciente_covid_resultado_final.to_csv('paciente_covid_resultado_final.csv', encoding='utf-8', sep='|', index=False)

In [408]:
resultados_exames_covid19.to_csv('resultados_exames_covid19.csv', encoding='utf-8', sep='|', index=False)

In [None]:
col_names = ['ID_PACIENTE', 'DT_COLETA', 'DE_EXAME', 'DE_ANALITO', 'DE_RESULTADO']
resultados_exames_covid19 = pd.read_csv('resultados_exames_covid19.csv', sep='|', names=col_names)

Separamos os DE_ANALITICOS em colunas para que sejam nossas features, pegamos os 30 exames com mais quantidade de vezes feito.

In [407]:
resultados_exames_covid19.DE_ANALITO.value_counts()[:30]

Hematócrito                                11927
Concentração de Hemoglobina Corpuscular    11927
Leucócitos                                 11927
Hemoglobina Corpuscular Média              11927
Linfócitos (%)                             11927
Plaquetas                                  11927
Monócitos (%)                              11927
Eritrócitos                                11927
VCM                                        11927
Neutrófilos (%)                            11927
Hemoglobina                                11926
Morfologia, Série Branca                   11926
Basófilos (%)                              11926
Eosinófilos (%)                            11926
Morfologia, Série Vermelha                 11926
RDW                                        11925
Volume plaquetário médio                   11662
Covid 19, Detecção por PCR                  9117
Creatinina                                  8986
Glicose                                     8462
ALT (TGP)           