# Olhando exames de um CSV em Python/Pandas

In [1]:
import pandas as pd

Ler o CSV no farmato dado (o separador é o '|')

In [2]:
ex = pd.read_csv('bpsp_exames_01.csv', sep='|')

Quais colunas foram lidas?

In [3]:
ex.columns

Index(['ID_PACIENTE', 'ID_ATENDIMENTO', 'DT_COLETA', 'DE_ORIGEM', 'DE_EXAME',
       'DE_ANALITO', 'DE_RESULTADO', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA'],
      dtype='object')

Como ficou o Dataframe lido (mostra uma listagem parcial da tabela, que é enorme: 6329103 rows × 9 columns)

In [4]:
ex

Unnamed: 0,ID_PACIENTE,ID_ATENDIMENTO,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Hemoglobina Corpuscular Media,306,pg,"25,0 a 32,0"
1,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Hematocrito,46,%,"35,0 a 44,0"
2,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Eritrocitos,49,milhoes/mm3,"4,10 a 5,20"
3,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Plaquetas,210000,/mm3,150.000 a 450.000
4,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Monocitos,890,/mm3,0 a 800
...,...,...,...,...,...,...,...,...,...
6329098,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,19/03/2020,HOSP,"Creatino fosfoquinase fracao MB (CKMB) massa, ...","CK-MB, Eletroquimioluminescencia",214,ng/mL,"inferior a 5,0"
6329099,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,19/03/2020,HOSP,"Creatinina, plasma",Creatinina,88,mg/dL,"0,60 a 1,10"
6329100,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,20/03/2020,HOSP,"Troponina I, plasma",Troponina I,57,ng/mL,"inferior a 0,16"
6329101,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,20/03/2020,HOSP,"Creatino fosfoquinase fracao MB (CKMB) massa, ...","CK-MB, Eletroquimioluminescencia",452,ng/mL,"inferior a 5,0"


A seguir, agrupamos (<i>groupby</i>) pelos campos _DE_EXAME_ e _DE_ANALITO_;
chamamos o método _count()_ para esse objeto de grupo,
ordenamos pela variável _ID_PACIENTE_, que é o número de registros contados


In [5]:
l = ex.groupby(['DE_EXAME','DE_ANALITO']).count().sort_values('ID_PACIENTE',ascending=False)['ID_PACIENTE']


O resultado é uma contagem hierárquica dos registros do CSV

In [6]:
l

DE_EXAME                                  DE_ANALITO                            
Hemograma completo, sangue total          Hemoglobina                               124600
                                          Plaquetas                                 124600
                                          Leucocitos                                124600
                                          Eritrocitos                               124600
                                          Hematocrito                               124600
                                                                                     ...  
Figado, anticorpos anti, Soro             Musculo liso - Muscularis Mucosa               1
Bacterioscopico (GRAM), varios materiais  Bacterioscopico - Eritrocitos                  1
Figado, anticorpos anti, Soro             Musculo liso - Mesangio Glomerular             1
                                          Musculo liso - Bainha Muscular de Vaso         1
DNA Fetal

In [7]:
type(l)

pandas.core.series.Series

Para poder passar isso para outras análises vamos gerar um CSV.
Como o objeto _l_ é uma Série, utilizamos o método _reset_index()_ para transformar num DataFrame

In [8]:
l.reset_index()

Unnamed: 0,DE_EXAME,DE_ANALITO,ID_PACIENTE
0,"Hemograma completo, sangue total",Hemoglobina,124600
1,"Hemograma completo, sangue total",Plaquetas,124600
2,"Hemograma completo, sangue total",Leucocitos,124600
3,"Hemograma completo, sangue total",Eritrocitos,124600
4,"Hemograma completo, sangue total",Hematocrito,124600
...,...,...,...
1531,"Figado, anticorpos anti, Soro",Musculo liso - Muscularis Mucosa,1
1532,"Bacterioscopico (GRAM), varios materiais",Bacterioscopico - Eritrocitos,1
1533,"Figado, anticorpos anti, Soro",Musculo liso - Mesangio Glomerular,1
1534,"Figado, anticorpos anti, Soro",Musculo liso - Bainha Muscular de Vaso,1


Esse Dataframe é usado para salvar os dados em CSV

In [9]:
l.reset_index().to_csv("exames.csv")