# Olhando exames de um CSV em Python/Pandas

Este bloco de notas e os dados relacionados estão disponíveis via GIT em: https://github.com/pbandierapaiva/disdev

In [1]:
import pandas as pd

Ler o CSV no farmato dado (o separador é o '|')

In [2]:
ex = pd.read_csv('bpsp_exames_01.csv', sep='|')

Quais colunas foram lidas?

In [3]:
ex.columns

Index(['ID_PACIENTE', 'ID_ATENDIMENTO', 'DT_COLETA', 'DE_ORIGEM', 'DE_EXAME',
       'DE_ANALITO', 'DE_RESULTADO', 'CD_UNIDADE', 'DE_VALOR_REFERENCIA'],
      dtype='object')

Como ficou o Dataframe lido (mostra uma listagem parcial da tabela, que é enorme: 6329103 rows × 9 columns)

In [4]:
ex

Unnamed: 0,ID_PACIENTE,ID_ATENDIMENTO,DT_COLETA,DE_ORIGEM,DE_EXAME,DE_ANALITO,DE_RESULTADO,CD_UNIDADE,DE_VALOR_REFERENCIA
0,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Hemoglobina Corpuscular Media,306,pg,"25,0 a 32,0"
1,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Hematocrito,46,%,"35,0 a 44,0"
2,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Eritrocitos,49,milhoes/mm3,"4,10 a 5,20"
3,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Plaquetas,210000,/mm3,150.000 a 450.000
4,B8E5614AFF218E3A,E01317159E211FA7B00EAA56B9786F98,11/07/2020,HOSP,"Hemograma completo, sangue total",Monocitos,890,/mm3,0 a 800
...,...,...,...,...,...,...,...,...,...
6329098,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,19/03/2020,HOSP,"Creatino fosfoquinase fracao MB (CKMB) massa, ...","CK-MB, Eletroquimioluminescencia",214,ng/mL,"inferior a 5,0"
6329099,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,19/03/2020,HOSP,"Creatinina, plasma",Creatinina,88,mg/dL,"0,60 a 1,10"
6329100,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,20/03/2020,HOSP,"Troponina I, plasma",Troponina I,57,ng/mL,"inferior a 0,16"
6329101,57789DAF1D4E868A,17247C74EEF84AA4BC86025DAF82FA01,20/03/2020,HOSP,"Creatino fosfoquinase fracao MB (CKMB) massa, ...","CK-MB, Eletroquimioluminescencia",452,ng/mL,"inferior a 5,0"


A seguir, agrupamos (<i>groupby</i>) pelos campos _DE_EXAME_ e _DE_ANALITO_;
chamamos o método _count()_ para esse objeto de grupo,
ordenamos pela variável _ID_PACIENTE_, que é o número de registros contados


In [5]:
l = ex.groupby(['DE_EXAME','DE_ANALITO']).count().sort_values('ID_PACIENTE',ascending=False)['ID_PACIENTE']


O resultado é uma contagem hierárquica dos registros do CSV

In [6]:
l

DE_EXAME                                  DE_ANALITO                            
Hemograma completo, sangue total          Hemoglobina                               124600
                                          Plaquetas                                 124600
                                          Leucocitos                                124600
                                          Eritrocitos                               124600
                                          Hematocrito                               124600
                                                                                     ...  
Figado, anticorpos anti, Soro             Musculo liso - Muscularis Mucosa               1
Bacterioscopico (GRAM), varios materiais  Bacterioscopico - Eritrocitos                  1
Figado, anticorpos anti, Soro             Musculo liso - Mesangio Glomerular             1
                                          Musculo liso - Bainha Muscular de Vaso         1
DNA Fetal

In [7]:
type(l)

pandas.core.series.Series

Para poder passar isso para outras análises vamos gerar um CSV.
Como o objeto _l_ é uma Série, utilizamos o método _reset_index()_ para transformar num DataFrame

In [8]:
l.reset_index()

Unnamed: 0,DE_EXAME,DE_ANALITO,ID_PACIENTE
0,"Hemograma completo, sangue total",Hemoglobina,124600
1,"Hemograma completo, sangue total",Plaquetas,124600
2,"Hemograma completo, sangue total",Leucocitos,124600
3,"Hemograma completo, sangue total",Eritrocitos,124600
4,"Hemograma completo, sangue total",Hematocrito,124600
...,...,...,...
1531,"Figado, anticorpos anti, Soro",Musculo liso - Muscularis Mucosa,1
1532,"Bacterioscopico (GRAM), varios materiais",Bacterioscopico - Eritrocitos,1
1533,"Figado, anticorpos anti, Soro",Musculo liso - Mesangio Glomerular,1
1534,"Figado, anticorpos anti, Soro",Musculo liso - Bainha Muscular de Vaso,1


Esse Dataframe é usado para salvar os dados em CSV

In [9]:
l.reset_index().to_csv("exames.csv")

In [10]:
desfecho= pd.read_csv('bpsp_desfecho_01.csv', sep='|')

In [12]:
pcte = pd.read_csv('bpsp_pacientes_01.csv', sep='|')

In [16]:
len(pcte)

39000

In [15]:
len(pcte[pcte.AA_NASCIMENTO!='YYYY'])

10757

Vamos ver a frequência dos diferentes desfechos

In [37]:
desfecho.groupby('DE_DESFECHO').count().sort_values('ID_PACIENTE', ascending=False).ID_PACIENTE

DE_DESFECHO
Alta Administrativa                                                                 148721
Alta do Pronto Atendimento                                                           31716
Alta melhorado                                                                       20414
Alta Internacao BP                                                                    7384
Alta a pedido                                                                         2724
Alta Cancelamento Atendimento                                                         2576
Alta Internacao                                                                       1754
Obito com declaracao fornecida pelo medico assistente Maior que 24 Horas de inte       766
Alta curado                                                                            528
Evadiu-se                                                                              493
Alta ambulatorial/externo                                                     

Desfechos com óbito

In [38]:

desfecho[desfecho.DE_DESFECHO.str.contains('Obito')].groupby('DE_DESFECHO').count()\
    .sort_values('ID_PACIENTE',ascending=False).ID_PACIENTE

DE_DESFECHO
Obito com declaracao fornecida pelo medico assistente Maior que 24 Horas de inte    766
Obito com declaracao fornecida pelo medico assistente Menor que 24 Horas de inte     33
Obito com declaracao fornecida pelo- SVO Maior que 24 Horas de internacao            15
Obito com declaracao fornecida pelo- IML Maior que 24 Horas de internacao            10
Obito - Pos-Operatorio (ate 7 dias) - Maior que 24 Horas de internacao                2
Obito - Trans-Operatorio  - Maior que 24 Horas de internacao                          2
Obito com declaracao fornecida pelo- IML Menor que 24 Horas de internacao             2
Obito com declaracao fornecida pelo- SVO Menor que 24 Horas de internacao             2
Obito - Pos-Operatorio (ate 7 dias) - Menor que 24 Horas de internacao                1
Obito - Trans-Operatorio  - Menor que 24 Horas de internacao                          1
Name: ID_PACIENTE, dtype: int64

In [48]:
desfecho.columns


Index(['ID_PACIENTE', 'ID_ATENDIMENTO', 'DT_ATENDIMENTO',
       'DE_TIPO_ATENDIMENTO', 'ID_CLINICA', 'DE_CLINICA', 'DT_DESFECHO',
       'DE_DESFECHO'],
      dtype='object')

In [47]:
desfecho.groupby('DT_DESFECHO').count().ID_PACIENTE

DT_DESFECHO
01/01/2021     141
01/03/2020      79
01/04/2020     276
01/05/2020     143
01/06/2020     580
              ... 
31/07/2020     890
31/08/2020    1075
31/10/2020     420
31/12/2020     303
DDMMAA         834
Name: ID_PACIENTE, Length: 338, dtype: int64

In [50]:
desfecho.groupby('DT_ATENDIMENTO').count().ID_PACIENTE.sort_values()

DT_ATENDIMENTO
01/01/2020       1
22/11/2019       1
09/01/2018       1
22/07/2019       1
22/05/2019       1
              ... 
24/11/2020    1211
14/12/2020    1240
10/11/2020    1251
09/11/2020    1268
17/11/2020    1277
Name: ID_PACIENTE, Length: 570, dtype: int64

In [53]:
desfecho.dtypes

ID_PACIENTE            object
ID_ATENDIMENTO         object
DT_ATENDIMENTO         object
DE_TIPO_ATENDIMENTO    object
ID_CLINICA              int64
DE_CLINICA             object
DT_DESFECHO            object
DE_DESFECHO            object
dtype: object

Convertendo as colunas com  datas, DT_ATENDIMENTO e DT_DESFECHO

DT_DESFECHO tem alguns casos com 'DDMMYYYY' que serão removidos (?)


In [54]:
desfecho.DT_ATENDIMENTO = pd.to_datetime(desfecho.DT_ATENDIMENTO, dayfirst=True)

In [57]:
desfecho.DT_DESFECHO = pd.to_datetime(desfecho.DT_DESFECHO, dayfirst=True, errors='coerce')

In [62]:
desfecho.dtypes

ID_PACIENTE                     object
ID_ATENDIMENTO                  object
DT_ATENDIMENTO          datetime64[ns]
DE_TIPO_ATENDIMENTO             object
ID_CLINICA                       int64
DE_CLINICA                      object
DT_DESFECHO             datetime64[ns]
DE_DESFECHO                     object
TEMPO                  timedelta64[ns]
dtype: object

In [60]:
desfecho['TEMPO'] =desfecho.DT_DESFECHO-desfecho.DT_ATENDIMENTO

In [72]:
desfecho.groupby('TEMPO').count().ID_PACIENTE.head(90)

TEMPO
0 days     170500
1 days      20826
2 days       4646
3 days       6780
4 days       2807
            ...  
86 days         4
87 days         5
89 days         3
90 days         6
91 days         3
Name: ID_PACIENTE, Length: 90, dtype: int64

In [77]:
desfecho['D'] = pd.to_numeric( desfecho['TEMPO'] )

In [84]:
desfecho['DIAS'] = desfecho['TEMPO'].dt.days

In [85]:
desfecho[['TEMPO','DIAS']] 

Unnamed: 0,TEMPO,DIAS
0,0 days,0.0
1,0 days,0.0
2,1 days,1.0
3,0 days,0.0
4,0 days,0.0
...,...,...
217986,0 days,0.0
217987,0 days,0.0
217988,0 days,0.0
217989,0 days,0.0


In [87]:
desfecho.groupby('DIAS').count().ID_PACIENTE.sort_values(ascending=False)

DIAS
0.0       170500
1.0        20826
3.0         6780
2.0         4646
4.0         2807
           ...  
378.0          1
389.0          1
390.0          1
393.0          1
1970.0         1
Name: ID_PACIENTE, Length: 351, dtype: int64

In [88]:
desfecho[desfecho.DIAS>1000]

Unnamed: 0,ID_PACIENTE,ID_ATENDIMENTO,DT_ATENDIMENTO,DE_TIPO_ATENDIMENTO,ID_CLINICA,DE_CLINICA,DT_DESFECHO,DE_DESFECHO,TEMPO,D,DIAS
9673,A8F81CD3C89E191D,75B40C7D935F9CDA,2017-07-17,Atendimento Ambulatorial,1,Unidade Paulista,2020-09-10,Alta Administrativa,1151 days,99446400000000000,1151.0
11134,4E32FBDDA17403CF,D1329016A78246614D0FBCD52FB337FC,2018-02-08,Externo,1,Unidade Paulista,2020-12-29,Alta Administrativa,1055 days,91152000000000000,1055.0
30104,62A52D5615348226,8805915A07C595FA,2017-01-26,Externo,1,Unidade Paulista,2020-04-06,Alta Cancelamento Atendimento,1166 days,100742400000000000,1166.0
37352,CC91B2320F626D95,41F88D00234D67C0,2017-05-30,Externo,1,Unidade Paulista,2020-04-11,Alta Cancelamento Atendimento,1047 days,90460800000000000,1047.0
41139,EFC98BA4B9A12FD7,F284AAAAF84A1953,2017-07-03,Atendimento Ambulatorial,1,Unidade Paulista,2020-08-17,Alta Administrativa,1141 days,98582400000000000,1141.0
41557,7C910E7CBE921396,0062B85E39974B43,2017-07-03,Atendimento Ambulatorial,1,Unidade Paulista,2020-06-23,Alta Administrativa,1086 days,93830400000000000,1086.0
42297,FF99FB0E08DA11F8,CF1CEB0D85F55B15,2017-06-01,Externo,1,Unidade Paulista,2020-04-06,Alta Cancelamento Atendimento,1040 days,89856000000000000,1040.0
48374,FF04CBD29041433D,4BA4A43C6E90B8045487B1560FD72EDB,2017-08-08,Atendimento Ambulatorial,1,Unidade Paulista,2020-12-07,Alta Administrativa,1217 days,105148800000000000,1217.0
48376,FF04CBD29041433D,E010B12B351F87113457A308B352C694,2017-08-15,Atendimento Ambulatorial,1,Unidade Paulista,2020-12-07,Alta Administrativa,1210 days,104544000000000000,1210.0
48377,FF04CBD29041433D,D12A2D85F8F0CD0FDDB5D33CFC7B07ED,2018-01-23,Atendimento Ambulatorial,1,Unidade Paulista,2020-12-07,Alta Administrativa,1049 days,90633600000000000,1049.0


In [83]:
pd.to_int(desfecho['TEMPO'].dt.days)

AttributeError: module 'pandas' has no attribute 'to_int'

In [76]:
l.sort_values()

64365    -9223372036854775808
96940    -9223372036854775808
173544   -9223372036854775808
27011    -9223372036854775808
98879    -9223372036854775808
                 ...         
70308      115948800000000000
201760     116640000000000000
148670     144374400000000000
72129      169689600000000000
89713      170208000000000000
Name: TEMPO, Length: 217991, dtype: int64