# Transformação de dados

In [43]:
# bibliotecas usadas
import tabula
import pandas as pd
from zipfile import ZipFile


## Extração

In [20]:
# Extraindo dados do PDF

path_pdf = 'anexo1.pdf'

tabelas = tabula.read_pdf(path_pdf, pages='3-181', encoding='latin1') #mudando o encoding para latin1 para conseguir ler o pdf

df_tabelas_juntas = pd.DataFrame()

for tabela in tabelas:
    df_tabelas_juntas = pd.concat([df_tabelas_juntas, tabela], ignore_index=True)

df_tabelas_juntas

Unnamed: 0,PROCEDIMENTO,RN\r(alteração),VIGÊNCIA,OD,AMB,HCO,HSO,REF,PAC,DUT,...,PUNÇÃO ASPIRATIVA OU BIÓPSIA ORIENTADA POR IMAGEM,ANESTESIA (INSERÇÃO DA PLACA PARA BRAQUITERAPIA OFTÁLMICA),PROCEDIMENTOS SECUNDÁRIOS,RADIOTERAPIA,ANESTESIA PARA RADIOTERAPIA EXTERNA,FILMES DE VERIFICAÇÃO,"IMOBILIZADOR DE TÓRAX, ABDOME E PÉLVIS",INSERÇÃO DA PLACA PARA BRAQUITERAPIA OFTÁLMICA,PLANEJAMENTO COMPLEXO (COM COMPUTADOR),PLANEJAMENTO TRIDIMENSIONAL
0,ACONSELHAMENTO GENÉTICO,,,,AMB,HCO,HSO,REF,,,...,,,,,,,,,,
1,ATENDIMENTO/ACOMPANHAMENTO EM HOSPITAL-DIA PSI...,,,,,HCO,HSO,REF,,109.0,...,,,,,,,,,,
2,ATENDIMENTO INTEGRAL AO RECÉM-NASCIDO (SALA DE...,,,,,HCO,,REF,,,...,,,,,,,,,,
3,ATENDIMENTO MÉDICO DO INTENSIVISTA EM UTI GERA...,,,,,HCO,HSO,REF,,,...,,,,,,,,,,
4,ATENDIMENTO PEDIÁTRICO A GESTANTES (3o TRIMESTRE),,,,AMB,HCO,,REF,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3453,TONOMETRIA,,,,AMB,HCO,HSO,REF,,,...,,,,,,,,,,
3454,TRICOGRAMA PARA DERMATOLOGIA / MINERALOGRAMA P...,,,,AMB,HCO,HSO,REF,,,...,,,,,,,,,,
3455,URODINÂMICA COMPLETA,,,,AMB,HCO,HSO,REF,,,...,,,,,,,,,,
3456,UROFLUXOMETRIA,,,,AMB,HCO,HSO,REF,,,...,,,,,,,,,,


## Transformação

In [35]:
# Análise exploratória dos dados
df_tabelas_juntas.to_csv('tabelas_juntas.csv', index=False) # salvando como backup 

df_tabela = pd.read_csv('tabelas_juntas.csv')

df_tabela.info()
df_tabela.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3458 entries, 0 to 3457
Columns: 162 entries, PROCEDIMENTO to PLANEJAMENTO TRIDIMENSIONAL
dtypes: float64(10), object(152)
memory usage: 4.3+ MB


Index(['PROCEDIMENTO', 'RN\r(alteração)', 'VIGÊNCIA', 'OD', 'AMB', 'HCO',
       'HSO', 'REF', 'PAC', 'DUT',
       ...
       'PUNÇÃO ASPIRATIVA OU BIÓPSIA ORIENTADA POR IMAGEM',
       'ANESTESIA (INSERÇÃO DA PLACA PARA BRAQUITERAPIA OFTÁLMICA)',
       'PROCEDIMENTOS SECUNDÁRIOS', 'RADIOTERAPIA',
       'ANESTESIA PARA RADIOTERAPIA EXTERNA', 'FILMES DE VERIFICAÇÃO',
       'IMOBILIZADOR DE TÓRAX, ABDOME E PÉLVIS',
       'INSERÇÃO DA PLACA PARA BRAQUITERAPIA OFTÁLMICA',
       'PLANEJAMENTO COMPLEXO (COM COMPUTADOR)',
       'PLANEJAMENTO TRIDIMENSIONAL'],
      dtype='object', length=162)

In [None]:
# Removendo colunas que não serão utilizadas
df_tabela = df_tabela.iloc[:, 0:13]
df_tabela.columns

Index(['PROCEDIMENTO', 'RN\r(alteração)', 'VIGÊNCIA', 'OD', 'AMB', 'HCO',
       'HSO', 'REF', 'PAC', 'DUT', 'SUBGRUPO', 'GRUPO', 'CAPÍTULO'],
      dtype='object')

In [37]:
# Renomeando colunas
# OD e AMB = Seg. Odontológica e Seg. Ambulatorial

df_tabela.columns = ['PROCEDIMENTO', 'RN\r(alteração)', 'VIGÊNCIA', 'Seg. Odontológica', 'Seg. Ambulatorial', 'HCO', 'HSO', 'REF', 'PAC', 'DUT', 'SUBGRUPO', 'GRUPO', 'CAPÍTULO']
df_tabela.columns

Index(['PROCEDIMENTO', 'RN\r(alteração)', 'VIGÊNCIA', 'Seg. Odontológica',
       'Seg. Ambulatorial', 'HCO', 'HSO', 'REF', 'PAC', 'DUT', 'SUBGRUPO',
       'GRUPO', 'CAPÍTULO'],
      dtype='object')

In [39]:
# Renomenado valores das colunas OD e AMB
df_tabela['Seg. Odontológica'] = df_tabela['Seg. Odontológica'].replace('OD', 'Seg. Odontológica')
df_tabela['Seg. Ambulatorial'] = df_tabela['Seg. Ambulatorial'].replace('AMB', 'Seg. Ambulatorial')
df_tabela.head(7)

Unnamed: 0,PROCEDIMENTO,RN\r(alteração),VIGÊNCIA,Seg. Odontológica,Seg. Ambulatorial,HCO,HSO,REF,PAC,DUT,SUBGRUPO,GRUPO,CAPÍTULO
0,ACONSELHAMENTO GENÉTICO,,,,Seg. Ambulatorial,HCO,HSO,REF,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
1,ATENDIMENTO/ACOMPANHAMENTO EM HOSPITAL-DIA PSI...,,,,,HCO,HSO,REF,,109.0,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
2,ATENDIMENTO INTEGRAL AO RECÉM-NASCIDO (SALA DE...,,,,,HCO,,REF,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
3,ATENDIMENTO MÉDICO DO INTENSIVISTA EM UTI GERA...,,,,,HCO,HSO,REF,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
4,ATENDIMENTO PEDIÁTRICO A GESTANTES (3o TRIMESTRE),,,,Seg. Ambulatorial,HCO,,REF,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
5,ATIVIDADE EDUCACIONAL PARA PLANEJAMENTO FAMILIAR,,,,Seg. Ambulatorial,,,REF,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS
6,ATIVIDADE EDUCATIVA EM SAÚDE BUCAL,,,Seg. Odontológica,,,,,,,"CONSULTAS, VISITAS HOSPITALARES OU\rACOMPANHAM...",PROCEDIMENTOS GERAIS,PROCEDIMENTOS GERAIS


## Salvando

In [41]:
# Salvando em csv
df_tabela.to_csv('tabela_limpa.csv', index=False)

In [44]:
# Compactando em zip

with ZipFile('Teste_Giuliano.zip', 'w') as z:
    z.write('tabela_limpa.csv')
print('Compactado com sucesso!')

Compactado com sucesso!
