In [1]:
# !pip install tabula-py

In [6]:
import pandas as pd
import tabula
import os

In [8]:
%reload_ext watermark
%watermark -a "Leonardo da Silva Neves"

Author: Leonardo da Silva Neves



In [9]:
# carregamendo do arquivo .pdf
file = 'tabela_de_correspondencia_entre_as_denominacoes_dos_cursos_e_as_sugestoes_de_rotulos_06_2025.pdf'

In [11]:
# Tentativa extrair todas as tabelas retornando-as como uma lista de DataFrames
try:
    lista_de_dfs = tabula.read_pdf(
        file,
        pages='all',
        multiple_tables=True,
        encoding='latin-1'
    )
    print("Extração bem-sucedida usando latin-1.")

except Exception as e:
    print(f"Erro com latin-1: {e}. Tendando cp1252...")

    lista_de_dfs = tabula.read_pdf(
        file,
        pages='all',
        multiple_tables=True,
        encoding='cp1252'
    )
    print("Extração bem-sucedida usando cp1252.")

if lista_de_dfs:
    df_tabela = pd.concat(lista_de_dfs, ignore_index=True)

    print("\nPrimeiras linhas do dataframe:")
    print(df_tabela.head())

else:
    print("\nNenhum Dataframe foi extraído com sucesso.")

Extração bem-sucedida usando latin-1.

Primeiras linhas do dataframe:
                     DENOMINACAO DO CURSO  COD\rDENOMINAC\rAO GRAU\rACADEMICO  \
0                              ACUPUNTURA              4967.0     Tecnologico   
1                              ACUPUNTURA              4967.0     Bacharelado   
2                           ADMINISTRAÇÃO                 1.0     Bacharelado   
3                   ADMINISTRAÇÃO PÚBLICA              2469.0     Bacharelado   
4  ADMINISTRAÇÃO PÚBLICA E GESTÃO\rSOCIAL              5533.0     Bacharelado   

  COD\rROTULO\rSUGERIDO ROTULO CINE BRASIL SUGERIDO Unnamed: 0  COD  \
0               0917P01       Práticas integrativas        NaN  NaN   
1               0917P01       Práticas integrativas        NaN  NaN   
2               0413A01               Administração        NaN  NaN   
3               0413A02       Administração pública        NaN  NaN   
4               0413A02       Administração pública        NaN  NaN   

  Unnamed: 1 COD

In [14]:
df_tabela.tail(7)

Unnamed: 0.1,DENOMINACAO DO CURSO,COD\rDENOMINAC\rAO,GRAU\rACADEMICO,COD\rROTULO\rSUGERIDO,ROTULO CINE BRASIL SUGERIDO,Unnamed: 0,COD,Unnamed: 1,COD.1,Unnamed: 2
1565,URBANISMO,3394.0,Bacharelado,0731A02,Arquitetura e urbanismo,,,,,
1566,VAREJO DIGITAL,5287.0,Tecnologico,0416G01,Gestão comercial,,,,,
1567,VISAGISMO E TERAPIA CAPILAR,5610.0,Tecnologico,1012E01,Estética e cosmética,,,,,
1568,VITICULTURA E ENOLOGIA,210.0,Tecnologico,0811V01,Viticultura e enologia,,,,,
1569,WEB DESIGN,3389.0,Tecnologico,0613S02,Sistemas para internet,,,,,
1570,ZOOTECNIA,51.0,Bacharelado,0811Z01,Zootecnia,,,,,
1571,ZOOTECNIA,51.0,Tecnologico,0811Z01,Zootecnia,,,,,


In [15]:
df_tabela.columns

Index(['DENOMINACAO DO CURSO', 'COD\rDENOMINAC\rAO', 'GRAU\rACADEMICO',
       'COD\rROTULO\rSUGERIDO', 'ROTULO CINE BRASIL SUGERIDO', 'Unnamed: 0',
       'COD', 'Unnamed: 1', 'COD.1', 'Unnamed: 2'],
      dtype='object')

In [16]:
df = df_tabela.drop(columns = ['Unnamed: 0', 'COD', 'Unnamed: 1', 'COD.1', 'Unnamed: 2'], axis=1)

In [23]:
df.rename(columns = {'COD\rDENOMINAC\rAO':'COD_DENOMINACAO', 'GRAU\rACADEMICO': 'GRAU_ACADEMICO', 'COD\rROTULO\rSUGERIDO': 'COD_ROTULO_SUGERIDO'}, inplace=True)

In [24]:
df.tail(7)

Unnamed: 0,DENOMINACAO DO CURSO,COD_DENOMINACAO,GRAU_ACADEMICO,COD_ROTULO_SUGERIDO,ROTULO CINE BRASIL SUGERIDO
1565,URBANISMO,3394.0,Bacharelado,0731A02,Arquitetura e urbanismo
1566,VAREJO DIGITAL,5287.0,Tecnologico,0416G01,Gestão comercial
1567,VISAGISMO E TERAPIA CAPILAR,5610.0,Tecnologico,1012E01,Estética e cosmética
1568,VITICULTURA E ENOLOGIA,210.0,Tecnologico,0811V01,Viticultura e enologia
1569,WEB DESIGN,3389.0,Tecnologico,0613S02,Sistemas para internet
1570,ZOOTECNIA,51.0,Bacharelado,0811Z01,Zootecnia
1571,ZOOTECNIA,51.0,Tecnologico,0811Z01,Zootecnia


In [25]:
# Salvando o dataframe como .csv()
df.to_csv('tabela_rotulos.csv', sep=';', encoding='ISO-8859-1', index=False)

In [26]:
%watermark --iversions

tabula: 2.10.0
pandas: 2.2.2

