## Testes de Bibliotecas

In [4]:
import PyPDF2
import fitz
import pdfplumber
import os
import re

# PyPDF2

In [None]:
# Abrir o arquivo PDF
pdf_file = open('C:/xxxxxxxxxx/xxxxxxx/xxxxxxx.pdf', 'rb')

# Criar um leitor de PDF
pdf_reader = PyPDF2.PdfReader(pdf_file)

# Ler todas as páginas e imprimir no console
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    print(page.extract_text())

# Fechar o arquivo PDF
pdf_file.close()


## PyMuPDF

In [None]:
# Caminho para o arquivo PDF
pdf_path = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx.pdf'

# Abrir o arquivo PDF
pdf_document = fitz.open(pdf_path)

# Iterar sobre as páginas e extrair texto
for page_num in range(len(pdf_document)):
    page = pdf_document.load_page(page_num)
    text = page.get_text()
    print(text)

# Fechar o arquivo PDF
pdf_document.close()


## PDFplumber

In [None]:
# Caminho para o arquivo PDF
pdf_path = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx.pdf'

# Abrir o arquivo PDF
with pdfplumber.open(pdf_path) as pdf:
    # Iterar sobre as páginas e extrair texto
    for page in pdf.pages:
        text = page.extract_text()
        print(text)


## Arquivos PDF´s transformados em TXT

In [None]:
def pdf_to_text(pdf_path, output_folder):
    # Cria o diretório de saída se não existir
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # Obtém o nome do arquivo sem a extensão
    file_name = os.path.splitext(os.path.basename(pdf_path))[0]
    
    # Define o caminho de saída para o arquivo de texto
    text_file_path = os.path.join(output_folder, f"{file_name}.txt")
    
    # Abre o arquivo PDF
    with pdfplumber.open(pdf_path) as pdf:
        text = ""
        # Itera sobre cada página do PDF
        for page in pdf.pages:
            # Extrai o texto da página atual
            page_text = page.extract_text()
            # Concatena o texto extraído
            text += page_text + "/n"
        
        # Escreve o texto extraído em um arquivo de texto
        with open(text_file_path, "w", encoding="utf-8") as text_file:
            text_file.write(text)
    
    print(f"Arquivo PDF convertido para texto: {text_file_path}")

def convert_pdfs_in_folder(folder_path, output_folder):
    # Itera sobre todos os arquivos na pasta
    for file_name in os.listdir(folder_path):
        # Verifica se o arquivo é um PDF
        if file_name.endswith(".pdf"):
            # Caminho completo do arquivo PDF
            pdf_path = os.path.join(folder_path, file_name)
            # Converte o arquivo PDF em texto
            pdf_to_text(pdf_path, output_folder)

def main():
    # Pasta contendo os arquivos PDF
    input_folder = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx'
    # Pasta de saída para os arquivos de texto
    output_folder = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx'
    
    # Converte todos os arquivos PDF na pasta de entrada para arquivos de texto na pasta de saída
    convert_pdfs_in_folder(input_folder, output_folder)

if __name__ == "__main__":
    main()


## Separação de arquivos .TXT (Codificados) & (Não codificado)

In [None]:
def read_text_file(file_path):
    with open(file_path, "r", encoding="utf-8") as file:
        return file.read()

def is_text_decoded(text):
    # Aqui você pode adicionar palavras-chave que indicam que o texto está decodificado
    keywords = ["xxxxxxxxxxxxxxxxxx"]
    for keyword in keywords:
        if keyword in text:
            return True
    return False

def main():
    # Diretório contendo os arquivos TXT
    txt_directory = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx'
    
    # Lista para armazenar o estado de decodificação de cada arquivo
    decoded_files = []
    
    # Iterar sobre todos os arquivos no diretório
    for file_name in os.listdir(txt_directory):
        # Verificar se o arquivo é um arquivo TXT
        if file_name.endswith(".txt"):
            file_path = os.path.join(txt_directory, file_name)
            text = read_text_file(file_path)
            if is_text_decoded(text):
                decoded_files.append((file_name, "Não codificado"))
            else:
                decoded_files.append((file_name, "Codificado"))
    
    # Exibir o resultado para cada arquivo
    for file_name, status in decoded_files:
        print(f"Arquivo: {file_name} - Status: {status}")

if __name__ == "__main__":
    main()


## Encontrando número do NUP

In [5]:
def buscaNumNUPParecer(folder_path):
    nup_dict = {}
    for file_name in os.listdir(folder_path):
        if file_name.endswith(".pdf"):
            file_path = os.path.join(folder_path, file_name)
            try:
                with fitz.open(file_path) as doc:
                    page = doc[0]  # Apenas a primeira página é processada
                    # Caixa delimitadora para a área desejada (em pontos)(min_x, min_y, max_x, max_y)
                    rect = fitz.Rect(200, 0, 595, 100)
                    # Extraia o texto da área desejada
                    text_body = page.get_textbox(rect)
                    numero_parecer = re.search(r"48516\.\d{6}/20\d{2}-\d{2}", text_body)
                    if numero_parecer:
                        nup = numero_parecer.group()
                        nup_dict.setdefault(nup, []).append(file_name)
            except Exception as e:
                print(f"Erro ao processar o arquivo {file_name}: {e}")
    return nup_dict

if __name__ == "__main__":
    folder_path = 'C:/xxxxxxxxxx/xxxxxxx/xxxxxxx'  # Substitua pelo caminho da sua pasta
    nup_dict = buscaNumNUPParecer(folder_path)
    if nup_dict:
        print("Números de NUP encontrados nos arquivos PDF:")
        for nup, files in nup_dict.items():
            print(f"NUP: {nup}")
            print("Arquivos:")
            for file in files:
                print(file)
            print()
    else:
        print("Nenhum número de NUP encontrado nos arquivos PDF.")


Números de NUP encontrados nos arquivos PDF:
NUP: 48516.000184/2024-00
Arquivos:
Parecer_01_2024_THIAGO_STE_23-01-2024.pdf

NUP: 48516.000092/2024-00
Arquivos:
Parecer_02_2024_SELMA_SMA_12-01-2024.pdf

NUP: 48516.000085/2024-00
Arquivos:
Parecer_03_2024_ORTIS_SGA_11-01-2024.pdf

NUP: 48516.000116/2024-00
Arquivos:
Parecer_04_2024_ORTIS_SGA_16-01-2024.pdf

NUP: 48516.000616/2024-00
Arquivos:
Parecer_05_2024_MARCELO_ASD_04-03-2024.pdf

NUP: 48516.000203/2024-00
Arquivos:
Parecer_06_2024_SELMA_SMA_25-01-2024.pdf

NUP: 48516.000187/2024-00
Arquivos:
Parecer_07_2024_THIAGO_SGA_23-01-2024.pdf

NUP: 48516.000241/2024-00
Arquivos:
Parecer_08_2024_SELMA_SMA_29-01-2024.pdf

NUP: 48516.000242/2024-00
Arquivos:
Parecer_09_2024_ORTIS_AID_29-01-2024.pdf

NUP: 48516.000239/2024-00
Arquivos:
Parecer_10_2024_SELMA_SMA_29-01-2024.pdf

NUP: 48516.001048/2024-00
Arquivos:
Parecer_11_2024_BARBRARA_GDG_04-04-2024.pdf

NUP: 48516.000366/2024-00
Arquivos:
Parecer_13_2024_SELMA_SMA_08-02-2024.pdf

NUP: 48516.0