<a href="https://colab.research.google.com/github/MatheusVSA/Estruturas-de-dados/blob/main/Modelo2ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

TRATAMENTO DO PDF

In [3]:
# Instala a biblioteca pdfplumber para ler arquivos PDF
!pip install pdfplumber
# Instala a biblioteca spaCy e o pacote transformers
!pip install spacy spacy-transformers
# Baixa o modelo de linguagem en_core_web_md do spaCy
!python -m spacy download pt_core_news_md
# Instala a biblioteca google-generativeai para uso de modelos de IA
!pip install -q -U google-generativeai

Collecting pt-core-news-md==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.7.0/pt_core_news_md-3.7.0-py3-none-any.whl (42.4 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [4]:
#IMPORTS
import re  # Importa o módulo re para manipulação de strings
import spacy  # Importa a biblioteca spacy para processamento avançado de linguagem natural (NLP) em Python.
import pdfplumber  # Importa a biblioteca 'pdfplumber' para extração de texto e outros dados de arquivos PDF.

from datetime import datetime  # Importa a classe 'datetime' do módulo 'datetime' para trabalhar com datas e horas.
from spacy.matcher import Matcher  # Importa a classe 'Matcher' do módulo 'spacy.matcher' para criar padrões baseados em regras para identificar tokens ou frases em texto.

In [5]:
# Define uma função para extrair texto de um arquivo PDF e armazenar o número de páginas
def extract_text_from_pdf(pdf_path):
    # Dicionário para armazenar o texto de cada página
    page_texts = {}
    # Abre o arquivo PDF no caminho especificado
    with pdfplumber.open(pdf_path) as pdf:
        total_pages = len(pdf.pages)
        # Itera por cada página do PDF, ignorando as três primeiras e as trinta últimas páginas
        for page_num, page in enumerate(pdf.pages, start=1):
            if page_num <= 3 or page_num > total_pages - 30:
                continue
            # Adiciona o texto extraído de cada página ao dicionário
            page_texts[page_num] = page.extract_text()
    # Retorna o dicionário com o texto de cada página
    return page_texts

# Caminho para o arquivo PDF
pdf_path = "/content/drive/MyDrive/Universidade/Inteligência Artificial /Projeto: Classificador de documentos judiciais./dpj-20240515.pdf"

# Extrai o texto do PDF no caminho especificado e armazena na variável page_texts
page_texts = extract_text_from_pdf(pdf_path)

In [6]:
# Função para extrair a data do texto
def extracao_data(text):
    padrao_data = r"\b(\d{1,2} de [a-zA-Z]+ de \d{4})\b"
    match = re.search(padrao_data, text)
    if match:
        return match.group(1)
    return None

# Função para converter a data extraída em datetime
def conversao_data(date_str):
    try:
        return datetime.strptime(date_str, "%d de %B de %Y")
    except ValueError:
        return None

# Função para limpar o texto
def limpa_texto_extrai_data(text):

    # Extração da data
    data_str = extracao_data(text)
    data_obj = conversao_data(data_str) if data_str else None

    # Divisão do texto em linhas
    linhas = text.split("\n")

    # Armazena as linhas que serão mantidas
    linhas_tratadas = []

    padrao_titulo_rodape = [
        # Padrão de título
        r"^\s*Boa Vista, \d{1,2} de [a-zA-Z]+ de \d{4}.*$",
        r"^\s*Diário de Justiça Eletrônico.*$",
        r"^\s*ANO \w+ - EDIÇÃO \d+ \d+/\d+\s.*$",
        r"^\s*GABINETE DO JUIZ AUXILIAR DA PRESIDÊNCIA.*$",
    ]

    # Padrão para identificar linhas de rodapé que incluem número de autenticidade
    padrao_autenticidade = r"^\s*Número de Autenticidade: [a-f0-9]{32}\s*[a-f0-9-]*\s*$"

    # Padrão para identificar linhas da tabela que contêm palavras específicas
    padrao_linha_tabela = r"^\s*(?:\w+\s+)?(?:\d+\s+)?(?:\w+\s+)*(?:Plantão|Penitenciário|Júri)\s*(?:\d*ª?\s*vara)?\s*$"

    # Percorre cada linha do texto
    for linha in linhas:
        # Verifica o padrão de cabeçalho ou rodapé
        if any(re.match(padrao, linha) for padrao in padrao_titulo_rodape):
            continue

        # Verifica o padrão de número de autenticidade
        if re.match(padrao_autenticidade, linha):
            continue

        # Verifica se a linha contém padrão de tabela
        if re.match(padrao_linha_tabela, linha):
            continue

        # Adiciona a linha à lista de linhas que queremos manter
        linhas_tratadas.append(linha)

    # Junta as linhas filtradas de volta em um único texto
    texto_tratado = "\n".join(linhas_tratadas)
    texto_tratado = re.sub(r"\s+", " ", texto_tratado).strip()

    return texto_tratado, data_obj

# Função para remover caracteres "º" do texto
def remove_ordinal_symbols(text):
    return re.sub(r"º", "", text)

# Armazena as páginas que foram limpas em um dicionário
paginas_tratadas = {}

# Itera pelas páginas e limpa o texto
for page_num, text in page_texts.items():
    text = remove_ordinal_symbols(text)  # Remove os símbolos "º" do texto
    texto_tratado, date = limpa_texto_extrai_data(text)
    # Armazena o texto tratado e a data em um dicionário
    paginas_tratadas[page_num] = {
        "texto_tratado": texto_tratado,
        "data_obj": date
    }

    print(f"Texto da página {page_num}:\n{texto_tratado}\n")
    if date:
        print(f"Data extraída da página {page_num}: {date.strftime('%d/%m/%Y')}\n")

Texto da página 4:
Expediente de 14/05/2024 PORTARIA N. 135, 14 DE MAIO DE 2024. O JUIZ AUXILIAR DA PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA DO ESTADO DE RORAIMA, no uso de suas atribuições, conferidas por meio da Portaria TJRR/PR n. 756, de 09 de maio de 2023; e CONSIDERANDO o teor do procedimento SEI 0008018-16.2024.8.23.8000, RESOLVE: Art. 1 – Convalidar a folga compensatória concedida ao Excelentíssimo Juiz Thiago Russi Rodrigues para usufruto no dia 29/04/2024, por ter laborado em plantão judicial no período de 28/02 a 06/03/2022. Art. 2 – Convalidar a designação do Excelentíssimo Juiz Ruberval Barbosa de Oliveira Júnior por ter respondido pela Quinta Vara Cível, no dia 29/04/2024, em virtude de folga do responsável, sem prejuízo de outras atribuições. Juiz ESDRAS SILVA BENCHIMOL Auxiliar da Presidência AICNÊDISERP AD RAILIXUA ZIUJ OD ETENIBAG

Texto da página 5:
PORTARIA N. 136, 14 DE MAIO DE 2024. O JUIZ AUXILIAR DA PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA DO ESTADO DE RORAIMA, no uso de su

In [8]:
# Carrega o modelo pré-treinado do spaCy
nlp = spacy.load("pt_core_news_md")

In [9]:
# Inicializa o Matcher com o vocabulário do nlp
matcher = Matcher(nlp.vocab)

# Define o padrão para "portaria"
portaria_pattern_1 = [
    {"LOWER": "portaria"},
    {"LOWER": {"IN": ["n", "n.", "nº."]}, "OP": "?"},
    {"IS_DIGIT": True, "OP": "+"},
    {"IS_PUNCT": True, "OP": "?"},
    {"IS_DIGIT": True, "OP": "?"},
    {"LOWER": "de"},
    {"IS_ALPHA": True, "OP": "+"},
    {"LOWER": "de"},
    {"IS_DIGIT": True, "OP": "+"}
]

# Define o segundo padrão para portarias da Secretaria de Gestão de Pessoas
portaria_pattern_2 = [
    {"LOWER": "portaria"},
    {"LOWER": {"IN": ["n", "n.", "nº", "n.o"]}, "OP": "?"},
    {"IS_DIGIT": True, "OP": "+"},
    {"LOWER": "do"},
    {"LOWER": "dia"},
    {"IS_DIGIT": True, "OP": "+"},
    {"LOWER": "de"},
    {"IS_ALPHA": True, "OP": "+"},
    {"LOWER": "de"},
    {"IS_DIGIT": True, "OP": "+"}
]

# Define o terceiro padrão para portarias da Secretaria de Gestão de Pessoas
portaria_pattern_3 = [
    {"LOWER": {"IN": ["n", "n.", "nº", "n.o"]}},
    {"IS_DIGIT": True, "OP": "+"},
    {"LOWER": "-"}
]

# Adiciona o padrão ao matcher
matcher.add('portaria_1', [portaria_pattern_1])
matcher.add('portaria_2', [portaria_pattern_2])
matcher.add('portaria_3', [portaria_pattern_3])

# Armazena as portarias encontradas
portarias_encontradas = []

# Função para extrair o texto completo da portaria
def extract_portaria_text(doc, start):
    token = doc[start]  # Obtém o token no índice de início especificado
    portaria_sents = [token.sent.text]  # Inicializa a lista com a sentença do token inicial

    # Itera sobre todas as sentenças no documento
    for sent in doc.sents:
        if sent.start <= start:  # Pula as sentenças que começam antes ou no mesmo ponto do início especificado
            continue
        if sent.text.startswith("Art.") or (len(sent) > 1 and sent[0].is_digit and sent[1].text == "."):
            # Interrompe o loop se a sentença começar com "Art." ou se o primeiro token for um dígito seguido de um ponto
            break
        if sent.text not in portaria_sents:  # Adiciona a sentença à lista se ainda não estiver presente
            portaria_sents.append(sent.text)

    return " ".join(portaria_sents)  # Retorna todas as sentenças concatenadas em uma única string

# Processa e verifica as correspondências em cada página tratada
for page_num, conteudo in paginas_tratadas.items():

    doc = nlp(conteudo["texto_tratado"])  # Processa o texto tratado da página usando o pipeline do spaCy

    matches = matcher(doc)  # Encontra correspondências no documento usando o matcher do spaCy
    print(f"Processando página {page_num}, Número de correspondências: {len(matches)}")

    for match_id, start, end in matches:  # Itera sobre cada correspondência encontrada
        span = doc[start:end]  # Obtém o trecho do documento que corresponde à correspondência
        portaria_text = extract_portaria_text(doc, start)  # Extrai o texto completo da portaria a partir da posição de início da correspondência
        print(f"Encontrada portaria na página {page_num}: {portaria_text}")

        # Adiciona as informações da portaria encontrada à lista de portarias encontradas
        portarias_encontradas.append({
            'page_num': page_num,  # Adiciona o número da página ao dicionário
            'portaria_text': portaria_text  # Adiciona o texto da portaria ao dicionário
        })

Processando página 4, Número de correspondências: 1
Encontrada portaria na página 4: Expediente de 14/05/2024 PORTARIA N. 135, 14 DE MAIO DE 2024. O JUIZ AUXILIAR DA PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA DO ESTADO DE RORAIMA, no uso de suas atribuições, conferidas por meio da Portaria TJRR/PR n. 756, de 09 de maio de 2023; e CONSIDERANDO o teor do procedimento SEI 0008018-16.2024.8.23.8000, RESOLVE: Art. 1 – Convalidar a folga compensatória concedida ao Excelentíssimo Juiz Thiago Russi Rodrigues para usufruto no dia 29/04/2024, por ter laborado em plantão judicial no período de 28/02 a 06/03/2022.
Processando página 5, Número de correspondências: 1
Encontrada portaria na página 5: PORTARIA N. 136, 14 DE MAIO DE 2024. O JUIZ AUXILIAR DA PRESIDÊNCIA DO TRIBUNAL DE JUSTIÇA DO ESTADO DE RORAIMA, no uso de suas atribuições, conferidas por meio da Portaria TJRR/PR n. 756, de 09 de maio de 2023; e CONSIDERANDO o teor do procedimento SEI 0006788-36.2024.8.23.8000, RESOLVE: Art. 1 - Convalidar as 

CONEXÂO COM A API

In [10]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown

from google.colab import userdata

In [11]:
# GOOGLE_API_KEY
genai.configure(api_key="AIzaSyCoeuS6xhGF25CNSIh4XCZ6Ka2dNxwOfOc")

model = genai.GenerativeModel('gemini-pro')

In [12]:
%%time
pergunta = input("O que deseja porcurar no documento:")

for portaria in portarias_encontradas:
    pergunta += f"Página {portaria['page_num']}\n{portaria['portaria_text']}\n\n"   # Adiciona o número da página e o texto da portaria à variável pergunta.

# Gerando conteúdo com o modelo
response = model.generate_content({"text": pergunta})   # Gera conteúdo usando um modelo com base na pergunta formada.

# Função para converter texto em Markdown
def to_markdown(text):
    text = text.replace('•', '  *')
    return textwrap.indent(text, ' ', predicate=lambda _: True)

# Convertendo a resposta para Markdown
markdown_response = to_markdown(response.text)
print(markdown_response)

O que deseja porcurar no documento:Em que páginas está a portaria 446
 A Portaria 446 está na página 27.
CPU times: user 709 ms, sys: 72.3 ms, total: 782 ms
Wall time: 39.3 s
