In [2]:
# Library installation
!pip install PyMuPDF
!pip install sentence-transformers
!pip install google-generativeai


Collecting PyMuPDF
  Downloading pymupdf-1.26.3-cp39-abi3-manylinux_2_28_x86_64.whl.metadata (3.4 kB)
Downloading pymupdf-1.26.3-cp39-abi3-manylinux_2_28_x86_64.whl (24.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.1/24.1 MB[0m [31m79.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyMuPDF
Successfully installed PyMuPDF-1.26.3


In [3]:
from google.colab import files
uploaded = files.upload()


Saving SumulasSTJ.pdf to SumulasSTJ.pdf


In [4]:
import fitz # Import PyMuPDF

def extrair_sumulas_do_pdf(caminho_do_arquivo):
    """
    Function to extract "sumulas" from PDF

    Args:
        caminho_do_arquivo (str): O caminho para o arquivo PDF.

    Returns:
        list: Uma lista de dicionários, onde cada dicionário representa uma súmula.
    """
    sumulas_encontradas = []

    try:
        doc = fitz.open(caminho_do_arquivo)
        conteudo_bruto = ""

        #extracts text from pages
        for page in doc:
            conteudo_bruto += page.get_text()

        doc.close()

        # divide the text into summary blocks
        blocos_de_sumulas = conteudo_bruto.split("SÚMULA ")

        # Process each block to extract the number and text
        for bloco in blocos_de_sumulas:
            if not bloco.strip():
                continue

            partes = bloco.split('\nEnunciado:')
            if len(partes) >= 2:
                resposta = partes[0].strip().split(" ")
                result = resposta[0].split("\n")
                numero = result[0]
                texto = partes[1].strip()

                sumulas_encontradas.append({
                    "numero": f"Súmula {numero}",
                    "texto": texto
                })

    except Exception as e:
        print(f"Ocorreu um erro: {e}")

    return sumulas_encontradas


In [5]:
from sentence_transformers import SentenceTransformer

# loading the model
modelo_embeddings = SentenceTransformer('distiluse-base-multilingual-cased')

sumulas_encontradas = extrair_sumulas_do_pdf("SumulasSTJ.pdf")
#remove summary
sumulas = sumulas_encontradas[1:]

#extracting only the texts to make embeddings
textos_das_sumulas = [sumula['texto'] for sumula in sumulas]

#making embeddings by encoding texts into numeric vectors
embeddings_das_sumulas = modelo_embeddings.encode(textos_das_sumulas, convert_to_tensor=True)

#each vector represent a "sumula"
print("Dimensão dos embeddings gerados:", embeddings_das_sumulas.shape)


Dimensão dos embeddings gerados: torch.Size([675, 512])


In [6]:
from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer

ementa = input("Por favor, insira a ementa: ")

#Criando o embedding da ementa de entrada com o mesmo modelo
modelo_embeddings = SentenceTransformer('distiluse-base-multilingual-cased')
embedding_da_ementa = modelo_embeddings.encode(ementa, convert_to_tensor=True)

#Calculando a similaridade de cosseno entre a ementa e todas as súmulas
similaridades = cos_sim(embedding_da_ementa, embeddings_das_sumulas)[0]

# 3. Combinando as súmulas originais com suas pontuações de similaridade
resultados_combinados = []
for i, similaridade in enumerate(similaridades):
    resultados_combinados.append({
        "numero": sumulas[i]['numero'],
        "texto": sumulas[i]['texto'],
        "similaridade": similaridade.item() # converte o tensor para um valor numérico
    })

# 4. Ordenando os resultados do mais parecido para o menos parecido
resultados_ordenados = sorted(resultados_combinados, key=lambda x: x['similaridade'], reverse=True)

print("Súmulas mais relevantes para a ementa:")
for i, resultado in enumerate(resultados_ordenados[:5]):
    print(f"{i+1}. Súmula {resultado['numero']}: Similaridade = {resultado['similaridade']:.4f}")
    print(f"   Texto: {resultado['texto'][:100]}...\n")

Por favor, insira a ementa: RECURSO ESPECIAL. DIREITO DO CONSUMIDOR. SERVIÇOS BANCÁRIOS. CONTRATO DE EMPRÉSTIMO. COBRANÇA DE TARIFA DE ABERTURA DE CRÉDITO (TAC). LEGALIDADE DA COBRANÇA EM CONTRATOS FIRMADOS ANTES DA VIGÊNCIA DA RESOLUÇÃO CMN 3.954/2011. DESEMBOLSO DE VALORES PARA REGISTRO DO CONTRATO. IMPOSIÇÃO DE COBRANÇA DE FORMA ABUSIVA. PRESCRIÇÃO QUINQUENAL. INÍCIO DO PRAZO NO MOMENTO DO PAGAMENTO DA TARIFA
Súmulas mais relevantes para a ementa:
1. Súmula Súmula 381: Similaridade = 0.4815
   Texto: Nos contratos bancários, é vedado ao julgador conhecer,
de ofício, da abusividade das cláusulas.
Ref...

2. Súmula Súmula 195: Similaridade = 0.4580
   Texto: Em embargos de terceiro não se anula ato jurídico, por
fraude contra credores.
Referências Legislati...

3. Súmula Súmula 434: Similaridade = 0.4502
   Texto: O pagamento da multa por infração de trânsito não inibe
a discussão judicial do débito.
Referências ...

4. Súmula Súmula 359: Similaridade = 0.4428
   Texto: Cabe ao órgão 

In [7]:
import google.generativeai as genai

In [8]:
from google.colab import userdata

GOOGLE_GEMINI_API_KEY = userdata.get('GOOGLE_GEMINI_API_KEY')

genai.configure(api_key=GOOGLE_GEMINI_API_KEY)

In [9]:
model = genai.GenerativeModel('gemini-2.5-flash')

In [10]:
prompt_texto = f"Ementa: {ementa}\n\n"
prompt_texto += "Súmulas Relevantes:\n"

for i, resultado in enumerate(resultados_ordenados[:5]):
    prompt_texto += f"{i+1}. Súmula {resultado['numero']}:\n"
    prompt_texto += f"   Texto: {resultado['texto']}\n\n"

#final instruction for LLM
prompt_texto += "A partir da ementa fornecida e das súmulas listadas acima, verifique se alguma das súmulas é semanticamente relacionada à ementa. Justifique sua resposta e, se houver relação, explique o motivo."

print(prompt_texto)

Ementa: RECURSO ESPECIAL. DIREITO DO CONSUMIDOR. SERVIÇOS BANCÁRIOS. CONTRATO DE EMPRÉSTIMO. COBRANÇA DE TARIFA DE ABERTURA DE CRÉDITO (TAC). LEGALIDADE DA COBRANÇA EM CONTRATOS FIRMADOS ANTES DA VIGÊNCIA DA RESOLUÇÃO CMN 3.954/2011. DESEMBOLSO DE VALORES PARA REGISTRO DO CONTRATO. IMPOSIÇÃO DE COBRANÇA DE FORMA ABUSIVA. PRESCRIÇÃO QUINQUENAL. INÍCIO DO PRAZO NO MOMENTO DO PAGAMENTO DA TARIFA

Súmulas Relevantes:
1. Súmula Súmula 381:
   Texto: Nos contratos bancários, é vedado ao julgador conhecer,
de ofício, da abusividade das cláusulas.
Referências Legislativas:
LEG:FED LEI:008078 ANO:1990
***** CDC-90 CÓDIGO DE DEFESA DO CONSUMIDOR
ART:00051
LEG:FED RES:000008 ANO:2008
ART:00002 PAR:00001
(SUPERIOR TRIBUNAL DE JUSTIÇA - STJ)
LEG:FED LEI:005869 ANO:1973
***** CPC-73 CÓDIGO DE PROCESSO CIVIL DE 1973
ART:0543C
Órgão Julgador:
SEGUNDA SEÇÃO
Data da decisão:
22/04/2009
Fonte:
DJE DATA:24/05/2013
DJE DATA:05/05/2009
RSSTJ VOL.:00034 PG:00395
RSTJ VOL.:00214 PG:00537
Excerto dos Precedent

In [11]:
chat = model.start_chat(history=[])

response = chat.send_message(prompt_texto)
print(response.text)

Sim, há uma súmula semanticamente relacionada à ementa: a **Súmula 381**.

**Súmula Relacionada:**

*   **Súmula 381:** "Nos contratos bancários, é vedado ao julgador conhecer, de ofício, da abusividade das cláusulas."

**Justificativa e Motivo da Relação:**

A ementa trata de "DIREITO DO CONSUMIDOR. SERVIÇOS BANCÁRIOS. CONTRATO DE EMPRÉSTIMO. COBRANÇA DE TARIFA de ABERTURA DE CRÉDITO (TAC)... IMPOSIÇÃO DE COBRANÇA DE FORMA ABUSIVA."

A Súmula 381 aborda diretamente a questão da **abusividade de cláusulas em contratos bancários**. Embora a ementa não mencione se houve ou não julgamento de ofício, a súmula estabelece um limite processual fundamental para a análise da "abusividade das cláusulas" nesse tipo de contrato. A discussão sobre a legalidade e a abusividade de tarifas em contratos bancários é o cerne da ementa, e a súmula dita uma regra processual importante para como os tribunais devem lidar com essa matéria, impedindo que o juiz declare a abusividade sem que haja pedido express