In [5]:
from sentence_transformers import SentenceTransformer, util

def filter_relevant_texts(main_text: str, texts: list, threshold: float = 0.5) -> list:
    """
    Filtra textos que possuem baixa relação com o texto principal.

    - Usa embeddings de frases para calcular a similaridade.
    - Descarta frases que tenham similaridade menor que o limiar definido.

    Parâmetros:
        - main_text (str): O texto principal.
        - texts (list): Lista de textos a serem avaliados.
        - threshold (float): Limiar mínimo de similaridade (0 a 1).

    Retorna:
        - list: Lista de textos relevantes.
    """

    model = SentenceTransformer('rufimelo/Legal-BERTimbau-sts-large-ma-v3')

    main_embedding = model.encode(main_text, convert_to_tensor=True)
    texts_embeddings = model.encode(texts, convert_to_tensor=True)

    similarities = util.pytorch_cos_sim(main_embedding, texts_embeddings)[0]

    relevant_texts = [text for text, sim in zip(texts, similarities) if sim >= threshold]
    irrelevant_texts = [(text, sim.item()) for text, sim in zip(texts, similarities) if sim < threshold]

    print("Textos com similaridade abaixo do threshold:")
    for text, sim in irrelevant_texts:
        print(f"Similaridade: {sim:.4f} - Texto: {text}")

    return relevant_texts

main_text = "Nas áreas de resgate, deve ser previsto no mínimo um M.R. a cada 500 pessoas de lotação, por pavimento, sendo no mínimo um por pavimento e um para cada escada e elevador de emergência. Se a antecâmara das escadas e a dos elevadores de emergência forem comuns, o quantitativo de M.R. pode ser compartilhado."

texts = [
    "O texto é dividido em sentenças curtas e diretas que contenham uma única regra computável.",
    "A resposta contém as sentenças reformuladas em afirmações lógicas.",
    "1.",
    "O pavimento deve ter ao menos um M.R. a cada 500 pessoas de lotação, por pavimento.",
    "2.",
    "O pavimento deve ser dotado de pelo menos um M.R. por escada e elevador de emergência comuns."
]

filtered_texts = filter_relevant_texts(main_text, texts)
print(filtered_texts)

Invalid model-index. Not loading eval results into CardData.
Invalid model-index. Not loading eval results into CardData.


Textos com similaridade abaixo do threshold:
Similaridade: 0.2492 - Texto: O texto é dividido em sentenças curtas e diretas que contenham uma única regra computável.
Similaridade: 0.2008 - Texto: A resposta contém as sentenças reformuladas em afirmações lógicas.
Similaridade: -0.0248 - Texto: 1.
Similaridade: -0.1549 - Texto: 2.
['O pavimento deve ter ao menos um M.R. a cada 500 pessoas de lotação, por pavimento.', 'O pavimento deve ser dotado de pelo menos um M.R. por escada e elevador de emergência comuns.']
