In [1]:
from sentence_transformers import SentenceTransformer, util

def filter_relevant_texts(main_text: str, texts: list, threshold: float = 0.5) -> list:
    """
    Filtra textos que possuem baixa relação com o texto principal.

    - Usa embeddings de frases para calcular a similaridade.
    - Descarta frases que tenham similaridade menor que o limiar definido.

    Parâmetros:
        - main_text (str): O texto principal.
        - texts (list): Lista de textos a serem avaliados.
        - threshold (float): Limiar mínimo de similaridade (0 a 1).

    Retorna:
        - list: Lista de textos relevantes.
    """

    # Carrega o modelo de embeddings
    model = SentenceTransformer('all-MiniLM-L6-v2')

    # Gera os embeddings para o texto principal e para os textos da lista
    main_embedding = model.encode(main_text, convert_to_tensor=True)
    texts_embeddings = model.encode(texts, convert_to_tensor=True)

    # Calcula a similaridade entre o texto principal e cada texto da lista
    similarities = util.pytorch_cos_sim(main_embedding, texts_embeddings)[0]

    # Filtra textos com similaridade acima do threshold
    relevant_texts = [text for text, sim in zip(texts, similarities) if sim >= threshold]

    return relevant_texts

# Exemplo de uso
main_text = "Nas áreas de resgate, deve ser previsto no mínimo um M.R. a cada 500 pessoas de lotação, por pavimento, sendo no mínimo um por pavimento e um para cada escada e elevador de emergência. Se a antecâmara das escadas e a dos elevadores de emergência forem comuns, o quantitativo de M.R. pode ser compartilhado."

texts = [
    "O texto é dividido em sentenças curtas e diretas que contenham uma única regra computável.",
    "A resposta contém as sentenças reformuladas em afirmações lógicas.",
    "1.",
    "O pavimento deve ter ao menos um M.R. a cada 500 pessoas de lotação, por pavimento.",
    "2.",
    "O pavimento deve ser dotado de pelo menos um M.R. por escada e elevador de emergência comuns."
]

filtered_texts = filter_relevant_texts(main_text, texts)
print(filtered_texts)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

['O pavimento deve ter ao menos um M.R. a cada 500 pessoas de lotação, por pavimento.', 'O pavimento deve ser dotado de pelo menos um M.R. por escada e elevador de emergência comuns.']
