In [2]:
from rapidfuzz import fuzz

In [3]:
a = "investimentos"
b = "Quais são os melhores investimentos para 2025?"

score = fuzz.partial_ratio(a, b)
print(score)  # 100 (porque "investimentos" está inteiro em b)

100.0


In [4]:
a = "investimento"
b = "Quais são os melhores investimentos para 2025?"

score = fuzz.partial_ratio(a, b)
print(score)  # <100 (deve dar uns 95~96, por conta do 's' extra)


100.0


In [5]:
a = "conta corrente"
b = "Quero abrir uma conta digital, mas não é corrente"

score = fuzz.partial_ratio(a, b)
print(score)  # Score menor (~73-80), pois "conta" e "corrente" não aparecem juntos.


78.26086956521739


In [6]:
a = "investimentos"
b = "Quais são os melhores investimetnos para 2025?"

score = fuzz.partial_ratio(a, b)
print(score)  # Score ~96 (Levenshtein identifica o typo)


92.3076923076923


In [7]:
from rapidfuzz import fuzz

exemplos = [
    # (a, b, descrição)
    ("investimentos", "Quais são os melhores investimentos para 2025?", "Substring exata"),
    ("investimento", "Quais são os melhores investimentos para 2025?", "Query com typo"),
    ("conta corrente", "Quero abrir uma conta digital, mas não é corrente", "Substring fragmentada"),
    ("abrir conta", "Como faço para abrir uma conta no Itaú?", "Query contida com stopwords"),
    ("XPTO", "Nenhuma palavra aqui é XPTO", "Query menor do que qualquer pedaço da string"),
    ("investimentos", "Quais são os melhores investimetnos para 2025?", "Typos na string maior"),
]

scorers = [
    ("ratio", fuzz.ratio),
    ("partial_ratio", fuzz.partial_ratio),
    ("token_sort_ratio", fuzz.token_sort_ratio),
    ("token_set_ratio", fuzz.token_set_ratio),
    ("WRatio", fuzz.WRatio),
]

for a, b, desc in exemplos:
    print(f"\n--- {desc} ---")
    print(f"A: {a}")
    print(f"B: {b}")
    for name, scorer in scorers:
        score = scorer(a, b)
        print(f"{name:<16}: {score}")



--- Substring exata ---
A: investimentos
B: Quais são os melhores investimentos para 2025?
ratio           : 44.067796610169495
partial_ratio   : 100.0
token_sort_ratio: 44.067796610169495
token_set_ratio : 100.0
WRatio          : 90.0

--- Query com typo ---
A: investimento
B: Quais são os melhores investimentos para 2025?
ratio           : 41.379310344827594
partial_ratio   : 100.0
token_sort_ratio: 41.379310344827594
token_set_ratio : 41.37931034482759
WRatio          : 90.0

--- Substring fragmentada ---
A: conta corrente
B: Quero abrir uma conta digital, mas não é corrente
ratio           : 44.44444444444444
partial_ratio   : 78.26086956521739
token_sort_ratio: 44.44444444444444
token_set_ratio : 100.0
WRatio          : 85.5

--- Query contida com stopwords ---
A: abrir conta
B: Como faço para abrir uma conta no Itaú?
ratio           : 43.99999999999999
partial_ratio   : 63.63636363636363
token_sort_ratio: 43.99999999999999
token_set_ratio : 100.0
WRatio          : 85.5

--- Quer

In [8]:
from rapidfuzz import process, fuzz

# Lista de strings do seu "banco"
lista = [
    "Como abrir uma conta no Itaú?",
    "Quais são os melhores investimentos para 2025?",
    "Quero fechar minha conta corrente.",
    "Como investir em CDB do Itaú?",
    "Preciso de ajuda para recuperar minha senha",
    "Quero abrir conta corrente conjunta",
    "Qual o rendimento do CDB?",
    "Quais taxas existem para conta universitária?",
    "Abrir conta corrente",
    "Não quero mais a conta"
]

# String de consulta (query)
query = "abrir conta corrente"

# Usando process.extract para buscar o top-5 mais similares via partial_ratio
top_k = 5
resultados = process.extract(
    query,           # sua query
    lista,           # lista de comparação
    scorer=fuzz.partial_ratio,
    limit=top_k      # quantos resultados quer ver
)

# Printando os resultados
for string, score, idx in resultados:
    print(f"{score:>5.1f} | {string}")



100.0 | Quero abrir conta corrente conjunta
 97.4 | Abrir conta corrente
 86.5 | Quero fechar minha conta corrente.
 65.0 | Como abrir uma conta no Itaú?
 58.1 | Não quero mais a conta


In [9]:
from rapidfuzz import process, fuzz

lista = [
    "Como abrir uma conta no Itaú?",
    "Quais são os melhores investimentos para 2025?",
    "Quero fechar minha conta corrente.",
    "Como investir em CDB do Itaú?",
    "Preciso de ajuda para recuperar minha senha",
    "Quero abrir conta corrente conjunta",
    "Qual o rendimento do CDB?",
    "Quais taxas existem para conta universitária?",
    "Abrir conta corrente",
    "Não quero mais a conta"
]

query = "abrir conta corrente"
limiar = 85  # threshold mínimo aceitável

# Extrai todos os resultados (limit=None) e filtra por score >= limiar
todos_resultados = process.extract(
    query,
    lista,
    scorer=fuzz.partial_ratio,
    limit=None
)

resultados_filtrados = [(s, score, idx) for s, score, idx in todos_resultados if score >= limiar]

for string, score, idx in resultados_filtrados:
    print(f"{score:>5.1f} | {string}")


100.0 | Quero abrir conta corrente conjunta
 97.4 | Abrir conta corrente
 86.5 | Quero fechar minha conta corrente.
