In [2]:
import nltk
import numpy as np
from rank_bm25 import BM25Okapi

documents = [
    "Machine learning é um campo da inteligência artificial que permite que computadores aprendam padrões a partir de dados.",
    "O aprendizado de máquina dá aos sistemas a capacidade de melhorar seu desempenho sem serem explicitamente programados.",
    "Em vez de seguir apenas regras fixas, o machine learning descobre relações escondidas nos dados.",
    "Esse campo combina estatística, algoritmos e poder computacional para extrair conhecimento.",
    "O objetivo é criar modelos capazes de generalizar além dos exemplos vistos no treinamento.",
    "Aplicações de machine learning vão desde recomendações de filmes até diagnósticos médicos.",
    "Os algoritmos de aprendizado de máquina transformam dados brutos em previsões úteis.",
    "Diferente de um software tradicional, o ML adapta-se conforme novos dados chegam.",
    "O aprendizado pode ser supervisionado, não supervisionado ou por reforço, dependendo do tipo de problema.",
    "Na prática, machine learning é o motor que impulsiona muitos avanços em visão computacional e processamento de linguagem natural.",
    "Mais do que encontrar padrões, o machine learning ajuda a tomar decisões baseadas em evidências.",
]

In [3]:
def preprocess(text):
    # Tokenização em palavras
    tokens = nltk.word_tokenize(text.lower())
    # word.isalnum() elimina tudo que não seja alphanumérico , tipo ruidos que não servem para análise
    return [word for word in tokens if word.isalnum()]


In [5]:
tokenized_docs = [preprocess(doc) for doc in documents]

bm25 = BM25Okapi(tokenized_docs)

query = "machine learning"

In [6]:
def search_bm25(query, bm25):
    tokenized_query = preprocess(query)
    results = bm25.get_scores(tokenized_query)
    return results

In [8]:
results = search_bm25(query, bm25)
results

array([0.30089606, 0.        , 0.32852937, 0.        , 0.        ,
       0.36175144, 0.        , 0.        , 0.        , 0.2926898 ,
       0.32852937])

In [11]:
# Ele ordena os resultados baseado na relevancia da query
np.argsort(results)[::-1] 

array([ 5, 10,  2,  0,  9,  8,  7,  6,  4,  3,  1])

In [13]:
for i in np.argsort(results)[::-1]:
    print(f"Documento: {i} (Score: {results[i]:.2f}): {documents[i]}")
    # print(f"Documento: {documents[i]}")

Documento: 5 (Score: 0.36): Aplicações de machine learning vão desde recomendações de filmes até diagnósticos médicos.
Documento: 10 (Score: 0.33): Mais do que encontrar padrões, o machine learning ajuda a tomar decisões baseadas em evidências.
Documento: 2 (Score: 0.33): Em vez de seguir apenas regras fixas, o machine learning descobre relações escondidas nos dados.
Documento: 0 (Score: 0.30): Machine learning é um campo da inteligência artificial que permite que computadores aprendam padrões a partir de dados.
Documento: 9 (Score: 0.29): Na prática, machine learning é o motor que impulsiona muitos avanços em visão computacional e processamento de linguagem natural.
Documento: 8 (Score: 0.00): O aprendizado pode ser supervisionado, não supervisionado ou por reforço, dependendo do tipo de problema.
Documento: 7 (Score: 0.00): Diferente de um software tradicional, o ML adapta-se conforme novos dados chegam.
Documento: 6 (Score: 0.00): Os algoritmos de aprendizado de máquina transformam 