# Практическое задание 5: Реализация модели BM25


## Цель задания
Научиться реализовывать модель BM25 (Best Matching 25), используемую для оценки релевантности документов на основе текстовых запросов.

## Теоретическая часть
BM25 — это вероятностная модель ранжирования, которая улучшает классический TF-IDF за счет учета длины документов и дополнительных параметров.

### Формула для вычисления BM25:

\[
BM25(t, d) = IDF(t) \cdot \frac{TF(t, d) \cdot (k_1 + 1)}{TF(t, d) + k_1 \cdot (1 - b + b \cdot \frac{|d|}{avgdl})}
\]

Где:
- **TF(t,d)** — частота термина t в документе d.
- **|d|** — длина документа d.
- **avgdl** — средняя длина документов в корпусе.
- **k1** и **b** — гиперпараметры модели (обычно k1=1.5, b=0.75).
- **IDF(t)** — взвешивание термина:

\[
IDF(t) = \ln\left( \frac{N - n_t + 0.5}{n_t + 0.5} + 1 \right)
\]

Где:
- **N** — общее количество документов.
- **n_t** — число документов, содержащих термин t.


## Часть 1. Подготовка данных

In [1]:

import string
import spacy
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Загружаем NLP-модель для лемматизации
nlp = spacy.load("en_core_web_sm")

# Исходные документы
documents = [
    "Natural language processing enables machines to understand human language.",
    "Boolean retrieval is a basic model in information retrieval.",
    "Language models are essential for processing and analyzing text.",
    "Understanding Boolean operators is crucial for search engines."
]

# Функция предобработки текста
stop_words = set(stopwords.words('english'))

def preprocess(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    tokens = word_tokenize(text)
    lemmatized_tokens = [token.lemma_ for token in nlp(" ".join(tokens))]
    return [word for word in lemmatized_tokens if word.isalnum() and word not in stop_words]

# Применяем предобработку
processed_documents = [preprocess(doc) for doc in documents]
processed_documents


[nltk_data] Downloading package punkt to /Users/aikei/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/aikei/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


OSError: [E050] Can't find model 'en_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

## Часть 2. Вычисление параметров BM25

In [None]:

from math import log

def compute_idf(corpus):
    N = len(corpus)
    idf = {}
    for doc in corpus:
        for word in set(doc):
            idf[word] = idf.get(word, 0) + 1
    for word, freq in idf.items():
        idf[word] = log((N - freq + 0.5) / (freq + 0.5) + 1)
    return idf

def compute_tf(doc):
    tf = {}
    for word in doc:
        tf[word] = tf.get(word, 0) + 1
    return tf

# Вычисление параметров
doc_lengths = [len(doc) for doc in processed_documents]
avgdl = sum(doc_lengths) / len(doc_lengths)
idf = compute_idf(processed_documents)

idf, avgdl


## Часть 3. Реализация BM25

In [None]:

def bm25_score(query, doc, idf, k1=1.5, b=0.75):
    tf = compute_tf(doc)
    score = 0
    for term in query:
        if term in doc:
            term_tf = tf[term]
            numerator = term_tf * (k1 + 1)
            denominator = term_tf + k1 * (1 - b + b * (len(doc) / avgdl))
            score += idf.get(term, 0) * (numerator / denominator)
    return score

# Тестирование на запросе
query = preprocess("language models retrieval")
scores = [bm25_score(query, doc, idf) for doc in processed_documents]

scores


## Часть 4. Тестирование модели

In [None]:

queries = [
    "natural language processing",
    "Boolean retrieval",
    "models text"
]

for query in queries:
    processed_query = preprocess(query)
    scores = [bm25_score(processed_query, doc, idf) for doc in processed_documents]
    sorted_results = sorted(enumerate(scores), key=lambda x: x[1], reverse=True)
    
    print(f"Запрос: {query}")
    for rank, (doc_index, score) in enumerate(sorted_results):
        print(f"{rank + 1}. Документ {doc_index + 1}: {documents[doc_index]} (счет: {score:.4f})")
    print()


## Часть 5. Улучшения


### Внесенные улучшения:
1. **Лемматизация**: Добавлена поддержка лемматизации с использованием spaCy.
2. **Масштабируемость**: Для тестирования можно использовать больший корпус текстов.
3. **Оптимизация параметров**: Можно изменять значения k1 и b для улучшения качества ранжирования.
