## Лекция 2  BM5    

## Функция ранжирования bm25

Для обратного индекса есть общепринятая формула для ранжирования *Okapi best match 25* ([Okapi BM25](https://ru.wikipedia.org/wiki/Okapi_BM25)).    
Пусть дан запрос $Q$, содержащий слова  $q_1, ... , q_n$, тогда функция BM25 даёт следующую оценку релевантности документа $D$ запросу $Q$:

$$ score(D, Q) = \sum_{i}^{n} \text{IDF}(q_i)*\frac{TF(q_i,D)*(k+1)}{TF(q_i,D)+k(1-b+b\frac{l(d)}{avgdl})} $$ 
где   
>$TF(q_i,D)$ - частота слова $q_i$ в документе $D$      
$l(d)$ - длина документа (количество слов в нём)   
*avgdl* — средняя длина документа в коллекции    
$k$ и $b$ — свободные коэффициенты, обычно их выбирают как $k$=2.0 и $b$=0.75   
$$$$
$\text{IDF}(q_i)$ - это модернизированная версия IDF: 
$$\text{IDF}(q_i) = \log\frac{N-n(q_i)+0.5}{n(q_i)+0.5},$$
>> где $N$ - общее количество документов в коллекции   
$n(q_i)$ — количество документов, содержащих $q_i$

### __Задача 1__:    
Напишите два поисковика на *BM25*. Один через подсчет метрики по формуле для каждой пары слово-документ, второй через умножение матрицы на вектор. 

Сравните время работы поиска на 100к запросах. В качестве корпуса возьмем 
[Quora question pairs](https://www.kaggle.com/loopdigga/quora-question-pairs-russian).

In [86]:
# import libraries
import csv
from math import log
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from string import punctuation
punctuation += '…—'
!pip install pymorphy2[fast]
from pymorphy2 import MorphAnalyzer
import time
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer, TfidfVectorizer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Eduard\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Eduard\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [384]:
with open('quora_question_pairs_rus.csv', 'r', encoding='utf-8') as f:
    csv_reader = csv.reader(f)
    # skip the header
    print('header:', next(csv_reader, None))
    queries = []
    docs = []
    answers = []
    for row in csv_reader:
        for _, query, doc, answer in csv_reader:
            queries.append(query)
            docs.append(doc)
            answers.append(int(float(answer)))

header: ['', 'question1', 'question2', 'is_duplicate']


In [355]:
print('the first query:', queries[0])
print('document:', docs[0])
print('answer:', answers[0])

the first query: как я могу увеличить скорость моего интернет-соединения, используя vpn
document: как повысить скорость интернета путем взлома через dns
answer: 0


In [356]:
print('num of documents:', len(docs))

num of documents: 404287


In [357]:
# ~ global variables
pymorphy2_analyzer = MorphAnalyzer()
rus_stopwords = stopwords.words('russian')

In [358]:
# функция препроцессинга данных
def preprocess_text(text, save_stopwords=True, mode='slow'):
    lowered_tokens = [word.strip(punctuation) for word in word_tokenize(text.lower()) if word.strip(punctuation)]
    if mode == 'fast':
        return lowered_tokens
    if save_stopwords:
        return [pymorphy2_analyzer.normal_forms(token)[0] for token in lowered_tokens]
    return [pymorphy2_analyzer.normal_forms(token)[0] for token in lowered_tokens if pymorphy2_analyzer.normal_forms(token)[0] not in rus_stopwords]

In [369]:
def bm25_slow(input_docs, input_query, preprocessing_mode='fast', k=2.0, b=0.75) -> float:
    k = 2.0
    b = 0.75
    N = len(input_docs)

    start = time.time()
    docs = [preprocess_text(doc, mode=preprocessing_mode) for doc in input_docs]
    query = preprocess_text(input_query, mode=preprocessing_mode)
    end = time.time()
    print('time of preprocessing:', end - start)

    doc_lens = np.array([len(doc) for doc in docs])
    average_doc_length = sum(doc_lens) / N
    num_of_docs_with_words = [len([1 for doc in docs if word in doc]) for word in query]
    idfs = np.array([log((N - num_of_docs_with_word + 0.5) / (num_of_docs_with_word + 0.5)) for num_of_docs_with_word in num_of_docs_with_words])

    scores = []
    for doc_index, doc in enumerate(docs):
        score = 0
        summand = k * (1 - b + b * doc_lens[doc_index] / average_doc_length)
        for word_index, word in enumerate(query):
            tf = 0
            if doc_lens[doc_index]:
                tf = doc.count(word) / doc_lens[doc_index]
            score += idfs[word_index] * tf * (k + 1) / (tf + summand)
        scores.append(score)
    return [input_docs[index] for index in np.argsort(scores)[::-1]]

In [360]:
%%time
results = bm25_slow(docs[:50000], "как найти остаток", preprocessing_mode='fast')

time of preprocessing: 11.460090398788452
Wall time: 12.4 s


In [361]:
print('\n'.join([f'{i + 1} - {elem}' for i, elem in enumerate(results[:10])]))

1 - как найти бета-тестеры
2 - найти выключенный телефон
3 - как найти классы эквивалентности
4 - как мне найти спокойствие
5 - как найти валентность марганца
6 - как найти домен проекта
7 - как мне найти женщину-соучредителя
8 - как мне найти переписчика
9 - как найти идеального соучредителя
10 - почему трудно найти подругу?


In [370]:
def bm25_fast(input_docs, input_query, preprocessing_mode='fast', k=2.0, b=0.75) -> float:
    N = len(input_docs)
    doc_lens = np.array([len(input_doc.split()) for input_doc in input_docs])
    average_doc_length = sum(doc_lens) / N

    vect = TfidfVectorizer(use_idf=False)
    input_docs.append(input_query)
    tf_matrix = vect.fit_transform(input_docs)
    df = pd.DataFrame(tf_matrix.toarray(), columns=vect.get_feature_names())
    query_vect = TfidfVectorizer(use_idf=False)
    query_tf_matrix = query_vect.fit_transform([input_query])
    features = query_vect.get_feature_names()
    df = df[features][:-1]
    df = df / (df + k * np.repeat((1 - b + b * doc_lens.reshape((N, 1)) / average_doc_length), len(features), axis=1))
    nq = df.astype(bool).sum(axis=0)
    idfs = np.log((N - nq + 0.5) / (nq + 0.5))
    scores = df.dot(idfs * (k + 1))
    return [input_docs[index] for index in np.argsort(scores)[::-1]]

In [363]:
%%time
results = bm25_fast(docs[:50000], "как найти остаток", preprocessing_mode='fast')

Wall time: 3.15 s


In [364]:
print('\n'.join([f'{i + 1} - {elem}' for i, elem in enumerate(results[:10])]))

1 - как найти бета-тестеры
2 - как мне найти переписчика
3 - как найти валентность марганца
4 - как мне найти спокойствие
5 - как найти классы эквивалентности
6 - как найти идеального соучредителя
7 - как найти домен проекта
8 - найти выключенный телефон
9 - как мне найти женщину-соучредителя
10 - как найти подругу в Интернете?


Результаты отличаются, поскольку в каждой функции используется своя токенизация.

### __Задача 2__:    



Выведите 10 первых результатов и их близость по метрике BM25 по запросу **рождественские каникулы** на нашем корпусе  Quora question pairs. 

In [365]:
%%time
results = bm25_slow(docs[:50000], "рождественские каникулы", preprocessing_mode='fast')

time of preprocessing: 10.383690357208252
Wall time: 11.3 s


In [366]:
print('\n'.join([f'{i + 1} - {elem}' for i, elem in enumerate(results[:10])]))

1 - как долго проходят рождественские каникулы для университетов в Новой Зеландии
2 - как я могу провести летние каникулы осмысленно
3 - людям разрешено ездить на британскую территорию индийского океана на каникулы
4 - будучи студентом-механиком, я должен научиться c языку в мои каникулы, это поможет
5 - какие красивые песни, которые звучат как рождественские колядки, но на самом деле не
6 - что первый студент должен научиться в летние каникулы, что будет полезно для его будущего в области химической промышленности
7 - это почти мои летние каникулы класса 12, я слишком поздно готовлюсь к jee mains и продвинутому 2017 году
8 - adam d angelo: что такое стратегия монетизации кворы
9 - как я объявляю три динамических массива 2d в c
10 - безопасно использовать


In [367]:
%%time
results = bm25_fast(docs[:50000], "рождественские каникулы", preprocessing_mode='fast')

Wall time: 3.58 s


In [368]:
print('\n'.join([f'{i + 1} - {elem}' for i, elem in enumerate(results[:10])]))

1 - как долго проходят рождественские каникулы для университетов в Новой Зеландии
2 - как я могу провести летние каникулы осмысленно
3 - людям разрешено ездить на британскую территорию индийского океана на каникулы
4 - будучи студентом-механиком, я должен научиться c языку в мои каникулы, это поможет
5 - какие красивые песни, которые звучат как рождественские колядки, но на самом деле не
6 - это почти мои летние каникулы класса 12, я слишком поздно готовлюсь к jee mains и продвинутому 2017 году
7 - что первый студент должен научиться в летние каникулы, что будет полезно для его будущего в области химической промышленности
8 - adam d angelo: что такое стратегия монетизации кворы
9 - как я объявляю три динамических массива 2d в c
10 - безопасно использовать


### __Задача 3__:    

Посчитайте точность поиска при 
1. BM25, b=0.75 
2. BM15, b=0 
3. BM11, b=1

In [388]:
def count_precision(num_of_docs=10000, b=2):
    tp = 0
    fp = 0
    for query, doc, answer in zip(queries[:num_of_docs], docs[:num_of_docs], answers[:num_of_docs]):
        results = bm25_fast(docs[:num_of_docs], query, preprocessing_mode='fast', b=b)
        if doc in results[:5]:
            if answer:
                tp += 1
            else:
                fp += 1
    return tp / (tp + fp)

In [392]:
%%time
count_precision(num_of_docs=1000, b=0.75)

Wall time: 1min


0.5282685512367491

In [393]:
%%time
count_precision(num_of_docs=1000, b=0)

Wall time: 1min 6s


0.4934640522875817

In [394]:
%%time
count_precision(num_of_docs=1000, b=1)

Wall time: 1min 3s


0.5386029411764706