## Лекция 2  BM5    

## Функция ранжирования bm25

Для обратного индекса есть общепринятая формула для ранжирования *Okapi best match 25* ([Okapi BM25](https://ru.wikipedia.org/wiki/Okapi_BM25)).    
Пусть дан запрос $Q$, содержащий слова  $q_1, ... , q_n$, тогда функция BM25 даёт следующую оценку релевантности документа $D$ запросу $Q$:

$$ score(D, Q) = \sum_{i}^{n} \text{IDF}(q_i)*\frac{TF(q_i,D)*(k+1)}{TF(q_i,D)+k(1-b+b\frac{l(d)}{avgdl})} $$ 
где   
>$TF(q_i,D)$ - частота слова $q_i$ в документе $D$      
$l(d)$ - длина документа (количество слов в нём)   
*avgdl* — средняя длина документа в коллекции    
$k$ и $b$ — свободные коэффициенты, обычно их выбирают как $k$=2.0 и $b$=0.75   
$$$$
$\text{IDF}(q_i)$ - это модернизированная версия IDF: 
$$\text{IDF}(q_i) = \log\frac{N-n(q_i)+0.5}{n(q_i)+0.5},$$
>> где $N$ - общее количество документов в коллекции   
$n(q_i)$ — количество документов, содержащих $q_i$

In [13]:
### реализуйте эту функцию ранжирования 
from math import log

k = 2.0
b = 0.75


def bm25() -> float:
    return 

### __Задача 1__:    
Напишите два поисковика на *BM25*. Один через подсчет метрики по формуле для каждой пары слово-документ, второй через умножение матрицы на вектор. 

Сравните время работы поиска на 100к запросах. В качестве корпуса возьмем 
[Quora question pairs](https://www.kaggle.com/loopdigga/quora-question-pairs-russian).

Метрика точности: 1 - если в первой пятёрке документов есть хотя бы один документ - дубликат запроса, 0 - иначе

#### Загрузка данных:

In [1]:
import pandas as pd

In [2]:
from scipy.sparse import csr_matrix

In [3]:
import numpy as np

In [4]:
data = pd.read_csv("data/quora_question_pairs_rus.csv").dropna()

In [5]:
data.head()

Unnamed: 0.1,Unnamed: 0,question1,question2,is_duplicate
0,0,Какова история кохинор кох-и-ноор-бриллиант,"что произойдет, если правительство Индии украд...",0
1,1,как я могу увеличить скорость моего интернет-с...,как повысить скорость интернета путем взлома ч...,0
2,2,"почему я мысленно очень одинок, как я могу это...","найти остаток, когда математика 23 ^ 24 матема...",0
3,3,которые растворяют в воде быстро сахарную соль...,какая рыба выживет в соленой воде,0
4,4,астрология: я - луна-колпачок из козерога и кр...,Я тройная луна-козерог и восхождение в козерог...,1


In [6]:
## using hint from
## https://stackoverflow.com/questions/43203215/map-unique-strings-to-integers-in-python
def extract_texts(df):
    question1 = list(set(df['question1']))
    question2 = list(set(df['question2']))
    mapping1 = {j:i for i,j in enumerate(question1)}
    mapping2 = {j:i for i,j in enumerate(question2)}
    df = df[df['is_duplicate']==1]
    q1 = df['question1'].apply(lambda x: mapping1[x])
    q2 = df['question2'].apply(lambda x: mapping2[x])
    duplicate_matrix = csr_matrix((np.ones(df.shape[0]),
                                  (q1,q2)),
                                  shape=(len(question1),len(question2)))
    return question1, question2, mapping1, mapping2, duplicate_matrix

In [7]:
texts1, texts2, text1_to_id, text2_to_id, duplicate_matrix = extract_texts(data)

#### Инициализация парсера:

In [8]:
from pymorphy2.tokenizers import simple_word_tokenize as tokenize

In [9]:
from pymorphy2.analyzer import MorphAnalyzer

In [10]:
analyzer = MorphAnalyzer()

In [11]:
def lemmatize(text):
    return [parse.normal_form for parse in [analyzer.parse(word)[0] for word in tokenize(text)] if parse.tag.POS]

In [12]:
lemmatize('Мир замер в ожидании страшных вещей - ты слышишь голос овощей!')

['мир',
 'замереть',
 'в',
 'ожидание',
 'страшный',
 'вещий',
 'ты',
 'слышать',
 'голос',
 'овощ']

#### BM25 здорового человека:

In [45]:
from sklearn.feature_extraction.text import CountVectorizer

In [46]:
class BMVectorSearch:
    def __init__(self, docs, lemmatizer=lemmatize, k=2, b=0.75):
        self.k = k
        self.b = b
        self.docs = []
        self.lemmatizer = lemmatizer
        self.update_index(docs)
    
    def update_index(self, docs):
        self.docs = np.array(list(self.docs) + docs)
        self.vectorizer = CountVectorizer(tokenizer=self.lemmatizer)
        self.tf_matrix = self.vectorizer.fit_transform(self.docs)
        ## counting non-zero values in sparse matrix row
        ## using only sparse matrix operations:
        ## dense matrix would be too big - 300+ GB (vs. ~500MB in sparse format)
        df = self.tf_matrix.getnnz(axis=1)
        N = df.sum()
        idf_transform = np.vectorize(lambda x: (N-x+0.5)/(x+0.5))
        self.idf = np.log(idf_transform(df))
        self.set_hyperparams()
    
    def set_hyperparams(self, k=None, b=None):
        if k is None:
            k = self.k
        else:
            self.k = k
        if b is None:
            b = self.b
        else:
            self.b = b
        doc_lengths = np.array(self.tf_matrix.sum(axis=0))[0]
        avgdl = doc_lengths.mean()
        length_ratios = np.array([doc_lengths[col]/avgdl for col in self.tf_matrix.nonzero()[1]])
        idfs = np.array([self.idf[row] for row in self.tf_matrix.nonzero()[0]])
        new_data = idfs * self.tf_matrix.data * (k+1) / (self.tf_matrix.data + k*(1-b+b*length_ratios))
        self.index = csr_matrix((new_data, self.tf_matrix.indices, self.tf_matrix.indptr),
                                shape=self.tf_matrix.shape)
        self.index = self.index.transpose(copy=True)
    
    def search(self, query, return_similarities=False, return_indices=False, n_results=5):
        vector = self.vectorizer.transform([query])
        similarities = vector * self.index
        similarities = np.array(similarities.todense())[0]
        order = np.argsort(similarities)[::-1].tolist()[:n_results]
        
        if return_similarities:
            if return_indices:
                return similarities[order], order
            return similarities[order], self.docs[order]
        
        if return_indices:
            return order
        return self.docs[order]
    
    def multiple_search(self, query):
        vector = self.vectorizer.transform(query)
        return vector * self.index

In [47]:
%%time
global search
search = BMVectorSearch(texts2)

Wall time: 8min 28s


In [51]:
%%time
search.search('что означает')

Wall time: 71.3 ms


array(['что означает dlc для ps4, означает, что область, запертая в области dlc, означает',
       'то, что означает эпидермальный фактор роста, означает, что факторы роста, вызванные тромбоцитами, означают',
       'в instagram под увеличительным стеклом - что означает верхняя часть означает, что это означает, что я обыскал, что Instagram счета наиболее',
       'что означает слово «презрение» означает ли это только означает рассматривать с презрением и презрением или может также использоваться как синоним ненависти',
       'что означает, что название quora означает'], dtype='<U1283')

In [56]:
%%time
for text in texts1[:100]:
    search.search(text)

Wall time: 6.72 s


100 запросов обработались за 6.72 с - 100000 обработаются за 6720 с - примерно 2 часа

#### BM25 курильщика:

In [13]:
from collections import defaultdict
from math import log

In [41]:
class BM25Naive:
    def __init__(self, docs, lemmatizer=lemmatize, k=2, b=0.75):
        self.k, self.b = k, b
        self.lemmatize = lemmatizer
        self.docs = docs
        docs = [self.lemmatize(i) for i in self.docs]
        self.index = []
        df = defaultdict(int)
        for doc in docs:
            freq_dict = dict()
            for word in set(doc):
                freq_dict[word] = doc.count(word)
                df[word] += 1
            self.index.append(freq_dict)
        N = len(docs)
        lengths = [len(i) for i in self.index]
        self.avgdl = sum(lengths)/N
        self.idf = {word: log((N-freq+0.5)/(freq+0.5)) for word, freq in df.items()}
    
    def search(self, query, n_results=5):
        query = self.lemmatize(query)
        similarities = []
        for doc in self.index:
            similarity = 0
            for word in query:
                if word in doc:
                    similarity += self.idf[word]*((doc[word]*(self.k+1))/(doc[word]+\
                                                                          self.k*(1-self.b+self.b*len(doc)/self.avgdl)))
                else:
                    pass
            similarities.append(similarity)
            
        #print(similarities)
        
        return sorted(list(enumerate(self.docs)), key=lambda x: similarities[x[0]],
                     reverse=True)[:5]

In [52]:
%%time
global search1
search1 = BM25Naive(texts2)

Wall time: 8min 24s


Обучилась примерно за такое же время, что и векторизованная - 8 минут. Посмотрим, насколько быстр поиск:

In [55]:
%%time
search1.search('что означает')

Wall time: 243 ms


[(31346, 'что действительно означает, что означает'),
 (160419, 'что это означает, что означает'),
 (223470, 'что означает, что название quora означает'),
 (184695,
  'что означает dlc для ps4, означает, что область, запертая в области dlc, означает'),
 (24301, 'что это означает, что логотип microsoft означает')]

Для одного запроса время поиска в 4 раза дольше. Попробуем 100 запросов:

In [44]:
%%time
for text in texts1[:100]:
    search1.search(text)

Wall time: 39.7 s


100 запросов обработались за ~40 сек, значит 100000 запросов обработаются за 40000 сек - более 10 часов. Так как время = деньги, не будем этого делать :)

### __Задача 2__:    



Выведите 10 первых результатов и их близость по метрике BM25 по запросу **рождественские каникулы** на нашем корпусе  Quora question pairs. 

In [34]:
search.search('рождественские каникулы',
                     return_similarities=True, n_results=10)

(array([23.83887156, 23.09006036, 19.40935756, 14.74838683, 14.52495889,
        14.44521674, 14.33895981, 14.33895981, 14.33895981, 14.33895981]),
 array(['как долго проходят рождественские каникулы для университетов в Новой Зеландии',
        'какое лучшее место для посещения во время рождественских каникул из Лондона на 3 - 4 дня для одного путешественника',
        'какие рождественские традиции вы и ваша семья имеете на рождественский вечер и рождественский день',
        'каков ваш обзор каникул',
        'какова политика каникул google для сотрудников',
        'какой продукт привлекателен в качестве рождественских подарков, я хочу, чтобы некоторые продукты были представлены как маленькие рождественские подарки, которые могут привлечь молодых людей, я собираюсь продавать какую-то индивидуальную электронику в Интернете и продавать их на Рождество',
        'когда каникулы даются на iits для курсов btech',
        'какие хорошие семейные каникулы в Керале',
        'у каникул есть

### __Задача 3__:    

Посчитайте точность поиска при 
1. BM25, b=0.75 
2. BM15, b=0 
3. BM11, b=1

In [35]:
import random

In [41]:
## слишком долго работает, придумать что-нибудь для ускорения:
def evaluate(search_engine, texts, duplicate_matrix, test_size=10000):
    s = 0
    N = 0
    
    random.seed(42)
    texts = random.choices(list(enumerate(texts)), k=test_size)
    
    for text_id, text in texts:
        if duplicate_matrix[text_id,].sum():
            N += 1
            results = search_engine.search(text, return_indices=True)
            for result_id in results:
                if duplicate_matrix[text_id,result_id]:
                    s += 1
                    break
    return s/N

In [37]:
def fast_evaluate(search_engine, texts, duplicate_matrix, test_size=100000):
    N = 0
    s = 0
    random.seed(42)
    texts = random.choices(list(enumerate(texts)), k=test_size)
    texts = [i[1] for i in texts]
    sims = search_engine.multiple_search(texts)
    for row_id, text_id, text in zip(range(test_size), ids, texts):
        if duplicate_matrix[text_id,].sum():
            N += 1
            ## add something...
    return s/N

BM25, b=0.75

In [42]:
%%time
evaluate(search, texts1, duplicate_matrix)

Wall time: 3min 23s


0.39019337016574585

BM15, b=0

In [56]:
BMVectorSearch.set_hyperparams(search, b=0)

In [58]:
evaluate(search, texts1, duplicate_matrix)

0.3349447513812155

BM11, b=1

In [59]:
BMVectorSearch.set_hyperparams(search, b=1)
evaluate(search, texts1, duplicate_matrix)

0.37465469613259667

<b>Вывод</b>: Наилучшее качество поиска достигается при b=1