## Объяснение, почему всё так грустно и медленно

In [1]:
import psutil
env_info = dict(psutil.virtual_memory()._asdict())
for key in env_info:
    if key != 'percent':
        print(key, str(env_info[key] // 1000000000), 'Gb')
    else:
        print(key, str(env_info[key])+'%')

total 4 Gb
available 1 Gb
percent 67.8%
used 2 Gb
free 1 Gb


## Лекция 2  BM5    

### Imports

In [2]:
import json
import numpy as np
import nltk
import os
import pandas as pd
import re

from math import log
from pymystem3 import Mystem
from sklearn.feature_extraction.text import CountVectorizer
from time import time

### Constants

In [3]:
k = 2.0
b = 0.75
trained_size = 1000
N = trained_size*2

In [4]:
morph = Mystem()
vectorizer = CountVectorizer()

__important data-independent functions__

In [5]:
def enum_sort(arr): # takes a list and returns a list of ids in the decreasing order of the values from the input
    return [x[0] for x in sorted(enumerate(arr), key=lambda x:x[1], reverse=True)]

In [6]:
def lemmatize(text):
    return [morph.lemmatize(token)[0] for token in nltk.word_tokenize(text)]

In [7]:
def preprocess(text, lemm=False):
    if lemm:
        words = lemmatize(text)
    else:
        words = nltk.word_tokenize(text)
    query_modified = list(set(words).intersection(set(vocabulary)))  
    return query_modified

### Pre-compute data-dependednt constants

In [8]:
questions = pd.read_csv('quora_question_pairs_rus.csv', index_col=0)

In [9]:
questions.head()

Unnamed: 0,question1,question2,is_duplicate
0,Какова история кохинор кох-и-ноор-бриллиант,"что произойдет, если правительство Индии украд...",0
1,как я могу увеличить скорость моего интернет-с...,как повысить скорость интернета путем взлома ч...,0
2,"почему я мысленно очень одинок, как я могу это...","найти остаток, когда математика 23 ^ 24 матема...",0
3,которые растворяют в воде быстро сахарную соль...,какая рыба выживет в соленой воде,0
4,астрология: я - луна-колпачок из козерога и кр...,Я тройная луна-козерог и восхождение в козерог...,1


__only some texts will be used, a part defined by trained_size constant above__

In [10]:
train_texts = questions[:trained_size]['question1'].tolist() + questions[:trained_size]['question2'].tolist()
## train_texts = [' '.join(lemmatize(text)) for text in train_texts] ## адово долго!!!

In [None]:
with open('lemmatized.json', 'w') as f:
    f.write(json.dumps(train_texts))

In [None]:
with open('lemmatized.json', 'r') as f:
    train_texts = json.loads(f.read())

__define mean text length__

In [11]:
lens = [len(text.split()) for text in train_texts]
avgdl = sum(lens)/N
avgdl

9.201

__precompute a count matrix__
<br> rows - documents
<br> columns - words

In [12]:
X = vectorizer.fit_transform(train_texts)
count_matrix = X.toarray()
count_matrix.shape

(2000, 5905)

__precompute tfs__

In [13]:
tf_matrix = count_matrix / np.array(lens).reshape((-1, 1))
tf_matrix

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

get a vocabulary that has the same indexation as the rows of the count matrix

In [15]:
vocabulary = vectorizer.get_feature_names()
vocabulary[1030:1040]

['войной',
 'войну',
 'войны',
 'войска',
 'войти',
 'вокализм',
 'вокруг',
 'волнение',
 'волноваться',
 'волнует']

__get idfs__

a list of number of docs with a given word for each word

In [16]:
in_n_docs = np.count_nonzero(count_matrix, axis=0)
in_n_docs

array([ 1,  5, 11, ...,  1,  1,  1], dtype=int64)

In [17]:
def IDF_modified(word):
    word_id = vocabulary.index(word)
    n = in_n_docs[word_id]
    return log((N - n + 0.5) / (n + 0.5))

In [18]:
IDF_modified('воде')

6.6838614462772235

In [19]:
idfs = [IDF_modified(word) for word in vocabulary]
idfs[1000:1010]

[7.195187320178709,
 7.195187320178709,
 7.195187320178709,
 7.195187320178709,
 4.3904097651860585,
 6.6838614462772235,
 6.6838614462772235,
 7.195187320178709,
 6.6838614462772235,
 7.195187320178709]

## Функция ранжирования bm25

Для обратного индекса есть общепринятая формула для ранжирования *Okapi best match 25* ([Okapi BM25](https://ru.wikipedia.org/wiki/Okapi_BM25)).    
Пусть дан запрос $Q$, содержащий слова  $q_1, ... , q_n$, тогда функция BM25 даёт следующую оценку релевантности документа $D$ запросу $Q$:

$$ score(D, Q) = \sum_{i}^{n} \text{IDF}(q_i)*\frac{TF(q_i,D)*(k+1)}{TF(q_i,D)+k(1-b+b\frac{l(d)}{avgdl})} $$ 
где   
>$TF(q_i,D)$ - частота слова $q_i$ в документе $D$      
$l(d)$ - длина документа (количество слов в нём)   
*avgdl* — средняя длина документа в коллекции    
$k$ и $b$ — свободные коэффициенты, обычно их выбирают как $k$=2.0 и $b$=0.75   
$$$$
$\text{IDF}(q_i)$ - это модернизированная версия IDF: 
$$\text{IDF}(q_i) = \log\frac{N-n(q_i)+0.5}{n(q_i)+0.5},$$
>> где $N$ - общее количество документов в коллекции   
$n(q_i)$ — количество документов, содержащих $q_i$

### implement tf part of the formula

In [20]:
def modify_tf(tf_value, doc_index):
    l = lens[doc_index]
    return (tf_value * (k + 1.0))/(tf_value + k * (1.0 - b + b * (l/avgdl)))

def modify_tf_matrix(tf_matrix): 
    enumed =  np.ndenumerate(tf_matrix)
    for i, tf_value in enumed:
        doc_index = i[0]
        tf_matrix[i] = modify_tf(tf_value, doc_index)
    return tf_matrix

In [21]:
modified_tf_matrix = modify_tf_matrix(tf_matrix)
modified_tf_matrix

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [22]:
q = 'БЛЯТЬ!111 Я ЗАЕБАЛАСЬ ВОороны!22 ебутся в воде !11'
preprocess_query(q)

NameError: name 'preprocess_query' is not defined

### __Задача 1__:    
Напишите два поисковика на *BM25*. Один через подсчет метрики по формуле для каждой пары слово-документ, второй через умножение матрицы на вектор. 

Сравните время работы поиска на 100к запросах. В качестве корпуса возьмем 
[Quora question pairs](https://www.kaggle.com/loopdigga/quora-question-pairs-russian).

__НА СТА ТЫСЯЧАХ НИКАК НЕ МОГУ, У МЕНЯ ОНО НА ДВУХ ТЫСЯЧАХ (trained_size in constants * 2) МИНУТУ КРУТИТСЯ!!11__

### define two bm25 implementations

In [23]:
### реализуйте эту функцию ранжирования векторно
def bm25_vector(query, lemm=False):
    vector = np.array(vectorizer.transform([' '.join(preprocess(query, lemm))]).todense())[0]
    binary_vector = np.vectorize(lambda x: 1.0 if x != 0.0 else 0.0)(vector) ## neutralizes duplictes in the query (non-lineraity)
    idfs_from_query = np.array(idfs)*np.array(binary_vector)
    return modified_tf_matrix.dot(idfs_from_query) ## bm25 близость для каждого документа

In [24]:
### реализуйте эту функцию ранжирования итеративно
def bm25_iter(query, lemm=False):
    query_words = preprocess(query, lemm)
    relevance = []
    for i in range(N):
        doc_index = i
        doc_bm25 = 0.0
        for word in set(query_words): ## set neutralizes duplictes in the query
            word_index = vocabulary.index(word)
            tf_value = tf_matrix[(doc_index, word_index)]
            doc_bm25 += idfs[word_index] * modify_tf(tf_value, doc_index)
        relevance.append(doc_bm25)
    return relevance

__Compare performance__

In [25]:
query = 'если честно, мне кажется, что мой итеративный алгоритм работает очень плохо 11 !!'

In [28]:
start = time()
print(len(bm25_vector(query)))
print('TIME non-lemmatized query: ' + str(time() - start))
start = time()
print(len(bm25_vector(query, lemm=True)))
print('TIME lemmatized query: ' + str(time() - start))

2000
TIME non-lemmatized query: 0.02601909637451172
2000
TIME lemmatized query: 46.89918899536133


In [29]:
start = time()
print(len(bm25_iter(query)))
print('TIME non-lemmatized query: ' + str(time() - start))
start = time()
print(len(bm25_iter(query, lemm=True)))
print('TIME lemmatized query: ' + str(time() - start))

2000
TIME non-lemmatized query: 2.279613971710205
2000
TIME lemmatized query: 50.14648675918579


__quod erad demonstrandum!__

### __Задача 2__:    



Выведите 10 первых результатов и их близость по метрике BM25 по запросу *рождественские каникулы* на нашем корпусе  Quora question pairs. 

__выведу только поиск на первых 2000 (trained_size in constants * 2) документов, должно работать вообще, но моё железо не тянет__<br>
__по *рождественским каникулам* в первых 2000 доков ничего нет, так что на примере другой query__

In [43]:
query = 'война с водой'
n = 10
bms = bm25_vector(query)
ids_top_n = enum_sort(bms)[:n]
print('query:', query, '\n')
for i in range(n):
    print('relevance rank:', i+1)
    print('document:', np.array(train_texts)[ids_top_ten[i]])
    print('bm_25 = ', bms[ids_top_ten[i]], '\n')

query: война с водой 

relevance rank: 1
document: мировая война iii неизбежна
bm_25 =  2.859286094328463 

relevance rank: 2
document: как неизбежно мировая война iii
bm_25 =  2.1167909836038605 

relevance rank: 3
document: 3-я мировая война неизбежна, чем ожидалось
bm_25 =  1.6249035320650158 

relevance rank: 4
document: почему тауфины с морской водой импортированы в Австралию
bm_25 =  1.3986039618245336 

relevance rank: 5
document: может ли мировая война 3 когда-либо иметь место
bm_25 =  1.0390320082083848 

relevance rank: 6
document: будет ли ядерная война между Индией и Пакистаном
bm_25 =  1.0390320082083848 

relevance rank: 7
document: если будет война между Индией и Пакистаном, которая выиграет
bm_25 =  0.8573098496307885 

relevance rank: 8
document: кто победит, если начнется война между Индией и Пакистаном
bm_25 =  0.8573098496307885 

relevance rank: 9
document: должна ли быть война между Индией и Пакистаном для кашмира
bm_25 =  0.7190225447873438 

relevance rank: 10
d

### __Задача 3__:    

Посчитайте точность поиска при 
1. BM25, b=0.75 
2. BM15, b=0 
3. BM11, b=1