Будем использовать реализацию Word2vec в библиотеке **Gensim**, а в качестве предобученных моделей возьмем модели Андрея Кутузова и Лизы Кузьменко с сайта [RusVectōrēs.](https://rusvectores.org/ru/models/). 

In [None]:
!pip install gensim

In [2]:
%load_ext autoreload

from gensim.models import Word2Vec, KeyedVectors

В качестве моделей давайте возьмем 

1) araneum_none_fasttextcbow_300_5_2018 (fasttext) - модель, обученная на интернет-корпусе русского языка


2) ruscorpora_upos_skipgram_300_5_2018 (word2vec) - модель, обученная НКРЯ

## word2vec + fasttext

Существуют несколько форматов, в которых могут храниться модели - .vec и .model 

1) Первый формат считается классическим вариантом модели word2vec. Для загрузки таакой модели надо воспользоваться методом *KeyedVectors.load_word2vec_format*. 
Модель может быть бинарной, для ее загрузки надо передать параметр binary, равный True. 

2) Формат .model - собственный формат gensim. Такую модель надо загружать с помощью метода *KeyedVectors.load*.

 **1) если модель без тэгов**

In [None]:
# загрузка модели

model_file = '../../data/araneum_none_fasttextcbow_300_5_2018/araneum_none_fasttextcbow_300_5_2018.model'
model = KeyedVectors.load(model_file)


#проверка наличия слова в словаре

lemma = 'заграница'
lemma in model

**2) если модель с POS-тэггингом**

In [178]:
# загрузка модели

# model_file = '../../data/ruscorpora_upos_skipgram_300_5_2018.vec'
# model_POS = KeyedVectors.load_word2vec_format(model_file, binary=False)


#проверка наличия слова в словаре

lemma = 'заграница_NOUN'
lemma in model

True

**3) получение вектора слова**

In [177]:
model['заграница']

array([ 7.10695013e-02,  2.17701886e-02, -4.17113714e-02,  1.04853347e-01,
        2.97251549e-02, -5.05348342e-03,  8.50924775e-02, -1.59783456e-02,
        8.17752928e-02,  1.82770882e-02,  4.48142625e-02, -3.99412550e-02,
        3.01699173e-02,  8.18651915e-02,  5.21745794e-02, -5.25347143e-02,
        1.49415746e-01,  1.54418079e-02,  2.05713809e-02, -2.19671372e-02,
       -3.50276679e-02, -4.12449650e-02,  3.14566083e-02, -1.22367439e-03,
       -7.46390447e-02,  2.48251371e-02,  1.86437406e-02,  4.26618010e-02,
        1.04903504e-02, -3.44574675e-02, -7.02655241e-02,  5.20167649e-02,
       -4.19732295e-02, -8.22310895e-02,  7.08133215e-03,  8.99268389e-02,
       -8.44774917e-02, -4.10604663e-02, -3.39725427e-02, -4.07647751e-02,
       -4.11920361e-02, -5.67547791e-02, -7.38171861e-02,  9.61997062e-02,
       -3.19693461e-02, -8.84091035e-02, -1.21405562e-02,  5.35934344e-02,
        4.13923934e-02, -1.30730838e-01, -4.67060655e-02, -4.94557396e-02,
       -1.40484155e-03,  

In [183]:
model_POS['заграница_NOUN']

array([ 6.39500e-02,  2.60550e-02,  7.36340e-02,  1.23700e-02,
       -3.50900e-02, -1.53790e-02, -1.53120e-02, -4.46420e-02,
        2.70790e-02, -1.49646e-01, -2.11150e-02, -9.54970e-02,
       -4.53150e-02, -2.29060e-02,  1.88060e-02, -3.26540e-02,
        4.14600e-03, -3.33050e-02, -1.11295e-01, -1.99680e-02,
        8.52420e-02, -5.65020e-02,  6.37940e-02,  7.47780e-02,
        6.07320e-02, -3.06220e-02,  1.18300e-03,  6.26690e-02,
       -7.80680e-02,  7.22600e-03,  3.91800e-03,  7.85500e-03,
       -2.04750e-02,  1.03410e-02, -2.73720e-02,  1.06103e-01,
        1.19590e-02, -6.46130e-02, -9.41660e-02, -1.36470e-02,
       -6.39500e-03,  7.87260e-02,  5.41090e-02, -6.22660e-02,
        1.17398e-01, -4.33120e-02,  5.32870e-02, -6.18680e-02,
        7.07800e-03, -8.10900e-03,  5.02570e-02,  7.70690e-02,
        1.63000e-03,  8.76180e-02, -5.56250e-02, -4.33640e-02,
       -5.08830e-02,  1.22940e-02,  7.87930e-02, -2.30660e-02,
       -1.71630e-02, -3.82160e-02, -3.30880e-02, -6.894

In [179]:
lemma = 'заграница'
lemma in model

True

In [184]:
v1 = model['заграница']
v2 = model_POS.wv['заграница_NOUN']

(v1 == v2).all()

  


False

## Получение вектора документа

Отлично, вектора для слов получены. Что с ними делать дальше? 

Есть два подхода (а точнее есть один, а второй мы придумали, потому что с одним жить нельзя).
> Классика - для получения вектора документа нужно взять и усреднить все вектора его слов
 
$$ vec_{doc} = \frac {\sum_{i=0}^{n} vec_i}{len(d)} $$


In [24]:
import numpy as np

# сделали препроцессинг, получили леммы 
lemmas = ['старинный', 'замок']

# создаем вектор-маску
lemmas_vectors = np.zeros((len(lemmas), model.vector_size))
vec = np.zeros((model.vector_size,))

# если слово есть в модели, берем его вектор
for idx, lemma in enumerate(lemmas):
    if lemma in model:
        lemmas_vectors[idx] = model[lemma]
        
# проверка на случай, если на вход пришел пустой массив
if lemmas_vectors.shape[0] is not 0:
    vec = np.mean(lemmas_vectors, axis=0)


> Эксперимент - представим документ не в виде одного уредненного вектора, а как матрицу векторов входящих в него слов

```
 слово1 |  v1_300
 слово2 |  v2_300
 слово3 |  v3_300
 слово4 |  v4_300
```

> Отлично, теперь каждый документ представлен в виде матрицы векторов своих слов. Но нам надо получить близость матрицы документа в коллекции и матрицы входящего запроса. Как? Умножим две матрицы друг на друга - одна матрица размером d x 300, другая q x 300 - получим попарную близость слов из каждого документа - матрицу размером d x q.


In [163]:
# возьмем игрушечный пример кейса

text1 = 'турция' 
text2 = 'нужна справка срочно'
query = 'быстрая справка'

In [25]:
def normalize_vec(vec):
    return vec / np.linalg.norm(vec)

In [166]:
# построим матрицы всех документов

def create_doc_matrix(text):
    lemmas = text.split()
    lemmas_vectors = np.zeros((len(lemmas), model.vector_size))
    vec = np.zeros((model.vector_size,))

    for idx, lemma in enumerate(lemmas):
        if lemma in model.wv:
            lemmas_vectors[idx] = normalize_vec(model.wv[lemma])
            
    return lemmas_vectors    


text1_m = create_doc_matrix(text1)
text2_m = create_doc_matrix(text2)
query_m = create_doc_matrix(query)

  if __name__ == '__main__':
  # Remove the CWD from sys.path while we load stuff.


In [167]:
# размер матрицы как и ожидали
query_m.shape

(2, 300)

In [193]:
# посмотрим на близость слов первого текста и слов запроса
text1_m.dot(query_m.T)

array([[0.09587915, 0.01183069]])

In [159]:
# посмотрим на близость слов второго текста и слов запроса
text2_m.dot(query_m.T)

array([[-0.0260624 ,  0.11607588],
       [ 0.01341236,  1.00000011],
       [ 0.22505549,  0.33582122]])

In [194]:
docs_m = [text1_m, text2_m]

    
def search(docs, query, reduce_func=np.max, axis=0):
    sims = []
    for doc in docs:
        sim = doc.dot(query.T)
        sim = reduce_func(sim, axis=axis)
        sims.append(sim.sum())
    print(sims)
    return np.argmax(sims)


search(docs_m, query_m)

[0.10770983955697251, 1.225055597288777]


1

## Задание

Реализуйте поиск по нашему стандартному Covid корпусу с помощью модели на Araneum двумя способами:

    1. преобразуйте каждый документ в вектор через усреднение векторов его слов и реализуйте поисковик как 
    обычно через умножение матрицы документов коллекции на вектор запроса 
    2. экспериментальный способ - реализуйте поиск ближайшего документа в коллекции к запросу, преобразовав 
    каждый документ в матрицу (количество слов x размер модели)
    
Посчитайте качество поиска для каждой модели на тех же данных, что и в предыдущем задании. В качестве препроцессинга используйте две версии - с удалением NER и без удаления.  

### Выбор модели

In [17]:
model_file = 'araneum_none_fasttextcbow_300_5_2018.model'
model = KeyedVectors.load(model_file)

### План разработки
1. Скопировать препроцессинги из второй домашки
2. Сделать функцию для векторного представления документа
3. Сделать функцию для матричного представления документа
4. Обработать данные без удаления NER
    - посмотреть на векторном представлении
    - посмотреть на матричном представлении
5. Обработать данные с удалением NER. - к сожалению, не успею реализовать. 

### Препроцессинги и импорты

In [18]:
import pandas as pd
import numpy as np

import string # для .punctuatuion 
import math # bm25
from collections import OrderedDict # для сортировки
from collections import Counter # для матрицы бм25

from razdel import tokenize
from pymorphy2 import MorphAnalyzer
from nltk.corpus import stopwords

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer

from natasha import (
    Segmenter,
    NewsNERTagger,
    NewsEmbedding,
    Doc
)

from tqdm import tqdm

emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)
segmenter = Segmenter()

In [19]:
# мой препроцессинг
morph = MorphAnalyzer()
stop = set(stopwords.words('russian'))

def prep(unprep):
    unprep = str(unprep)
    unprep = unprep.lower()
    unprep = unprep.replace('\n', ' ') #.punctuation не прочтет
    unprep = unprep.translate(str.maketrans('', '', string.punctuation))# https://stackoverflow.com/questions/265960/best-way-to-strip-punctuation-from-a-string
    unprep_tokenized = list(tokenize(unprep))
    lemmas = [morph.parse(i.text)[0].normal_form for i in unprep_tokenized]
    words = [i for i in lemmas if i not in stop]
    return ' '.join(words)

In [20]:
# наташа препроцессинг
def preprocess_with_natasha(text: str) -> str:
    text = str(text)
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_ner(ner_tagger)
    positions = []
    for element in doc.spans:
        positions.append([element.start, element.stop])
    lst = list(text)
    for i in positions[::-1]: # iterate from behind so index does not shrink inwards
        del lst[slice(*i)]
    text = ''.join(lst)
    text = text.replace('  ', ' ')
    text = text.replace('  ', ' ')
    text = text.replace(' .', '.')
    print(text)
    return text

### Функция для векторного представления

In [21]:
# строю по примеру выше с нормализацией
def mean_vec(text):
    # пока что пустой вектор требуемого размера
    all_words_vec = np.zeros((len(text), model.vector_size))
    # добавляю слово в вектор, если оно встречается и в тексте, и в модели 
    for word_index, word in enumerate(text):
        if word in model:
            # нормализация
            all_words_vec[word_index] = normalize_vec(model[word])
    return normalize_vec(np.mean(all_words_vec, axis=0))

### Функция для матричного представления

In [22]:
# почти то же самое, что векторная функция
def create_doc_matrix(text):
    all_words_vec = np.zeros((len(text), model.vector_size))
    for word_index, word in enumerate(text):
        if word in model.wv:
            all_words_vec[word_index] = normalize_vec(model[word])
    return all_words_vec

### Обработка данных без удаления ИмСущ

In [30]:
answers_df = pd.read_excel("answers_base.xlsx")
questions_df = pd.read_excel("queries_base.xlsx")

In [31]:
answers_df.rename(columns={'Номер связки': 'connection', 'Текст вопросов': 'text'}, inplace=True)
questions_df.rename(columns={'Номер связки\n': 'connection', 'Текст вопроса': 'text'}, inplace=True)

In [32]:
train_df, test_df = train_test_split(questions_df, test_size=0.3)
qa_df = pd.concat([answers_df, train_df])
qa_df = qa_df.drop(columns = ['Unnamed: 3','Unnamed: 4'])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


In [33]:
test_df_done = []
qa_df_done = []

for entry in tqdm(test_df['text']):
    test_df_done.append(prep(entry))
for entry in tqdm(qa_df['text']):
    qa_df_done.append(prep(entry))

both_done = qa_df_done + test_df_done

100%|██████████| 690/690 [00:09<00:00, 73.30it/s]
100%|██████████| 1652/1652 [00:23<00:00, 71.80it/s]


### Посмотрим с векторами

In [34]:
X_train = np.array([mean_vec(text) for text in qa_df_done])
X_test = np.array([mean_vec(text) for text in test_df_done])

print(X_train.shape)
print(X_test.shape)

(1652, 300)
(690, 300)


In [35]:
# посмотрим на точность
rating = X_train.dot(X_test.T).argmax(axis=0)
rating = np.array(rating)
rating_en = enumerate(rating)

In [36]:
score = 0
# сравним связки
for test_index, prediction in rating_en:
    # проверка на NaN
    if math.isnan(test_df.iloc[test_index].connection) or math.isnan(qa_df.iloc[prediction].connection):
        continue

    # если в тесте и трейне совпала связка по посчитанным индексам из рейтинга, модели плюс очко
    if int(test_df.iloc[test_index].connection) == int(qa_df.iloc[prediction].connection):
        score += 1

In [37]:
print(score / len(rating))

0.3521739130434783


почему-то сильно упало качество

### Посмотрим то же самое с матрицами

In [38]:
X_train = np.array([create_doc_matrix(text) for text in qa_df_done])
X_test = np.array([create_doc_matrix(text) for text in test_df_done])

print(X_train.shape)
print(X_test.shape)

  """


(1652,)
(690,)


In [39]:
def search(docs, query, reduce_func=np.max, axis=0):
    sims = []
    for doc in docs:
        sim = doc.dot(query.T)
        sim = reduce_func(sim, axis=axis)
        sims.append(sim.sum())
    return np.argmax(sims)

In [44]:
score = 0
# сравним связки
for test_index, query in tqdm(enumerate(X_test)):
    best_index = search(X_train, query)
    # проверка на NaN
    if math.isnan(test_df.iloc[test_index].connection) or math.isnan(qa_df.iloc[best_index].connection):
        continue

    # если в тесте и трейне совпала связка по посчитанным индексам из рейтинга, модели плюс очко
    if int(test_df.iloc[test_index].connection) == int(qa_df.iloc[best_index].connection):
        score += 1

690it [35:27,  3.08s/it]


In [45]:
print(score / len(rating))

0.17101449275362318


очевидно, что-то где-то пошло не так