## Векторные представления слов и предложений (семинар 26.10.17)

**Дедлайны:** 9.00 утра 5 октября (очники), 9.00 утра 8 октября (заочники).

На этом семинаре мы проверим, способен ли простой подход на основе векторных представлений слов, находить вопросы-дубликаты на StackOverflow. Для этого мы подготовили для вас выборку дубликатов и выложили на страницу курса.


**План действий:**

* Скачаем предобученные вектора модели word2vec (с тем же успехом могли бы взять и вектора моделей GloVe, FastText, или любые другие).
* Усредним вектора слов в вопросе, чтобы получить представление всего вопроса.
* Отранжируем по вопросу-запросу набор из 100 случайных вопросов и 1 вопроса-дубликата. Будем использовать косинусную меру близости между векторами вопросов.
* На каком месте в выдаче окажется вопрос-дубликат? Оценим качество ранжирования.


В данном задании понадобятся:
- Предобученные вектора слов (GoogleNews-vectors-negative300)
- Данные о дубликатах вопросов с stackoverflow для анализа качества

In [1]:
import gensim
import numpy as np

### Загрузка предобученных векторов

Скачайте предобученные вектора https://code.google.com/archive/p/word2vec/ (GoogleNews-vectors-negative300) и создайте объект в gensim: https://radimrehurek.com/gensim/models/keyedvectors.html.

In [2]:
from gensim.models.keyedvectors import KeyedVectors

In [3]:
embeddings = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True, limit=700000)

assert embeddings.most_similar(positive=['queen', 'man'], negative=['woman'], topn=1)[0][0] == 'king'

### Загрузка тестового датасета

В данном задании обучать ничего не нужно, поэтому достаточно загрузить только тестовый датасет. Это список пар очищенных вопросов-дубликатов со StackOverflow.

In [4]:
def read_question_duplicates(filepath):
    """Reads duplicate questions from file. filename. 
    
    Args:
        filepath: full path the the file with duplicate questions.
        
    Returns:
        questions (a list of strings): All questions from data.
        duplicate_idxs (a list of tuples of ints): Indices for duplicate questions.
    """
    
    questions_all = []
    duplicate_idxs = []
    current_idx = 0
    with open(filepath, 'r') as f:
        for row in f.readlines():
            questions = row.lower().strip().split("\t")
            assert len(questions) >= 2
            questions_all.extend(questions[:2])
            duplicate_idxs.append((current_idx, current_idx+1))
            current_idx += 2
    return questions_all, duplicate_idxs

In [5]:
questions, duplicate_idxs = read_question_duplicates('duplicate_questions.txt')

### Ранжирование и оценка качества

Если векторные представления для текстов (вопросов из stackoverflow) получаются хорошими, то косинусное расстояние между дубликатами должно получаться меньше, чем расстояние до случайного текста.
Поэтому для каждой пары дубликатов сгенерируем N случайных отрицательных текстов и посчитаем метрику DCG (https://en.wikipedia.org/wiki/Discounted_cumulative_gain). Будем считать, что релевантности случайных примеров равны 0, а релевантность истинного дубликата равна 1.

$$
DCG_k = \sum_{i=1}^k \frac{rel_i}{\log (1 + i)}   =\frac{1}{\log(1+rank_{dup})} \cdot [rank_{dup} < k],
$$

где $rank_{dup} \in [1, k]$ - позиция дубликата в отсортированном списке близости векторных представлений. Чем она больше, тем ближе дубликат по косинусному расстоянию к запросу и тем лучше наши векторные представления.

In [13]:
import math

In [82]:
def evaluate_dcg(object_vecs, duplicate_idxs, negative_idxs, k_values):
    """ 
    Ranks candidates by their embeddings and evaluates the ranking by DCG metric.
    
    Args:
        object_vecs (ndarray): Embeddings for all objects (questions).
        duplicate_idxs (list([ind1, ind2])): Duplicate indices (as defined by order in object_vecs).
        negative_idxs (list([ind_neg1, ... ind_negN])): Indices of negative objects for each duplicate pair.
        k_values (list): Several sizes of ranked lists for computing DCG@k.
    
    Returns:
    
        dcg_values (list): Computed values of DCG_at_k for each k (averaged over examples).
    """
    
    assert len(duplicate_idxs) == len(negative_idxs)
    
    # List (by a number of queries) of lists (by a number of different k) of dcg_at_k values. 
    dcg_values = []
    index = -1
    eps = 1e-9
    
    for (duplicate_ind1, duplicate_ind2), neg_indxs in zip(duplicate_idxs, negative_idxs):
        negative_size = len(neg_indxs)
        repeated_query = np.repeat(duplicate_ind1, negative_size + 1)
        candidates = np.hstack([duplicate_ind2, neg_indxs])
        
        similarities = []
        for query_indx, candidate_indx in zip(repeated_query, candidates):
            query = np.array(object_vecs[query_indx])
            candidate = np.array(object_vecs[candidate_indx])
            similarity = (query * candidate).sum() / (math.sqrt((query * query).sum()) + eps) / (math.sqrt((candidate * candidate).sum()) + eps)
            similarities.append(similarity)
        similarities = np.array(similarities)    
        args_sim = np.argsort(similarities)[::-1]
        rank_dub = list(args_sim).index(0) + 1
        dcg_values.append([])
        index = index + 1
        for k in k_values:
            if rank_dub <= k:
                dcg_values[index].append(1. / math.log(1 + rank_dub, 2))
            else:
                dcg_values[index].append(0.)
        
    # Average over different queries.
    dcg_values = np.mean(dcg_values, axis=0)
    
    for k, dcg in zip(k_values, list(dcg_values)):
        print("DCG@{k}: {dcg}".format(k=k, dcg=dcg))
        
    return dcg_values

В качестве отрицательных примеров будем брать случайные вопросы:

In [65]:
np.random.seed(249)
negative_size = 100
random_negative_idxs = [np.random.choice([idx for idx in range(len(questions))
                                          if idx not in di], 
                                          replace=False, 
                                          size=negative_size) for di in duplicate_idxs]

### Построение векторных представлений вопросов

Самый простой способ получить векторное представление вопроса - усреднить вектора его слов. Релизуйте функцию ниже.

In [91]:
def question2vec_mean(questions, embeddings):
    """ 
    Computes question embeddings by averaging word embeddings.
    
    Args:
      questions (list of strings): List of questions to be embedded.
      embeddings (gensim object): Pre-trained word embeddings.
      
    Returns:
      ndarray of shape [num_questions, embed_size] with question embeddings.
    """
    
    questions_embeddings = []
    for question in questions:
        words = question.split(' ')
        average_emb = np.zeros(embeddings.vector_size)
        words_found = 0
        for word in words:
            current_word = word
            while not current_word in embeddings:
                if len(current_word) == 0:
                    break
                current_word = current_word[:-1]
            if len(current_word) != 0:
                average_emb = average_emb + np.array(embeddings[current_word])
                words_found = words_found + 1
        if words_found != 0:
            average_emb = average_emb / words_found
            questions_embeddings.append(average_emb)
        else:
            questions_embeddings.append(np.ones(embeddings.vector_size) / len(words))
    return np.array(questions_embeddings)

In [92]:
question_vecs = question2vec_mean(questions, embeddings)

In [68]:
assert question_vecs.shape[1] == 300

Произведем оценку качества векторных представлений для вопросов.

In [93]:
dcg_values = evaluate_dcg(question_vecs, duplicate_idxs, random_negative_idxs, [1,5,10,100])

DCG@1: 0.4871447902571042
DCG@5: 0.5679766161787875
DCG@10: 0.5879186049239288
DCG@100: 0.6473943264591171


In [60]:
assert dcg_values[0] > 0.44

AssertionError: 

Теперь придумайте более продвинутый алгоритм, чтобы побить **порог 0.46 для DCG@1**. Например, можно подобрать схему взвешивания векторов слов, получше предобработать тестовые предложения, или придумать что-нибудь еще. 

In [7]:
def question2vec_advanced(questions, embeddings):
    """ 
    Computes question embeddings by using any heuristics.
    
    Args:
      questions (list of strings): List of questions to be embedded.
      embeddings (gensim object): Pre-trained word embeddings.
      
    Returns:
      ndarray of shape [num_questions, embed_size] with question embeddings.
    """
    
    # Your code here.
    #
    #
    #
    ###################
        
    pass

In [29]:
question_vecs = question2vec_advanced(questions, embeddings)

In [None]:
assert question_vecs.shape[1] == 300

In [None]:
dcg_values = evaluate_dcg(question_vecs, duplicate_idxs, random_negative_idxs, [1,5,10,100])

In [212]:
assert dcg_values[0] > 0.46

На этом сдаваемая часть задания заканчивается, и начинается тьюториал по библиотеке Faiss для быстрого поиска ближайших соседей в нашем векторном пространстве слов.

## Tutorial: Faiss

**Следующий пункт не явялется обязательным, но рекомендуется для ознакомления.** Далее используется библиотека https://github.com/facebookresearch/faiss

Для оценки качества векторных представлений для предложений ранее, мы выбирали негативные примеры как рандомные предложения из корпуса. И так как рандомный пример скорее всего не близок к текущему (например из другого раздела на сайте stackoverflow), в среднем мы получаем хоршие значения метрики  DCG. Однако мы можем брать самые близкие примеры из корпусапо косинуснуму расстоянию, таким образом получая сильные отрицательные примеры.

Если мы для каждого вектора будем считать попарные расстояния с каждым вектором из корпуса, это займет очень много времени (N^2 для всех векторов). Библиотека faiss позволяет быстро и эффективно находить k-ближайших **dense** векторов по разным метрикам (L2, косинусное расстояние и т.д). Также данная библиотека поддерживает работу на GPU.

Быстро находить близкие dense-вектора полезно во многих задачах - поиск ближайших изображений, поиск кандидатов для рекомендаций и т.д.

In [32]:
import faiss

In [33]:
negative_size = 100

In [34]:
dim = 300
index = faiss.IndexFlatIP(dim)

Так как из коробки библиотека не нормирует вектора, нужно сначала их отнормировать, чтобы получать корректные косинусные расстояния.

In [None]:
question_normed = question_vecs_mean_word / np.linalg.norm(question_vecs_mean_word, axis=1)[:, np.newaxis]
question_normed = question_normed.astype(np.float32)

Добавим вектора в индекс.

In [36]:
index.add(question_normed)

In [37]:
%%time
n_neighbors = negative_size + 2
_, neighbors_list = index.search(question_normed, n_neighbors)

CPU times: user 2min 29s, sys: 4min 12s, total: 6min 42s
Wall time: 25.6 s


Видим, что поиск 100 ближайших соседей для всех векторов в корпусе занял довольно мало времени.

Далее для каждой пары дубликатов найдем ближайшие отрицательные примеры как ближайшие к первому вектору.

In [38]:
strong_negative_idxs = [[idx for idx in neighbors_list[dup_ind1] if idx not in (dup_ind1, dup_ind2)][:negative_size] 
                        for dup_ind1, dup_ind2 in duplicate_idxs]

In [40]:
_ = evaluate_dcg(question_vecs, duplicate_idxs, strong_negative_idxs, [1,5,10,100])

18475it [00:13, 1388.99it/s]

DCG@1: 0.1411637347767253
DCG@5: 0.18647366877376192
DCG@10: 0.1979738058932608
DCG@100: 0.22392785361147613





Метрика DCG в данном случае получилась значительно меньше. Зато в реальных задачах часто лучше сравниваться не с рандомными примерами, а с отрицательными примерами на которых большой шанс ошибиться.


Далее посмотрим какие отрицательные примеры мы получаем в случае ближайших векторов.

In [44]:
print("question: '{}'\n".format(questions[0]))
print("duplicate question: '{}'\n".format(questions[1]))
for i in range(4):      
    print("negative sample question {}: '{}'".format(i, questions[strong_negative_idxs[0][i]]))

question: 'how to print a binary heap tree without recursion'

duplicate question: 'how do you best convert a recursive function to an iterative one'

negative sample question 0: 'how to find the height of a node in binary tree recursively'
negative sample question 1: 'how to delete all nodes of a binary search tree'
negative sample question 2: 'recursion and binary trees'
negative sample question 3: 'get all possible binary trees using prolog'


Как видим, в качестве отрицательных примеров мы взяли довольно похожие сообщения.