<h1 align="center">Теоретическая часть</h1> 

### Контрольные вопросы

**1.** Что является объектом в задаче обучения ранжированию? Какой смысл имеют целевые метки? Какие объекты сравнимы между собой?

* *Объектами выступают пары (Запрос, Документ)*
* *Целевая метка отвечает за релевантность документа для данного запроса (то есть говорит, насколько хорошо данный текст подходит к полученному запросу)*
* *Сравнимыми между собой являются только те пары, которые отвечают одному и тому же запросу*

**2.** В чём преимущество метрики NDCG перед метрикой MAP?

*MAP работает с бинарной релевантностью: релевантен или не релевантен данный объект, в то время как NDCG позволяет релевантности быть некоторым числом, показывающим степень этой релевантности (аналогия к классификацией и регрессией). Преимущество - NDCG можно использовать вместо MAP (выберем порог), а наоборот уже не получится.*

**3.** Опишите причину неустойчивости PLSA.

*В PLSA число параметров линейно зависит от размера корпуса. То есть после обучения у нас будут много параметров, которые не определяют какой-то важный признак, а просто являются проверкой для текстов из корпуса для обучения.*

**4.** На каких выборках наиболее заметна разница в работе PLSA и LDA?

*LDA обычно работает лучше чем PLSA, потому что легко обобщается на новые тексты. В PLSA вероятность документа - какое-то фиксированное число, полученное из датасета. Если такого документа не было, то и его вероятность неизвестна. В LDA же благодаря распределению Дирихле для неизвестных документов можно получить вероятность: взять ее из распределения и затем как-то уточнять его.*

**5.** По каким причинам в ЕМ-алгоритме для тематического моделирования E-шаг встраивается внутрь М-шага?

*В straightforward подходе приходится хранить трехмерную матрицу c $n_{dwt}$, и использовать ее для подсчета $n_{wt}, n_{td}, \ldots$. Если встроить E-шаг в M-шаг, то ее хранить уже не нужно (вычисление $n_{wt}, n_{td}, \ldots$ происходит сразу) -> ускоряемся.*

**6.**  Опишите применение тематического моделирования в задаче информационного поиска.

*Тематическое моделирование может помочь в задачах:*
* *Определение темы текста*
* *Классификация корпуса текстов*
* *Кластеризация текстов*


**7.** В чем основная причина сложности обработки русского языка по сравнению с английским?

*Во-первых, в английском языке более четкая структура предложений. Во-вторых, там нет падежей. Да и вообще, словоформ меньше. Также в русском есть слова, которые могут быть разными частями речи, а писаться по разному - омонимия (это более общее понятие, которое так же сильно мешает обрабатывать тексты).*

**8.**  Каким образом парсинг зависимостей между словами помогает в решении задач обработки естественного языка?

*Можно создать более адекватные модели. Например, расммотрим задачу машинного перевода. Пусть модель читает слово и предсказывает следующее. Если известны зависимости между словами, то модель будет понимать, что если сейчас рассматривается предлог, то после него вероятнее всего будет существительное, а не глагол -> меньше шансов ошибиться (получится хорошая модель).*

**9.**  Что такое кореференции?

*Кореференция - отсылка к объекту при помощи специальных указателей. Это могут быть местоимения, аббревиатуры, словообразования. Они могут привнести новые признаки - поэтому кореференции надо уметь разрешать. Тут может помочь лемматизация, стэмминг, удаление стоп-слов, удаление слишком коротких слов.*

**10.**  В чем отличие между CBOW и Skip-gram?

*В CBOW мы по сумме контекстных векторов предсказывается вектор центрального слова, а в Skip-gram - наоборот, контекст по центральному слову.*

### Задачи

**Задача 1**

Посчитайте PageRank для заданного графа вручную и при помощи алгоритма, описанного в семинаре. Результаты сравните.

<img width=300 src="./gr1.png">

**Решение**

Всего на графе 9 вершин. Занумеруем их следующим образом:
* 0 - центральная
* номера с 1 по 8 присвоим вершинам по часовой стрелке, начиная с самой верхней

Отметим, что в силу симметрии, здесь будет только два разных значения $PR$ - для центральной вершины, и для всех остальных. Для удобства обозначим их за $y$ и $x$.

Будем считать, что $\delta = 0.85.$

$$PR(0) = \cfrac{1 - 0.85}{9} + 0.85 \cdot \sum_{i \in \{1, \ldots, 8\}} \cfrac{PR(i)}{3}$$
$$PR(i) = \cfrac{1 - 0.85}{9} + 0.85 \cdot \left[\cfrac{PR(0)}{9} + \sum_{j \in \{j-1, j+1\}} \cfrac{PR(j)}{3}\right]$$

Эту систему можно переписать в следующем виде:

$$y = \cfrac{1}{60} + 0.85 \cdot \cfrac{8x}{3}$$
$$x = \cfrac{1}{60} + 0.85 \cdot \left[\cfrac{y}{9} + \cfrac{2x}{3}\right]$$

Решая ее, получим следующее

$$PR(0) = y = \cfrac{729}{3552} \approx 0.205$$
$$PR(i) = x = \cfrac{197}{2368} \approx 0.083$$

In [1]:
import numpy as np

In [2]:
n_pages = 9
M_counts = np.zeros((n_pages, n_pages))

M_counts[:,0] = 1
M_counts[0,1] = 1
M_counts[2,1] = 1
M_counts[8,1] = 1
M_counts[0,2] = 1
M_counts[1,2] = 1
M_counts[3,2] = 1
M_counts[0,3] = 1
M_counts[2,3] = 1
M_counts[4,3] = 1
M_counts[0,4] = 1
M_counts[3,4] = 1
M_counts[5,4] = 1
M_counts[0,5] = 1
M_counts[4,5] = 1
M_counts[6,5] = 1
M_counts[0,6] = 1
M_counts[5,6] = 1
M_counts[7,6] = 1
M_counts[0,7] = 1
M_counts[6,7] = 1
M_counts[8,7] = 1
M_counts[0,8] = 1
M_counts[7,8] = 1
M_counts[1,8] = 1

In [3]:
M = np.empty((n_pages, n_pages))
for j in range(n_pages):
    M[:,j] = M_counts[:,j] / M_counts[:,j].sum()
np.set_printoptions(precision=3)

In [4]:
def check_M(M):
    n_pages = M.shape[0]
    np.testing.assert_equal(M.shape[0], M.shape[1], err_msg = 'M should be square')
    np.testing.assert_array_almost_equal(M.sum(axis=0), np.ones((n_pages)), 
                                         err_msg = 'assert each column sums to one (M is assumed column-stochastic)')
    for j in range(n_pages):
        M_column = M[:,j]
        n_nonzero = np.count_nonzero(M[:,j])
        np.testing.assert_array_almost_equal(M_column[M_column.nonzero()], np.ones((n_nonzero)) / n_nonzero,
                                             err_msg = 'in column %g, all non-zero entries should be equal (and equal to 1 divided by their number)' % j)

In [5]:
check_M(M)

In [6]:
def pagerank(M, d=0.85, square_error=1e-6):
    n_pages = M.shape[0]
    v = np.random.rand(n_pages)
    v = v / v.sum()
    last_v = np.ones((n_pages))
    M_hat = d * M + (1-d)/n_pages * np.ones((n_pages, n_pages))
    while np.square(v - last_v).sum() > square_error:
        last_v = v
        v = M_hat.dot(v)
    return v

In [7]:
pagerank(M)

array([0.252, 0.094, 0.093, 0.094, 0.093, 0.094, 0.093, 0.094, 0.093])

*Ответы разные, потому что алгоритм с семинара не учитывает телепортацию.*

**Задача 2**

Пользователь браузера в дополнение к кликам по ссылкам один раз может перейти по кнопке *Назад* и вернуться на предыдущую страницу. Можно ли такую модель описать с помощью однородной марковской цепи? Если да, опишите, если нет, докажите.

**Решение**

Введем дополнительный символ - $\$$, который будет показывать, что страницы *Назад* не существует. Будем работать со множеством состояний $\mathbf{X} = \{(u, v)\ \|\ u \in V,\ v \in V \cup \{\$\}\}$. Пусть $p$ - вероятность телепоратции, $q$ - вероятность *Назад*. Тогда для переходных вероятностей можем записать следующее

$$p_{ij} = \cfrac{p}{|V|} + \cfrac{1 - p - q}{N_{i}} \cdot I\{(u_{i}, u_{j}) \in E\} + q \cdot I\{\xi_{0} = (i, k),\ k \ne \$\},\ N_{i} > 0$$
$$p_{ij} = \cfrac{1 - q}{|V|} + q \cdot I\{\xi_{0} = (i, k),\ k \ne \$\},\ N_{i} = 0$$

где $N_{i} = \#\{\ j\ \|\ (u_{i}, u_{j}) \in E\}$.

Матрица переходных вероятностей задает марковскую цепь.

Так как $p_{ij}$ не зависит от $n$, то марковская цепь является однородной.

**Задача 3** (3%)

Опишите вероятностные предположения, на которые опирается  TF-IDF при подсчете вероятностей.

Пусть задана колекция текстовых документов $d_1, d_2,\ldots, d_n$, состоящая из двух видов слов: $w_1$ и $w_2$. В документе $d_i$ ровно $k_{i1}$ слов $w_1$ и $k_{i2}$ слов $w_2$.

Оцените вероятность втретить $k$ раз слово $w_1$. Сравните с оценкой вероятности, используемой в TF-IDF. 

Совпадают ли эти значения? Если нет, проведите анализ "источника" различий.

**Решение**

* Предположения

Предполагается, что появление слов в документе не зависит от документа.

* tf-idf

$$P = \left(\cfrac{\sum_{i=1}^{n}I\{k_{i1} > 0\}}{n}\right)^{k}$$

* Честный подход

$$P = \sum_{S} \prod_{i=1}^{n} P(i, s_{ji})$$
$$P(i, s_{ji}) = \cfrac{k_{i1}}{k_{i1} + k_{i2}} \cdot \cfrac{k_{i1} - 1}{k_{i1} + k_{i2} - 1} \cdot \ldots \cdot \cfrac{k_{i1} - s_{ji} + 1}{k_{i1} + k_{i2} - s_{ji} + 1}$$
$$S = \{S_{j}: \sum_{i=1}^{n}s_{ji} = k,\ s_{ji} < k_{i1}\}$$

Различие заключается в том, что tf-idf подходит смотрит лишь на то, есть ли слово в документе, или нет, в то время как честный подход еще и учитывает, сколько этих слов было в документе.

**Задача 4**

Задано 10 документов. Их отранжировали идеально, а затем 4 и 6 документы поменяли местами. 
Подсчитайте коэффициент ранговой корреляции ($\tau$ Кенделла).

**Решение**

После того, как местами поменяли 4 и 6 документы, появилось 3 инверсии порядка. Тогда 

$$\tau = 1 - 2 \cdot \cfrac{2}{9 \cdot 10} \cdot 3 = \cfrac{13}{15}$$

**Задача 5**

С какой целью общеупотребительные слова исключают из рассмотрения при построении тематической модели? Если их не исключать, как это отразится на матрицах $\Phi$ и $\Theta$?

**Решение**

Если оставить общеупотребительные слова, то при вычислении элементов матрицы $\Phi_{0}$ произойдет следующее: для общеупотребительных слов $\phi_{wt}$ станет очень большим числом (так как $n_{wt}$ будет большим, а $n_{t}$ не изменится). Аналогично будут увеличиваться $\theta_{td}$ (так как в теме $t$ теперь могут найтись общеупотребительные слова). Тогда матрицы $\Phi_{0}$ и $\Theta_{0}$ не будут разреженными - не будут устойчиво восстанавливаться матрицы $\Phi$ и $\Theta$.

**Задача 6**

Задано значение $KL(P∥Q)$. Можно ли оценить значение $KL(Q∥P)$? Если да, то оцените; если нет, то обоснуйте.

**Решение**

* Если KL = 0, то RKL = 0
* Если KL > 0, то RKL может относиться к KL как угодно

In [8]:
P = [0.36, 0.48, 0.16] # Binomial distribution with N = 2, p = 0.4
Q = [0.333, 0.333, 0.333] # Uniform distribution with N = 2

kl = 0
for i in range(len(P)):
    kl += Q[i] * np.log(Q[i] / P[i])

reverse_kl = 0
for i in range(len(P)):
    reverse_kl += P[i] * np.log(P[i] / Q[i])

print('KL: {:.4f}\tRKL: {:.4f}'.format(kl, reverse_kl))

KL: 0.0964	RKL: 0.0863


In [9]:
P = [0.25, 0.25, 0.25, 0.25] # Uniform distribution with N = 3
Q = [0.216, 0.432, 0.288, 0.064] # Binomial distribution with N = 3, p = 0.4

kl = 0
for i in range(len(P)):
    kl += Q[i] * np.log(Q[i] / P[i])

reverse_kl = 0
for i in range(len(P)):
    reverse_kl += P[i] * np.log(P[i] / Q[i])

print('KL: {:.4f}\tRKL: {:.4f}'.format(kl, reverse_kl))

KL: 0.1583	RKL: 0.2051


In [10]:
P = [0.36, 0.48, 0.16] # Binomial distribution with N = 2, p = 0.4
Q = [0.16, 0.48, 0.36] # Binomial distribution with N = 2, p = 0.6

kl = 0
for i in range(len(P)):
    kl += Q[i] * np.log(Q[i] / P[i])

reverse_kl = 0
for i in range(len(P)):
    reverse_kl += P[i] * np.log(P[i] / Q[i])

print('KL: {:.4f}\tRKL: {:.4f}'.format(kl, reverse_kl))

KL: 0.1622	RKL: 0.1622


**Задача 7**

Рассмотрим пример из семинара

In [11]:
import spacy
from spacy import displacy

text = """But Google is starting from behind. The company made a late push
into hardware, and Apple’s Siri, available on iPhones, and Amazon’s Alexa
software, which runs on its Echo and Dot devices, have clear leads in
consumer adoption."""

nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
displacy.render(doc, style='ent', jupyter=True)

Найдите способ устранить хотябы часть некорректных меток географических объектов.

In [12]:
# Idea: seems that for spacy \n plays big role for NER
# Solution: let's flatten the text
# As we can see, there is no strange (blank) `GPE` labels
text = 'But Google is starting from behind. The company made a late push into hardware, ' + \
    'and Apple’s Siri, available on iPhones, and Amazon’s Alexa software, ' + \
    'which runs on its Echo and Dot devices, have clear leads in consumer adoption.'
doc = nlp(text)
displacy.render(doc, style='ent', jupyter=True)

In [13]:
# Idea: let's play around `Echo` word
# Solution: add 1 additional whitespace before `Echo` word
# As we can see, `Echo` gets correct (I assume so) label
text = 'But Google is starting from behind. The company made a late push into hardware, ' + \
    'and Apple’s Siri, available on iPhones, and Amazon’s Alexa software, ' + \
    'which runs on its  Echo and Dot devices, have clear leads in consumer adoption.'
doc = nlp(text)
displacy.render(doc, style='ent', jupyter=True)

<h1 align="center">Практическая часть</h1>

* Ссылка на контест: http://www.kaggle.com/c/mipt-ml-fall2018-hw3

# Описание форматов

Вам выдается 4 файла:

* `relevance_train.csv` --- обучающая выборка пар запрос-документ и асессорские метки релевантности (все документы имеют одинаковую релевантность, т.е. можно считать, что выданы просто релевантные документы).
* `relevance_test.csv` --- тестовая выборка пар запрос-документ
* `queries.csv` --- запросы из `relevance_test.csv` и `relevance_train.csv` (в формате id запроса, текст запроса)
* `documents.csv` --- документы из `relevance_test.csv` и `relevance_train.csv`

Колонки в первых трёх файлах могут быть следующего типа:

* `QueryId` --- уникальный номер запроса
* `DocumentId` --- номер документа, не повторяется для одного запроса
* `Relevance` --- асессорская метка релевантности

Формат файла ответов приведен ниже. Пары запрос-документ должны соответсвовать файлу `relevance_test.csv` и должны быть упорядочены по убыванию построенной функции релевантности.

Файл `stopwords.csv` содержит стоп-слова, а `sample_submission.csv` - это пример сабмита, который нужно отправлять в качестве ответа.

In [14]:
import re
import nltk

import numpy as np
import pandas as pd

from string import punctuation
from nltk import PorterStemmer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/king/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [15]:
# First we need to create corpus
def read_texts(filepath='data/documents.csv'):
    # Placeholders
    texts = []
    text = []

    # Split large file into lines
    with open(filepath) as fd:
        # Don't forget to lower each line
        lines = [line.lower().strip() for line in fd]

    # New text starts with a special line -> use it to divide texts
    for line in lines:
        if re.match('\*text \d+', line):
            text = ' '.join(text)
            if len(text) > 0:
                texts.append(text)
            text = []
        else:
            text.append(line)

    # Don't forget about last text
    text = ' '.join(text)
    if len(text) > 0:
        texts.append(text)

    return texts

In [16]:
# Then we do the same stuff with queries
def read_queries(filepath='data/queries.csv'):
    # Placeholder
    queries = []

    # Split large file into lines
    with open(filepath) as fd:
        # Don't forget to lower each line
        lines = [line.lower().strip() for line in fd]

    # Remove numbers from the start of the each line
    for line in lines:
        line = re.sub('^\d+,', '', line)
        queries.append(line)

    return queries

In [17]:
# Wrap stopwords retrival into nice function
def read_stopwords(filepath='data/stopwords.csv'):   
    with open(filepath) as fd:
        # Don't forget to lower each word
        stopwords = [line.lower().strip() for line in fd]
    
    return stopwords

In [18]:
# Idea: if word lies in stopwords, than we skip it
def remove_stopwords(texts, stopwords):
    clear_texts = []
    
    for text in texts:
        clear_text = []
        for word in text.split():
            if not (word in stopwords):
                clear_text.append(word)
        clear_text = ' '.join(clear_text)
        clear_texts.append(clear_text)
    
    return clear_texts

In [19]:
# Idea: if character is a punctuation symbol, than we skip it
def remove_punctuation(texts):
    clear_texts = []
    
    for text in texts:
        clear_text = []
        for word in text:
            if not (word in punctuation):
                clear_text.append(word)
        clear_text = ''.join(clear_text)
        # Strip and sub, because we don't need extra whitespaces
        clear_texts.append(re.sub('\s+', ' ', clear_text).strip())
    
    return clear_texts

In [20]:
# Idea: let's just stem, because it's a well-known practice
def stem(texts):
    stemmer = PorterStemmer()
    return [' '.join([stemmer.stem(word) for word in word_tokenize(sentence)]) for sentence in texts]

In [21]:
# Nice wrapper
def process_texts(texts, stopwords):
    texts = remove_stopwords(texts, stopwords)
    texts = remove_punctuation(texts)
    texts = stem(texts)
    return texts

---

**Основная идея:** давайте просто переведем все в вектора (то есть заэмбедим все), а затем для векторов запросов найдем ближайшие k векторов текстов. Я что-то похожее делал в домашке по нлп на кафедре, поэтому решил и здесь попробовать.

В итоге я попробовал разные вариации параметров, но подход не менялся.

---

In [22]:
texts = read_texts()
queries = read_queries()
stopwords= read_stopwords()

In [23]:
texts = process_texts(texts, stopwords)
queries = process_texts(queries, stopwords)
corpus = texts + queries

In [24]:
vectorizer = TfidfVectorizer(ngram_range=(1, 2))
vectorizer.fit(corpus)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 2), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [25]:
matrix = []
for query in queries:
    row = []
    for text in texts:
        q_emb = vectorizer.transform([query])
        t_emb = vectorizer.transform([text])
        row.append(cosine_similarity(q_emb, t_emb)[0][0])
    matrix.append(row)
matrix = np.array(matrix)

In [26]:
places = [row.argsort()[-10:][::-1] for row in matrix]

In [27]:
with open('data/relevance_test.csv') as fd:
    lines = [line.lower().strip() for line in fd]

text_idxs = []
query_idxs = []
    
for line in lines[1:]:
    query_idxs.append(int(line))
    text_idxs.append(places[int(line) - 1] + 1)

In [28]:
with open('data/submission_30_10_2018_23_10.csv', 'w') as fd:
    fd.write('QueryId,DocumentId')
    for idx in range(len(text_idxs)):
        for i in range(len(text_idxs[idx])):
            fd.write('\n{},{}'.format(query_idxs[idx], text_idxs[idx][i]))

In [29]:
places = [row.argsort()[-20:][::-1] for row in matrix]

In [30]:
with open('data/relevance_test.csv') as fd:
    lines = [line.lower().strip() for line in fd]

text_idxs = []
query_idxs = []
    
for line in lines[1:]:
    query_idxs.append(int(line))
    text_idxs.append(places[int(line) - 1] + 1)

In [31]:
with open('data/submission_30_10_2018_23_20.csv', 'w') as fd:
    fd.write('QueryId,DocumentId')
    for idx in range(len(text_idxs)):
        for i in range(len(text_idxs[idx])):
            fd.write('\n{},{}'.format(query_idxs[idx], text_idxs[idx][i]))

---

In [32]:
texts = read_texts()
queries = read_queries()
stopwords= read_stopwords()

In [33]:
texts = process_texts(texts, stopwords)
queries = process_texts(queries, stopwords)
corpus = texts + queries

In [34]:
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [35]:
matrix = []
for query in queries:
    row = []
    for text in texts:
        q_emb = vectorizer.transform([query])
        t_emb = vectorizer.transform([text])
        row.append(cosine_similarity(q_emb, t_emb)[0][0])
    matrix.append(row)
matrix = np.array(matrix)

In [36]:
places = [row.argsort()[-10:][::-1] for row in matrix]

In [37]:
with open('data/relevance_test.csv') as fd:
    lines = [line.lower().strip() for line in fd]

text_idxs = []
query_idxs = []
    
for line in lines[1:]:
    query_idxs.append(int(line))
    text_idxs.append(places[int(line) - 1] + 1)

In [38]:
with open('data/submission_31_10_2018_17_30.csv', 'w') as fd:
    fd.write('QueryId,DocumentId')
    for idx in range(len(text_idxs)):
        for i in range(len(text_idxs[idx])):
            fd.write('\n{},{}'.format(query_idxs[idx], text_idxs[idx][i]))

---

In [39]:
texts = read_texts()
queries = read_queries()
stopwords= read_stopwords()

In [40]:
def _process_texts(texts, stopwords):
    texts = remove_stopwords(texts, stopwords)
    texts = remove_punctuation(texts)
    return texts

In [41]:
texts = _process_texts(texts, stopwords)
queries = _process_texts(queries, stopwords)
corpus = texts + queries

In [42]:
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [43]:
matrix = []
for query in queries:
    row = []
    for text in texts:
        q_emb = vectorizer.transform([query])
        t_emb = vectorizer.transform([text])
        row.append(cosine_similarity(q_emb, t_emb)[0][0])
    matrix.append(row)
matrix = np.array(matrix)

In [44]:
places = [row.argsort()[-10:][::-1] for row in matrix]

In [45]:
with open('data/relevance_test.csv') as fd:
    lines = [line.lower().strip() for line in fd]

text_idxs = []
query_idxs = []
    
for line in lines[1:]:
    query_idxs.append(int(line))
    text_idxs.append(places[int(line) - 1] + 1)

In [46]:
with open('data/submission_31_10_2018_18_40.csv', 'w') as fd:
    fd.write('QueryId,DocumentId')
    for idx in range(len(text_idxs)):
        for i in range(len(text_idxs[idx])):
            fd.write('\n{},{}'.format(query_idxs[idx], text_idxs[idx][i]))