# Информационный поиск

**Ранжирование** — это сортировка каких-либо объектов из соображения их относительной релевантности («важности»).

Где применяется:

* Поиск по текстовым документам

* Поиск по другим объектам: картинкам, видео, музыке, товарам, etc.

* Рекомендательные и рейтинговые системы, коллаборативная фильтрация

* Нахождение определений, вопросно-ответные системы

* Оценка важности писем, фильтрация спама

* Выбор лучшего варианта в машинном переводе и распознавании речи

* Автодополнение в умных клавиатурах, подсказки в поиске

* Поиск подходящего ответа в разговорных чат-ботах

**Как измерять качество ранжирования.**

У ранжируемых объектов есть какое-то число $r_i$, соответствующее «эталонной» релевантности. Существует два основных способа его получения:

1. На основе исторических данных. Например, в случае рекомендаций контента, можно взять просмотры (клики, лайки, покупки) пользователя и присвоить просмотренным весам соответствующих элементов 1, а всем остальным — 0.  
2. На основе экспертной оценки. Например, в задаче поиска, для каждого запроса можно привлечь команду асессоров, которые вручную оценят релевантности документов запросу. Обычно оценка категориальная (то есть не действительное число, а несколько градаций, скажем, 2, 3 или 5). 

Дальше возникает задача оценить качество ранжирования в целом, уже имея информацию о релевантности каждого элемента по отдельности. Условно, от идеального ранжирования мы хотим, чтобы объекты шли в порядке убывания релевантности, но есть несколько способов задать такие метрики.

**Precision at k (p@k)** — «точность на $K$ элементах». Допустим, наш алгоритм ранжирования выдал оценки релевантности для каждого элемента. Отобрав среди них первые $k$ элементов с наибольшим $r_i$ посчитаем среди них долю релевантных — это и называется precision at k.

**MRR** — mean reciprocal rank, дословно «средний обратный ранг».

Эта метрика никак не учитывает абсолютные значения релевантности, а только их относительный порядок. Пусть $i$-тый самый релевантный элемент в нашем упорядочивании оказался на позиции $rank_i \in [1, N]$. Тогда MRR считается как:

$$
MRR@k = \frac{1}{K} \sum_{i=1}^K \frac{1}{rank_i}
$$

Чаще всего считают MRR@1, то есть просто по большому количеству запросов смотрят, на какой позиции находится самый подходящий документ, и усредняют обратные к этим позициям.

**DCG** — discounted cumulative gain. Учитывает одновременно и значения релевантностей, и их порядок, путем домножения релевантности на вес, равный обратному логарифму номера позиции:

$$
DCG = \sum_{i=1}^N \frac{rel_i}{\log_2 (i+1)}
$$

У неё есть проблема, связанная с тем, что, по-первых, оценки релевантности могут быть неотмасштабированными, и, во-вторых, на больших последовательностях она выше.

Поэтому вводят $nDCG$ («нормализованный DCG» принимающий значения от 0 до 1), равный отношению DCG данного ранжирования к «идеальному», то есть максимально возможному (iDCG):

$$
nDCG = \frac{DCG}{iDCG}
$$

$iDCG$ можно получить, отсортировав выдачу по реальным релевантностям и посчитав DCG на нём.

**Информационным поиском** (*information retrieval*) называют процесс поиска неструктурированной информации в (большой) коллекции документов, а также некоторые оффтопные задачи, вроде кластеризации документов (склейки дубликатов), нахождения и фильтрации нежелательного контента, аннотирования, и т. д.

Поиск это вообще не очень формально поставленная задача. В сервисах, где на его качество не пофиг, обычно даже разделяют команду на две: одна определяет, что такое хорошая выдача (то есть придумывает метрику), а вторая играется в каггл.

Метрику обычно даже придумывают не сразу, а делают несколько аппроксимаций того, чего в конечном итоге хотят.

* На верхнем уровне может быть что-то вроде количества пользователей (retention, деньги, цена акций etc.).

* Чтобы её оптимизировать, пытаются посчитать условное «счастье пользователя» — по логам целой сессии определить её успешность.

* Потом привлекают асессоров и с учетом оценок пытаются понять, как данное ранжирование результатов повлияло на счастье.

* Потом из этой метрики делают уже что-то, что можно оптимизировать напрямую методами машинного обучения. 

Для поиска есть даже [отдельная мини-конференция](%5Bhttps://ru.wikipedia.org/wiki/%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_%D0%BF%D0%BE_%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%BE%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B0%5D(https://ru.wikipedia.org/wiki/%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_%D0%BF%D0%BE_%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%BE%D0%B2_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B0), на которой занимаются только метриками. Но в конечном итоге последняя, самая интересная часть, сводится к ранжированию.

**pFound.** В Яндексе для поисковых задач когда-то придумали и [до сих пор повсеместно используют](https://catboost.ai/docs/references/pfound.html) метрику, которая называется pfound — грубо говоря, вероятность того, что пользователь найдёт на странице выдачи (среди первых $n$ документов) то, что искал.

$$
pfound = \sum_{i=1}^n pLook(i) \cdot pRel(i)
$$

Где $pLook$ определяется рекурсивно, как вероятность того, что пользователь вообще посмотрит на $i$-тый документ:

$$
pLook(i) = \begin{cases}
1, &i=1\\
pLook(i-1) \cdot (1 - pRel(i-1)), &i > 1
\end{cases}
$$

Интуиция такая: пользователь просматривает страницы выдачи сверху вниз, пока не найдёт релевантный документ, вероятность чего равна $pRel(i) = f(r_i)$, то есть как-то зависит от асессорской оценки релевантности.

### Фичи в поиске

Поисковики часто обвиняют в редактировании результатов, но на самом деле условный Google ещё лет 10 назад потерял понимание того, как работает поиск — потому что всё ранжирование начали делать машинным обучением.

Это работает так: обучается модель, которая учится по паре запрос-документ выдавать одно действительное число — релевантность — по которой и сортируются результаты.

В качестве модели может быть что угодно — нейросеть, линейные модели, решающие деревья на регрессию. Они принимают обычные фичи, какие-то из которых относятся только к запросу, какие-то — только к документу, какие-то — и к запросу, и к документу. Например:

* Легко вычислимые текстовые фичи. Например, сколько слов из запроса встречаются в заголовке, в подзаголовках, во всем тексте.

* Разреженный tf-idf вектор слов из запроса.

* Разная статистика про документ: CTR по запросу, посещаемость сайта, PageRank, сколько в среднем пользователи проводят на этой странице, кликают ли они дальше на какие-то результаты, etc.

* Информация о пользователе: возраст, пол, страна, увлечения, любимые сайты, etc.

* Машинно-обучаемые фичи — например, можно обучить нейросеть, предсказываюзую релевантность по тексту запроса и тексту заголовка.

Часто поиск бывает устроен иерархически — это связано с тем, что считать некоторые фичи и применять поверх них тяжелые модели долго и дорого. Этапов может быть 4-5, например — на первом рассматриваются десятки тысяч документов, а на последнем, например, упорядочивается только несколько десятков — то, что увидит пользователь.

### Индексирование




Какие страницы прокачивать (ресурсы нерезиновые), как часто и в каком формате хранить — отдельные задачи. После того, как данные получены, по ним строится какая-то структура (называемая **индексом**), позволяющая быстро какими-то жадными методами получить по запросу небольшое (не миллиарды, а несколько тысяч) количество документов, которые потом ранжируются чем-то нормальным.

Для текстовых документов обычно строят **инвертированный индекс** — в нем хранится идентификатор слова и перечисление документов, в которых оно содержится. Чтобы списки не были слишком большими, их обычно в оффлайне сортируют по полезности пр фичам, не зависящим от запроса (например, по PageRank) и рассматривают только первые несколько тысяч документов.

Очень сильно помогают индексированию новых документов логи из браузеров — поэтому почти все поисковые компанию делают либо полноценные браузеры, либо расширения типа яндексбара. Когда вы жмёте галочку «да, я хочу помочь Google / Microsoft / Yandex сделать мир лучше», содержимое посещенных вами страниц отправляется самим браузером напрямую поисковику. Летом 2018 года по этой причине приватные Google Docs начали появляться в выдаче Яндекса, а за несколько лет до этого внутренняя вики Яндекса попала в выдачу Google, после чего в компании запретили пользоваться Google Chrome.


In [18]:
import pandas as pd
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk import wordnet, pos_tag
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
from nltk import WordNetLemmatizer
import pickle
import io
from tqdm import tqdm
from itertools import islice
import numpy as np


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\DAN\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\DAN\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\DAN\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [45]:
# Штука, найденная на просторах интернета, чтобы хоть как-то вырезать хтмл, который встречается. 
html_pattern = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});')
sw_eng = set(stopwords.words('english'))


def remove_links(text):
    return re.sub(html_pattern,'',text)


def get_wordnet_pos(treebank_tag):
    my_switch = {
        'J': wordnet.wordnet.ADJ,
        'V': wordnet.wordnet.VERB,
        'N': wordnet.wordnet.NOUN,
        'R': wordnet.wordnet.ADV,
    }
    for key, item in my_switch.items():
        if treebank_tag.startswith(key):
            return item
    return wordnet.wordnet.NOUN


def my_lemmatizer(sent):
    lemmatizer = WordNetLemmatizer()
    tokenized_sent = sent.split()
    pos_tagged = [(word, get_wordnet_pos(tag))
                 for word, tag in pos_tag(tokenized_sent)]
    return ' '.join([lemmatizer.lemmatize(word, tag)
                    for word, tag in pos_tagged])


def normalize_text(text):
    text = re.sub(html_pattern,'',text)
    text = re.sub(r'[^a-z ]+', r'', text.lower())
    text = my_lemmatizer(text)
    text = ' '.join([word for word in text.split() if not word in sw_eng])
    return text

In [46]:
# https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
df = pd.read_csv('dataset.csv')
df

Unnamed: 0,Show Number,Air Date,Round,Category,Value,Question,Answer
0,4680,2004-12-31,Jeopardy!,HISTORY,$200,"For the last 8 years of his life, Galileo was ...",Copernicus
1,4680,2004-12-31,Jeopardy!,ESPN's TOP 10 ALL-TIME ATHLETES,$200,No. 2: 1912 Olympian; football star at Carlisl...,Jim Thorpe
2,4680,2004-12-31,Jeopardy!,EVERYBODY TALKS ABOUT IT...,$200,The city of Yuma in this state has a record av...,Arizona
3,4680,2004-12-31,Jeopardy!,THE COMPANY LINE,$200,"In 1963, live on ""The Art Linkletter Show"", th...",McDonald's
4,4680,2004-12-31,Jeopardy!,EPITAPHS & TRIBUTES,$200,"Signer of the Dec. of Indep., framer of the Co...",John Adams
...,...,...,...,...,...,...,...
216925,4999,2006-05-11,Double Jeopardy!,RIDDLE ME THIS,$2000,This Puccini opera turns on the solution to 3 ...,Turandot
216926,4999,2006-05-11,Double Jeopardy!,"""T"" BIRDS",$2000,In North America this term is properly applied...,a titmouse
216927,4999,2006-05-11,Double Jeopardy!,AUTHORS IN THEIR YOUTH,$2000,"In Penny Lane, where this ""Hellraiser"" grew up...",Clive Barker
216928,4999,2006-05-11,Double Jeopardy!,QUOTATIONS,$2000,"From Ft. Sill, Okla. he made the plea, Arizona...",Geronimo


In [47]:
df = df.drop(['Show Number',' Round',' Value',' Air Date'],axis=1)
df = df.dropna(axis=0)
df = df.reset_index(0,drop=True)

In [15]:
df

Unnamed: 0,Category,Question,Answer
0,HISTORY,"For the last 8 years of his life, Galileo was ...",Copernicus
1,ESPN's TOP 10 ALL-TIME ATHLETES,No. 2: 1912 Olympian; football star at Carlisl...,Jim Thorpe
2,EVERYBODY TALKS ABOUT IT...,The city of Yuma in this state has a record av...,Arizona
3,THE COMPANY LINE,"In 1963, live on ""The Art Linkletter Show"", th...",McDonald's
4,EPITAPHS & TRIBUTES,"Signer of the Dec. of Indep., framer of the Co...",John Adams
...,...,...,...
216923,RIDDLE ME THIS,This Puccini opera turns on the solution to 3 ...,Turandot
216924,"""T"" BIRDS",In North America this term is properly applied...,a titmouse
216925,AUTHORS IN THEIR YOUTH,"In Penny Lane, where this ""Hellraiser"" grew up...",Clive Barker
216926,QUOTATIONS,"From Ft. Sill, Okla. he made the plea, Arizona...",Geronimo


In [49]:
def add_space(text):
    return text + ' '


df.loc[:,' Category'] = df.loc[:,' Category'].apply(str.lower)
df.loc[:,' Category'] = df.loc[:,' Category'].apply(add_space)
df.loc[:,' Question'] = df[' Question'].apply(str.lower)
df.loc[:,' Question'] = df[' Question'].apply(add_space)
df.loc[:,' Answer'] = df.loc[:, ' Answer'].apply(str.lower)
df.loc[:,'United'] = df.loc[:,' Category'] + df.loc[:,' Question'] + df.loc[:,' Answer']
df = df.drop([' Category',' Question',' Answer'],axis=1)

In [43]:
df

Unnamed: 0,Category,Question,Answer
0,HISTORY,"For the last 8 years of his life, Galileo was ...",Copernicus
1,ESPN's TOP 10 ALL-TIME ATHLETES,No. 2: 1912 Olympian; football star at Carlisl...,Jim Thorpe
2,EVERYBODY TALKS ABOUT IT...,The city of Yuma in this state has a record av...,Arizona
3,THE COMPANY LINE,"In 1963, live on ""The Art Linkletter Show"", th...",McDonald's
4,EPITAPHS & TRIBUTES,"Signer of the Dec. of Indep., framer of the Co...",John Adams
...,...,...,...
216923,RIDDLE ME THIS,This Puccini opera turns on the solution to 3 ...,Turandot
216924,"""T"" BIRDS",In North America this term is properly applied...,a titmouse
216925,AUTHORS IN THEIR YOUTH,"In Penny Lane, where this ""Hellraiser"" grew up...",Clive Barker
216926,QUOTATIONS,"From Ft. Sill, Okla. he made the plea, Arizona...",Geronimo


In [26]:
df = df['United'].apply(normalize_text)
df.to_csv('normalisedtext.csv')

In [10]:
inverted_index = {}
for i, row in df.iterrows():
    doc = {}
    if (i % 10000 == 0):
            print(i*1.0/df.shape[0])
    for j, word in enumerate(normalize_text(row.loc['United']).split()):
        if (word not in doc.keys()):
            doc[word] = [j]
        else:
            doc[word].append(j)
        if (word not in inverted_index.keys()):
            inverted_index[word] = {i:doc[word]}
        else:
            inverted_index[word][i] = doc[word]
            
a_file = open("invindex.pkl", "wb")
pickle.dump(inverted_index, a_file)
a_file.close()

0.0
0.04609824457884644
0.09219648915769288
0.1382947337365393
0.18439297831538576
0.23049122289423218
0.2765894674730786
0.32268771205192504
0.3687859566307715
0.41488420120961794
0.46098244578846437
0.5070806903673108
0.5531789349461572
0.5992771795250037
0.6453754241038501
0.6914736686826966
0.737571913261543
0.7836701578403894
0.8297684024192359
0.8758666469980824
0.9219648915769287
0.9680631361557752


In [27]:
a_file = open("invindex.pkl", "rb")
inverted_index = pickle.load(a_file)

In [29]:
inverted_index['citation']

{11571: [11],
 15874: [6],
 16412: [1],
 22920: [1],
 42808: [10],
 71941: [2],
 74333: [4],
 77400: [8],
 89675: [11],
 100896: [2],
 101516: [7],
 111534: [5],
 118462: [4],
 127339: [12],
 128731: [3],
 133985: [2],
 133991: [2],
 133997: [2],
 134003: [2],
 134009: [2],
 147670: [13],
 153094: [6],
 160490: [8],
 163801: [4]}

In [55]:
df.loc[74333,'United']

"the fabulous '50s what's in a name?  the corsair, citation ranger & pacer were all models of this ford flop of the '50s the edsel"

In [176]:
def get_1k_most_relevant(query):
    normalized_query = normalize_text(query)
    splitted = normalized_query.split()
    score = {}
    for word in splitted:
        if word not in inverted_index.keys():
            continue
        for item in inverted_index[word].items():
            if item[0] not in score.keys():
                score[item[0]] = len(item[1])
            else:
                score[item[0]] += len(item[1])
    score = list(sorted(score.items(), key=lambda item: item[1]))
    score.reverse()
    return score[:1000]        

In [136]:
score = get_1k_most_relevant('For the last 8 years of his life, Galileo was')
score

[(165314, 6),
 (48025, 5),
 (149310, 4),
 (137568, 4),
 (112811, 4),
 (104796, 4),
 (72167, 4),
 (211615, 4),
 (184798, 4),
 (81689, 4),
 (54755, 4),
 (19556, 4),
 (0, 4),
 (57538, 3),
 (33062, 3),
 (215197, 3),
 (188553, 3),
 (186662, 3),
 (177247, 3),
 (174016, 3),
 (146669, 3),
 (146063, 3),
 (143779, 3),
 (143291, 3),
 (121336, 3),
 (108026, 3),
 (103708, 3),
 (89891, 3),
 (81150, 3),
 (73581, 3),
 (73123, 3),
 (67708, 3),
 (62355, 3),
 (50204, 3),
 (45466, 3),
 (39361, 3),
 (39149, 3),
 (30332, 3),
 (23822, 3),
 (16563, 3),
 (13811, 3),
 (13149, 3),
 (9447, 3),
 (5911, 3),
 (211859, 3),
 (196810, 3),
 (192374, 3),
 (191831, 3),
 (184043, 3),
 (183416, 3),
 (181868, 3),
 (175435, 3),
 (168338, 3),
 (164384, 3),
 (163349, 3),
 (161478, 3),
 (159530, 3),
 (158838, 3),
 (158152, 3),
 (154652, 3),
 (154646, 3),
 (146257, 3),
 (141086, 3),
 (139022, 3),
 (136934, 3),
 (135643, 3),
 (125636, 3),
 (122691, 3),
 (116644, 3),
 (115117, 3),
 (111426, 3),
 (96063, 3),
 (90586, 3),
 (87921, 3)

In [141]:
def load_vectors(fname, limit):
  fin = io.open(fname, 'r', encoding = 'utf-8', newline = '\n', errors = 'ignore')
  n, d = map(int, fin.readline().split())
  data = {}
  for line in tqdm(islice(fin, limit), total = limit):
    tokens = line.rstrip().split(' ')
    data[tokens[0]] = np.array(list(map(float, tokens[1:])))
  return data

vecs = load_vectors('crawl-300d-2M.vec', 2000000)  

100%|████████████████████████████████████████████████████████████████████▉| 1999995/2000000 [03:04<00:00, 10851.77it/s]


In [147]:
zero = sum(vecs.values()) / len(vecs)
def vectorize_text(text):
    splitted = text.split()
    return sum(list(map(lambda w: np.array(list(vecs.get(w, zero))), splitted))) / len(splitted)

In [177]:
def sort_1k_top(query):
    score = get_1k_most_relevant(query)
    query_vec = vectorize_text(normalize_text(query))
    rating = []
    for i, freq in score:
        rating.append(((np.average(vectorize_text(normalize_text(df.loc[i,'United']))-query_vec))**2,i))
    rating.sort(key=lambda sci: sci[0])
    return rating

In [179]:
top = sort_1k_top('For the last 8 years of his life, Galileo was')


In [14]:
df.loc[top[1][1],'United']

NameError: name 'top' is not defined

In [17]:
df.loc[:,' Question'] = df.loc[:,' Question'].apply(remove_links)
df.to_csv('dataset_no_links.csv')