# Информационный поиск

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://nlp.stanford.edu/~manning/xyzzy/Intro_Inform_Retrieval_Russian.pdf
* https://en.wikipedia.org/wiki/Jaccard_index
* https://en.wikipedia.org/wiki/TF-IDF
* https://en.wikipedia.org/wiki/Okapi_BM25

## Задачи для совместного разбора

1\. Дан корпус текстов. Построить прямой и обратный индексы для слов из текста

In [2]:
corpus = [
    "Первым специальным индексом для запросов с джокером общего вида является перестановочный индекс",
    "Методы усовершенствования индексов для расширения функциональных возможностей и повышения скорости поиска"
]

In [3]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/55.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m56.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl

In [8]:
import pymorphy2
from nltk import word_tokenize
import nltk
nltk.download('punkt')

morph = pymorphy2.MorphAnalyzer()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [9]:
index = {}

for idx, doc in enumerate(corpus):
  index[idx]= [
      morph.parse(w)[0].normal_form
      for w in word_tokenize(doc)
  ]

In [11]:
from collections import defaultdict
# inv_index = defaultdict(list)
inv_index = defaultdict(set)

for idx, tokens in index.items():
  for tok in tokens:
    inv_index[tok].add(idx)

inv_index

defaultdict(set,
            {'первый': {0},
             'специальный': {0},
             'индекс': {0, 1},
             'для': {0, 1},
             'запрос': {0},
             'с': {0},
             'джокер': {0},
             'общий': {0},
             'вид': {0},
             'являться': {0},
             'перестановочный': {0},
             'метод': {1},
             'усовершенствование': {1},
             'расширение': {1},
             'функциональный': {1},
             'возможность': {1},
             'и': {1},
             'повышение': {1},
             'скорость': {1},
             'поиск': {1}})

2\. Посчитать индекс Жаккара для предложений из заданного корпуса.

In [13]:
(
    len(set(index[0]).intersection(set(index[1]))),
    len(set(index[0]).union(set(index[1])))
)

(2, 20)

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Считайте тексты новостей из файла `news.json`. Назовём прямым индексом словарь, где ключами являются номера новостей, а значениями - списки нормализованных слов, входящих в эту новость. Номер новости определяется ее положением в файле. Назовём обратным индексом словарь, где ключами являются нормальные формы слов, а значениями - множества номеров новостей, которые содержат данное слово (не обязательно в нормальной форме). Постройте прямой и обратный индекс. Выведите из длины на экран. Выведите значения обратного индекса по ключу "москва".

<p class="task" id="2"></p>

2\. Для каждого документа из текста определите, как часто слова этого документа встречаются в заданном тексте, воспользовавшись обратным индексом. Выведите на экран текст топ-3 новостей, наиболее похожих по набору токенов на заданный текст. Выведите на экран текст найденных новостей и количество совпадающих токенов.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="3"></p>

3\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись коэффициентом Жаккара. Для определения количества общих слов в тексте используйте обратный индекс.  Выведите на экран текст найденных новостей и значение коэффициента Жаккара для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="4"></p>

4\. Реализуйте функцию для расчета TF-IDF.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

Для расчета обратной частоты документа воспользуйтесь обратным индексом из предыдущей задачи. При расчете IDF добавьте сглаживание, прибавив единицу к числителю и знаменателю дроби.

<p class="task" id="5"></p>

5\. Используя собственную реализацию TD-IDF, закодируйте новости. Результатом должна являться матрица `MxN`, где `M` - количество новостей в корпусе, `N` - размер обратного индекса. Выведите форму полученной матрицы на экран.

<p class="task" id="6"></p>

6\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись матрицей TD-IDF из предыдущего задания. Для определения схожести используйте функцию косинусного расстояния. Выведите на экран текст найденных новостей и значение метрики близости для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="7"></p>

7\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись собственной реализацией функции ранжирования [BM25](https://en.wikipedia.org/wiki/Okapi_BM25). Выведите на экран текст найденных новостей и значение метрики ранжирования для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

## Обратная связь
- [ ] Хочу получить обратную связь по решению