# Imports

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Информационный поиск

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы: 
* https://nlp.stanford.edu/~manning/xyzzy/Intro_Inform_Retrieval_Russian.pdf
* https://en.wikipedia.org/wiki/Jaccard_index
* https://en.wikipedia.org/wiki/TF-IDF
* https://en.wikipedia.org/wiki/Okapi_BM25

## Задачи для совместного разбора

1\. Дан корпус текстов. Построить прямой и обратный индексы для слов из текста

In [None]:
corpus = [
    "Первым специальным индексом для запросов с джокером общего вида является перестановочный индекс",
    "Методы усовершенствования индексов для расширения функциональных возможностей и повышения скорости поиска"
]

Логика реализации прямого индекса

```python
raw_index = {
    news_i: [lemmatize(token) for token in tokenize(text))]
    for news_i, text in enumerate(corpus)
}
```

Логика реализации обратного индекса

```python
from collections import defaultdict


inverted_index: dict[str, list[int]] = defaultdict(list)

for news_i, normalized_words in raw_index.items():
    for normalized_word in normalized_words:
        inverted_index[normalized_word].append(news_i)token in tokenize(text))]
    for news_i, text in enumerate(corpus)
}
```

2\. Посчитать индекс Жаккара для предложений из заданного корпуса. 

In [None]:
def jaccard_index(a: set, b: set) -> float:
    numerator = len(a & b)
    denominator = len(a | b)
    return numerator / denominator

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Считайте тексты новостей из файла `news.json`. Назовём прямым индексом словарь, где ключами являются номера новостей, а значениями - списки нормализованных слов, входящих в эту новость. Номер новости определяется ее положением в файле. Назовём обратным индексом словарь, где ключами являются нормальные формы слов, а значениями - множества номеров новостей, которые содержат данное слово (не обязательно в нормальной форме). Постройте прямой и обратный индекс. Выведите из длины на экран. Выведите значения обратного индекса по ключу "москва".

<p class="task" id="2"></p>

2\. Для каждого документа из текста определите, как часто слова этого документа встречаются в заданном тексте, воспользовавшись обратным индексом. Выведите на экран текст топ-3 новостей, наиболее похожих по набору токенов на заданный текст. Выведите на экран текст найденных новостей и количество совпадающих токенов.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="3"></p>

3\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись коэффициентом Жаккара. Для определения количества общих слов в тексте используйте обратный индекс.  Выведите на экран текст найденных новостей и значение коэффициента Жаккара для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="4"></p>

4\. Реализуйте функцию для расчета TF-IDF.
 
![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

Для расчета обратной частоты документа воспользуйтесь обратным индексом из предыдущей задачи. При расчете IDF добавьте сглаживание, прибавив единицу к числителю и знаменателю дроби.

In [3]:
# Примерная реализация

corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]

doc_id = 0
term = "this"

doc_text = corpus[doc_id].lower()

tf = doc_text.count(term) / len(doc_text.split())
df: int = len([doc for doc in corpus if term in doc.lower()])
idf = np.log((len(corpus) + 1) / (df + 1))
tf * idf

0.0

<p class="task" id="5"></p>

5\. Используя собственную реализацию TF-IDF, закодируйте новости. Результатом должна являться матрица `MxN`, где `M` - количество новостей в корпусе, `N` - размер обратного индекса. Выведите форму полученной матрицы на экран.

<p class="task" id="6"></p>

6\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись матрицей TF-IDF из предыдущего задания. Для определения схожести используйте функцию косинусного расстояния. Выведите на экран текст найденных новостей и значение метрики близости для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

<p class="task" id="7"></p>

7\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись собственной реализацией функции ранжирования [BM25](https://en.wikipedia.org/wiki/Okapi_BM25). Выведите на экран текст найденных новостей и значение метрики ранжирования для каждой новости.

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

## Обратная связь
- [ ] Хочу получить обратную связь по решению