# Информационный поиск

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://nlp.stanford.edu/~manning/xyzzy/Intro_Inform_Retrieval_Russian.pdf
* https://en.wikipedia.org/wiki/Jaccard_index
* https://en.wikipedia.org/wiki/TF-IDF
* https://en.wikipedia.org/wiki/Okapi_BM25

## Задачи для совместного разбора

1\. Дан корпус текстов. Построить прямой и обратный индексы для слов из текста

In [None]:
corpus = [
    "Первым специальным индексом для запросов с джокером общего вида является перестановочный индекс",
    "Методы усовершенствования индексов для расширения функциональных возможностей и повышения скорости поиска"
]

In [None]:
from nltk import word_tokenize
import nltk
nltk.download('punkt_tab')

word_tokenize("")

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


[]

In [None]:
index = {}

for idx, doc in enumerate(corpus):
  tokens = word_tokenize(doc.lower())
  index[idx] = tokens
index

{0: ['первым',
  'специальным',
  'индексом',
  'для',
  'запросов',
  'с',
  'джокером',
  'общего',
  'вида',
  'является',
  'перестановочный',
  'индекс'],
 1: ['методы',
  'усовершенствования',
  'индексов',
  'для',
  'расширения',
  'функциональных',
  'возможностей',
  'и',
  'повышения',
  'скорости',
  'поиска']}

In [None]:
from collections import defaultdict

In [None]:
inverse_index = defaultdict(set)

for doc_idx, tokens in index.items():
  for token in tokens:
    inverse_index[token].add(doc_idx)
inverse_index

defaultdict(set,
            {'первым': {0},
             'специальным': {0},
             'индексом': {0},
             'для': {0, 1},
             'запросов': {0},
             'с': {0},
             'джокером': {0},
             'общего': {0},
             'вида': {0},
             'является': {0},
             'перестановочный': {0},
             'индекс': {0},
             'методы': {1},
             'усовершенствования': {1},
             'индексов': {1},
             'расширения': {1},
             'функциональных': {1},
             'возможностей': {1},
             'и': {1},
             'повышения': {1},
             'скорости': {1},
             'поиска': {1}})

2\. Посчитать индекс Жаккара для предложений из заданного корпуса.

количество объединений разделить на общее количество с двух множеств (пересечение)

In [None]:
# 1 - это количество объединения
len(inverse_index.keys()), 1/len(inverse_index)

(22, 0.045454545454545456)

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. Считайте тексты новостей из файла `news.json`. Назовём прямым индексом словарь, где ключами являются номера новостей, а значениями - списки нормализованных слов, входящих в эту новость. Номер новости определяется ее положением в файле. Назовём обратным индексом словарь, где ключами являются нормальные формы слов, а значениями - множества номеров новостей, которые содержат данное слово (не обязательно в нормальной форме). Постройте прямой и обратный индекс. Выведите их длины на экран. Выведите значения обратного индекса по ключу "москва".

- [ ] Проверено на семинаре

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd

In [None]:
df = pd.read_json('/content/drive/MyDrive/NLP/3/news.json')
df[0]

Unnamed: 0,0
0,российский бюджет в марте недополучил более 30...
1,банк россии решил снизить ключевую ставку с 20...
2,мыс идокопас в нато назвали первую цель для н...
3,минобороны рф заявило об ударах ракетами «кали...
4,госдеп попросил россию исключить санта клауса ...
...,...
495,трамп согласился встретиться с путиным в крыму
496,мединский позиция россии по крыму и донбассу ...
497,пашинян заявил о готовности признать законными...
498,путин напомнил следователям о нравственной осн...


In [None]:
N = df.shape[0]
N

500

In [None]:
pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m62.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
Successfully installed dawg2-python-0.9.0 pymorphy3-2.0.3 pymorphy3-dicts-ru-2.4.417150.4580142


In [None]:
import pymorphy3
import re

In [None]:
morph  = pymorphy3.MorphAnalyzer()
# morph.parse(word)[0].normal_form

In [None]:
index = {}
for i in range(N):
    index[i] = [morph.parse(word)[0].normal_form for word in re.findall(r'[а-яё]+', df[0][i].lower())]

In [None]:
index

{0: ['российский',
  'бюджет',
  'в',
  'март',
  'недополучить',
  'более',
  'миллиард',
  'рубль',
  'нефтегазовый',
  'доход'],
 1: ['банк', 'россия', 'решить', 'снизить', 'ключевой', 'ставка', 'с', 'до'],
 2: ['мыс',
  'идокопас',
  'в',
  'нато',
  'назвать',
  'первый',
  'цель',
  'для',
  'начало',
  'полномасштабный',
  'вторжение',
  'в',
  'россия'],
 3: ['минобороны',
  'рф',
  'заявить',
  'о',
  'удар',
  'ракета',
  'калибр',
  'по',
  'запорожский',
  'алюминиевый',
  'комбинат',
  'и',
  'уничтожение',
  'ангар',
  'с',
  'иностранный',
  'оружие'],
 4: ['госдеп',
  'попросить',
  'россия',
  'исключить',
  'сант',
  'клаус',
  'из',
  'санкционный',
  'список',
  'на',
  'время',
  'рождественский',
  'праздник'],
 5: ['я',
  'она',
  'не',
  'трогать',
  'распустить',
  'язык',
  'пригожина',
  'отпихнуть',
  'от',
  'себя',
  'оскандалиться',
  'вайкуль'],
 6: ['приложение', 'аэрофлот', 'большой', 'недоступный', 'в'],
 7: ['виталий',
  'милон',
  'наградить',
  'вы

In [None]:
from collections import defaultdict
inverse_index = defaultdict(list)

In [None]:
for i in range(N):
    for word in re.findall(r'[а-яё]+', df[0][i].lower()):
        inverse_index[morph.parse(word)[0].normal_form].append(i)

In [None]:
len(index.keys()), len(inverse_index.keys())

(500, 2306)

In [None]:
inverse_index['москва']

[10,
 28,
 32,
 88,
 111,
 134,
 148,
 176,
 182,
 190,
 199,
 205,
 207,
 225,
 240,
 275,
 280,
 297,
 324,
 350,
 374,
 416,
 466,
 486]

<p class="task" id="2"></p>

2\. Для каждого документа из текста определите, как часто слова этого документа встречаются в заданном тексте, воспользовавшись обратным индексом. Выведите на экран текст топ-3 новостей, наиболее похожих по набору токенов на заданный текст. Выведите на экран текст найденных новостей и количество совпадающих токенов.

- [ ] Проверено на семинаре

In [None]:
df = df[0]
df

Unnamed: 0,0
0,российский бюджет в марте недополучил более 30...
1,банк россии решил снизить ключевую ставку с 20...
2,мыс идокопас в нато назвали первую цель для н...
3,минобороны рф заявило об ударах ракетами «кали...
4,госдеп попросил россию исключить санта клауса ...
...,...
495,трамп согласился встретиться с путиным в крыму
496,мединский позиция россии по крыму и донбассу ...
497,пашинян заявил о готовности признать законными...
498,путин напомнил следователям о нравственной осн...


In [None]:
for i in df:
    print(i)

российский бюджет в марте недополучил более 300 миллиардов рублей нефтегазовых доходов
банк россии решил снизить ключевую ставку с 20  до 17 
мыс идокопас  в нато назвали первую цель для начала полномасштабного вторжения в россию 
минобороны рф заявило об ударах ракетами «калибр» по запорожскому алюминиевому комбинату и уничтожении ангаров с иностранным оружием
госдеп попросил россию исключить санта клауса из санкционного списка на время рождественских праздников 
я ее не трогал распустивший язык пригожин отпихнул от себя оскандалившуюся вайкуле
приложение «аэрофлота» больше недоступно в app store
виталий милонов награждён высшим венгерским орденом за борьбу с гомосексуализмом 
«яндекс еду» наказали за утечку адресов  телефонов и имен десятков тысяч клиентов  суд назначил минимально возможный штраф — 60 тысяч рублей
трамп предложил перенести новые санкции против россии из за дня народного единства 
афганистан  присоединение кабула к санкциям против москвы   не повод для сокращения росс

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

In [None]:
words = re.findall(r'\w+', example.lower())
words = [morph.parse(word)[0].normal_form for word in words]
words

['жириновский', 'предложить', 'перенести', 'столица', 'из', 'москва']

In [None]:
words_set = set(words)

In [None]:
top = []

In [None]:
for k, v in index.items():
    count = words_set.intersection(set(v))
    if count:
        print('Строка: ', k, '\nКоличество совпадений:', len(count))
        top.append([len(count), k])


Строка:  4 
Количество совпадений: 1
Строка:  9 
Количество совпадений: 3
Строка:  10 
Количество совпадений: 1
Строка:  13 
Количество совпадений: 1
Строка:  16 
Количество совпадений: 1
Строка:  28 
Количество совпадений: 1
Строка:  29 
Количество совпадений: 1
Строка:  32 
Количество совпадений: 2
Строка:  36 
Количество совпадений: 2
Строка:  43 
Количество совпадений: 1
Строка:  51 
Количество совпадений: 1
Строка:  60 
Количество совпадений: 1
Строка:  71 
Количество совпадений: 1
Строка:  74 
Количество совпадений: 1
Строка:  75 
Количество совпадений: 1
Строка:  78 
Количество совпадений: 2
Строка:  80 
Количество совпадений: 1
Строка:  88 
Количество совпадений: 1
Строка:  91 
Количество совпадений: 1
Строка:  101 
Количество совпадений: 1
Строка:  111 
Количество совпадений: 1
Строка:  112 
Количество совпадений: 2
Строка:  134 
Количество совпадений: 1
Строка:  140 
Количество совпадений: 1
Строка:  145 
Количество совпадений: 1
Строка:  148 
Количество совпадений: 1
Строка:

In [None]:
top.sort(key=lambda x: -x[0])

In [None]:
top[:10]

[[3, 9],
 [2, 32],
 [2, 36],
 [2, 78],
 [2, 112],
 [2, 182],
 [2, 240],
 [2, 270],
 [2, 318],
 [2, 374]]

In [None]:
for i in range(11):
    print(f'Строка {top[i][1]} \nКоличество совпадений:{top[i][0]}\n{df[top[i][1]]}')

Строка 9 
Количество совпадений:3
трамп предложил перенести новые санкции против россии из за дня народного единства 
Строка 32 
Количество совпадений:2
автора канала «протестный мгу» арестовали на 10 суток в москве  накануне его задержали при выходе из университета
Строка 36 
Количество совпадений:2
международную универсиаду 2023 года перенесут из екатеринбурга
Строка 78 
Количество совпадений:2
31 декабря владимир жириновский предложит имя своего преемника 
Строка 112 
Количество совпадений:2
жириновский предложил дать ремня создателям гачимучи каверов на известные песни 
Строка 182 
Количество совпадений:2
в москве найден мертвым один из основателей «кулинарной лавки братьев караваевых»
Строка 240 
Количество совпадений:2
на двух депутатов красносельского района москвы завели уголовные дела за «фейки» про войну  мундепу илье яшину предложили явиться на допрос
Строка 270 
Количество совпадений:2
токаев предложил исключить россию из состава снг 
Строка 318 
Количество совпадений:2
вла

<p class="task" id="3"></p>

3\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись коэффициентом Жаккара. Для определения количества общих слов в тексте используйте обратный индекс.  Выведите на экран текст найденных новостей и значение коэффициента Жаккара для каждой новости.

- [ ] Проверено на семинаре

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

In [None]:
ex_token = [morph.parse(i)[0].normal_form for i in re.findall('\w+', example.lower())]
ex_token

['жириновский', 'предложить', 'перенести', 'столица', 'из', 'москва']

In [None]:
top = []
top_2 = []
for i in ex_token:
    print(i, inverse_index[i])
    top.append(inverse_index[i])
    top_2 += inverse_index[i]
top[0], len(top_2)

жириновский [78, 112, 140]
предложить [9, 13, 75, 78, 80, 101, 112, 145, 240, 249, 257, 270, 309, 318, 323, 327, 351, 374, 389, 415, 487]
перенести [9, 36, 318]
столица [330]
из [4, 9, 16, 29, 32, 36, 43, 51, 60, 71, 74, 91, 149, 154, 166, 169, 170, 182, 185, 187, 196, 209, 210, 212, 224, 234, 234, 235, 238, 239, 242, 248, 250, 251, 270, 283, 287, 290, 292, 293, 301, 308, 310, 329, 329, 349, 360, 362, 373, 375, 381, 383, 394, 396, 409, 442, 448, 453, 462, 465, 480, 480, 493]
москва [10, 28, 32, 88, 111, 134, 148, 176, 182, 190, 199, 205, 207, 225, 240, 275, 280, 297, 324, 350, 374, 416, 466, 486]


([78, 112, 140], 115)

In [None]:
print(sorted(top_2))

[4, 9, 9, 9, 10, 13, 16, 28, 29, 32, 32, 36, 36, 43, 51, 60, 71, 74, 75, 78, 78, 80, 88, 91, 101, 111, 112, 112, 134, 140, 145, 148, 149, 154, 166, 169, 170, 176, 182, 182, 185, 187, 190, 196, 199, 205, 207, 209, 210, 212, 224, 225, 234, 234, 235, 238, 239, 240, 240, 242, 248, 249, 250, 251, 257, 270, 270, 275, 280, 283, 287, 290, 292, 293, 297, 301, 308, 309, 310, 318, 318, 323, 324, 327, 329, 329, 330, 349, 350, 351, 360, 362, 373, 374, 374, 375, 381, 383, 389, 394, 396, 409, 415, 416, 442, 448, 453, 462, 465, 466, 480, 480, 486, 487, 493]


In [None]:
from collections import Counter

In [None]:
x = sorted(list(dict(Counter(top_2)).items()), key=lambda x: -x[1])
x[0]

(9, 3)

In [None]:
ex = set(ex_token)
ex

{'жириновский', 'из', 'москва', 'перенести', 'предложить', 'столица'}

In [None]:
result = []
for i, k in x:
    result.append([i, k, k / len(set(df[i]) | ex)])

In [None]:
result.sort(key=lambda x: -x[2])

In [None]:
result[:10]

[[9, 3, 0.1111111111111111],
 [318, 2, 0.08],
 [270, 2, 0.07692307692307693],
 [78, 2, 0.07142857142857142],
 [36, 2, 0.06896551724137931],
 [182, 2, 0.06896551724137931],
 [112, 2, 0.06666666666666667],
 [234, 2, 0.06451612903225806],
 [32, 2, 0.0625],
 [240, 2, 0.058823529411764705]]

In [None]:
for i in range(3):
    print(f'Строка № {result[i][0]}\nКоэф. Жаккара: {result[i][2]}\n{df[result[i][0]]}')

Строка № 9
Коэф. Жаккара: 0.1111111111111111
трамп предложил перенести новые санкции против россии из за дня народного единства 
Строка № 318
Коэф. Жаккара: 0.08
власти израиля предложили перенести территорию палестины на остров в средиземном море 
Строка № 270
Коэф. Жаккара: 0.07692307692307693
токаев предложил исключить россию из состава снг 







































































<p class="task" id="4"></p>

4\. Реализуйте функцию для расчета TF-IDF.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

Для расчета обратной частоты документа воспользуйтесь обратным индексом из предыдущей задачи. При расчете IDF добавьте сглаживание, прибавив единицу к числителю и знаменателю дроби.

- [ ] Проверено на семинаре

In [None]:
tfidf = defaultdict(dict)
N = df.shape[0]
N

500

In [None]:
import numpy as np
np.log10(10)

1.0

In [None]:

for k, v in index.items():
    n = len(v)
    x = dict(Counter(v))
    for k1, v1 in x.items():
        x[k1] = (v1 / n) * (np.log10((N+1) / (len(inverse_index[k1])+1)))

    # for i in v:
    #     x1 = v.count(i)/n
    #     # print(len(inverse_index[i]),inverse_index[i])
    #     x2 = np.log10((N+1) / (len(inverse_index[i])+1))
    #     print(i, x1*x2)
    tfidf[k] = x

In [None]:
tfidf[0]

{'российский': 0.11683588088249906,
 'бюджет': 0.22227164711475833,
 'в': 0.03036383787715094,
 'март': 0.23988077302032648,
 'недополучить': 0.23988077302032648,
 'более': 0.1854739685852989,
 'миллиард': 0.1854739685852989,
 'рубль': 0.16584450407090207,
 'нефтегазовый': 0.23988077302032648,
 'доход': 0.23988077302032648}

<p class="task" id="5"></p>

5\. Используя собственную реализацию TF-IDF, закодируйте новости. Результатом должна являться матрица `MxN`, где `M` - количество новостей в корпусе, `N` - размер обратного индекса. Выведите форму полученной матрицы на экран.

- [ ] Проверено на семинаре

In [None]:
N = len(inverse_index)
M = len(df)
N, M

(2306, 500)

In [None]:
Matr = np.array([[0]*N]*M)
Matr.shape

(500, 2306)

In [None]:
id_inverse = dict()
counter = 0
for k in inverse_index:
    id_inverse[k] = counter
    counter += 1


In [None]:
id_inverse

{'российский': 0,
 'бюджет': 1,
 'в': 2,
 'март': 3,
 'недополучить': 4,
 'более': 5,
 'миллиард': 6,
 'рубль': 7,
 'нефтегазовый': 8,
 'доход': 9,
 'банк': 10,
 'россия': 11,
 'решить': 12,
 'снизить': 13,
 'ключевой': 14,
 'ставка': 15,
 'с': 16,
 'до': 17,
 'мыс': 18,
 'идокопас': 19,
 'нато': 20,
 'назвать': 21,
 'первый': 22,
 'цель': 23,
 'для': 24,
 'начало': 25,
 'полномасштабный': 26,
 'вторжение': 27,
 'минобороны': 28,
 'рф': 29,
 'заявить': 30,
 'о': 31,
 'удар': 32,
 'ракета': 33,
 'калибр': 34,
 'по': 35,
 'запорожский': 36,
 'алюминиевый': 37,
 'комбинат': 38,
 'и': 39,
 'уничтожение': 40,
 'ангар': 41,
 'иностранный': 42,
 'оружие': 43,
 'госдеп': 44,
 'попросить': 45,
 'исключить': 46,
 'сант': 47,
 'клаус': 48,
 'из': 49,
 'санкционный': 50,
 'список': 51,
 'на': 52,
 'время': 53,
 'рождественский': 54,
 'праздник': 55,
 'я': 56,
 'она': 57,
 'не': 58,
 'трогать': 59,
 'распустить': 60,
 'язык': 61,
 'пригожина': 62,
 'отпихнуть': 63,
 'от': 64,
 'себя': 65,
 'осканда

In [None]:
Matr = np.zeros(shape=(M, N))
Matr.shape

(500, 2306)

In [None]:
for i in range(M):
    for k, v in tfidf[i].items():
        # print(i, id_inverse[k], v)
        Matr[i][id_inverse[k]] = v

In [None]:
id_inverse['российский']

0

In [None]:
print(Matr[0][:30])

[0.11683588 0.22227165 0.03036384 0.23988077 0.23988077 0.18547397
 0.18547397 0.1658445  0.23988077 0.23988077 0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.        ]


In [None]:
print(len(tfidf[0]))
tfidf[0]


10


{'российский': 0.11683588088249906,
 'бюджет': 0.22227164711475833,
 'в': 0.03036383787715094,
 'март': 0.23988077302032648,
 'недополучить': 0.23988077302032648,
 'более': 0.1854739685852989,
 'миллиард': 0.1854739685852989,
 'рубль': 0.16584450407090207,
 'нефтегазовый': 0.23988077302032648,
 'доход': 0.23988077302032648}

<p class="task" id="6"></p>

6\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись матрицей TD-IDF из предыдущего задания. Для определения схожести используйте функцию косинусного расстояния. Выведите на экран текст найденных новостей и значение метрики близости для каждой новости.

- [ ] Проверено на семинаре

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

In [None]:
vector = np.zeros(N)
vector.shape

(2306,)

In [None]:
ex_token

['жириновский', 'предложить', 'перенести', 'столица', 'из', 'москва']

In [None]:
n = len(ex_token)
tfidf_ex = dict()


In [None]:
ex = dict(Counter(ex_token))
ex

{'жириновский': 1,
 'предложить': 1,
 'перенести': 1,
 'столица': 1,
 'из': 1,
 'москва': 1}

In [None]:
N, M, n

(2306, 500, 6)

In [None]:
for k, v in ex.items():
    ex[k] = (v/n) * (np.log10((M+1) / (len(inverse_index[k])+1)))

In [None]:
ex

{'жириновский': 0.3496296224232139,
 'предложить': 0.22623584084083992,
 'перенести': 0.3496296224232139,
 'столица': 0.39980128836721074,
 'из': 0.14894295864722643,
 'москва': 0.216982952865868}

In [None]:
for k, v in ex.items():
    vector[id_inverse[k]] = v

In [None]:
sum(vector), sum(ex.values())

(1.691222285567573, 1.6912222855675727)

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

def similarity(x, y):
    return cosine_similarity(x.reshape(1, -1), y.reshape(1, -1))

In [None]:
compare = []
for i in range(500):
    res = similarity(Matr[i], vector)
    compare.append([i, res[0][0]])

In [None]:
compare.sort(key=lambda x: -x[1])

In [None]:
compare[:10]

[[9, 0.2906268863000114],
 [78, 0.27028447124173016],
 [36, 0.24939307467347782],
 [318, 0.22959337383627892],
 [330, 0.21693792080280638],
 [112, 0.2144902564705256],
 [140, 0.19619317581635368],
 [270, 0.12542400345802374],
 [374, 0.10095577048199185],
 [240, 0.09835080445628216]]

In [None]:
compare[0][1]

0.2906268863000114

In [None]:
for i in range(5):
    print(f'Документ № {compare[i][0]}')
    print(f'Схожесть по косинусному расстоянию: {compare[i][1]}')
    print(df[compare[i][0]], end='\n\n')

Документ № 9
Схожесть по косинусному расстоянию: 0.2906268863000114
трамп предложил перенести новые санкции против россии из за дня народного единства 

Документ № 78
Схожесть по косинусному расстоянию: 0.27028447124173016
31 декабря владимир жириновский предложит имя своего преемника 

Документ № 36
Схожесть по косинусному расстоянию: 0.24939307467347782
международную универсиаду 2023 года перенесут из екатеринбурга

Документ № 318
Схожесть по косинусному расстоянию: 0.22959337383627892
власти израиля предложили перенести территорию палестины на остров в средиземном море 

Документ № 330
Схожесть по косинусному расстоянию: 0.21693792080280638
в госдуме зарегистрирован законопроект о переносе столицы россии в великий новгород 



<p class="task" id="7"></p>

7\. Для заданного текста новости найдите топ-3 наиболее похожих новости, воспользовавшись любой реализацией функции ранжирования [BM25](https://en.wikipedia.org/wiki/Okapi_BM25). Выведите на экран текст найденных новостей и значение метрики ранжирования для каждой новости.

- [ ] Проверено на семинаре

In [None]:
example = "Жириновский предложил перенести столицу из Москвы"

In [None]:
pip install rank_bm25

Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Downloading rank_bm25-0.2.2-py3-none-any.whl (8.6 kB)
Installing collected packages: rank_bm25
Successfully installed rank_bm25-0.2.2


In [None]:
from rank_bm25 import BM25Okapi

In [None]:
list(index.values())

[['российский',
  'бюджет',
  'в',
  'март',
  'недополучить',
  'более',
  'миллиард',
  'рубль',
  'нефтегазовый',
  'доход'],
 ['банк', 'россия', 'решить', 'снизить', 'ключевой', 'ставка', 'с', 'до'],
 ['мыс',
  'идокопас',
  'в',
  'нато',
  'назвать',
  'первый',
  'цель',
  'для',
  'начало',
  'полномасштабный',
  'вторжение',
  'в',
  'россия'],
 ['минобороны',
  'рф',
  'заявить',
  'о',
  'удар',
  'ракета',
  'калибр',
  'по',
  'запорожский',
  'алюминиевый',
  'комбинат',
  'и',
  'уничтожение',
  'ангар',
  'с',
  'иностранный',
  'оружие'],
 ['госдеп',
  'попросить',
  'россия',
  'исключить',
  'сант',
  'клаус',
  'из',
  'санкционный',
  'список',
  'на',
  'время',
  'рождественский',
  'праздник'],
 ['я',
  'она',
  'не',
  'трогать',
  'распустить',
  'язык',
  'пригожина',
  'отпихнуть',
  'от',
  'себя',
  'оскандалиться',
  'вайкуль'],
 ['приложение', 'аэрофлот', 'большой', 'недоступный', 'в'],
 ['виталий',
  'милон',
  'наградить',
  'высокий',
  'венгерский',


In [None]:
bm25 = BM25Okapi(list(index.values()))

In [None]:
ex_token

['жириновский', 'предложить', 'перенести', 'столица', 'из', 'москва']

In [None]:
scores = bm25.get_scores(ex_token)

In [None]:
scores

array([0.        , 0.        , 0.        , 0.        , 1.78607004,
       0.        , 0.        , 0.        , 0.        , 9.40416938,
       2.67001306, 0.        , 0.        , 3.30725983, 0.        ,
       0.        , 1.59958797, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 1.72923138, 1.78607004,
       0.        , 0.        , 3.9908272 , 0.        , 0.        ,
       0.        , 8.57931818, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 1.78607004, 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 1.59958797, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       1.93658297, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 1.93658297, 0.        , 0.        , 2.11479

In [None]:
top_n_indices = np.argsort(scores)[::-1][:5]

In [None]:
for i, idx in enumerate(top_n_indices):
    print(f'Новость № {idx}')
    print(f'(сходство: {scores[idx]}')
    print(df[idx])
    print()

Новость № 78
(сходство: 9.45787140797758
31 декабря владимир жириновский предложит имя своего преемника 

Новость № 9
(сходство: 9.404169377862907
трамп предложил перенести новые санкции против россии из за дня народного единства 

Новость № 36
(сходство: 8.579318182402666
международную универсиаду 2023 года перенесут из екатеринбурга

Новость № 112
(сходство: 8.20975300987303
жириновский предложил дать ремня создателям гачимучи каверов на известные песни 

Новость № 318
(сходство: 7.863833211518844
власти израиля предложили перенести территорию палестины на остров в средиземном море 

