На основе word2vec/fasttext реализовать метод поиска ближайших статей (на вход метода должен приходить запрос (какой-то вопрос) и количество вариантов вывода к примеру 5-ть, ваш метод должен возвращать 5-ть ближайших статей к этому запросу)

# Загрузка датасета

In [6]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2023-08-14 06:03:58--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230814%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230814T060358Z&X-Amz-Expires=300&X-Amz-Signature=e70e561fe467c80291aba16481c1431f2955a2a3da272e0c3d51cd88bdf98436&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2023-08-14 06:03:58--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c2

In [7]:
!pip install -q pymorphy2 stop-words annoy

In [8]:
import numpy as np
import pandas as pd
import os
import string
import annoy
from tqdm.notebook import tqdm
from pymorphy2 import MorphAnalyzer
from stop_words import get_stop_words
from gensim.models import Word2Vec, FastText

In [9]:
if not os.path.isfile('lenta-ru-news.csv'):
    !gzip -d lenta-ru-news.csv.gz

In [10]:
news = pd.read_csv('lenta-ru-news.csv')
news.head()

Unnamed: 0,url,title,text,topic,tags
0,https://lenta.ru/news/2018/12/14/cancer/,Названы регионы России с самой высокой смертно...,Вице-премьер по социальным вопросам Татьяна Го...,Россия,Общество
1,https://lenta.ru/news/2018/12/15/doping/,Австрия не представила доказательств вины росс...,Австрийские правоохранительные органы не предс...,Спорт,Зимние виды
2,https://lenta.ru/news/2018/12/15/disneyland/,Обнаружено самое счастливое место на планете,Сотрудники социальной сети Instagram проанализ...,Путешествия,Мир
3,https://lenta.ru/news/2018/12/15/usa25/,В США раскрыли сумму расходов на расследование...,С начала расследования российского вмешательст...,Мир,Политика
4,https://lenta.ru/news/2018/12/15/integrity/,Хакеры рассказали о планах Великобритании зами...,Хакерская группировка Anonymous опубликовала н...,Мир,Общество


In [11]:
len(news)

739351

In [12]:
news.shape

(739351, 5)

In [13]:
df = news[['title', 'text']][:25000]
df.shape

(25000, 2)

In [14]:
df.head(3)

Unnamed: 0,title,text
0,Названы регионы России с самой высокой смертно...,Вице-премьер по социальным вопросам Татьяна Го...
1,Австрия не представила доказательств вины росс...,Австрийские правоохранительные органы не предс...
2,Обнаружено самое счастливое место на планете,Сотрудники социальной сети Instagram проанализ...


# Preprocessing

In [15]:
morpher = MorphAnalyzer()
sw = set(get_stop_words("ru"))
exclude = set(string.punctuation)

In [16]:
def preprocess_txt(line):
    spls = "".join(i for i in line.strip() if i not in exclude).split()
    spls = [morpher.parse(i.lower())[0].normal_form for i in spls]
    spls = [i for i in spls if i not in sw and i != ""]
    spls = [el.replace('\xa0', ' ') for el in spls]
    return spls

In [17]:
# Удалим строки с пропущенными значениями
df = df.dropna(subset=['text'])

In [18]:
title_sentences = []

if not os.path.isfile('f_title_sentences.txt'):

    # title_sentences = []
    for line in tqdm(df['text']):
        spls = preprocess_txt(line)
        title_sentences.append(spls)

    with open('f_title_sentences.txt', 'w') as fts:
        fts.write(str(title_sentences))
else:
    with open('f_title_sentences.txt', 'r') as fts:
        title_sentences = fts.readlines()

  0%|          | 0/25000 [00:00<?, ?it/s]

In [31]:
title_sentences[:1]

[['вицепремьер',
  'социальный',
  'вопрос',
  'татьяна',
  'голиков',
  'рассказать',
  'регион',
  'россия',
  'зафиксировать',
  'высокий',
  'смертность',
  'рак',
  'сообщать',
  'риа',
  'новость',
  'слово',
  'голиков',
  'частый',
  'онкологический',
  'заболевание',
  'становиться',
  'причина',
  'смерть',
  'псковский',
  'тверской',
  'тульский',
  'орловский',
  'область',
  'севастополь',
  'вицепремьер',
  'напомнить',
  'главный',
  'фактор',
  'смертность',
  'россия',
  '—',
  'рак',
  'болезнь',
  'система',
  'кровообращение',
  'начало',
  'стать',
  'известно',
  'смертность',
  'онкологический',
  'заболевание',
  'среди',
  'россиянин',
  'снизиться',
  'впервые',
  'данные',
  'росстат',
  '2017',
  'рак',
  'умереть',
  '289',
  'тысяча',
  '35',
  'процент',
  'маленький',
  'ранее']]

In [20]:
len(title_sentences)

25000

# Modeling

In [21]:
%%time

modelW2V_title = Word2Vec(sentences=title_sentences,
                          vector_size=300,
                          window=5,
                          min_count=3,
                          workers=8)

CPU times: user 1min 17s, sys: 292 ms, total: 1min 17s
Wall time: 47.1 s


In [22]:
%%time

modelFT_title = FastText(sentences=title_sentences,
                         vector_size=300,
                         window=5,
                         min_count=3,
                         workers=8)

CPU times: user 9min 40s, sys: 2.35 s, total: 9min 42s
Wall time: 5min 37s


In [23]:
%%time

w2v_index_title = annoy.AnnoyIndex(300 ,'angular')
ft_index_title = annoy.AnnoyIndex(300 ,'angular')

index_map_title = {}
counter = 0

for title in tqdm(df['text']):
    n_w2v = 0
    n_ft = 0
    index_map_title[counter] = title
    article_morphs = preprocess_txt(title)

    vector_w2v = np.zeros(300)
    vector_ft = np.zeros(300)
    for word in article_morphs:
        if word in modelW2V_title.wv:
            vector_w2v += modelW2V_title.wv[word]
            n_w2v += 1
        if word in modelFT_title.wv:
            vector_ft += modelFT_title.wv[word]
            n_ft += 1
    if n_w2v > 0:
        vector_w2v = vector_w2v / n_w2v
    if n_ft > 0:
        vector_ft = vector_ft / n_ft
    w2v_index_title.add_item(counter, vector_w2v)
    ft_index_title.add_item(counter, vector_ft)
    counter += 1

w2v_index_title.build(10)
ft_index_title.build(10)

  0%|          | 0/25000 [00:00<?, ?it/s]

CPU times: user 19min 49s, sys: 7 s, total: 19min 56s
Wall time: 20min 10s


True

In [24]:
def get_response(question, index, model, index_map):
    question = preprocess_txt(question)
    vector = np.zeros(300)
    norm = 0
    for word in question:
        if word in model.wv:
            vector += model.wv[word]
            norm += 1
    if norm > 0:
        vector /= norm
    answers = index.get_nns_by_vector(vector, 5, )

    return [index_map[i] for i in answers]

# Test

In [25]:
text = 'Игра Овечкина на чемпионате мира'

In [26]:
get_response(text, w2v_index_title, modelW2V_title, index_map_title)

['Бывший футболист сборной Англии и каталонской «Барселоны» Гарри Линекер переделал свою фразу про немецких футболистов после провала сборной Германии на чемпионате мира-2018. Обновленную версию Линекер представил в своем Twitter-аккаунте. «Футбол игра простая. В ней 22 человека 90 минут бегают за мячом, а в конце немцы уже не побеждают. Предыдущая версия осталась в истории», — написал британец. Ранее сборная Германии уступила команде Южной Кореи со счетом 0:2. Результат оставил немцев без шансов продолжить участие в чемпионате мира. Германия впервые в истории не сумела преодолеть групповой этап турнира. В 1990 году после того, как сборная Германии завоевала Кубок мира, англичанин впервые произнес свою крылатую фразу. В первоначальном варианте немцы побеждали всегда. Чемпионат мира проходит в 11 городах России. Турнир продлится до 15 июля.',
 'Полузащитник «Реала» и сборной Хорватии Лука Модрич стал лучшим футболистом 2018 года по версии Международной федерации футбола (ФИФА). Он прерв

In [27]:
get_response(text, ft_index_title, modelFT_title, index_map_title)

['Сборная России после поражения от команды Хорватии в четвертьфинале чемпионата мира обратилась к болельщикам в Twitter. «Друзья! Мы покидаем турнир со слезами на глазах, но с высоко поднятой головой. Спасибо вам за те искренние, неподдельные эмоции, которые вы дарили нам на протяжении чемпионата мира. Спасибо вам за веру в нас. Спасибо вам за все! Вы лучшие болельщики на свете!!!» — говорится в сообщении команды. Сборная России впервые в истории вышла в четвертьфинал чемпионата мира, однако проиграла команде Хорватии в серии послематчевых пенальти со счетом 3:4. Президент России Владимир Путин назвал отечественных футболистов героями, уступившими в красивейшей игре. Чемпионат мира продлится до 15 июля. Финал мундиаля пройдет на стадионе «Лужники».',
 'Бывший главный тренер лондонского «Арсенала» Арсен Венгер выразил мнение, что на чемпионате мира по футболу 2018 года слишком сильно доминировали европейские сборные. Его слова приводит Yahoo Sports. «Надеюсь, в Катаре состоится настоящ

In [28]:
text = 'Самое счастливое место на планете'

In [29]:
get_response(text, w2v_index_title, modelW2V_title, index_map_title)

['Австралийский онлайн-сервис My Travel Research опубликовал результаты рейтинга International Toilet Tourism Awards 2018, в котором названы лучшие туалеты мира. Об этом сообщается на официальном сайте организации. Уборные оценивались с точки зрения их дизайна, причудливости, расположения и оснащенности удобствами. Безусловным победителем по всем критериям оказались уборные ресторана Piz Gloria, который расположен на самой вершине швейцарской горы Шилтхорн. Хозяева заведения оформили туалеты в стиле фильмов об агенте 007 Джеймсе Бонде в честь появления Piz Gloria в одной из главных сцен кинокартины. Вторую позицию занял самый причудливый, по мнению жюри, туалет Bowl Plaza в штате Канзас. Его стены состоят из мозаики, которую из подручных средств в течение четырех лет своими руками собирали посетители. «Все помещение целиком — это свободное пространство для креативного бунта. Детям и взрослым это очень нравится», — прокомментировали судьи. В номинации «Лучший дизайн» победила уборная в 

In [30]:
get_response(text, ft_index_title, modelFT_title, index_map_title)

['Лучшим парком Москвы 2018 года по количеству кафе и ресторанов стал ВДНХ, по востребованности у горожан — Парк Горького. По обеспеченности посадочными местами на летних открытых зонах общепита лидирует «Коломенское». Такие данные содержатся в исследовании Knight Frank (есть в распоряжении «Ленты.ру»). На ВДНХ летом 2018 года было представлено максимальное среди самых популярных у москвичей парков города количество заведений общепита: 40 ресторанов и кафе на 5707 посадочных мест. В Парке Горького насчитывается 15 точек общепита на 3220 посадочных мест, отмечается в исследовании. «Летом в парке открывается девять сезонных заведений, которые значительно увеличивают посадку общепита в парке: кафе La Boule (470 мест), кафе "Тетя Мотя" (460 мест), ресторан "Пряности&Радости" (300 мест), ресторан "Лебединое Озеро" (200 мест), кафе "Оливковый пляж" (150 мест) и так далее», — добавляют аналитики Knight Frank. Больше всего летних посадочных мест устраивают в «Коломенском»: к 80 всесезонным доб