<a href="https://colab.research.google.com/github/BelousovIM/Projects/blob/main/findNews.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

В этой задаче вам предлагается научиться по заголовку искать статью в некотором заданном множестве.

In [None]:
!pip install corus 
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
!pip install pymorphy2
!pip install --upgrade sklearn-pandas

In [2]:
import random
from corus import load_lenta
from sklearn.neighbors import KNeighborsClassifier, VALID_METRICS
import numpy as np
from tqdm import tqdm_notebook, tqdm
import warnings
warnings.filterwarnings("ignore")
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import hstack

from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from gensim.test.utils import common_texts

In [3]:
import pymorphy2

from functools import lru_cache

import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

import multiprocessing
from sklearn import utils

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Для простоты возьмём первые 10000 новостей

In [5]:
path = 'lenta-ru-news.csv.gz'
corpus = []
requests = []
for i, record in zip(range(10000), load_lenta(path)):
    corpus.append((i, record.text))
    requests.append((i, record.title))

Теперь необходимо реализовать класс, отвечающий за поиск новостей. Возможным подходом будет выбрать какое-нибудь векторное представление текста (bag-of-words, tf-idf, word2vec и т.п.) и метрику расстояния (косинусное, Евклидово, манхэттенское и т.п.), а потом сортировать новости по расстоянию до заголовка. Однако, вы можете реализовывать любые ваши идеи.

In [13]:
class Preprocesser:
    def __init__(self):
        self.bad_symbol_regexp = re.compile('[^а-я ^a-z ^0-9]')  
        morph = pymorphy2.MorphAnalyzer()
        @lru_cache(maxsize=10 ** 6)
        def lru_lemmatizer(word):
            return morph.parse(word)[0].normal_form
        self.lemmatizer = lru_lemmatizer
        self.stopwords = stopwords
        
    def __call__(self, text):
        text = text.lower()
        text = re.sub(self.bad_symbol_regexp, ' ', text)
        lemmas = [
            self.lemmatizer(token)
            for token in text.split()
        ]
        
        return ' '.join(lemmas)

In [11]:
class Database:
    def __init__(self, corpus):
        self.corpus_data = list(zip(*corpus))[1]
        self.preprocess_text = Preprocesser()
        self.corpus_data = list(map(self.preprocess_text, self.corpus_data))
        
        self.tfidf = TfidfVectorizer(
            max_features=300000,
            ngram_range=(2, 6), 
            analyzer="char_wb",
            # stop_words=stopwords.words('russian'),
        )

        self.X_train = self.tfidf.fit_transform(self.corpus_data)
        self.model = KNeighborsClassifier(metric='cosine')
        self.model.fit(self.X_train, np.zeros(self.X_train.shape[0]))

    def find(self, request, k=10):
        """
            Этот метод должен принимать на вход текст заголовка и возвращать
            для него k самых вероятных новости.
            В качестве возвращаемого значения ожидается numpy-массив размера k, 
            содержащий id новостей в порядке уменьшения релевантности
        """
        request_transform = self.tfidf.transform((self.preprocess_text(request), ))
        # request_transform = self.tfidf.transform((request, ))
        ind = self.model.kneighbors(request_transform, k , False).ravel()
        return ind

In [14]:
%%time

database = Database(corpus)

CPU times: user 1min 9s, sys: 334 ms, total: 1min 9s
Wall time: 1min 9s


Проверим глазами разумность ранжирования новостей на отдельном примере 

In [15]:
request_id, request_text = requests[809]
print(f'For request (id={request_id}): {request_text}')
print('Responses are:')
for i, response_id in enumerate(database.find(request_text)):
    print(f'{i}    id={response_id}\t{corpus[response_id][1]}')

For request (id=809): Названы любимые супергеройские фильмы россиян
Responses are:
0    id=1283	В восьмом выпуске серии комиксов «Часы Судного дня» от DC Comics появился президент России Владимир Путин, готовый развязать войну с США из-за гибели россиян по вине американского супергероя Огненного Шторма. Выпуск опубликован на сайте readcomiconline. В комиксе Путин выступает на Красной площади перед собором Василия Блаженного рядом с танком и группой военных. Возле главы государства также стоят русские супергерои. Он обвиняет США в агрессии и сообщает о начале войны. Речь президента прерывает Супермен, который спускается с небес и пытается убедить Путина, что Огненный Шторм не виноват в инциденте, а пострадавших людей (они оказались случайно превращены им в стекло) можно вернуть к жизни. С неба за происходящим наблюдает Бэтмен, который по радиосвязи предупреждает Супермена не принимать ничью сторону в этом конфликте. Затем на площади появляется Огненный Шторм, по которому открывают огонь

Теперь оценим качество ранжирования по метрике Recall@k 

In [16]:
def get_recall_at_k(targets, predictions, k):
    targets_mask = np.repeat(np.expand_dims(targets, 1), k, axis=1)
    return (predictions[:, :k] == targets_mask).sum() / len(targets)

In [17]:
test_size = 256
test_k = 20

In [18]:
test_requests = random.sample(requests, test_size)

In [21]:
%%time
targets = np.zeros(test_size, dtype=np.int32)
predictions = np.zeros((test_size, test_k), dtype=np.int32)
for i, (request_id, request_text) in tqdm_notebook(enumerate(test_requests)):
    targets[i] = request_id
    predictions[i] = database.find(request_text, k=test_k)

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))


CPU times: user 3min 37s, sys: 637 ms, total: 3min 37s
Wall time: 3min 36s


In [22]:
for k in [1, 3, 5, 10, 20]:
    print(f'Recall@{k}:\t{get_recall_at_k(targets, predictions, k):.3f}')

Recall@1:	0.488
Recall@3:	0.652
Recall@5:	0.750
Recall@10:	0.812
Recall@20:	0.883
