В этой задаче вам предлагается научиться по заголовку искать статью в некотором заданном множестве.

In [1]:
!pip install corus 
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2021-04-10 14:26:27--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210410%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210410T142550Z&X-Amz-Expires=300&X-Amz-Signature=5428634653fc02975c6a2f9ed1ab70e1d7fd51c303a757c5823e9972b3a066f8&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2021-04-10 14:26:27--  https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKI

In [2]:
import random
from corus import load_lenta

Для простоты возьмём первые 10000 новостей

In [3]:
path = 'lenta-ru-news.csv.gz'
corpus = []
requests = []
for i, record in zip(range(10000), load_lenta(path)):
    corpus.append((i, record.text))
    requests.append((i, record.title))

Теперь необходимо реализовать класс, отвечающий за поиск новостей. Возможным подходом будет выбрать какое-нибудь векторное представление текста (bag-of-words, tf-idf, word2vec и т.п.) и метрику расстояния (косинусное, Евклидово, манхэттенское и т.п.), а потом сортировать новости по расстоянию до заголовка. Однако, вы можете реализовывать любые ваши идеи.

In [4]:
 import collections
 import math
 import numpy as np

Было опробовано использовать стеммиг Портера (https://medium.com/@eigenein/%D1%81%D1%82%D0%B5%D0%BC%D0%BC%D0%B5%D1%80-%D0%BF%D0%BE%D1%80%D1%82%D0%B5%D1%80%D0%B0-%D0%B4%D0%BB%D1%8F-%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%BE%D0%B3%D0%BE-%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0-d41c38b2d340), но это ухудшило качество (возможно, потому что обычно в статьях полностью повторяются слова из заголовка, то есть сохраняются окончания и суффиксы), поэтому обойдёмся без него.

In [5]:
class Database:
    def __init__(self, corpus):
        self.corpus = corpus
        # Я выбрала представление tf-idf 
        # (также пробовало bag-of-words, но качество было хуже)
        self.tf_idf = []
        for i in range(len(corpus)):
            # Будем переводить строки в lowercase, потому что так логичнее (и качество выходит лучше)
            words = corpus[i][1].replace("\xa0", "").lower().split()
            self.tf_idf.append(self._get_tf_idf(words))

    @staticmethod
    def _get_tf_idf(words):
        counter = collections.Counter()
        for word in words:
            counter[word] += 1 / len(words)
        return dict(counter)

    # Я выбрала Евклидово расстояние
    @staticmethod
    def _get_euclid(first_tf_idf, second_tf_idf):
        # Получаем общие слова пересечением ключей у словарей
        common_words = set(first_tf_idf.keys()).intersection(set(second_tf_idf.keys()))
        # Считаем Евклидово расстояние
        return math.sqrt(sum((first_tf_idf[word] - second_tf_idf[word]) ** 2 for word in common_words))
    def find(self, request, k=10):
        """
            Этот метод должен принимать на вход текст заголовка и возвращать
            для него k самых вероятных новости.
            В качестве возвращаемого значения ожидается numpy-массив размера k, 
            содержащий id новостей в порядке уменьшения релевантности
        """
        words = request.replace("\xa0", "").lower().split()
        request_tf_idf = self._get_tf_idf(words)
        indexes = range(len(corpus))
        
        return np.array([article[0] for article in sorted(zip(indexes, self.tf_idf), key=lambda i: self._get_euclid(i[1], request_tf_idf))[::-1][:k]])

In [6]:
%%time
database = Database(corpus)

CPU times: user 1.41 s, sys: 184 ms, total: 1.6 s
Wall time: 1.61 s


Проверим глазами разумность ранжирования новостей на отдельном примере 

In [7]:
request_id, request_text = requests[809]
print(f'For request (id={request_id}): {request_text}')
print('Responses are:')
for i, response_id in enumerate(database.find(request_text)):
    print(f'{i}    id={response_id}\t{corpus[response_id][1]}')

For request (id=809): Названы любимые супергеройские фильмы россиян
Responses are:
0    id=6643	Только три процента россиян считают, что к покушению на бывшего офицера ГРУ Сергея Скрипаля и его дочь Юлию причастна российская военная разведка. Чуть более четверти граждан — 28 процентов — видят в этом след британских спецслужб, свидетельствуют данные опроса «Левада-центра». Большинство опрошенных (56 процентов) полагают, что к покушению на Скрипалей может быть причастен кто угодно. Еще 13 процентов затруднились ответить на вопрос. Это уже второй опрос центра на тему «дела Скрипалей». Предыдущий проводился в марте и касался осведомленности населения о покушении. Тогда об этом ничего не знали 20 процентов респондентов, в настоящий момент этот показатель снизился до 15 процентов. Нынешний опрос проводился с 18 по 24 октября среди 1,6 тысячи человек в возрасте от 18 лет в 136 населенных пунктах страны. Исследование проводилось на дому у респондента методом личного интервью. Сергей и Юлия Скр

***Вывод:***

В принципе, ранжирование разумное, потому что на третьем месте стоит истинный id. Но, конечно, плохо, что не на первом...

Теперь оценим качество ранжирования по метрике Recall@k 

In [8]:
def get_recall_at_k(targets, predictions, k):
    targets_mask = np.repeat(np.expand_dims(targets, 1), k, axis=1)
    return (predictions[:, :k] == targets_mask).sum() / len(targets)

In [9]:
test_size = 256
test_k = 20

In [10]:
test_requests = random.sample(requests, test_size)

In [11]:
%%time
targets = np.zeros(test_size, dtype=np.int32)
predictions = np.zeros((test_size, test_k), dtype=np.int32)
for i, (request_id, request_text) in enumerate(test_requests):
    targets[i] = request_id
    predictions[i] = database.find(request_text, k=test_k)

CPU times: user 27 s, sys: 75.7 ms, total: 27.1 s
Wall time: 27.2 s


In [12]:
for k in [1, 3, 5, 10, 20]:
    print(f'Recall@{k}:\t{get_recall_at_k(targets, predictions, k):.3f}')

Recall@1:	0.277
Recall@3:	0.391
Recall@5:	0.430
Recall@10:	0.496
Recall@20:	0.586


***Вывод:***

Я бы такому алгоритму не особо доверяла :)