В этой задаче вам предлагается научиться по заголовку искать статью в некотором заданном множестве.

In [1]:
!pip install corus 
!pip install pymorphy2
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

Collecting corus
  Downloading corus-0.9.0-py3-none-any.whl (83 kB)
[K     |████████████████████████████████| 83 kB 301 kB/s eta 0:00:01
[?25hInstalling collected packages: corus
Successfully installed corus-0.9.0
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 307 kB/s eta 0:00:01
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K     |████████████████████████████████| 8.2 MB 5.4 MB/s eta 0:00:01
[?25hCollecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25ldone
[?25h  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13705 sha256=07bc2067c3f82d842313f7435175ba2ae7c9d8c54e8d5fcc19fa21bd9b6565b9
  Stored in dire

In [2]:
import random
import string
import pymorphy2
import scipy.spatial.distance as ds
from corus import load_lenta
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

morph = pymorphy2.MorphAnalyzer()



Для простоты возьмём первые 10000 новостей

In [3]:
path = 'lenta-ru-news.csv.gz'
corpus = []
requests = []
for i, record in zip(range(10000), load_lenta(path)):
    corpus.append((i, record.text))
    requests.append((i, record.title))

Теперь необходимо реализовать класс, отвечающий за поиск новостей. Возможным подходом будет выбрать какое-нибудь векторное представление текста (bag-of-words, tf-idf, word2vec и т.п.) и метрику расстояния (косинусное, Евклидово, манхэттенское и т.п.), а потом сортировать новости по расстоянию до заголовка. Однако, вы можете реализовывать любые ваши идеи.

In [14]:
class Database:
    my_punctuation = string.punctuation + "—«»"    
    new_stop_words = stopwords.words("russian") + ["какой", "либо", "быть", "он", "она",
                                                   "ну", "по", "именно", "это", "кто", "кроме",
                                                   "который", "они", "то", "на"]    
    def filter_text(text):
        text = text.lower().replace('\n', ' ')
        for p in string.punctuation:
            text = text.replace(p, ' ')
        text = ' '.join([morph.parse(t)[0].normal_form for t in text.split(' ')])
        text = ' '.join([t for t in text.split(' ') if not t.startswith('@') and not t.startswith("http") and 
                         not t in new_stop_words and len(t)>1])
        return text
    
    def __init__(self, corpus):
        self.corpus = corpus
        self.texts = []
        for elem in self.corpus:
            self.texts.append(filter_text(elem[1]))   
            
    def find(self, request, k=10):
        data = [filter_text(request)] + self.texts 
        vector = TfidfVectorizer()
        vect1 = vector.fit_transform(data)
        final_vectors = vect1.toarray()
        
        map_dist = []   # has a structure [(index: distance)]
        for i in range(1, len(final_vectors)):
            map_dist.append((i - 1, ds.cosine(final_vectors[0], final_vectors[i])))
        
        sorted_data = []
        sorted_data = sorted(map_dist, key = lambda x: x[1])
        
        index = []
        for i in range(k):
            index.append(sorted_data[i][0]) 
        
        """
            Этот метод должен принимать на вход текст заголовка и возвращать
            для него k самых вероятных новости.
            В качестве возвращаемого значения ожидается numpy-массив размера k, 
            содержащий id новостей в порядке уменьшения релевантности
        """
        return np.array(index)

In [15]:
%%time
database = Database(corpus)

CPU times: user 11min 39s, sys: 746 ms, total: 11min 40s
Wall time: 11min 40s


Проверим глазами разумность ранжирования новостей на отдельном примере 

In [24]:
import numpy as np
request_id, request_text = requests[809]
print(f'For request (id={request_id}): {request_text}')
print('Responses are:')
for i, response_id in enumerate(database.find(request_text)):
    print(f'{i}    id={response_id}\t{corpus[response_id][1]}')

For request (id=809): Названы любимые супергеройские фильмы россиян
Responses are:
0    id=6609	Издание IndieWire составило рейтинг лучших хорроров в истории кинематографа. В список вошли 100 фильмов. Первую строчку занял фильм Стэнли Кубрика «Сияние». Картина снята по роману Стивена Кинга. Главные роли в фильме исполнили Джек Николсон и Шелли Дювал. По сюжету писатель вместе с женой и сыном приезжает в огромный отель, пустующий в зимний период, и устраивается туда на работу смотрителем. После этого в отеле начинают происходить странные и пугающие события. В первую десятку величайших фильмов ужасов также попали ленты «Техасская резня бензопилой», «Ребенок Розмари», «Изгоняющий дьявола», «Хэллоуин» 1978 года, «Психо», «Глаза без лица», «Нечто», «Чужой» и «Ночь живых мертвецов». В сотне лучших есть и один советский фильм — «Вий» Константина Ершова и Георгия Кропачева. В марте издание NME объявило самый страшный фильм ужасов в истории. Им стал испанский фильм «Уиджи: Проклятие Вероники».


Теперь оценим качество ранжирования по метрике Recall@k 

In [17]:
def get_recall_at_k(targets, predictions, k):
    targets_mask = np.repeat(np.expand_dims(targets, 1), k, axis=1)
    return (predictions[:, :k] == targets_mask).sum() / len(targets)

In [18]:
test_size = 256
test_k = 20

In [19]:
test_requests = random.sample(requests, test_size)

In [20]:
%%time
targets = np.zeros(test_size, dtype=np.int32)
predictions = np.zeros((test_size, test_k), dtype=np.int32)
for i, (request_id, request_text) in enumerate(test_requests):

    targets[i] = request_id
    predictions[i] = database.find(request_text, k=test_k)

1
1
1
1
1
1
1
1
1
1
CPU times: user 52.9 s, sys: 29 s, total: 1min 21s
Wall time: 1min 21s


In [21]:
for k in [1, 3, 5, 10, 20]:
    print(f'Recall@{k}:\t{get_recall_at_k(targets, predictions, k):.3f}')

Recall@1:	0.300
Recall@3:	0.800
Recall@5:	0.800
Recall@10:	0.900
Recall@20:	0.900
