В этой задаче вам предлагается научиться по заголовку искать статью в некотором заданном множестве.

In [1]:
!pip install corus 
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2021-04-10 18:55:15--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210410%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210410T185515Z&X-Amz-Expires=300&X-Amz-Signature=d2894cb84f0834a10777adfa89c07c52219181f11e18f4745a3a3a36f4e2e51f&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2021-04-10 18:55:15--  https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKI

In [2]:
import random
import numpy as np
from corus import load_lenta

Для простоты возьмём первые 10000 новостей

In [3]:
path = 'lenta-ru-news.csv.gz'
corpus = []
requests = []
for i, record in zip(range(10000), load_lenta(path)):
    corpus.append( record.text)
    requests.append((i, record.title))

Теперь необходимо реализовать класс, отвечающий за поиск новостей. Возможным подходом будет выбрать какое-нибудь векторное представление текста (bag-of-words, tf-idf, word2vec и т.п.) и метрику расстояния (косинусное, Евклидово, манхэттенское и т.п.), а потом сортировать новости по расстоянию до заголовка. Однако, вы можете реализовывать любые ваши идеи.

In [4]:
from gensim.models import TfidfModel
from gensim.corpora import Dictionary
from sklearn.metrics.pairwise import cosine_similarity
from gensim.similarities import MatrixSimilarity
import nltk
from nltk.stem.snowball import SnowballStemmer 
nltk.download('stopwords')
from nltk.corpus import stopwords
Stopwords = stopwords.words("russian")
stemmer = SnowballStemmer("russian") 

class Tfidf_database:
    def prepare_string(self, s):
        s = s.lower()
        s = "".join([ch for ch in s if ch.isalpha() or ch == ' '])
        s = " ".join([word  for word in s.split() if word not in Stopwords])
        s =[stemmer.stem(word) for word in s.split()]
        return s

    def __init__(self, corpus):
        self.dct = Dictionary([[word for word in self.prepare_string(text)] for text in corpus ])
        self.corp = [self.dct.doc2bow(self.prepare_string(text)) for text in corpus]
        self.model = TfidfModel(self.corp)
        self.index = MatrixSimilarity(self.model[self.corp])

    def find(self, request, k=10):
        request = self.prepare_string(request)
        results = []
        result = self.index[self.dct.doc2bow(request)]
        for i in range(0, len(result)):
            results.append((i, result[i]))
        top = sorted(results, key=lambda x: -x[1])[:k]
        answer =np.array([top[i][0] for i in range(k)])  
        return answer

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [5]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from sklearn.metrics.pairwise import cosine_similarity
from nltk.stem.snowball import SnowballStemmer 
stemmer = SnowballStemmer("russian") 
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
Stopwords = stopwords.words("russian")

class Doc2vec_database:
    def prepare_string(self, s):
        s = s.lower()
        s = "".join([ch for ch in s if ch.isalpha() or ch == ' '])
        s = " ".join([word  for word in s.split() if word not in Stopwords])
        s = [stemmer.stem(word) for word in s.split()]    
        return s

    def __init__(self, corpus):
        self.texts = [TaggedDocument(self.prepare_string(text), [i]) for i, text in enumerate(corpus)]
        self.model = Doc2Vec(self.texts, dm=0, vector_size=300, window=7, min_count=3, workers=4, epochs=50) 

    def find(self, request, k=10):
        vector = self.model.infer_vector(self.prepare_string(request), epochs=2000)
        res = self.model.docvecs.most_similar(positive=[vector], topn=k)

        return np.array([res[i][0] for i in range(k)])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
%%time
tfidf_database = Tfidf_database(corpus)

CPU times: user 2min 58s, sys: 3.94 s, total: 3min 2s
Wall time: 3min 2s


In [7]:
%%time
doc2vec_database = Doc2vec_database(corpus)

CPU times: user 6min 25s, sys: 8.05 s, total: 6min 33s
Wall time: 4min 14s


Проверим глазами разумность ранжирования новостей на отдельном примере 

In [8]:
request_id, request_text = requests[11]
print(f'For request (id={request_id}): {request_text}')
print('Responses are:')
for i, response_id in enumerate(tfidf_database.find(request_text)):
    print(f'{i}    id={response_id}\t{corpus[response_id]}')

For request (id=11): Овечкин повторил свой рекорд
Responses are:
0    id=11	 Капитан «Вашингтона» Александр Овечкин сделал хет-трик в игре Национальной хоккейной лиги (НХЛ) с «Каролиной». Таким образом он продлил результативную серию до 13 матчей и повторил личный рекорд января-февраля 2007 года. Об этом сообщает Sports.ru. Встреча завершилась со счетом 5:6 Б — «Вашингтон» переиграл «Каролину» по булитам. Для россиянина это второй подряд хет-трик. До этого он отметился им в матче против «Детройт Ред Уингс». Клубный рекорд остается за Майклом Гартнером — 17 матчей. В соперничестве бомбардиров Овечкин занял пятое место с 42 (28+14) очками в 31 матче.
1    id=9203	Российский нападающий «Вашингтон Кэпиталс» Александр Овечкин признан самым популярным игроком Национальной хоккейной лиги (НХЛ). Об этом сообщает Sports Business Daily. Общее число подписчиков Овечкина в Twitter, Instagram и Facebook превысило 4,2 миллиона человек. Ближайшим преследователем россиянина является защитник «Нэшвилл 

In [9]:
request_id, request_text = requests[11]
print(f'For request (id={request_id}): {request_text}')
print('Responses are:')
for i, response_id in enumerate(doc2vec_database.find(request_text)):
    print(f'{i}    id={response_id}\t{corpus[response_id]}')

For request (id=11): Овечкин повторил свой рекорд
Responses are:
0    id=11	 Капитан «Вашингтона» Александр Овечкин сделал хет-трик в игре Национальной хоккейной лиги (НХЛ) с «Каролиной». Таким образом он продлил результативную серию до 13 матчей и повторил личный рекорд января-февраля 2007 года. Об этом сообщает Sports.ru. Встреча завершилась со счетом 5:6 Б — «Вашингтон» переиграл «Каролину» по булитам. Для россиянина это второй подряд хет-трик. До этого он отметился им в матче против «Детройт Ред Уингс». Клубный рекорд остается за Майклом Гартнером — 17 матчей. В соперничестве бомбардиров Овечкин занял пятое место с 42 (28+14) очками в 31 матче.
1    id=925	Российский нападающий «Вашингтон Кэпиталс» Александр Овечкин забросил шайбу в ворота «Коламбус Блю Джекетс» в матче регулярного чемпионата Национальной хоккейной лиги (НХЛ) и возглавил снайперскую гонку турнира. Видео появилось на YouTube-канале NHL Россия. Овечкин отличился в конце первого периода, сделав счет 3:0 в пользу «Ваши

Теперь оценим качество ранжирования по метрике Recall@k 

In [10]:
def get_recall_at_k(targets, predictions, k):
    targets_mask = np.repeat(np.expand_dims(targets, 1), k, axis=1)
    return (predictions[:, :k] == targets_mask).sum() / len(targets)

In [11]:
test_size = 256
test_k = 20

In [12]:
test_requests = random.sample(requests, test_size)

In [14]:
%%time
targets = np.zeros(test_size, dtype=np.int32)
tfidf_predictions = np.zeros((test_size, test_k), dtype=np.int32)
for i, (request_id, request_text) in enumerate(test_requests):
    targets[i] = request_id
    tfidf_predictions[i] = tfidf_database.find(request_text, k=test_k)

CPU times: user 1min 37s, sys: 4.11 s, total: 1min 41s
Wall time: 51.7 s


In [15]:
%%time
targets = np.zeros(test_size, dtype=np.int32)
doc2vec_predictions = np.zeros((test_size, test_k), dtype=np.int32)
for i, (request_id, request_text) in enumerate(test_requests):
    targets[i] = request_id
    doc2vec_predictions[i] = doc2vec_database.find(request_text, k=test_k)

CPU times: user 21.4 s, sys: 16.9 s, total: 38.3 s
Wall time: 19.6 s


In [16]:
for k in [1, 3, 5, 10, 20]:
    print(f'Recall@{k}:\t{get_recall_at_k(targets, tfidf_predictions, k):.3f}')

Recall@1:	0.406
Recall@3:	0.586
Recall@5:	0.660
Recall@10:	0.734
Recall@20:	0.809


In [17]:
for k in [1, 3, 5, 10, 20]:
    print(f'Recall@{k}:\t{get_recall_at_k(targets, doc2vec_predictions, k):.3f}')

Recall@1:	0.383
Recall@3:	0.531
Recall@5:	0.598
Recall@10:	0.680
Recall@20:	0.754
