# Preprocessing

Тексты взяты с новостного сайта, раздела технологии. Каждая статья включала в себя теги по ключевым словам
[https://politexpert.net/](https://politexpert.net/)

In [162]:
import nltk
from pymystem3 import Mystem
from string import punctuation

stopwords = nltk.corpus.stopwords.words('russian')
morph = Mystem()

In [177]:
class Article:
    def __init__(self, text, keywords, my_keywords):
        self.keywords = keywords.split(",")
        self.my_keywords = my_keywords.split(",")
        self.model_keywords = None
        self.text = text
        self.tokenized_text = self.parse_text(text)
        
    def __repr__(self):
        return f"\tkeywords: {self.keywords}\n\ttext: {self.text}\n\ttokens: {self.tokenized_text}"

    @staticmethod
    def parse_text(input_text, split_text=False):
        if split_text:
            return [morph.lemmatize(token)[0] for token in input_text 
                    if token not in stopwords and token not in punctuation]
        return " ".join([morph.lemmatize(token)[0] for token in nltk.word_tokenize(input_text)
            if token not in stopwords and token not in punctuation])
    
    def count_metrics(self, my_keywords=False):
        if my_keywords:
            pres = len(set(self.model_keywords) & set(self.my_keywords)) / len(self.model_keywords)
            rec = len(set(self.model_keywords) & set(self.my_keywords)) / len(self.my_keywords)
            f1 = 2 * pres * rec / (pres + rec) if rec != 0 and pres != 0 else 0 
        else:
            pres = len(set(self.model_keywords) & set(self.keywords)) / len(self.model_keywords)
            rec = len(set(self.model_keywords) & set(self.keywords)) / len(self.keywords)
            f1 = 2 * pres * rec / (pres + rec) if rec != 0 and pres != 0 else 0 
        return pres, rec, f1

In [178]:
test_text = "Я очень устала и хочу спать, отпустите меня, пожалуйста!"

Article.parse_text(test_text)

'я очень уставать хотеть спать отпускать пожалуйста'

In [179]:
import os

with open(os.path.join("corpus.txt"), "r") as fd:
    corpus = fd.read().split("\n")

corpus = [Article(corpus[i + 2], corpus[i], corpus[i + 1]) for i in range(0, len(corpus) - 1, 3)]

In [180]:
corpus[0]

	keywords: ['новинка', 'xiaomi', 'устройство', 'технологии']
	text: Китайская компания Xiaomi выпустила оригинальное зарядное устройство, которое сможет подогревать кофе и одновременно заряжать смартфон. Об этом пишет портал ixbt.com. Новое беспроводное устройство от Xiaomi представляет собой чашку с подставкой, которая способна поддерживать температуру до +55 градусов. Создатели гаджета утверждают, что их метод нагревания совершенно безопасен и стабилен, в отличие от проводного. Они рассказали, что чашка сделана из прочной керамики и ничем не отличается от обычной посуды. Ее можно спокойно мыть и суть. Кружка начинает нагреваться при помещении на подставку. Спустя четыре часа устройство самостоятельно выключается, если его не использовать. Также на подставке можно не только подогревать напитки, но и заряжать смартфон. Устройство также выполняет функцию беспроводного зарядного устройства для гаджетов от Xiaomi, Apple, Huawei и Samsung. Стоимость оригинального девайса составляет около 1

# Compare keywords

Часть кейвордов сходится, потому что иногда я была согласна с тегами, встроенными в статьи.

In [181]:
for i in range(len(corpus)):
    print(f"Текст {i}")
    print(set(corpus[i].keywords) & set(corpus[i].my_keywords))

Текст 0
{'xiaomi', 'устройство'}
Текст 1
{'apple', 'курение'}
Текст 2
{'цензура', 'instagram', 'facebook'}
Текст 3
{'молния'}
Текст 4
{'apple'}


Но я делала теги более подробными + пыталась брать только те слова, которые встречаются в самом тексте. Поэтому есть некоторая разница.

In [182]:
for i in range(len(corpus)):
    print(f"Текст {i}")
    print("Есть у меня, нет в оригинале:", set(corpus[i].my_keywords) - set(corpus[i].keywords))
    print("Есть в оригинале, нет у меня, нет в оригинале:", set(corpus[i].keywords) - set(corpus[i].my_keywords))

Текст 0
Есть у меня, нет в оригинале: {'бепровоное', 'чашка'}
Есть в оригинале, нет у меня, нет в оригинале: {'технологии', 'новинка'}
Текст 1
Есть у меня, нет в оригинале: {'приложение', 'вейп'}
Есть в оригинале, нет у меня, нет в оригинале: {'сигареты', 'электронные', 'вейпы'}
Текст 2
Есть у меня, нет в оригинале: {'законопроект'}
Есть в оригинале, нет у меня, нет в оригинале: set()
Текст 3
Есть у меня, нет в оригинале: {'удар', 'расчет', 'анализ', 'система'}
Есть в оригинале, нет у меня, нет в оригинале: {'технологии', 'искусственный интеллект'}
Текст 4
Есть у меня, нет в оригинале: {'телефон', 'iphone', 'интернет'}
Есть в оригинале, нет у меня, нет в оригинале: {'обновление', 'смартфон'}


# TF-IDF

In [183]:
from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer()
tf_idf_matrix = tf_idf.fit_transform([text.tokenized_text for text in corpus]).T.toarray()

In [184]:
import pandas as pd

result_table = pd.DataFrame(data=tf_idf_matrix, index=tf_idf.get_feature_names())

for i in range(tf_idf_matrix.shape[1]):
    corpus[i].model_keywords = list(result_table[i].nlargest(5).index)
    print("оригинал:", corpus[i].keywords, "\nмодель:", corpus[i].model_keywords, "\n")

оригинал: ['новинка', 'xiaomi', 'устройство', 'технологии'] 
модель: ['устройство', 'xiaomi', 'подставка', 'беспроводный', 'гаджет'] 

оригинал: ['электронные', 'сигареты', 'apple', 'курение', 'вейпы'] 
модель: ['программа', 'курение', 'приложение', 'удалять', 'app'] 

оригинал: ['facebook', 'instagram', 'цензура'] 
модель: ['платформа', 'facebook', 'социальный', 'аккаунт', 'блогер'] 

оригинал: ['молния', 'технологии', 'искусственный интеллект'] 
модель: ['изобретение', 'молния', 'точность', 'информация', '30'] 

оригинал: ['apple', 'смартфон', 'обновление'] 
модель: ['iphone', 'владелец', 'модель', 'девайс', 'интернет'] 



In [110]:
import numpy as np

pres, rec, f1 = np.mean([corpus[i].count_metrics() for i in range(tf_idf_matrix.shape[1])], axis=0)

Сравнение с оригинальными тегами:

In [111]:
print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.2
recall: 0.2733333333333333
f1: 0.22888888888888886


Сравнение с моими тегами:

In [185]:
pres, rec, f1 = np.mean([corpus[i].count_metrics(my_keywords=True) 
                         for i in range(tf_idf_matrix.shape[1])], axis=0)
print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.32
recall: 0.39
f1: 0.3511111111111111


# TextRank

In [187]:
from gensim.summarization import keywords

for i in range(len(corpus)):
    corpus[i].model_keywords = keywords(corpus[i].tokenized_text).split('\n')
    print("оригинал:", corpus[i].keywords, "\nмодель:", corpus[i].model_keywords, "\n")

оригинал: ['новинка', 'xiaomi', 'устройство', 'технологии'] 
модель: ['устроиство', 'xiaomi', 'чашка подставка', 'они', 'оригинальныи', 'гаджет', 'подогревать', 'беспроводныи', 'также', 'которыи', 'рубль', 'представлять', 'заряжать', 'портал', 'первыи'] 

оригинал: ['электронные', 'сигареты', 'apple', 'курение', 'вейпы'] 
модель: ['которыи', 'курение', 'приложение', 'программа', 'apple', 'удалять', 'корпорация', 'веип', 'это', 'app', 'яблочныи', 'компания'] 

оригинал: ['facebook', 'instagram', 'цензура'] 
модель: ['facebook', 'блогер получать платформа', 'издание', 'подвергаться', 'видео', 'аккаунт', 'социальныи сеть', 'свои', 'компания', 'это', 'политическии цензура', 'юридическии лицо', 'новость тема кликать', 'несоответствие', 'instagram', 'ценность'] 

оригинал: ['молния', 'технологии', 'искусственный интеллект'] 
модель: ['молния', 'точность', 'изобретение', 'информация', 'лаборатория', 'территория', 'оперныи', 'сиднеискии', 'электромагнитныи совместимость', 'начинать гроза уточн

Куда он дел й??

Сравнение с оригинальными тегами:

In [188]:
pres, rec, f1 = np.mean([corpus[i].count_metrics() for i in range(tf_idf_matrix.shape[1])], axis=0)

print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.08833333333333333
recall: 0.32999999999999996
f1: 0.13688338493292052


Сравнение с моими тегами:

In [189]:
pres, rec, f1 = np.mean([corpus[i].count_metrics(my_keywords=True) 
                         for i in range(tf_idf_matrix.shape[1])], axis=0)
print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.13576923076923078
recall: 0.44000000000000006
f1: 0.20664086687306504


# Rake

In [190]:
import RAKE

rk = RAKE.Rake(stopwords)

На нетокенизированном тексте на проверку извлечение ключевых слов оказалось лучше, поэтому на вход модели подаю его. Далее токенизирую полученные слова самостоятельно для подсчета метрик.

In [191]:
for i in range(len(corpus)):
    corpus[i].model_keywords = Article.parse_text([k[0] for k in 
                                                   rk.run(corpus[i].text, maxWords=1)], split_text=True)
    print("оригинал:", corpus[i].keywords, "\nмодель:", corpus[i].model_keywords, "\n")

оригинал: ['новинка', 'xiaomi', 'устройство', 'технологии'] 
модель: ['com', 'подставка', 'стабильный', 'отличие', 'проводной', 'рассказывать', 'ничто', 'отличаться', 'суть', 'помещение', 'подставка', 'использовать', 'также', 'подставка', 'гаджет', 'xiaomi', 'apple', 'huawei', 'samsung'] 

оригинал: ['электронные', 'сигареты', 'apple', 'курение', 'вейпы'] 
модель: ['приложение', 'вейпинг', 'это', 'например', 'некоторые', 'кроме', 'игра', 'который'] 

оригинал: ['facebook', 'instagram', 'цензура'] 
модель: ['получать', 'видео', 'igtv', 'ссылка', 'bloomberg', 'говорить', 'выборы', 'политика', 'платформа', 'предлагать', 'неудивительный', 'несоответствие', 'идеология', 'россия', 'африка', 'очевидно', 'другой', 'никто', 'нравиться', 'фзнц', 'госдума', 'хотеть', 'новость', 'тема', 'кликать', 'подписываться', 'яндекс'] 

оригинал: ['молния', 'технологии', 'искусственный интеллект'] 
модель: ['фотограф', 'точность', 'проводить', 'анализ', 'разработка', 'соответственно', 'функционировать', 'дан

Сравнение с оригинальными тегами:

In [192]:
pres, rec, f1 = np.mean([corpus[i].count_metrics() for i in range(tf_idf_matrix.shape[1])], axis=0)

print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.025910931174089068
recall: 0.11666666666666665
f1: 0.042391304347826085


Сравнение с моими тегами:

In [193]:
pres, rec, f1 = np.mean([corpus[i].count_metrics(my_keywords=True) 
                         for i in range(tf_idf_matrix.shape[1])], axis=0)
print("precision:", pres)
print("recall:", rec)
print("f1:", f1)

precision: 0.08447736474052263
recall: 0.24
f1: 0.1227834612105712


# Conclusions

Метрики очень плохие, чему я могу предположить ряд причин:
1. Оригинальных ключевых слов маловато.
2. Выбранные авторами ключевые слова могут не содержаться в самом тексте напрямую (например, ключевое слово "смартфон" в статье про айфон), поэтому данные алгоритмы не могут их отгадать, т.к. они опираются только на содержание текста.
3. Объем статей маловат.

В качестве решения могу предложить только расширение списка ключевых слов с учетом содержания статей (т.е., не использовать слова, которых нет в тексте). Это я и попробовала сделать, считая метрики на своих списках ключевых слов, и как можно увидеть, метрики действительно значительно подросли.