# Домашнее задание 1. Извлечение ключевых слов

При выполнении домашнего задания можно пользоваться тетрадкой с семинара.

### Описание задания:

1. Подготовить мини-корпус (4-5 текстов или до 10 тысяч токенов) с разметкой ключевых слов.
Желательно указать источник корпуса и описать, в каком виде там были представлены ключевые слова.

2. Разметить ключевые слова самостоятельно. Оценить пересечение с имеющейся разметкой.

3. Применить к этому корпусу 3 метода извлечения ключевых слов на выбор (RAKE, TextRank, tf*idf, OKAPI BM25).

4. Оценить точность, полноту, F-меру выбранных методов относительно имеющейся разметки.

5. Описать ошибки автоматического выделения ключевых слов (что выделяется лишнее, что не выделяется);
предложить свои методы решения этих проблем.

### Критерии оценки:

По 2 балла на каждый пункт.

### 1. О корпусе
В качестве корпуса были взяты пять коротких (100 - 200 слов) новостей из [НОЖа](https://knife.media/category/news/), имевших не менее 4 тегов, которые и были использованы в качестве первого набора ключевых слов. Число тегов и число ключевых слов было обрезано до 4.
### 2. О разметке
Пословное (soft) пересечение (втч слов, входящих в словосочетания): 1, 2, 0, 4, 2. В среднем: 2. <br>
Точное (strict) пересечение ключевых слов: 0, 1, 0, 4, 0. В среднем: 1. <br>
Форматирование файла: первая строка - исходные теги, вторая строка - мои ключевые слова, третья строка - текст новости, включая заголовок.

In [121]:
import numpy as np
import os
import pandas as pd
import re

from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()

In [189]:
def tokenize(text):
    '''
    tokenizes a text by
        - stripping punctuation
        - lowering the case
        - splitting
    :param text: str, text to be cleaned
    :return: list of str, tokens
    '''
    low = text.lower()
    stripped = re.sub('\.|!|,|#|$|%|\\|\'|\(|\)|\+|\*|\:|«|»|;|<|>|=|\?|\[|\]|@|^|_|`|{|}|~', '', low)
    return stripped.split()

In [190]:
def lemmatize(tokens):
    '''
    lemmatizes a list of tokens
    :param tokens: list of str, tokens
    :return: list of str, lemmas
    '''
    lemmas = [morph.parse(word)[0].normal_form for word in tokens]
    return lemmas

In [53]:
lemmatize(tokenize('!!!я ПоЛнЫй ДеБиЛ, что мне делать?'))

['я', 'полный', 'дебил', 'что', 'я', 'делать']

In [191]:
data = pd.DataFrame({'tags':[], 'keywords': [], 'text':[]})
data

Unnamed: 0,tags,keywords,text


In [192]:
for root, dirs, files in os.walk('texts'):
    for i, file in enumerate(files):
        with open(os.path.join(root, file), 'r', encoding='utf-8') as f:
            tags, keywords, text = map(lambda s: s.strip(), f.readlines())
            tags = tags.split(', ')
            keywords = keywords.split(', ')
            text = tokenize(text)
            data = data.append(dict(zip(['tags', 'keywords', 'text'], [tags, keywords, text])), ignore_index=True)

In [193]:
data

Unnamed: 0,tags,keywords,text
0,"[животные, истории, коты, россия]","[толстый кот, самолёты, авикомпания, кошки]","[аэрофлот, лишил, миль, пассажира, с, толстым,..."
1,"[законы, криминал, насилие, общество]","[домашнее насилие, СПбГУ, законы, женщины]","[после, дела, соколова, в, петербурге, появитс..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенула, глутамат, рецепторы, мед...","[в, мозге, обнаружили, рецептор, плохого, наст..."
3,"[женщины, исследование, мужчины, отношения]","[мужчины, женщины, отношения, исследование]","[исследование, мужчины, лучше, относятся, к, с..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студентов-медиков, в, магадане, будут, учить,..."


In [194]:
data['tags_lemm'] = data['tags'].apply(lambda tags: [' '.join(lemmatize([tag])) for tag in tags])
data['kw_lemm'] = data['keywords'].apply(lambda kws: [' '.join(lemmatize([kw])) for kw in kws])
data['text_lemm'] = data['text'].apply(lemmatize)
data

Unnamed: 0,tags,keywords,text,tags_lemm,kw_lemm,text_lemm
0,"[животные, истории, коты, россия]","[толстый кот, самолёты, авикомпания, кошки]","[аэрофлот, лишил, миль, пассажира, с, толстым,...","[животное, история, коты, россия]","[толстый кот, самолёт, авикомпания, кошка]","[аэрофлот, лишить, миля, пассажир, с, толстой,..."
1,"[законы, криминал, насилие, общество]","[домашнее насилие, СПбГУ, законы, женщины]","[после, дела, соколова, в, петербурге, появитс...","[закон, криминал, насилие, общество]","[домашнее насилие, спбгу, закон, женщина]","[после, дело, соколов, в, петербург, появиться..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенула, глутамат, рецепторы, мед...","[в, мозге, обнаружили, рецептор, плохого, наст...","[биология, депрессия, исследование, психология]","[медиальная хабенул, глутамат, рецептор, медиц...","[в, мозг, обнаружить, рецептор, плохой, настро..."
3,"[женщины, исследование, мужчины, отношения]","[мужчины, женщины, отношения, исследование]","[исследование, мужчины, лучше, относятся, к, с...","[женщина, исследование, мужчина, отношение]","[мужчина, женщина, отношение, исследование]","[исследование, мужчина, хороший, относиться, к..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студентов-медиков, в, магадане, будут, учить,...","[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студент-медик, в, магадан, быть, учить, на, в..."


### 3. Извлечём ключевые слова?

In [218]:
import RAKE

from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [196]:
lemm_texts = [' '.join(text) for text in data['text_lemm'].tolist()]

**3.1 tf-idf** (10 самых высоких значений)

In [197]:
tfidf_vectorizer = TfidfVectorizer()
X = tfidf_vectorizer.fit_transform(lemm_texts)
tfidf_vocab = np.array(tfidf_vectorizer.get_feature_names())
tfidf_matrix = X.toarray()
print(tfidf_matrix.shape)

(5, 510)


In [507]:
data['tf_idf'] = list(np.apply_along_axis(lambda x: tfidf_vocab[[int(i) for i in x.argsort()[-10:][::-1]]], 1, tfidf_matrix))
data

Unnamed: 0,tags,keywords,text,tags_lemm,kw_lemm,text_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"[животные, истории, коты, россия]","[толстый кот, самолёты, авикомпания, кошки]","[аэрофлот, лишил, миль, пассажира, с, толстым,...","[животное, история, коты, россия]","[толстый кот, самолёт, авикомпания, кошка]","[аэрофлот, лишить, миля, пассажир, с, толстой,...","[кот, пассажир, галина, килограмм, на, он, ави...","[кот, пассажир, галина, килограмм, миля, вес, ...","[бизнес-класс, лишить, ссылка, багаж, переноск...","[программа лояльность, бонусный миля, вынуть п...","[толстой кот аэрофлот, пассажир нарушить прави..."
1,"[законы, криминал, насилие, общество]","[домашнее насилие, СПбГУ, законы, женщины]","[после, дела, соколова, в, петербурге, появитс...","[закон, криминал, насилие, общество]","[домашнее насилие, спбгу, закон, женщина]","[после, дело, соколов, в, петербург, появиться...","[насилие, соколов, проблема, спбгу, центр, сем...","[насилие, спбгу, проблема, соколов, центр, дом...","[который, находиться, отношение, месяц, медиа,...","[дело соколов, громкий дело, недопустимый комм...","[день университет уволить, госдума готовиться ..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенула, глутамат, рецепторы, мед...","[в, мозге, обнаружили, рецептор, плохого, наст...","[биология, депрессия, исследование, психология]","[медиальная хабенул, глутамат, рецептор, медиц...","[в, мозг, обнаружить, рецептор, плохой, настро...","[рецептор, этот, мозг, хабенул, глутамат, меди...","[рецептор, мозг, хабенул, молекула, глутамат, ...","[метаболизм, ацетилхолин, ответ, вредный, глиц...","[молекула glun1/glun3a, молекула отвечать, мол...","[nmda-рецептор активироваться глутамат, австра..."
3,"[женщины, исследование, мужчины, отношения]","[мужчины, женщины, отношения, исследование]","[исследование, мужчины, лучше, относятся, к, с...","[женщина, исследование, мужчина, отношение]","[мужчина, женщина, отношение, исследование]","[исследование, мужчина, хороший, относиться, к...","[мужчина, женщина, бывший, они, отношение, поэ...","[мужчина, бывший, поэтому, секс, партнёр, отно...","[расставание, это, попросить, злиться, думать,...","[свой бывший, женщина исследователь, недавно р...","[грацский университет изучить, интимный связь ..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студентов-медиков, в, магадане, будут, учить,...","[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студент-медик, в, магадан, быть, учить, на, в...","[студент, пациент, виртуальный, интерактивный,...","[студент, виртуальный, интерактивный, анатомия...","[студент-медик, магадан, учить, учиться, котор...","[студент-медик, новый оборудование, мощный ком...","[просто трёхмерный учебник, взаимодействовать ..."


**3.2 Okapi BM25** (10 самых высоких значений)

In [199]:
N = len(data['text_lemm'].tolist())
lens = [len(t) for t in data['text_lemm'].tolist()]
avgdl = sum(lens)/N
avgdl

186.8

In [200]:
def compute_modified_idf(word, vocabulary, in_n_docs):
        """
        computes IDF modified for bm25

        :param word: string, word form vocabulary, IDF of which is to be computed
        :param vocabulary: list of strings (words)
        :param in_n_docs: list of ints corresponding to the number of documents a word occurred in
        :return: float, modified word IDF
        """
        word_id = vocabulary.index(word)
        n = in_n_docs[word_id]
        return np.log((N - n + 0.5) / (n + 0.5))

In [177]:
def modify_tf(tf_value, doc_index, lens, avgdl):
        """
        modifies precomputed tf for bm25 formula

        :param tf_value: float, precomputed tf value
        :param doc_index: int, index of the document at hand
        :param lens: list of ints, document lengths
        :param avgdl: float, average document length
        :return: float, modified tf value
        """
        length = lens[doc_index]
        return (tf_value * (2.0 + 1.0)) / (tf_value + 2.0 * (1.0 - 0.75 + 0.75 * (length / avgdl)))

In [166]:
def compute_bm25(tf_matrix, lens, idfs, avgdl):
        """
        computes bm25 matrix

        :param tf_matrix: np.ndarray, tf matrix (count matrix divided by doc lengths)
        :param lens: list of ints, document lengths
        :param idfs: list of floats, word idfs
        :param avgdl: float, average document length
        :return: np.ndarray, bm25 matrix
        """
        enumed = np.ndenumerate(tf_matrix)
        for i, tf_value in enumed:
            doc_index = i[0]
            tf_matrix[i] = modify_tf(tf_value, doc_index, lens, avgdl)
        return tf_matrix * idfs

In [201]:
count_vectorizer = CountVectorizer()
Y = count_vectorizer.fit_transform(lemm_texts)
tfidf_vocab = np.array(count_vectorizer.get_feature_names())
count_matrix = Y.toarray()
print(count_matrix.shape)

(5, 510)


In [202]:
tf_matrix = count_matrix / np.array(lens).reshape((-1, 1))
count_vocabulary = count_vectorizer.get_feature_names()
in_n_docs = np.count_nonzero(count_matrix, axis=0)
idfs = [compute_modified_idf(word, count_vocabulary, in_n_docs) for word in count_vocabulary]
bm25_matrix = compute_bm25(tf_matrix, lens, idfs, avgdl)

In [508]:
data['bm25'] = list(np.apply_along_axis(lambda x: np.array(count_vocabulary)[[int(i) for i in x.argsort()[-10:][::-1]]], 1, bm25_matrix))
data

Unnamed: 0,tags,keywords,text,tags_lemm,kw_lemm,text_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"[животные, истории, коты, россия]","[толстый кот, самолёты, авикомпания, кошки]","[аэрофлот, лишил, миль, пассажира, с, толстым,...","[животное, история, коты, россия]","[толстый кот, самолёт, авикомпания, кошка]","[аэрофлот, лишить, миля, пассажир, с, толстой,...","[кот, пассажир, галина, килограмм, на, он, ави...","[кот, пассажир, галина, килограмм, миля, вес, ...","[бизнес-класс, лишить, ссылка, багаж, переноск...","[программа лояльность, бонусный миля, вынуть п...","[толстой кот аэрофлот, пассажир нарушить прави..."
1,"[законы, криминал, насилие, общество]","[домашнее насилие, СПбГУ, законы, женщины]","[после, дела, соколова, в, петербурге, появитс...","[закон, криминал, насилие, общество]","[домашнее насилие, спбгу, закон, женщина]","[после, дело, соколов, в, петербург, появиться...","[насилие, соколов, проблема, спбгу, центр, сем...","[насилие, спбгу, проблема, соколов, центр, дом...","[который, находиться, отношение, месяц, медиа,...","[дело соколов, громкий дело, недопустимый комм...","[день университет уволить, госдума готовиться ..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенула, глутамат, рецепторы, мед...","[в, мозге, обнаружили, рецептор, плохого, наст...","[биология, депрессия, исследование, психология]","[медиальная хабенул, глутамат, рецептор, медиц...","[в, мозг, обнаружить, рецептор, плохой, настро...","[рецептор, этот, мозг, хабенул, глутамат, меди...","[рецептор, мозг, хабенул, молекула, глутамат, ...","[метаболизм, ацетилхолин, ответ, вредный, глиц...","[молекула glun1/glun3a, молекула отвечать, мол...","[nmda-рецептор активироваться глутамат, австра..."
3,"[женщины, исследование, мужчины, отношения]","[мужчины, женщины, отношения, исследование]","[исследование, мужчины, лучше, относятся, к, с...","[женщина, исследование, мужчина, отношение]","[мужчина, женщина, отношение, исследование]","[исследование, мужчина, хороший, относиться, к...","[мужчина, женщина, бывший, они, отношение, поэ...","[мужчина, бывший, поэтому, секс, партнёр, отно...","[расставание, это, попросить, злиться, думать,...","[свой бывший, женщина исследователь, недавно р...","[грацский университет изучить, интимный связь ..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студентов-медиков, в, магадане, будут, учить,...","[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студент-медик, в, магадан, быть, учить, на, в...","[студент, пациент, виртуальный, интерактивный,...","[студент, виртуальный, интерактивный, анатомия...","[студент-медик, магадан, учить, учиться, котор...","[студент-медик, новый оборудование, мощный ком...","[просто трёхмерный учебник, взаимодействовать ..."


**3.3 RAKE** (не-единичные значения для n-gram, всё для униграм)

In [451]:
filter1 = lambda tup: tup[1] != 1.0

In [597]:
rake = RAKE.Rake(stopwords.words('russian'))

In [475]:
list(filter(filter1, rake.run(lemm_texts[4], maxWords=2, minFrequency=1)))

[('студент-медик', 4.0),
 ('новый оборудование', 4.0),
 ('мощный компьютер', 4.0),
 ('ткань студент', 4.0),
 ('нервный окончание', 4.0),
 ('диагностический информация', 4.0),
 ('изучать орган', 3.5),
 ('изучать', 1.5)]

In [599]:
rake_kw_1 = []
for i in range(N):
    rake_kw_1.append([x[0] for x in rake.run(lemm_texts[i], maxWords=1, minFrequency=1)])

rake_kw_1[0]

['бизнес-класс',
 'лишить',
 'ссылка',
 'багаж',
 'переноска',
 'борт',
 'регистрация',
 'рига',
 'владивосток',
 'пересадка',
 'шереметьево',
 'салон',
 'весить',
 'показать',
 'подруга',
 'это',
 'самолёт',
 'долететь']

In [598]:
rake_kw_2 = []
for i in range(N):
    rake_kw_2.append([x[0] for x in list(filter(filter1, rake.run(lemm_texts[i], maxWords=2, minFrequency=1)))])

rake_kw_2[0]

['программа лояльность',
 'бонусный миля',
 'вынуть питомец',
 'галина сняться',
 'бизнес-класс',
 'бонусный балл']

In [600]:
rake_kw_3 = []
for i in range(N):
    rake_kw_3.append([x[0] for x in list(filter(filter1, rake.run(lemm_texts[i], maxWords=3, minFrequency=1)))])

rake_kw_3[0]

['толстой кот аэрофлот',
 'пассажир нарушить правило',
 'сдать кот вес',
 'рейс купить билет',
 'кошка который найти',
 'виктор спокойно сесть',
 'программа лояльность',
 'бонусный миля',
 'вынуть питомец',
 'галина сняться',
 'бизнес-класс',
 'бонусный балл']

In [512]:
data['rake_1'] = rake_kw_1
data['rake_2'] = rake_kw_2
data['rake_3'] = rake_kw_3
data

Unnamed: 0,tags,keywords,text,tags_lemm,kw_lemm,text_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"[животные, истории, коты, россия]","[толстый кот, самолёты, авикомпания, кошки]","[аэрофлот, лишил, миль, пассажира, с, толстым,...","[животное, история, коты, россия]","[толстый кот, самолёт, авикомпания, кошка]","[аэрофлот, лишить, миля, пассажир, с, толстой,...","[кот, пассажир, галина, килограмм, на, он, ави...","[кот, пассажир, галина, килограмм, миля, вес, ...","[бизнес-класс, лишить, ссылка, багаж, переноск...","[программа лояльность, бонусный миля, вынуть п...","[толстой кот аэрофлот, пассажир нарушить прави..."
1,"[законы, криминал, насилие, общество]","[домашнее насилие, СПбГУ, законы, женщины]","[после, дела, соколова, в, петербурге, появитс...","[закон, криминал, насилие, общество]","[домашнее насилие, спбгу, закон, женщина]","[после, дело, соколов, в, петербург, появиться...","[насилие, соколов, проблема, спбгу, центр, сем...","[насилие, спбгу, проблема, соколов, центр, дом...","[который, находиться, отношение, месяц, медиа,...","[дело соколов, громкий дело, недопустимый комм...","[день университет уволить, госдума готовиться ..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенула, глутамат, рецепторы, мед...","[в, мозге, обнаружили, рецептор, плохого, наст...","[биология, депрессия, исследование, психология]","[медиальная хабенул, глутамат, рецептор, медиц...","[в, мозг, обнаружить, рецептор, плохой, настро...","[рецептор, этот, мозг, хабенул, глутамат, меди...","[рецептор, мозг, хабенул, молекула, глутамат, ...","[метаболизм, ацетилхолин, ответ, вредный, глиц...","[молекула glun1/glun3a, молекула отвечать, мол...","[nmda-рецептор активироваться глутамат, австра..."
3,"[женщины, исследование, мужчины, отношения]","[мужчины, женщины, отношения, исследование]","[исследование, мужчины, лучше, относятся, к, с...","[женщина, исследование, мужчина, отношение]","[мужчина, женщина, отношение, исследование]","[исследование, мужчина, хороший, относиться, к...","[мужчина, женщина, бывший, они, отношение, поэ...","[мужчина, бывший, поэтому, секс, партнёр, отно...","[расставание, это, попросить, злиться, думать,...","[свой бывший, женщина исследователь, недавно р...","[грацский университет изучить, интимный связь ..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студентов-медиков, в, магадане, будут, учить,...","[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студент-медик, в, магадан, быть, учить, на, в...","[студент, пациент, виртуальный, интерактивный,...","[студент, виртуальный, интерактивный, анатомия...","[студент-медик, магадан, учить, учиться, котор...","[студент-медик, новый оборудование, мощный ком...","[просто трёхмерный учебник, взаимодействовать ..."


### 4. Оценим точность моделей?

In [517]:
results = data.drop(columns=['text','tags','keywords', 'text_lemm'])
results

Unnamed: 0,tags_lemm,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"[животное, история, коты, россия]","[толстый кот, самолёт, авикомпания, кошка]","[кот, пассажир, галина, килограмм, на, он, ави...","[кот, пассажир, галина, килограмм, миля, вес, ...","[бизнес-класс, лишить, ссылка, багаж, переноск...","[программа лояльность, бонусный миля, вынуть п...","[толстой кот аэрофлот, пассажир нарушить прави..."
1,"[закон, криминал, насилие, общество]","[домашнее насилие, спбгу, закон, женщина]","[насилие, соколов, проблема, спбгу, центр, сем...","[насилие, спбгу, проблема, соколов, центр, дом...","[который, находиться, отношение, месяц, медиа,...","[дело соколов, громкий дело, недопустимый комм...","[день университет уволить, госдума готовиться ..."
2,"[биология, депрессия, исследование, психология]","[медиальная хабенул, глутамат, рецептор, медиц...","[рецептор, этот, мозг, хабенул, глутамат, меди...","[рецептор, мозг, хабенул, молекула, глутамат, ...","[метаболизм, ацетилхолин, ответ, вредный, глиц...","[молекула glun1/glun3a, молекула отвечать, мол...","[nmda-рецептор активироваться глутамат, австра..."
3,"[женщина, исследование, мужчина, отношение]","[мужчина, женщина, отношение, исследование]","[мужчина, женщина, бывший, они, отношение, поэ...","[мужчина, бывший, поэтому, секс, партнёр, отно...","[расставание, это, попросить, злиться, думать,...","[свой бывший, женщина исследователь, недавно р...","[грацский университет изучить, интимный связь ..."
4,"[медицина, образование, общество, россия]","[виртуальный пациент, медицинский колледж, ана...","[студент, пациент, виртуальный, интерактивный,...","[студент, виртуальный, интерактивный, анатомия...","[студент-медик, магадан, учить, учиться, котор...","[студент-медик, новый оборудование, мощный ком...","[просто трёхмерный учебник, взаимодействовать ..."


In [349]:
setify = lambda kws: frozenset([frozenset(kw.split()) for kw in kws])

In [402]:
def flatten(s):
    '''
    flattens a set of frozensets into a set
    
    :param s: set or frozenset of frozensets
    :return: set of all elements of all subsets of the set given
    '''
    flat = set()
    for el in s:
        if not isinstance(el, frozenset) and not isinstance(el, set):
            flat.add(el)
        else:
            flat.update(flatten(el))
    return flat

In [376]:
def flatten_index(kws):
    '''
    makes dict of words and the indicies of a keyword they belong to
    
    :param kws: a list of strings (including n-grams)
    :return: dict (str, int)
    '''
    idx_dct = {}
    kws = [kw.split() for kw in kws]
    for i, word_list in enumerate(kws):
        for w in word_list:
            idx_dct[w] = i
    return idx_dct

**4.0 Можно, конечно, считать только строго совпадающие теги, но тогда будет совсем уж грустая картинка. Давайте сравним строгую интерпретацию, и интерпретацию, в которой, например, "кот" и "толстый кот" - это попадание. Сначала рассмотрим пример.** 

```tag_str_true = ['толстый кот', 'авиакомпания аэрофлот', 'россия', 'смешная история']
tag_str_pred = ['кот', 'россия', 'аэрофлот мили', 'пассажир']```

![img](soft_strict.jpg)

In [374]:
flatten_index(tag_str_true)

{'толстый': 0,
 'кот': 0,
 'авиакомпания': 1,
 'аэрофлот': 1,
 'россия': 2,
 'смешная': 3,
 'история': 3}

In [382]:
tag_str_true = ['толстый кот', 'авиакомпания аэрофлот', 'россия', 'смешная история']
tag_str_pred = ['кот', 'россия', 'аэрофлот мили', 'пассажир']

tag_true = setify(tag_str_true)
tag_pred = setify(tag_str_pred)
print(tag_true)
print(tag_pred)
flat_tag_true = flatten(tag_true)
flat_tag_pred = flatten(tag_pred)
print(flat_tag_true)
print(flat_tag_pred)

id_true = flatten_index(tag_str_true)

frozenset({frozenset({'аэрофлот', 'авиакомпания'}), frozenset({'толстый', 'кот'}), frozenset({'история', 'смешная'}), frozenset({'россия'})})
frozenset({frozenset({'кот'}), frozenset({'пассажир'}), frozenset({'аэрофлот', 'мили'}), frozenset({'россия'})})
{'толстый', 'россия', 'авиакомпания', 'кот', 'аэрофлот', 'история', 'смешная'}
{'россия', 'пассажир', 'кот', 'аэрофлот', 'мили'}


In [397]:
len_tp_strict = len(tag_true.intersection(tag_pred))
len_tp_soft = len(set([id_true[w] for w in flat_tag_true.intersection(flat_tag_pred)]))
print(len_tp_strict, len_tp_soft)

1 3


In [400]:
len_fp_strict = len(tag_pred.difference(tag_true))
len_fp_soft = len(tag_pred) - len_tp_soft
print(len_fp_strict, len_fp_soft)

3 1


In [401]:
len_fn_strict = len(tag_true.difference(tag_pred))
len_fn_soft = len(tag_true) - len_tp_soft
print(len_fn_strict, len_fn_soft)

3 1


In [406]:
n_words = 20 # всего слов в тексте
n_bigrams = n_words * (n_words - 1) # возможных сочетания попарно различных слов
pool_of_possible_tags = n_words + n_bigrams

len_tn_strict = pool_of_possible_tags - len_fp_strict - len(tag_pred)
len_tn_soft = pool_of_possible_tags - len_fp_soft - len(tag_pred)

print(len_tn_strict, len_tn_soft)

393 395


In [581]:
def get_metrics(str_tags_true, str_tags_pred, pool_of_possible_tags, soft=False):
    '''
    computes performance metrics on two tagsets of strings (n-grams)
    
    :param str_tags_true: list of str, true tags
    :param str_tags_pred: list of str, predicted tags
    :param pool_of_possible_tags: int
    :param soft: bool, False by default, whether to count bigrams intersecting by a word as a hit
    
    :return precision: float
    :return recall: float
    :return f1: float
    '''
    tag_true_len = len(str_tags_true)
    tag_pred_len = len(str_tags_pred)
    assert tag_true_len != 0 and tag_pred_len != 0, 'tags must be nonempty'
    if soft:
        tag_true = setify(str_tags_true)
        tag_pred = setify(str_tags_pred)
        flat_tag_true = flatten(tag_true)
        flat_tag_pred = flatten(tag_pred)
        id_true = flatten_index(str_tags_true)
        tp = len(set([id_true[w] for w in flat_tag_true.intersection(flat_tag_pred)]))
    else:
        tp = len(set(str_tags_true).intersection(set(str_tags_pred)))
    fp = tag_true_len - tp
    fn = tag_pred_len - tp
    tn = pool_of_possible_tags - fp - tag_true_len
    
    precision = tp/tag_pred_len
    recall = tp/tag_true_len
    if precision and recall:
        f1 = (2 * precision * recall) / (precision + recall)
    else:
        f1 = 0
    return precision, recall, f1

In [446]:
str_tags_true = ['толстый кот', 'авиакомпания аэрофлот', 'россия', 'смешная история', 'лететь', 'двойник']
str_tags_pred = ['кот', 'россия', 'аэрофлот мили', 'пассажир']
n_words = 20  # всего слов в тексте
n_bigrams = n_words * (n_words - 1)  # возможных сочетания попарно различных слов
pool_of_possible_tags = n_words + n_bigrams

strict = get_metrics(str_tags_true, str_tags_pred, pool_of_possible_tags)
soft = get_metrics(str_tags_true, str_tags_pred, pool_of_possible_tags, soft=True)
print(f'strict:\n\tpr: {strict[0]},\n\trec: {strict[1]}, \n\tf1:{strict[2]}')
print(f'soft:\n\tpr: {soft[0]},\n\trec: {soft[1]}, \n\tf1:{soft[2]}')

strict:
	pr: 0.25,
	rec: 0.16666666666666666, 
	f1:0.2
soft:
	pr: 0.75,
	rec: 0.5, 
	f1:0.6


**Введём функции для обобщения подсчёта метрик на целый датасет**

In [547]:
pool_of_possible_tags_df = pd.DataFrame()
lens = data['text_lemm'].apply(len)
pool_of_possible_tags_df['kw_lemm'] = lens + (lens - 1)  # unigrams and next-to-each-other bigrams
pool_of_possible_tags_df['tf_idf'] = lens
pool_of_possible_tags_df['bm25'] = lens
pool_of_possible_tags_df['rake_1'] = lens
pool_of_possible_tags_df['rake_2'] = lens * (lens - 1)  # unigrams and bigrams
pool_of_possible_tags_df['rake_3'] = lens * (lens - 1) * (lens - 3)  # unigrams, bigrams, and trigrams
pool_of_possible_tags_df

Unnamed: 0,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,279,140,140,140,19460,2666020
1,503,252,252,252,63252,15749748
2,329,165,165,165,27060,4383720
3,449,225,225,225,50400,11188800
4,303,152,152,152,22952,3419848


In [571]:
def metrics_broadcast(df, true_column_name, pool_of_possible_tags_df, soft=False):
    '''
    broadcasts metrics calculation over a df
    
    :param df: pd.DataFrame of lists of strings - tagsets
    :param true_column_name: string, the name of the column for the other tagsets to be compared to
    :param pool_of_possible_tags_df: pd.DataFrame of ints, of the same size as df, 
                                    possible tags for each type of tagging for each text
    :param soft: bool, False by default, whether to use strict or soft tagset comparison
    :return: pd.DataFrame of float triples (precision, recall, f1) , of the same size as df
    '''
    metrics = pd.DataFrame()
    columns = df.drop(columns=[true_column_name]).iloc[:,:]
    for i, col in enumerate(columns):
        col_vals = []
        for i in range(N):
            col_vals.append(get_metrics(results[true_column_name][i], results[col][i], pool_of_possible_tags_df[col][i], soft=soft))
        metrics[col] = col_vals
    return metrics

In [565]:
def average_over_df_tuples(df):
    '''
    averages into a dict over tuples in each column of a given df
    :param df: pd.DataFrame
    :return: dict of (str, tuple) - column names and tuple averages 
    '''
    metrics_dict = {}
    for col in df:
        metrics_dict[col] = tuple(map(lambda y: sum(y) / float(len(y)), zip(*strict_metrics_tags[col])))
    return metrics_dict

In [567]:
def print_average(average_metrics):
    '''
    prints a dict of triplets of metrics
    :param average_metrics: dict of triplets
    '''
    for method in average_metrics:
        metrics = average_metrics[method]
        print(f'{method}:\n\tprecision: {metrics[0]}\n\trecall:{metrics[1]}\n\tf1: {metrics[0]}')

**4.1 Посчитаем метрики на изначальных тегах из статей:**

4.1.1 жесткие метрики

In [572]:
strict_metrics_tags = metrics_broadcast(results, 'tags_lemm', pool_of_possible_tags_df)
strict_metrics_tags

Unnamed: 0,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
1,"(0.25, 0.25, 0.25)","(0.1, 0.25, 0.14285714285714288)","(0.1, 0.25, 0.14285714285714288)","(0.06666666666666667, 0.25, 0.10526315789473685)","(0.058823529411764705, 0.25, 0.09523809523809523)","(0.038461538461538464, 0.25, 0.06666666666666668)"
2,"(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
3,"(1.0, 1.0, 1.0)","(0.3, 0.75, 0.4285714285714285)","(0.1, 0.25, 0.14285714285714288)","(0.10526315789473684, 0.5, 0.17391304347826086)","(0.0625, 0.25, 0.1)","(0.07692307692307693, 0.5, 0.13333333333333336)"
4,"(0.25, 0.25, 0.25)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"


In [573]:
print_average(average_over_df_tuples(strict_metrics_tags))

kw_lemm:
	precision: 0.3
	recall:0.3
	f1: 0.3
tf_idf:
	precision: 0.08
	recall:0.2
	f1: 0.08
bm25:
	precision: 0.04
	recall:0.1
	f1: 0.04
rake_1:
	precision: 0.0343859649122807
	recall:0.15
	f1: 0.0343859649122807
rake_2:
	precision: 0.02426470588235294
	recall:0.1
	f1: 0.02426470588235294
rake_3:
	precision: 0.023076923076923078
	recall:0.15
	f1: 0.023076923076923078


4.1.2 мягкие метрики

In [603]:
soft_metrics_tags = metrics_broadcast(results, 'tags_lemm', pool_of_possible_tags_df, soft=True)
soft_metrics_tags

Unnamed: 0,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,"(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
1,"(0.5, 0.5, 0.5)","(0.1, 0.25, 0.14285714285714288)","(0.1, 0.25, 0.14285714285714288)","(0.06666666666666667, 0.25, 0.10526315789473685)","(0.11764705882352941, 0.5, 0.19047619047619047)","(0.07692307692307693, 0.5, 0.13333333333333336)"
2,"(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
3,"(1.0, 1.0, 1.0)","(0.3, 0.75, 0.4285714285714285)","(0.1, 0.25, 0.14285714285714288)","(0.10526315789473684, 0.5, 0.17391304347826086)","(0.1875, 0.75, 0.3)","(0.15384615384615385, 1.0, 0.2666666666666667)"
4,"(0.25, 0.25, 0.25)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"


In [582]:
print_average(average_over_df_tuples(soft_metrics_tags))

kw_lemm:
	precision: 0.3
	recall:0.3
	f1: 0.3
tf_idf:
	precision: 0.08
	recall:0.2
	f1: 0.08
bm25:
	precision: 0.04
	recall:0.1
	f1: 0.04
rake_1:
	precision: 0.0343859649122807
	recall:0.15
	f1: 0.0343859649122807
rake_2:
	precision: 0.02426470588235294
	recall:0.1
	f1: 0.02426470588235294
rake_3:
	precision: 0.023076923076923078
	recall:0.15
	f1: 0.023076923076923078


In [604]:
soft_metrics_tags == strict_metrics_tags

Unnamed: 0,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,True,True,True,True,True,True
1,False,True,True,True,False,False
2,True,True,True,True,True,True
3,True,True,True,True,False,False
4,True,True,True,True,True,True


In [605]:
soft_metrics_tags > strict_metrics_tags

Unnamed: 0,kw_lemm,tf_idf,bm25,rake_1,rake_2,rake_3
0,False,False,False,False,False,False
1,True,False,False,False,True,True
2,False,False,False,False,False,False
3,False,False,False,False,True,True
4,False,False,False,False,False,False


Очевидно, лучше всего теги приближены были моими ключевыми словами (kw_lemm). На втором месте - tf_idf.

**4.2 Посчитаем метрики на изначальных тегах из сделанных вручную:**

4.2.1 жесткие метрики

In [590]:
strict_metrcs_kws = metrics_broadcast(results.drop(columns=['tags_lemm']), 'kw_lemm', pool_of_possible_tags_df)
strict_metrcs_kws

Unnamed: 0,tf_idf,bm25,rake_1,rake_2,rake_3
0,"(0.1, 0.25, 0.14285714285714288)","(0.0, 0.0, 0)","(0.05555555555555555, 0.25, 0.0909090909090909)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
1,"(0.1, 0.25, 0.14285714285714288)","(0.1, 0.25, 0.14285714285714288)","(0.06666666666666667, 0.25, 0.10526315789473685)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"
2,"(0.2, 0.5, 0.28571428571428575)","(0.2, 0.5, 0.28571428571428575)","(0.125, 0.25, 0.16666666666666666)","(0.09090909090909091, 0.25, 0.13333333333333333)","(0.05, 0.25, 0.08333333333333334)"
3,"(0.3, 0.75, 0.4285714285714285)","(0.1, 0.25, 0.14285714285714288)","(0.10526315789473684, 0.5, 0.17391304347826086)","(0.0625, 0.25, 0.1)","(0.07692307692307693, 0.5, 0.13333333333333336)"
4,"(0.1, 0.25, 0.14285714285714288)","(0.1, 0.25, 0.14285714285714288)","(0.125, 0.25, 0.16666666666666666)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"


In [591]:
print_average(average_over_df_tuples(strict_metrcs_kws))

tf_idf:
	precision: 0.08
	recall:0.2
	f1: 0.08
bm25:
	precision: 0.04
	recall:0.1
	f1: 0.04
rake_1:
	precision: 0.0343859649122807
	recall:0.15
	f1: 0.0343859649122807
rake_2:
	precision: 0.02426470588235294
	recall:0.1
	f1: 0.02426470588235294
rake_3:
	precision: 0.023076923076923078
	recall:0.15
	f1: 0.023076923076923078


4.2.2 мягкие метрики

In [592]:
soft_metrcs_kws = metrics_broadcast(results.drop(columns=['tags_lemm']), 'kw_lemm', pool_of_possible_tags_df, soft=True)
soft_metrcs_kws

Unnamed: 0,tf_idf,bm25,rake_1,rake_2,rake_3
0,"(0.2, 0.5, 0.28571428571428575)","(0.1, 0.25, 0.14285714285714288)","(0.05555555555555555, 0.25, 0.0909090909090909)","(0.0, 0.0, 0)","(0.16666666666666666, 0.5, 0.25)"
1,"(0.2, 0.5, 0.28571428571428575)","(0.2, 0.5, 0.28571428571428575)","(0.13333333333333333, 0.5, 0.2105263157894737)","(0.11764705882352941, 0.5, 0.19047619047619047)","(0.11538461538461539, 0.75, 0.19999999999999998)"
2,"(0.3, 0.75, 0.4285714285714285)","(0.3, 0.75, 0.4285714285714285)","(0.125, 0.25, 0.16666666666666666)","(0.09090909090909091, 0.25, 0.13333333333333333)","(0.1, 0.5, 0.16666666666666669)"
3,"(0.3, 0.75, 0.4285714285714285)","(0.1, 0.25, 0.14285714285714288)","(0.10526315789473684, 0.5, 0.17391304347826086)","(0.1875, 0.75, 0.3)","(0.15384615384615385, 1.0, 0.2666666666666667)"
4,"(0.3, 0.75, 0.4285714285714285)","(0.3, 0.75, 0.4285714285714285)","(0.125, 0.25, 0.16666666666666666)","(0.0, 0.0, 0)","(0.0, 0.0, 0)"


In [593]:
print_average(average_over_df_tuples(soft_metrcs_kws))

tf_idf:
	precision: 0.08
	recall:0.2
	f1: 0.08
bm25:
	precision: 0.04
	recall:0.1
	f1: 0.04
rake_1:
	precision: 0.0343859649122807
	recall:0.15
	f1: 0.0343859649122807
rake_2:
	precision: 0.02426470588235294
	recall:0.1
	f1: 0.02426470588235294
rake_3:
	precision: 0.023076923076923078
	recall:0.15
	f1: 0.023076923076923078


из всех моделей на моих ключевых словах лучше всего себя показало tf_idf

### 5. Почему так плохо?

**- Потому, что теги в новостях - это не совесм ключевые слова. Кроме того, они всегда однословны.
Можно заметить, что на некоторых текстах не совпадали с тегами ни мои ключевые слова, ни одна из моделей.** <br>
Например, очевидно, не выделяются слова, которые стоят в тегах, но которых в тексте просто нет. Часто я их тоже не выделила - они не казались мне ключевыми словами. <br>
Можно было бы взять научные статьи, где на самом деле выделены ключевые слова, но они часто превышают заданную длину, и кроме того, в них куда сложнее руками выделять ключевые слова - нужно в самом деле понимать статью - это вам не новости :)

**- Потому, что tf-idf и bm25 хорошо и дёшево прилижают только однословные ключевые слова, а чтоб подсчитывать n-граммы их нужно тоже насильно вводить в словарь** <br>
Конечно, можно было бы добавить n-gram'ы в словарь, посчитать их совместную встречаемость, но это бы ещё сильнее разредило матрицы, а кроме того, вряд ли дало бы такой уж большой выигрыш.<br>
Можно было бы взять предобученные на нормальных корпусах модели и до-обучить. Это могло бы значительно повысить качество.

**- Впрочем, из-за того, что RAKE берёт в ключевые n-gram'ы не только соседствующие слова, но вообще любые n-gram'ы, RAKE 2-gram и 3-gram сработали хуже, чем RAKE на 1-gram'ах**<br>
Последнее можно также частично объяснить тем, что целевой таг-сет по большей части однословен.

**- Потому что все эти методы не очень хорошо работают на текстах длины порядка 180 слов!**<br>
Можно было бы брать более длинные тексты, но это бы во многом затруднило ручную разметку ключевых слов, поскольку часто длинные тексты освещают бОльшее число тематик, чем короткие. Если бы пришлось обобщать по длинным текстам, то, с некоторой вероятностью, "общие" ключевые слова бы опять не встречались в тексте, а были связаны с ним онтологически (например, текст о биологии, в котором не упоминается напрямую это слово).

**- В общем, все приведённые модели стремятся завышать "смысловые" частотные слова, и игнорируют слова-обощения, не встречающиеся в тексте.**<br>
Интересно, улучшилось бы качество или нет, если бы к моделям можно было добавить тезаурус, словарь синонимов или векторную модель - как способы репрезентации непредставленных в тексте, но связнных с ним слов.

**- Возможно, не стоило пользоваться пайморфи? It might be utter trash sometimes.**

In [160]:
lemmatize(['коты'])

['коты']

In [518]:
lemmatize(['медиальная', 'хабенула'])

['медиальный', 'хабенул']