#### Preface
В этом практикуме многое позаимствовано у моего коллеги, преподавателя компьютерной лингвистики Миши Нефедова. Спасибо ему.

## Что такое извлечение ключевых слов

Извлечение ключевых слов (keyword extraction) - способ извлечения информации из текста и анализа его тематики. В отличие от автоматического реферирования (саммаризации), мы не создаем полноценный пересказ, а вытаскиваем только ключевые слова (Keywords). Иногда идут чуть дальше и извлекают ключевые словосочетания/n-граммы (Keyphrases). Например, чтобы для текста про "морских коров" не извлекались слова "корова" и "морской", а извлекалось все словосочетание. Это еще актуальнее для более аналитических языков вроде английского (ср. "хотдог" - "hot dog"; вряд ли вы хотите ключевое слово "собака" в тексте про хотдоги).

## Зачем это нужно?

Задача извлечения ключевых слов обычно решается в информационном поиске. Если вы решите писать свой поисковик, или просто индесировать какую-то большую коллекцию текстов, понимать эту тему необходимо. Но и для других задач это может быть полезно. В каком-то смысле, извлечение ключевых слов — простейший способ "тематического моделирования" корпуса. 

## К делу!

### План такой: 
1. Подумать, какие подходы возможны. Реализовать их на случайном примере, оценить результаты глазами

1. Взять готовый набор данных, где ключевые слова уже выделены людьми, и попробовать сравнить с ними (как с эталоном) результат наших методов. Важно помнить, что понятие "эталона" здесь условно. Задача keyword extraction допускает альтернативные решения для одного текста. 

In [10]:
import os ## работаем с файлами, значит, наверняка понадобится ос
from nltk import word_tokenize ## работаем со словами — значит, токенизатор для этих файлов понадобится
import string ## возьмем оттуда punctuation

## Подготовка

Давайте возьмем для эксперимента 6 текстов: 4 новостных и 2 художественных. Скачать можно [тут](samples_for_class.zip). У меня они лежат в папке 'samples_for_class' рядом с кодом. Положу этот путь в переменную:

In [11]:
PATH_TO_TEXTS = 'samples_for_class'

Теперь запишу тексты всех файлов в один список, чтобы потом с ними легче работать: 

In [215]:
## в этот пустой список я потом запишу тексты файлов, чтобы потом применять к ним разные методы:
file_texts = []
# в этом цикле я сложу в file_texts тексты файлов, лежащие по адресу в PATH_TO_TEXTS:
for some_file in os.listdir (PATH_TO_TEXTS): 
    if some_file.endswith ('.txt'):
        with open (os.path.join(PATH_TO_TEXTS, some_file),'r') as open_file:
            file_texts.append (open_file.read())

## Пробуем подходы

### Самый тупой вариант: берем первые и последние слова текста

Напишем фукнцию, которая берет первые и последние слова (их число задается пользователем как параметр функции).

In [253]:
def keywords_firstlast (some_text, num_first, num_last):
    """На вход -- строка с текстом some_text, число слов от начала num_first, число слов от конца num_last"""
    tokenized_text = word_tokenize (some_text.lower())
    if len (tokenized_text) > num_first + num_last:
        if num_last != 0: 
            return tokenized_text [:num_first] + tokenized_text [num_last*-1:]
        else: 
            return tokenized_text [:num_first] # спецобработка случая с нулем слов с конца
    else:
        return tokenized_text

Прогоним по текстам

In [37]:
for text in file_texts:
    print (keywords_firstlast (text, 5,5))

['Глава', 'Федерального', 'медико-биологического', 'агентства', ',', 'тысяч', 'тестов', 'на', 'коронавирус', '.']
['Перед', 'судебным', 'следователем', 'стоит', 'маленький', 'дело', ',', 'по', 'совести', '...']
['Власти', 'разработали', 'два', 'стресс-сценария', 'для', 'утвержден', 'правительством', '10', 'апреля', '.']
['Несколько', 'крупнейших', 'сетей', 'медицинских', 'лабораторий', 'этом', 'услуга', 'будет', 'платной', '.']
['Россияне', 'почти', 'до', 'нуля', 'сократили', 'больше', 'покупок', 'совершают', 'онлайн', '.']
['Через', 'базарную', 'площадь', 'идет', 'полицейский', 'путь', 'по', 'базарной', 'площади', '.']


Получилось не очень. А еще мешают знаки препинания... Давайте их отфильтруем (на этапе заполнения переменной tokenized_text. Я вставлю там генератор списка, в котором буду проверять, что помещаемый в список элемент не является пунктуатором). Сначала напишем это в виде цикла с if-ом внутри:

In [None]:
def keywords_firstlast_no_punct (some_text, num_first, num_last):
    """На вход -- строка с текстом some_text, число слов от начала num_first, число слов от конца num_last"""
    # пройдемся циклом по результату токенизации текста
    for word in word_tokenize(some_text.lower()):
        # выцепим все слова, которые не входят в string.punctuation
        if word not in string.punctuation:
            #
            tokenized_text.append (word)
    if len (tokenized_text) > num_first + num_last:
        if num_last != 0: 
            return tokenized_text [:num_first] + tokenized_text [num_last*-1:]
        else: 
            return tokenized_text [:num_first] # спецобработка случая с нулем слов с конца
    else:
        return tokenized_text

А теперь сделаем этот код компактнее, использовав генератор списка, о которых как раз говорил вам Борис Валерьевич на последем занятии.

In [19]:
def keywords_firstlast_no_punct (some_text, num_first, num_last):
    """На вход -- строка с текстом some_text, число слов от начала num_first, число слов от конца num_last"""
    tokenized_text = [word for word in word_tokenize(some_text.lower()) if word not in string.punctuation]
    if len (tokenized_text) > num_first + num_last:
        if num_last != 0: 
            return tokenized_text [:num_first] + tokenized_text [num_last*-1:]
        else: 
            return tokenized_text [:num_first] # спецобработка случая с нулем слов с конца
    else:
        return tokenized_text

Посмотрим еще раз:

In [20]:
for text in file_texts:
    print (keywords_firstlast_no_punct (text, 5,5))

['Глава', 'Федерального', 'медико-биологического', 'агентства', 'бывший', '795', 'тысяч', 'тестов', 'на', 'коронавирус']
['Перед', 'судебным', 'следователем', 'стоит', 'маленький', 'за', 'дело', 'по', 'совести', '...']
['Власти', 'разработали', 'два', 'стресс-сценария', 'для', 'будет', 'утвержден', 'правительством', '10', 'апреля']
['Несколько', 'крупнейших', 'сетей', 'медицинских', 'лабораторий', 'При', 'этом', 'услуга', 'будет', 'платной']
['Россияне', 'почти', 'до', 'нуля', 'сократили', 'все', 'больше', 'покупок', 'совершают', 'онлайн']
['Через', 'базарную', 'площадь', 'идет', 'полицейский', 'свой', 'путь', 'по', 'базарной', 'площади']


Уже лучше, но в стандартную сборку string.punctuation явно входит не все, что нам нужно. Усовершенствуем ее:

In [191]:
extended_punctuation = string.punctuation + '—»«...' 

Поменяем функцию, добавив туда extenвed_punctuation вместо string.punctuation

In [24]:
def keywords_firstlast_no_punct (some_text, num_first, num_last):
    """На вход -- строка с текстом some_text, число слов от начала num_first, число слов от конца num_last"""
    tokenized_text = [word for word in word_tokenize(some_text.lower()) if word not in extended_punctuation]
    if len (tokenized_text) > num_first + num_last:
        if num_last != 0: 
            return tokenized_text [:num_first] + tokenized_text [num_last*-1:]
        else: 
            return tokenized_text [:num_first] # спецобработка случая с нулем слов с конца
    else:
        return tokenized_text

In [32]:
for text in file_texts:
    print (keywords_firstlast_no_punct (text, 5,5))

['Глава', 'Федерального', 'медико-биологического', 'агентства', 'бывший', '795', 'тысяч', 'тестов', 'на', 'коронавирус']
['Перед', 'судебным', 'следователем', 'стоит', 'маленький', 'чтоб', 'за', 'дело', 'по', 'совести']
['Власти', 'разработали', 'два', 'стресс-сценария', 'для', 'будет', 'утвержден', 'правительством', '10', 'апреля']
['Несколько', 'крупнейших', 'сетей', 'медицинских', 'лабораторий', 'При', 'этом', 'услуга', 'будет', 'платной']
['Россияне', 'почти', 'до', 'нуля', 'сократили', 'все', 'больше', 'покупок', 'совершают', 'онлайн']
['Через', 'базарную', 'площадь', 'идет', 'полицейский', 'свой', 'путь', 'по', 'базарной', 'площади']


### Второй самый тупой вариант: берем самые частотные слова текста

In [33]:
from nltk import FreqDist # как вы помните, в нлтк есть счетчик частотностей
# но можно и пользоваться Counter из модуля collections

Краткое напоминание: как работает FreqDist:

In [46]:
text = 'повар петр повар павел'
FreqDist(text.split())

FreqDist({'повар': 2, 'петр': 1, 'павел': 1})

In [47]:
FreqDist(text.split()).most_common (2)

[('повар', 2), ('петр', 1)]

In [58]:
def keywords_most_frequent (some_text, num_most_freq):
    """На вход -- строка с текстом some_text, число самых частотных слов от начала num_most_freq"""
    # запишем в переменную tokenized_text список токенов без пунктуации
    tokenized_text = [word for word in word_tokenize (some_text.lower()) if word not in extended_punctuation] 
    # вернем самые частотные слова, посчитанные с помощью метода most_common у FreqDist 
    return [word_freq_pair[0] for word_freq_pair in FreqDist(tokenized_text).most_common(num_most_freq)]

In [59]:
for text in file_texts:
    print (keywords_most_frequent (text, 10))

['в', 'на', 'скворцова', 'россии', 'по', 'до', 'что', 'covid-19', '10-14', 'дней']
['и', 'не', 'на', 'а', 'ты', 'в', 'что', 'денис', 'то', 'с']
['в', 'и', 'на', 'до', 'года', 'будет', 'предприятий', 'что', 'системообразующих', 'а']
['в', 'на', 'и', 'тестирование', 'роспотребнадзора', 'коронавирус', 'только', 'тесты', 'что', 'регионах']
['на', 'в', 'и', 'по', 'расходы', 'неделю', 'с', 'россияне', 'почти', 'до']
['и', 'не', 'в', 'а', 'я', 'на', 'у', 'ты', 'это', 'очумелов']


### Третий вариант: берем самые частотные слова текста без стоп-слов

In [161]:
with open ('stop_ru.txt', 'r') as stop_file:
    rus_stops = [word.strip() for word in stop_file.readlines()] # запишем стослова в список 

In [136]:
def keywords_most_frequent_with_stop (some_text, num_most_freq, some_stoplist):
    tokenized_text = [word for word in word_tokenize (some_text.lower()) if word not in extended_punctuation and word not in some_stoplist]
    return [word_freq_pair[0] for word_freq_pair in FreqDist(tokenized_text).most_common(num_most_freq)]

In [137]:
for text in file_texts:
    print (keywords_most_frequent_with_stop (text, 6, rus_stops))

['скворцова', 'россии', 'covid-19', '10-14', 'дней', 'данным']
['денис', 'грузила', 'следователь', 'гайку', 'нешто', 'благородие']
['предприятий', 'системообразующих', '2020', 'минэкономразвития', 'компаний', 'нефть']
['тестирование', 'роспотребнадзора', 'коронавирус', 'тесты', 'регионах', 'представитель']
['расходы', 'неделю', 'россияне', 'салоны', 'красоты', 'сбербанка']
['очумелов', 'собака', 'благородие', 'палец', 'ежели', 'собаку']


### Четвертый вариант: берем самые частотные ЛЕММЫ текста без стоп-слов

In [138]:
from pymystem3 import Mystem ## используем mystem в обертке pymystem

In [140]:
moi_analizator = Mystem() ## создаем экземпляр класса "анализатор MyStem"  

In [278]:
def passed_filter (some_word, stoplist):
    some_word = some_word.strip()
    if some_word in extended_punctuation:
        return False
    elif some_word in stoplist:
        return False
    elif re.search ('[А-ЯЁа-яёA-Za-z]', some_word) == None:
        return False
    return True

In [279]:
def keywords_most_frequent_with_stop_and_lemm (some_text, num_most_freq, stoplist):
    lemmatized_text = [word for word in moi_analizator.lemmatize(some_text.lower()) if passed_filter(word, stoplist)]
    return [word_freq_pair[0] for word_freq_pair in FreqDist(lemmatized_text).most_common(num_most_freq)]

In [143]:
for text in file_texts:
    print (keywords_most_frequent_with_stop_and_lemm (text, 10, rus_stops))

['россия', 'скворцов', 'инфекция', '10', 'коронавирус', 'коронавирусный', 'covid', '19', '14', 'данные']
['денис', 'гайка', 'отвинчивать', 'грузило', 'понимать', 'следователь', 'рельс', 'врать', 'знать', 'говорить']
['год', 'стресс', 'сценарий', 'квартал', 'нефть', 'предприятие', '2020', 'конец', 'минпромторг', 'системообразующий']
['тестирование', 'лаборатория', 'тест', 'роспотребнадзор', 'коронавирус', 'биоматериал', 'регион', '», ', 'частный', 'государственный']
['неделя', 'расход', '%, ', 'россиянин', 'категория', 'товар', '9', '2', '», «', ' (+']
['собака', 'очумел', 'палец', 'знать', 'толпа', 'благородие', '!..', 'спрашивать', 'ежели', 'городовой']


## А какие-нибудь более умные варианты будут?

## 1. Meet TF-IDF ! 

TF IDF — это мера, которая учитывает не только частотность слова в документе (TF, term frequency) — но и то, насколько часто — вернее, насколько редко! — оно встречается во всем корпусе (IDF, inverse document frequency). Формально она считается так:

<img src="pics/tfidf.gif">

Суть в том, что таким образом повышаются слова, частотные в данном документе -- и редкие в корпусе в целом. Такие слова получают бонус относительно слов, частотных и в данном документе, и в других. 

In [162]:
from sklearn.feature_extraction.text import TfidfVectorizer ## готовая реализация TF IDF из библиотеки sklearn

In [163]:
make_tf_idf = TfidfVectorizer (stop_words=rus_stops) # Создаем специальный объект-векторайзер 
#fitted_vectorizer = make_tf_idf.fit(file_texts) 
texts_as_tfidf_vectors=make_tf_idf.fit_transform(file_texts) # Кладем в этот векторайзер наши файлы и просим сделать матрицу TF_IDF

In [None]:
texts_as_tfidf_vectors

In [None]:
print (texts_as_tfidf_vectors.shape) ## посмотрим размерность матрицы

In [None]:
make_tf_idf.get_feature_names()[100:200] ## посмотрим 

In [167]:
## кусочек кода, который берет матрицу TF-IDF и выдает по ней топ-слова для каждого текста

id2word = {i:word for i,word in enumerate(make_tf_idf.get_feature_names())} 
for text_row in range(texts_as_tfidf_vectors.shape[0]): 
    row_data = texts_as_tfidf_vectors.getrow(text_row) ## берем ряд в нашей матрице -- он соответстует тексту
    words_for_this_text = row_data.toarray().argsort() ## сортируем в нем все слова (вернее, индексы слов) -- получаем от самых маленьких к самым большим
    top_words_for_this_text = words_for_this_text [0,:-6:-1] ## берем крайние слова отсортированного ряда
    print ([id2word[w] for w in top_words_for_this_text]) ## 

['скворцова', '10', 'россии', 'данным', 'коронавируса']
['денис', 'грузила', 'следователь', 'гайку', 'ежели']
['стресс', '2020', 'предприятий', 'минэкономразвития', 'системообразующих']
['тестирование', 'роспотребнадзора', 'коронавирус', 'регионах', 'представитель']
['расходы', 'неделю', 'россияне', 'салоны', 'сбербанка']
['очумелов', 'собака', 'палец', 'благородие', 'собаку']


### Естественно, тут можно снова накрутить лемматизацию 

In [168]:
## пусть лемматизируется в отдельной функции 
def preprocess_for_tfidif (some_text):
    lemmatized_text = moi_analizator.lemmatize(some_text.lower())
    return (' '.join(lemmatized_text)) # поскольку tfidf векторайзер принимает на вход строку, 
    #после лемматизации склеим все обратно

In [265]:
def produce_tf_idf_keywords (some_texts, number_of_words):
    make_tf_idf = TfidfVectorizer (stop_words=rus_stops)
    texts_as_tfidf_vectors=make_tf_idf.fit_transform(preprocess_for_tfidif(text) for text in some_texts)
    id2word = {i:word for i,word in enumerate(make_tf_idf.get_feature_names())} 
    for text_row in range(texts_as_tfidf_vectors.shape[0]): 
        row_data = texts_as_tfidf_vectors.getrow(text_row) ## берем ряд в нашей матрице -- он соответстует тексту
        words_for_this_text = row_data.toarray().argsort() ## сортируем в нем все слова 
        top_words_for_this_text = words_for_this_text [0,:-1*number_of_words:-1] 
        print ([id2word[w] for w in top_words_for_this_text])

In [267]:
produce_tf_idf_keywords (file_texts, 6)

['скворцов', 'россия', '10', 'коронавирус', 'инфекция']
['гайка', 'денис', 'отвинчивать', 'грузило', 'понимать']
['стресс', 'сценарий', 'квартал', 'предприятие', 'нефть']
['роспотребнадзор', 'лаборатория', 'тест', 'тестирование', 'коронавирус']
['расход', 'неделя', 'россиянин', 'категория', 'товар']
['собака', 'очумел', 'палец', 'толпа', 'знать']


## 2. Еще один умный способ: превратить текст в граф (сеть) и искать центральные узлы

Много методов для извлечения ключевых слов основаны на сетевом анализе. Основная идея - каким-то образом перевести текст в граф, а затем посчитать центральности узлов и вывести центральные.  

<img src="https://www.researchgate.net/profile/Mitsuru_Ishizuka/publication/2539694/figure/fig1/AS:669437975883786@1536617859438/A-word-cooccurrence-graph-of-a-set-of-news-articles-The-source-articles-are-a-set-of.png">

Часто применяют такой подход - построим матрицу совстречаемости слов (в каком-то окне), эта матрица будет основой графа. Ниже приведена НЕ моя реализация сборки такого графа по тексту и примения к нему алгоритма random walk для выделения ключевых слов. Вот описание от автора:

Для выбора важных узлов часто используют простой randow walk. Алгоритм примерно такой:  
1) Каким-то образом выбирается первый узел графа (например, случайно из равномерного распределения)  
2) на основе связей этого узла с другими, выбирается следующий узел  
3) шаг два повторяется некоторое количество раз (например, тысячу) __*чтобы не зацикливаться, с какой-то вероятностью мы случайно перескакиваем на другой узел (даже если он никак не связан с текущим, как в шаге 1)__  
5) на каждом шаге мы сохраняем узел в котором находимся  
6) в конце мы считаем в каких узлах мы были чаще всего и выводим top-N  


Предполагается, что мы часто будем приходить в важные узлы графа.

In [181]:
from itertools import combinations
from collections import Counter
import np

In [182]:
### не моя реализация алгоритма

def get_kws(text, top=6, window_size=5, random_p=0.1):

    vocab = set(text)
    word2id = {w:i for i, w in enumerate(vocab)}
    id2word = {i:w for i, w in enumerate(vocab)}
    # преобразуем слова в индексы для удобства
    ids = [word2id[word] for word in text]

    # создадим матрицу совстречаемости
    m = np.zeros((len(vocab), len(vocab)))

    # пройдемся окном по всему тексту
    for i in range(0, len(ids), window_size):

        window = ids[i:i+window_size]
        # добавим единичку всем парам слов в этом окне
        for j, k in combinations(window, 2):
            # чтобы граф был ненаправленный 
            m[j][k] += 1
            m[k][j] += 1
    
    # нормализуем строки, чтобы получилась вероятность перехода
    for i in range(m.shape[0]):
        s = np.sum(m[i])
        if not s:
            continue
        m[i] /= s
    
    # случайно выберем первое слова, а затем будет выбирать на основе полученых распределений
    # сделаем так 5 раз и добавим каждое слово в счетчик
    # чтобы не забиться в одном круге, иногда будет перескакивать на случайное слово
    
    c = Counter()
    # начнем с абсолютного случайно выбранного элемента
    n = np.random.choice(len(vocab))
    for i in range(500): # если долго считается, можно уменьшить число проходов
        
        # c вероятностью random_p 
        # перескакиваем на другой узел
        go_random = np.random.choice([0, 1], p=[1-random_p, random_p])
        
        if go_random:
            n = np.random.choice(len(vocab))
        
        
        ### 
        n = take_step(n, m)
        # записываем узлы, в которых были
        c.update([n])
    
    # вернем топ-N наиболее часто встретившихся сл
    return [id2word[i] for i, count in c.most_common(top)]

def take_step(n, matrix):
    rang = len(matrix[n])
    # выбираем узел из заданного интервала, на основе распределения из матрицы совстречаемости
    if np.any(matrix[n]):
        next_n = np.random.choice(range(rang), p=matrix[n])
    else:
        next_n = np.random.choice(range(rang))
    return next_n
    

Испытаем эту реализацию на наших текстах

In [210]:
for text in file_texts:
    print (get_kws (word_tokenize(text))) # функция принимает на вход 

[',', '.', 'Скворцова', 'в', 'Вероника', '—']
[',', '—', '...', 'и', '!', '?']
[',', '.', 'и', 'на', 'в', 'нефть']
[',', '»', 'в', '.', '«', 'и']
[',', 'на', 'в', '%', '»', '«']
[',', '—', 'и', '...', '!', 'в']


Ах да, нам ведь опять надо делать предобработку типа удаления пунктуации и стоп-слов. Давайте уже сделаем общую функцию для этого:

In [272]:
def preprocessing_general (input_text, stoplist):
    '''функция для предобработки текста; 
    на вход принимает строку с текстом input_text и список стоп-слов stoplist
    на выходе чистый список слов output'''
    ## лемматизируем майстемом и делаем strip каждого слова:
    output = [word.strip() for word in moi_analizator.lemmatize (input_text)] 
    ## убираем пунктуацию и стоп-слова:
    output = [word for word in output if word not in extended_punctuation and word not in stoplist]
    ## убираем слова, в которых вообще нет буквенных символов:
    output = [word for word in output if re.search ('[А-ЯЁа-яёA-Za-z]', word) != None]
    return output

In [216]:
for text in file_texts:
    print (get_kws (preprocessing_general(text, rus_stops)))

['федеральный', 'агентство', 'инфекция', 'бывший', 'медико-биологический', 'скворцов']
['следователь', 'отвинчивать', 'грузило', 'понимать', 'денис', 'знать']
['нефть', 'предприятие', 'россия', 'стресс', 'цена', 'оценивать']
['роспотребнадзор', 'коронавирус', 'регион', 'дмитриев', 'лаборатория', 'тест']
['неделя', 'аналитик', 'расход', 'потребление', 'категория', 'сравнение']
['собака', 'палец', 'знать', 'бежать', 'очумел', 'ситцевый']


Замечание: в отличие от всех прочих, этот метод недетерминированный. Поскольку в функции происходит случайное хождение по узлам, даже без смены параметров результаты будут отличаться от прогона к прогону

## Вторая часть плана: тестируем на реальных данных

1. Возьмем готовые данные, в которых уже размечены ключевые слова. 

2. Напишем код для сравнения этих keywords с теми, что выделяют наши функции.

### 1. Берем реальные данные

Данные возьмем отсюда: https://github.com/mannefedov/ru_kw_eval_datasets Тут лежат 4 датасета (статьи с хабра, с Russia Today, Независимой газеты и научные статьи с Киберленинки). В них уже размечены keywords

Вы можете скачать их все при помощи `git clone https://github.com/mannefedov/ru_kw_eval_datasets`

### 2. Считываем данные 

Я буду работать с одним файлом — ng_1.jsonlines. Как можно догадаться по названию, это файл в формате json (вы уже [познакомились с этим форматом](https://agricolamz.github.io/DS_for_DH/lists.html) в курсе Гарика). Jsonlines -- версия формата JSON, в которой хранится много json-объектов с новой строки. Поэтому целый файл не получится прочитать целиком с помощью стандартного питоновского json.load. Давайте пробовать:

In [222]:
import json

In [None]:
with open("data/ng_1.jsonlines", "r") as read_file:
    ng_1_data = json.load(read_file)

Выдает ошибку парсинга json. Зато можно вот так: 

In [226]:
ng_1_data = []
with open("data/ng_1.jsonlines", "r") as read_file:
    for line in read_file:
        ng_1_data.append(json.loads(line)) # json.loads считывает строку, в отличие от json.load

Теперь в списке "ng_1_data" лежат объекты из нашего json. Всего 988:

In [273]:
len (ng_1_data)

988

Каждый элемент списка соответствует тексту, у которого есть кроме самого текста заголовок, набор приписанных вручную ключевых слов, URL и краткий пересказ (summary)

In [237]:
ng_1_data[0]

{'keywords': ['школа',
  'образовательные стандарты',
  'литература',
  'история',
  'фгос'],
 'title': 'Ольга Васильева обещала "НГ" не перегружать школьников',
 'url': 'https://amp.ng.ru/?p=http://www.ng.ru/education/2018-03-22/8_7195_school.html',
 'content': 'В среду состоялось отложенное заседание Совета по федеральным государственным образовательным стандартам (ФГОС) при Министерстве образования и науки РФ. Собрание должно было состояться еще в понедельник, но было перенесено по просьбе членов совета. И вот пришло сообщение, что общественники выразили согласие с позицией министерства. Новые ФГОСы приняты.\nНа вчерашнем заседании был принят ФГОС по начальной общеобразовательной школе. До 28 марта продлятся косультации по ФГОСам для средней школы.\nНапомним, что накануне Гильдия словесников разместила открытое письмо на имя министра образования и науки РФ Ольги Васильевой. По мнению авторов письма, новые ФГОСы грубо нарушают права детей, уже проучившихся по существующему стандарту 

С технической точки зрения при таком считывании JSON в питон (по-умному это называется "десериализация") JSON-объекты превращаются в словари. По ключам можно доставать значения:

In [274]:
ng_1_data[0] ['keywords']

['школа', 'образовательные стандарты', 'литература', 'история', 'фгос']

In [281]:
for item in ng_1_data[:4]:
    print (item['keywords'])

['школа', 'образовательные стандарты', 'литература', 'история', 'фгос']
['красота', 'законы']
['юзефович', 'гражданская война', 'пепеляев', 'якутия']
['формула1', 'автоспорт', 'гонки', 'испания', 'квят']


В принципе стандартнымх ходом здесь было бы положить весь json внутрь pandas.DataFrame и работать с датафреймом... Но если считать, что pandas мы с вами еще не проходили, то можно обойтись и без него. 

М.б. это будет чуть менее красиво -- зато все собрано из самых простых подручных материалов (циклы + списки).

### 3. Итак, применяем наши наработки по извлечению ключевых слов

С самыми примитивными решениями, которые мы придумали, можно вообще за один цикл все посмотреть: 

In [282]:
for item in ng_1_data[:10]:
    print ('Эталонные ключевые слова: ', item['keywords'])
    print ('Первые и последние слова', keywords_firstlast (item['content'], 4,4))
    print ()

Эталонные ключевые слова:  ['школа', 'образовательные стандарты', 'литература', 'история', 'фгос']
Первые и последние слова ['в', 'среду', 'состоялось', 'отложенное', 'отдельные', 'издательства', '»', '.']

Эталонные ключевые слова:  ['красота', 'законы']
Первые и последние слова ['хорошо', ',', 'когда', 'красота', 'был', 'ее', 'укорот', '.']

Эталонные ключевые слова:  ['юзефович', 'гражданская война', 'пепеляев', 'якутия']
Первые и последние слова ['когда-то', 'леонид', 'юзефович', 'написал', 'старинными', 'местными', 'мифами', '.']

Эталонные ключевые слова:  ['формула1', 'автоспорт', 'гонки', 'испания', 'квят']
Первые и последние слова ['гран-при', 'испании', 'открыло', 'евротур', 'состоятся', '21-24', 'мая', '.']

Эталонные ключевые слова:  ['есенин', 'православие', 'святая русь', 'поэзия', 'год литературы', 'клюев', 'мариенгоф', 'стихи', 'россия']
Первые и последние слова ['десять', 'лет', 'назад', 'была', 'меня', 'к', 'себе', '.']

Эталонные ключевые слова:  ['медвузы', 'медицин

Что-то не особо сходится... Попробуем частотные:

In [280]:
for item in ng_1_data[:10]:
    print ('Эталонные ключевые слова: ', item['keywords'])
    print ('Самые частотные слова: ',  keywords_most_frequent_with_stop_and_lemm (item['content'], 6, rus_stops))
    print ()

Эталонные ключевые слова:  ['школа', 'образовательные стандарты', 'литература', 'история', 'фгос']
Самые частотные слова:  ['фгос', 'стандарт', 'источник', 'образовательный', 'новый', 'ольга']

Эталонные ключевые слова:  ['красота', 'законы']
Самые частотные слова:  ['красота', 'глаз', 'отчаяние', 'уходить', 'порыв', 'кошка']

Эталонные ключевые слова:  ['юзефович', 'гражданская война', 'пепеляев', 'якутия']
Самые частотные слова:  ['пепеляев', 'юзефович', 'книга', 'якутия', 'белый', 'восстание']

Эталонные ключевые слова:  ['формула1', 'автоспорт', 'гонки', 'испания', 'квят']
Самые частотные слова:  ['команда', 'гонка', 'пилот', 'ferrari', 'mclaren', 'сезон']

Эталонные ключевые слова:  ['есенин', 'православие', 'святая русь', 'поэзия', 'год литературы', 'клюев', 'мариенгоф', 'стихи', 'россия']
Самые частотные слова:  ['есенин', 'поэт', 'клюев', 'смерть', 'сергей', 'самый']

Эталонные ключевые слова:  ['медвузы', 'медицинское образование', 'рудн', 'николай стуров', 'интервью']
Самые ч

Кажется, что совпадения есть... 

Но с TF-IDF мы аналогично сделать не можем -- ведь ее расчет для одного текста требует знания о всех текстах (и поэтому наша функция produce_tf_idf_keywords принимает на вход список текстов, а не одну текстовую строку).

Поэтому мы сначалапройдемся по считанным из json данным и заполним списки

In [285]:
manual_keywords = [] ## сюда запишем все ключевые слова, приписанные вручную
full_texts = [] ## сюда тексты

In [289]:
for item in ng_1_data:
    manual_keywords.append(item['keywords'])
    full_texts.append(item['content'])

Теперь можно применять к списку с текстами нашу старую функцию tf-idf. Давайте применим ее сначала к небольшому подмножеству из пары десятков текстов:
    

In [269]:
produce_tf_idf_keywords (full_texts[:20], 6) 

['фгос', 'стандарт', 'источник', 'ольга', 'исторический']
['красота', 'отчаяние', 'порыв', 'кошка', 'глаз']
['пепеляев', 'юзефович', 'якутия', 'книга', 'восстание']
['гонка', 'команда', 'пилот', 'mclaren', 'ferrari']
['есенин', 'поэт', 'клюев', '1925', 'борода']
['медицина', 'медицинский', 'кафедра', 'выпускник', 'рудна']
['мозг', 'книга', 'говор', 'островной', 'русский']
['ирак', 'партизанский', 'война', 'американец', 'войско']
['нейросеть', 'ai', 'клетка', 'подобно', 'интеллект']
['кристалина', 'вступление', 'вто', 'георгиев', 'банк']
['фильм', 'приз', 'кино', 'картина', 'медведь']
['каша', 'рок', 'талон', 'столовая', 'сидеть']
['псков', 'место', 'князь', 'туризм', 'город']
['индонезия', 'терроризм', 'экстремизм', 'мусульманский', 'страна']
['игра', 'парень', 'стример', 'саша', 'youtube']
['выборы', 'путин', 'признавать', 'президент', 'демократический']
['водный', 'вода', 'загрязнение', 'сток', 'очистка']
['школа', 'образование', 'школьник', 'москва', 'олимпиада']
['фильм', 'снимать'

Выглядит уже неплохо -- а ведь может стать и лучше, если использвать весь корпус, а не только 20 текстов.

Вопрос в том, как нам оценить это "неплохо". 

## Оценка качества извлечения ключевых слов 
### или немного про точность, полноту и F-меру

Наверно, нам надо как-то считать процент попаданий. Например, сколько слов из эталона накрыл наш алгоритм. 

In [292]:
def produce_tf_idf_keywords (some_texts, number_of_words):
    result = []
    make_tf_idf = TfidfVectorizer (stop_words=rus_stops)
    texts_as_tfidf_vectors=make_tf_idf.fit_transform(preprocess_for_tfidif(text) for text in some_texts)
    id2word = {i:word for i,word in enumerate(make_tf_idf.get_feature_names())} 
    for text_row in range(texts_as_tfidf_vectors.shape[0]): 
        row_data = texts_as_tfidf_vectors.getrow(text_row) ## берем ряд в нашей матрице -- он соответстует тексту
        words_for_this_text = row_data.toarray().argsort() ## сортируем в нем все слова 
        top_words_for_this_text = words_for_this_text [0,:-1*number_of_words:-1] 
        result.append([id2word[w] for w in top_words_for_this_text])
    return (result)

создадим список предсказанных нами ключевых слов

In [316]:
predicted_keywords = produce_tf_idf_keywords (full_texts, 6) 

In [303]:
predicted_keywords [125]

['шувалов',
 'рост',
 'маневр',
 'правительство',
 'ндс',
 'спираль',
 'чудодейственный',
 'профицит',
 'налоговый']

In [304]:
manual_keywords [125]

['экономика',
 'рост',
 'план',
 'правительство',
 'налоги',
 'игорь шувалов',
 'инвестиции',
 'реформы']

In [309]:
def simple_match_counter (list_a, list_b):
    '''считает среднее всех пересечений (доли угаданных слов попарно для каждого текста)'''
    all_matches = []
    for index, words_a in enumerate (list_a):
        words_b = list_b [index]
        intersection = len (set(words_a) & set (words_b)) #  число элементов в пересечении списков
        all_matches.append (intersection/len(words_a))
    return sum(all_matches)/ len (all_matches)

In [315]:
simple_match_counter (manual_keywords, predicted_keywords)

0.06217151325957008

In [None]:
Сравнимся с 

In [None]:
predicted_keywords_10_per_text = produce_tf_idf_keywords (full_texts, 10) 

In [None]:
simple_match_counter (manual_keywords, predicted_keywords_10_per_text)

Можно поменять местами списки на входе функции — и тогда мы будем искать не сколько слов в эталоне мы накрыли, а сколько из тех слов, что мы выдали, есть в эталоне

In [None]:
simple_match_counter (predicted_keywords_10_per_text, manual_keywords)

Но тут появляется возможность читерства в обратную сторону: выдавать как можно меньше слов

In [313]:
predicted_keywords_2_per_text = produce_tf_idf_keywords (full_texts, 2) 

In [314]:
simple_match_counter (predicted_keywords_2_per_text, manual_keywords)

0.2925101214574899

## Задание 1