In [1]:
import json, os
import pandas as pd
from nltk.corpus import stopwords
import numpy as np
from pymorphy2 import MorphAnalyzer
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
morph = MorphAnalyzer()
stops = set(stopwords.words('russian'))

In [2]:
pd.set_option('display.max_colwidth', 1000)

In [3]:
from tqdm import tqdm_notebook as tqdm

In [4]:
from nltk import word_tokenize


In [5]:
import re

In [22]:
from string import punctuation
punct = punctuation+'«»—…“”*№–'

In [None]:
stops = set(stopwords.words('russian'))

## Данные

In [6]:
# скачаем данные в папке data и распакуем их
PATH_TO_DATA = './data'

In [7]:
files = [os.path.join(PATH_TO_DATA, file) for file in os.listdir(PATH_TO_DATA) if not file.startswith('.')]

In [8]:
data = pd.concat([pd.read_json(file, lines=True) for file in files], axis=0, ignore_index=True)

In [9]:
def evaluate(true_kws, predicted_kws):
    assert len(true_kws) == len(predicted_kws)
    
    precisions = []
    recalls = []
    f1s = []
    jaccards = []
    
    for i in range(len(true_kws)):
        true_kw = set(true_kws[i])
        predicted_kw = set(predicted_kws[i])
        
        tp = len(true_kw & predicted_kw)
        union = len(true_kw | predicted_kw)
        fp = len(predicted_kw - true_kw)
        fn = len(true_kw - predicted_kw)
        
        if (tp+fp) == 0:
            prec = 0
        else:
            prec = tp / (tp + fp)
        
        if (tp+fn) == 0:
            rec = 0
        else:
            rec = tp / (tp + fn)
        if (prec+rec) == 0:
            f1 = 0
        else:
            f1 = (2*(prec*rec))/(prec+rec)
            
        jac = tp / union
        
        precisions.append(prec)
        recalls.append(rec)
        f1s.append(f1)
        jaccards.append(jac)
    print('Precision - ', round(np.mean(precisions), 2))
    print('Recall - ', round(np.mean(recalls), 2))
    print('F1 - ', round(np.mean(f1s), 2))
    print('Jaccard - ', round(np.mean(jaccards), 2))
    
    
        

Прежде чем приступать к экспериментам, я прогнала все подходы, испробованные на семинаре, на данных из Russia Today и обнаружила вот что: tfidf на этом датасете не добавило качества, а наоборот снизило ф-меру на 3%. Если подумать, это не то чтобы удивительно: высокий tfidf показывает, что слово часто встречается в тексте, но редко — во всей коллекции. Однако, например, слово “Россия” встречается в газетных текстах часто, 
поэтому его tfidf будет довольно низким — но оно наверняка будет ключевым словом почти для любого текста, в котором оно встречается. И наоборот: на RT был текст о том, как в Египте нашли какую-то мумию, — высокий tfidf там имело слово “останки”. Это естественно: “останки” редко встречаются в датасете, но постоянно встречались в этом тексте. Но ключевым словом они, конечно, не будут. <br>
<br>
Короче говоря, высокий tfidf не особо коррелирует с “ключёвостью” слова, поэтому считать его не надо, он может всё даже испортить, а если и повысил чуть-чуть качество, то это случайно так получилось.<br><br>

Я решила, что надо подумать, какие вообще слова попадают в ключевые, и просто посмотрела на них глазами. В ключевые слова попадают: <br>
именованные сущности <br>
аббревиатуры <br>
названия наук и всякие -измы и -ции <br>
коллокации типа “выборы президента” или “гражданская война” <br>
<br>
Также можно заметить, что в ключевые слова часто попадают слова, которые есть в заголовке или в саммари.<br>

Ещё есть такая проблема: лемматизация не всегда хороша, потому что иногда ключевые слова бывают во множественном числе. Можно попробовать брать слова и в единственном, и во множественном и надеяться, что полнота вырастет, ну а точность, ну что поделаешь.



Для начала попробуем выделить именованные сущности с помощью texterra.

In [10]:
import texterra

t = texterra.API('1ff8f795abee104d4eeb9fececde37addbeba255')


In [11]:
ex = "23 мая 2017 года Кирилл Серебренников пришел с обысками домой к режиссеру Кириллу Серебренникову и директору РАМТ Софье Апфельбаум (бывшая глава департамента государственной поддержки искусства Минкульта РФ и Кирилла Серебренникова)"


In [12]:
# берёт на вход строку и возвращает список именованных сущностей
def get_ne(text):
    nes = []
    entities = list(t.named_entities(text, rtype="entity", language="ru"))
    for entity in entities[0]:
        nes.append(entity[0])
    return nes
    
    

In [14]:
print(get_ne(ex))

['Кирилл Серебренников', 'Кириллу Серебренникову', 'Софье Апфельбаум', 'Минкульта РФ', 'Кирилла Серебренникова']


Надо лемматизировать.

In [15]:
def named_entities(text):
    ne_list = get_ne(text)
    tokens = [word_tokenize(ne) for ne in ne_list]
    new_ne_list = []
    for token in tokens:
        new = " ".join([morph.parse(word)[0].normal_form for word in token])
        new_ne_list.append(new)
    return list(set(new_ne_list))



In [16]:
print(named_entities(ex))

['софья апфельбаум', 'кирилл серебренников', 'кирилл серебренник', 'минкульт рф']


Плохие новости -- Текстерра работает очень долго. Попробуем всё же посмотреть на маленьком кусочке датасета, что получится, если лемматизировать и убрать повторы.

In [17]:
short_df = data.loc[:10]

In [18]:
%%time
short_df["named_entities"] = short_df["content"].apply(named_entities)

CPU times: user 378 ms, sys: 23.5 ms, total: 402 ms
Wall time: 1min 27s


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [19]:
evaluate(short_df["keywords"], short_df["named_entities"])

Precision -  0.04
Recall -  0.23
F1 -  0.07
Jaccard -  0.04


In [20]:
short_df[["keywords", "named_entities"]]

Unnamed: 0,keywords,named_entities
0,"[школа, образовательные стандарты, литература, история, фгос]","[волков, ольга васильев, рф, российский федерация, сергей волков]"
1,"[красота, законы]",[]
2,"[юзефович, гражданская война, пепеляев, якутия]","[пермь, « казароз », кант, якутия, ссср, платон ойунский, ганнибал, якутский республика, якутск, ленский, леонид юзеф, сибирь, сасыл-сысый, стродиться, иван гончаров, охотский море, колчак, юзеф, тунгус, гражданский война, якут, огпу, советский, война, попов, унгерный, эрнест ренана, анатолий пепеляев, нина, леонид малышев, владимир короленко, иркутск, томск, москва, иван стродиться, пепеляев]"
3,"[формула1, автоспорт, гонки, испания, квят]","[барселона, льюис, кий райкконить, квёнок, пастор мальдонадо, даниил, red bull, гран-при испания, испания, honda, renault, кий райкконеный, дэн, ferrari льюис хэмилтон, марка уэббер, mercedes, вальттери боттас, гран-при это сезон, red bull racing, хельмут маркий, хэмилтон, райкконный, булья, даниил квить, себастьян феттель, кубок конструктор, алонсо, льюис хэмилтон, toro roso, фернандо алонсо, renault sport, сэр фрэнк, дженсон, лазурный берег, старое свет, williams, баттон, дженсон баттон, кий райкконный, mclaren, нико росберг, кий, тоть вольфф, маурицио арривабен, гран-при монако, ferrari, жак вильнева]"
4,"[есенин, православие, святая русь, поэзия, год литературы, клюев, мариенгоф, стихи, россия]","[россия, репин, юрий анненков, русь, ордынка, сергей, эрлихо, яков блюмкин, маяковский, « чёрный человек », август миклашевский, никитский бульвар, мариенгоф, микола чудотворец, сергей александр, ленинград, сереженька, мейерхольд, нью-йорк, анна изряднов, лев толстой, качалов, иван розанов, троцкий, борода, всеволод рождественский, лев николай, софья андрей, пушкин, софья андрей толстой-есенин, « есенин », сергей есенин, рапп, есенин, толстой, советский, левый давид, виктор мануйлов, василий наседкина, волошин, анатолий мариенгоф, северянин игорь, николай клюев, клычкова, бог, иисус, юпитер, европа, церковь, вольф эрлихо, питер, пятницкий, страстный монастырь, петра ганнушкин, зинаида райх, гпу, клюев, господь, москва, киров, екатерина, юрий либединский, миклашевский, августа миклашевский]"
5,"[медвузы, медицинское образование, рудн, николай стуров, интервью]","[российский университет дружба народ, подмосковье, тиаго фрейра да силва, бразилия, тиаго, москва, рудна]"
6,"[литература, книги, периодика, космос, небо, астрономия, анатомия, филология]","[россия, сеченов, московский медицинский академия имя . и.м ., урысон, мышей, ирина николай боголепов, м. : литтерра, эльвира гейдаровой, анна урысон, бакинский государственный университет, лал гулиев, саратовка, ленин, лебедев рана, яков перельман, лев этинген, баку, солнце, долгопрудный, метр ., анне владимир, закавказье, левый ефим этинген, лев лев колесников, московский государственный медико-стоматологический университет, эльвира гейдаров, азербайджан, физический институт имя . п.н, рана, земля, китай, николай i, львов]"
7,"[сша, ирак, война]","[джон абизайд, партизанский война, курдский, киркук, бадр, ирак, американец, сша, афганистан, иракский, хусейн, багдад, джордж буш, мосул, оон, война в ирак, эр-рияда, `` абрамс '']"
8,"[искусственный интеллект, робот, компьютер, технологии]","[провиденс, брауновский университет, углерод, одноклеточный, хлорофилл, белка, николай карамзин, дж . маккарти, dl, массачусетский технологический институт, ai, иван павлов, нью-джерси, иммануил кант, университет рутгерса, массачусетс]"
9,"[вб, вто, переговоры, тарифы]","[россия, кристалина георгиев, всемирный банка, джеймс вулфенсон, страна, рф, всемирный торговый организация ( вто, вб, полый вулфовице, вто, алексей гордеев, владимир ткаченко, российский]"


Полнота примерно на уровне бейзлайна, но точность очень низкая. В некоторых текстах извлекается слишком много именованных сущностей. Попробуем взять из них только самые частотные. 
Ещё есть проблема с лемматизацией -- получаются штука типа "российский федерация". Надо не приводить к нормальной форме, а только менять число и падеж, не трогая род.

In [24]:
def common_named_entities_2(text):
    ne_list = get_ne(text)
    tokens = [word_tokenize(ne.strip(punct)) for ne in ne_list]
    new_ne_list = []
    for token in tokens:
        norm = []
        for w in token:
            try:
                norm_w = morph.parse(w)[0].inflect({'sing', 'nomn'}).word
                norm.append(norm_w)
            except AttributeError:

                norm.append(w.lower())
        normalized = " ".join(norm)
        new_ne_list.append(normalized)
                
    common_nes = [x[0] for x in Counter(new_ne_list).most_common(5)]
    return common_nes



In [26]:
short_df["common_named_entities_2"] = short_df["content"].apply(common_named_entities_2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [28]:
evaluate(short_df["keywords"], short_df["common_named_entities_2"])

Precision -  0.18
Recall -  0.18
F1 -  0.17
Jaccard -  0.12


Ура, мы побили бейзлайн! (ну, чуть-чуть)

In [29]:
short_df[["keywords", "common_named_entities_2"]]

Unnamed: 0,keywords,common_named_entities_2
0,"[школа, образовательные стандарты, литература, история, фгос]","[ольга васильев, рф, ольга васильева, волков, сергей волков]"
1,"[красота, законы]",[]
2,"[юзефович, гражданская война, пепеляев, якутия]","[пепеляев, юзефович, якутия, леонид юзефович, анатолий пепеляев]"
3,"[формула1, автоспорт, гонки, испания, квят]","[mclaren, ferrari, mercedes, renault, гран-при испания]"
4,"[есенин, православие, святая русь, поэзия, год литературы, клюев, мариенгоф, стихи, россия]","[есенин, клюев, мариенгоф, бог, советская]"
5,"[медвузы, медицинское образование, рудн, николай стуров, интервью]","[рудна, москва, подмосковье, бразилия, тиаго фрейра да силва]"
6,"[литература, книги, периодика, космос, небо, астрономия, анатомия, филология]","[азербайджан, россия, львов, анна урысон, закавказье]"
7,"[сша, ирак, война]","[ирак, американец, хусейн, джордж буш, война в ирак]"
8,"[искусственный интеллект, робот, компьютер, технологии]","[ai, dl, николай карамзин, иммануил кант, дж . маккарти]"
9,"[вб, вто, переговоры, тарифы]","[россия, кристалина георгиев, вто, вб, владимир ткаченко]"


Не забываем, что мы пока работаем с маленьким кусочком датасета. Как сработает лучший вариант с семинара на этом кусочке?

In [30]:
def normalize(text):
    
    words = [word.strip(punct) for word in text.lower().split()]
    words = [morph.parse(word)[0] for word in words if word and word not in stops]
    words = [word.normal_form for word in words if word.tag.POS == 'NOUN']

    return words

In [31]:
short_df['content_norm'] = short_df['content'].apply(normalize)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [32]:
evaluate(short_df['keywords'], short_df['content_norm'].apply(lambda x: [x[0] for x in Counter(x).most_common(10)]))

Precision -  0.12
Recall -  0.27
F1 -  0.16
Jaccard -  0.09


Ну да, ф-меру мы улучшили на 1%

Кстати, сколько в среднем ключевых слов в тексте? Это нам потом когда-нибудь пригодится.

In [33]:
number_of_keywords = [len(lst) for lst in data["keywords"]]
mean_number_of_keywords = np.mean(number_of_keywords)
mean_number_of_keywords

6.1177654755913435

Теперь попробуем вытащить из текстов аббревиатуры (некоторые уже достаются текстеррой, но не все).

In [34]:
def get_abbrs(text):
    abbrs = []
    for word in word_tokenize(text):
        word = word.strip(punct)
        if word.isupper() and len(word) > 1:
            abbrs.append(word.lower())
    return list(set(abbrs))
    

In [35]:
short_df['abbreviations'] = short_df['content'].apply(get_abbrs)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [36]:
evaluate(short_df["keywords"], short_df["abbreviations"])

Precision -  0.2
Recall -  0.11
F1 -  0.13
Jaccard -  0.08


Одни аббревиатуры уже неплохо зашли. Сейчас мы их ещё совместим с именованными сущностями.

In [37]:
short_df[["keywords", "common_named_entities_2", "abbreviations"]]

Unnamed: 0,keywords,common_named_entities_2,abbreviations
0,"[школа, образовательные стандарты, литература, история, фгос]","[ольга васильев, рф, ольга васильева, волков, сергей волков]","[рф, нг, фгос]"
1,"[красота, законы]",[],[]
2,"[юзефович, гражданская война, пепеляев, якутия]","[пепеляев, юзефович, якутия, леонид юзефович, анатолий пепеляев]","[огпу, ссср, цик]"
3,"[формула1, автоспорт, гонки, испания, квят]","[mclaren, ferrari, mercedes, renault, гран-при испания]",[]
4,"[есенин, православие, святая русь, поэзия, год литературы, клюев, мариенгоф, стихи, россия]","[есенин, клюев, мариенгоф, бог, советская]",[гпу]
5,"[медвузы, медицинское образование, рудн, николай стуров, интервью]","[рудна, москва, подмосковье, бразилия, тиаго фрейра да силва]",[рудн]
6,"[литература, книги, периодика, космос, небо, астрономия, анатомия, филология]","[азербайджан, россия, львов, анна урысон, закавказье]","[авропа, ран, xx, xix, xi–xiv, и.м, xxi, л.г, в.и, хх, iv, нгн, п.н]"
7,"[сша, ирак, война]","[ирак, американец, хусейн, джордж буш, война в ирак]","[оон, едва, сша]"
8,"[искусственный интеллект, робот, компьютер, технологии]","[ai, dl, николай карамзин, иммануил кант, дж . маккарти]","[dl, amt, ai]"
9,"[вб, вто, переговоры, тарифы]","[россия, кристалина георгиев, вто, вб, владимир ткаченко]","[рф, ввп, вб, вто]"


Сделаем так: сольём в один список все именованные сущности и аббревиатуры (аббревиатуры могут повторяться, ну что поделаешь), а потом оттуда возьмём 6 самых частотных слов.<br>
Надо будет немного поменять функции.


In [38]:
def named_entities_2(text):
    ne_list = get_ne(text)
    tokens = [word_tokenize(ne.strip(punct)) for ne in ne_list]
    new_ne_list = []
    for token in tokens:
        norm = []
        for w in token:
            try:
                norm_w = morph.parse(w)[0].inflect({'sing', 'nomn'}).word
                norm.append(norm_w)
            except AttributeError:

                norm.append(w.lower())
        normalized = " ".join(norm)
        new_ne_list.append(normalized)
    return new_ne_list

In [39]:
def get_all_abbrs(text):
    abbrs = []
    for word in word_tokenize(text):
        word = word.strip(punct)
        if word.isupper() and len(word) > 1:
            abbrs.append(word.lower())
    return abbrs

In [41]:
def nes_and_abbrs(text):
    nes = named_entities_2(text)
    abbrs = get_all_abbrs(text)
    together = nes + abbrs
    return [x[0] for x in Counter(together).most_common(6)]
    

In [42]:
short_df['nes_and_abbrs'] = short_df['content'].apply(nes_and_abbrs)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [43]:
evaluate(short_df["keywords"], short_df["nes_and_abbrs"])

Precision -  0.2
Recall -  0.25
F1 -  0.21
Jaccard -  0.13


Вот, стало ещё получше.

In [44]:
short_df[["keywords", "nes_and_abbrs"]]

Unnamed: 0,keywords,nes_and_abbrs
0,"[школа, образовательные стандарты, литература, история, фгос]","[рф, ольга васильев, нг, фгос, ольга васильева, волков]"
1,"[красота, законы]",[]
2,"[юзефович, гражданская война, пепеляев, якутия]","[пепеляев, юзефович, якутия, леонид юзефович, анатолий пепеляев, ссср]"
3,"[формула1, автоспорт, гонки, испания, квят]","[mclaren, ferrari, mercedes, renault, гран-при испания, барселона]"
4,"[есенин, православие, святая русь, поэзия, год литературы, клюев, мариенгоф, стихи, россия]","[есенин, клюев, мариенгоф, бог, гпу, советская]"
5,"[медвузы, медицинское образование, рудн, николай стуров, интервью]","[рудна, рудн, москва, подмосковье, бразилия, тиаго фрейра да силва]"
6,"[литература, книги, периодика, космос, небо, астрономия, анатомия, филология]","[азербайджан, россия, львов, ран, анна урысон, закавказье]"
7,"[сша, ирак, война]","[ирак, оон, американец, хусейн, сша, джордж буш]"
8,"[искусственный интеллект, робот, компьютер, технологии]","[ai, dl, николай карамзин, иммануил кант, дж . маккарти, университет рутгерса]"
9,"[вб, вто, переговоры, тарифы]","[вто, россия, вб, кристалина георгиев, рф, владимир ткаченко]"


Возьмём другой слайс датафрейма.

In [45]:
little_df = data.loc[1000:1010].reset_index()
little_df

Unnamed: 0,index,content,keywords,summary,title,url
0,1000,"На прошедшей неделе получила развитие петербургская история увольнения режиссера Юрия Бутусова с поста художественного руководителя Театра Ленсовета. Он подал заявление об уходе в связи с блокировкой попыток внести ряд изменений в административно-менеджерскую структуру коллектива. Петербургский Комитет по культуре поддержал в конфликте сторону директора. Позже в комментарии местным СМИ его глава Константин Сухенко признался, что это была цензурная мера: в манере Бутусова-чиновника давно не устраивали мрачность и абсурдизм. Теперь ведомство хочет создать в «Ленсовете» классический театр. В качестве образца приводится деятельность театров «Русская антреприза им. Андрея Миронова» и Мастерская Григория Козлова. А преданные зрители проводят живые и виртуальные акции в поддержку режиссера.\nВ четверг в родном театре с ушедшим из жизни Олегом Табаковым простились друзья и коллеги, родственники и ученики (его «цыплята табака»). Панихиду посетили: президент Владимир Путин, Ольга Голодец, Вл...","[театр ленсовета, юрий бутусов, мид, британский совет, фонд кино, вциом, кинотеатры, телевидение, троцкий]",Неделя в культуре,"""Троцкий"" получил премию, Театр им. Ленсовета окончательно отказался от Юрия Бутусова",http://www.ng.ru/week/2018-03-18/7_7192_culture.html
1,1001,"Первый российский фестиваль телевизионных художественных фильмов «Утро Родины» прошел в середине марта на острове Сахалин. Новая инициатива задумывалась, как попытка воскресить суверенность жанра телефильма. Ведь в 90-е эта телевизионная культура была утрачена. А теперь только-только возрождается и в качестве самостоятельных произведений и как экранизация литературной классики для широкого зрителя. Особенно ценной была офф-программа фестиваля со старыми телеспектаклями, которые сегодня можно посмотреть разве что на просторах интернета или на канале «Культура». \nГлавную награду телесмотра «Золотой лотос» жюри (под председательством Николая Досталя) присудило продюсерам фильма «Оптимисты» Валерию Тодоровскому и Антону Златопольскому. Лучшим режиссером стал Владимир Котт за работу над картиной «Петр Лещенко. Все, что было…». Сценарий фильма о звезде советской эстрады 30-40-х, с Константином Хабенским в главной роли, тоже признан лучшим (Эдуард Володарский награжден посмертно). А вот ...","[фестиваль, утро родины, миронов]","Фестиваль ""Утро Родины"" артист посетил и как продюсер",Евгений Миронов хочет развивать театральное дело на Сахалине,http://www.ng.ru/culture/2018-03-19/100_mironov190318.html
2,1002,"К прошедшему Международному женскому дню был приурочен вечер, который прошел в магазине «Библио-Глобус» и был посвящен женскому роману. Главными героинями были писательницы Виктория Балашова и Елена Федорова.\nВедущий вечера, поэт Александр Чистяков, в начале вечера сказал, что мгновенно чувствует, когда произведение написано женщиной: «Мужчина редко уделяет столько внимания деталям туалета, платьям и украшениям. Он, если уж что-то подробно описывает, то оружие». И сразу спросил: «Сложно ли женщине в писательском мире? Ведь когда-то авторы-женщины даже брали псевдоним, дабы скрыться за мужским именем». «Всякое бывает, – сказала Федорова. – Но если читателю нравится моя книга, значит, у меня все получилось».\nВиктория Балашова продолжила тему: «Да, в литературном мире сложно завоевать место под солнцем. Мужчины-писатели принимают женщину в свой круг как приятное и красивое дополнение к пейзажу. Но если ты сумела доказать, что чего-то стоишь, они признают этот факт». Балашова признал...","[проза, женщины, международный женский день, иностранные языки, гендер, стихи, любовь, песни, президент, стюардессы, весна]",Женский день в книжном магазине «Библио-Глобус»,Писательский фэн-шуй,http://www.ng.ru/fakty/2018-03-15/11_926_fanshu.html
3,1003,"Конкретное выполнение резолюции Совета Безопасности ООН 2401 о временном прекращении огня в Сирии стало одной из главных тем переговоров главы МИД РФ Сергея Лаврова и его французского коллеги Жан-Ива Ле Дриана в Москве. Франция, очевидно, претендует на одну из ведущих ролей в том, чтобы остановить военный этап сирийского кризиса. Париж призывает разработать механизм контроля над «режимом тишины».\n«Мы говорили о конкретном выполнении резолюции 2401, – сообщил Ле Дриан по итогам переговоров с Лавровым. – За эту резолюцию мы проголосовали также вместе в СБ ООН. Это нам позволяет заложить базу для гуманитарного затишья в течение 30 дней, которые дают нам возможность провезти туда гуманитарную помощь, обеспечить эвакуацию раненых». По словам министра, Франция видит необходимость в том, чтобы все стороны вооруженного конфликта согласились с перемирием, чтобы гуманитарные конвои были допущены в осажденные районы и чтобы все раненые были эвакуированы. Париж также считает важным создать ос...","[сирия, вооруженный конфликт, восточная гута, гуманитарная пауза, резолюция, россия, франция]",Временному перемирию необходим собственный механизм мониторинга,"Париж предлагает взять под контроль ""режим тишины"" в Сирии",http://www.ng.ru/world/2018-02-28/6_7181_paris.html
4,1004,"Запрос Министерства юстиции РФ по поводу возможности исполнения постановления Европейского суда по правам человека о присуждении компенсаций бывшим акционерам ЮКОСа поступил в Конституционный суд (КС), следует из базы данных суда. После предварительного изучения будет принято решение судьями КС о принятии запроса к рассмотрению либо отказе. Ранее Минюст обратился в КС с просьбой проверить на соответствие Конституции решения ЕСПЧ о выплате в пользу бывших акционеров ЮКОСа более 1,8 млрд евро. «Минюст считает, что обязательства, возложенные на РФ оспариваемым постановлением, основаны на применении ЕСПЧ положений Конвенции о защите прав человека и основных свобод в истолковании, приводящем к их расхождению с Конституцией РФ», – указало ведомство.","[минюст, запрос, кс, еспч, юкос, компенсации]",,Минюст РФ обратился с запросом в КС об исполнении решения ЕСПЧ по ЮКОСу,http://www.ng.ru/politics/2016-10-14/3_yukos.html
5,1005,"Чтобы оценить мировой рынок электромобилей и тенденции его развития, обратимся к статистике. Согласно исследованию того же Мирового энергетического агентства (МЭА), в 2016 году продажи электромобилей увеличились на 60% по сравнению с позапрошлым годом и достигли 2 млн штук. Причем темпы нарастают – ведь удвоение числа эксплуатируемых электромобилей произошло за полгода. Конечно, в подсчетах учитывались полноценные электромобили и подключаемые гибриды. При этом 2 млн – это по-прежнему очень маленькое число по отношению к бензиновым и дизельным автомобилям. Электрокары занимают лишь 0,2% всего автомобильного парка планеты. Но впечатляют прежде всего темпы роста этого показателя, они бьют все рекорды. Ожидалось, что к 2020 году электромобилей станет 20 млн – в 10 раз больше, чем по итогам 2016 года. Однако, если сохранятся нынешние темпы, 20 млн электрокаров мы сможем увидеть уже в 2019 году или даже к концу 2018 года. \nИменно в 2016 году Китай обогнал США по количеству электрическог...","[электромобиль, экология, бензин, виэ]","Экологические проблемы подталкивают многие страны к выбору ""зеленых"" технологий",Какое будущее ждет электромобиль,http://www.ng.ru/ng_energiya/2018-02-13/12_7171_electriccar.html
6,1006,"«Спасибо, Гильермо дель Торо, мы запомним этот год как год, когда мужчины так облажались, что женщины начали встречаться с рыбами», – так закончил свой вступительный монолог ведущий 90-й церемонии вручения премии «Оскар» Джимми Киммел. «Форма воды», рассказывающая романтическую любовь девушки и ихтиандра, в итоге стала лучшим фильмом года (и в целом триумфатором вечера, завоевав в сумме четыре статуэтки), а разговоры про права женщин, неправомерность сексуальных домогательств и дискриминации – темой всей церемонии. И то и другое – весьма предсказуемо, как, впрочем, и все остальное. Российский фильм оставили без награды, зато наградили американский о российском допинговом скандале.\nЦеремония вышла ровной, если не сказать скучной, и довольно «беззубой»: никаких черных нарядов, как на январском «Золотом глобусе» (зато Эмма Стоун вместо платья выбрала брючный костюм), минимум значков в поддержку движения против харассмента «Время вышло» (некоторые заменили их на значки в поддержку акт...","[оскар, кинопремия, кино, киммел, форма воды]",Россию на церемонии вспомнили в связи с допинговым скандалом,"""Оскар"" обошелся без ""Нелюбви""",https://amp.ng.ru/?p=http://www.ng.ru/cinematograph/2018-03-05/100_7185_oskar.html
7,1007,"Организаторы чемпионата мира по кольцевыми автогонкам в классе «Туринг» (FIA WTCC) анонсировали участие телеведущей и пилотессы Сабины Шмитц в гонке на Нюрбургринге 15-16 мая. 45-летняя гонщица выступит за рулем автомобиля Chevrolet RML Cruze ТС1 команды Рене Мюнниха.\nСоревнования в Германии пройдут на знаменитой (в том числе и печально) «Серверной петле», которую еще называют «Зеленым адом». Настоящий ад особо ярко проявляет себя во время дождя, что Сабину вовсе не пугает. Пилотесса собирается компенсировать отсутствие опыта управления автомобилем ТС1 идеальным знанием трассы. Шмитц выросла, можно сказать, на трассе «Нюрбургринг». Она принимала участие в гонках «24 часа Нюрбургринга», а также водила «гоночное такси», показывая трассу туристам. Как правило, в год она проезжает примерно 30000 кругов по этому автодрому.\nСабина собирается широко освещать свой дебют в WTCC в соцсетях, включая телесюжеты. Она также является представителем инициативы FIA «Женщины в автоспорте».","[автоспорт, туринг, гонки, wtcc, германия, норжшляйфе, северная петля, нюрбургринг]",Пелетон мирового туринга в Германии пополнится местной жительницей,WTCC. Пилотесса Сабина Шмитц «подписалась» на гонку в «Зеленом аду»,http://www.ng.ru/autosport/2015-04-08/100_schmitz.html
8,1008,"«РАЗНЫЕ ГОЛОСА» В ДОМЕ БРЮСОВА\nВ Музее Серебряного века состоялась презентация литературной серии. Пять разных авторов познакомили читателей со своим творчеством. Москвичи Валерия Нарбикова, Виктор Коллегорский, Наталья Стеркина, Адель Хаиров из Казани, Галина Шаталова из Саратова. Поэзия, проза, драматургия, книга, сделанная собственными руками… Литература сегодня выходит за рамки собственно текста; книги становятся артефактом, призванным свидетельствовать о том, что потребность в хорошей литературе не уменьшается, а возрастает.\nЭто был вечер единомышленников и друзей, для которых публикация новых изданий – повод для встреч и обсуждений. Некоторые из авторов не смогли приехать, о них рассказывали друзья, читая отрывки из книг под музыкальное сопровождение. Так, Валерию Нарбикову представил Константин Кедров, поделившийся воспоминаниями о встречах с ней, а также собственными размышлениями о путях и загадках творчества.\nКниги проиллюстрированы художником Виктором Гоппе, что само ...","[поэзия, дом брюсова, музей серебряного века, презентация, франция, переводы, осип мандельштам, михаил шемякин, парижский книжный салон, солженицын]",,У нас,http://www.ng.ru/fakty/2018-02-01/11_921_news.html
9,1009,"Западные и российские эксперты оценивают ситуацию, сложившуюся на сирийском театре военных действий (ТВД) в позитивном ключе для Москвы и Дамаска. Отмечаются явные стратегические просчеты Вашингтона. Сирийские демократические силы (СДС) при поддержке коалиции продолжают вести борьбу с террористами на востоке и юго-востоке страны, при этом отмечается, что формирования «Исламского государства» (ИГ, террористическая организация, запрещена в России) значительно активизировались в последнее время и местами проводят контратаки. То же самое происходит на сопредельной иракской территории, где война аналогично далека от завершения и, похоже, начинает развиваться по афганскому сценарию.\nВ настоящий момент значительно ослабляются формирования СДС, наблюдается массовый отток курдских ополченцев из восточных и юго-восточных районов Сирии в Африн, и эту убыль войск Вашингтон не в состоянии остановить. Предупреждение американского командования об отказе в поддержке формирований курдов, покидающи...","[сирия, восточная гута, котел, рассекать, инициатива, военное планирование, генштаб]",В успехах сирийской армии виден почерк российского Генштаба,Дамаск научился побеждать,https://amp.ng.ru/?p=http://nvo.ng.ru/nvo/2018-03-16/1_988_damask.html


In [46]:
little_df['nes_and_abbrs'] = little_df['content'].apply(nes_and_abbrs)

In [47]:
evaluate(little_df["keywords"], little_df["nes_and_abbrs"])

Precision -  0.14
Recall -  0.13
F1 -  0.13
Jaccard -  0.08


А вот на этом кусочке датасета наш метод работает хуже -- зависит от куска, тут как повезёт. Хорошо бы проверить на всём датасете, но очень уж долго работает Текстерра. Потом возьму кусок побольше.

Попробуем ещё добавить слова на -логия, -изм, -ция. 

In [50]:
def get_isms(text):
    norm_text = [morph.parse(w)[0].normal_form for w in word_tokenize(text)]
    isms = [w for w in norm_text if w.endswith("логия") or w.endswith("ция") or w.endswith("изм")]
    return isms

Попробуем совместить с ИС и аббревиатурами.

In [51]:
def nes_abbrs_isms(text):
    nes = named_entities_2(text)
    abbrs = get_all_abbrs(text)
    isms = get_isms(text)
    together = nes + abbrs + isms
    return [x[0] for x in Counter(together).most_common(6)]

Вообще не очень, конечно, хорошо получается: три раза проходишь каждый текст в поисках разных слов. Но это всё оттого, что мы добавляем искомые категории слов по одной. По-хорошему, надо потом сделать аккуратно, чтобы пройти текст один раз и сразу достать всё, что нужно, и чтобы код не повторялся.

In [52]:
little_df['nes_abbrs_isms'] = little_df['content'].apply(nes_abbrs_isms)

In [53]:
evaluate(little_df["keywords"], little_df["nes_and_abbrs"])

Precision -  0.14
Recall -  0.13
F1 -  0.13
Jaccard -  0.08


In [54]:
little_df[["keywords", "nes_abbrs_isms"]]

Unnamed: 0,keywords,nes_abbrs_isms
0,"[театр ленсовета, юрий бутусов, мид, британский совет, фонд кино, вциом, кинотеатры, телевидение, троцкий]","[москва, юрий бутусов, театр ленсовет, константин сухенко, бутусов-чиновник, андрей миронов]"
1,"[фестиваль, утро родины, миронов]","[революция, ленин, миронов, сахалин, троцкий, южно-сахалинск]"
2,"[проза, женщины, международный женский день, иностранные языки, гендер, стихи, любовь, песни, президент, стюардессы, весна]","[виктория балашов, елена фёдоров, александр чистяков, фёдоров, балашов, фёдорова]"
3,"[сирия, вооруженный конфликт, восточная гута, гуманитарная пауза, резолюция, россия, франция]","[франция, оон, резолюция, макрон, сб, сирийское]"
4,"[минюст, запрос, кс, еспч, юкос, компенсации]","[кс, еспч, рф, юкос, конституция, министерство юстиция рф]"
5,"[электромобиль, экология, бензин, виэ]","[кобальт, россия, сша, китай, рф, конго]"
6,"[оскар, кинопремия, кино, киммел, форма воды]","[номинация, дискриминация, джимми киммел, грета гервиг, дель торо, макдорманд]"
7,"[автоспорт, туринг, гонки, wtcc, германия, норжшляйфе, северная петля, нюрбургринг]","[wtcc, сабина, fia, тс1, чемпионат мир, fia wtcc]"
8,"[поэзия, дом брюсова, музей серебряного века, презентация, франция, переводы, осип мандельштам, михаил шемякин, парижский книжный салон, солженицын]","[франция, россия, валерий нарбикова, александр солженицын, париж, французский язык]"
9,"[сирия, восточная гута, котел, рассекать, инициатива, военное планирование, генштаб]","[сирия, дамаск, москва, вашингтон, сдс, турецкий]"


Получается не очень. Может, из-за того, что текстов мало, а может, просто плохая идея доставать -измы.

А попробуем достать типа именованные сущности без текстерры, чтобы всё-таки пройти весь датасет, а не по кусочкам. Здесь же аббревиатуры.

In [55]:
def sorta_ne(text):
    tokens = word_tokenize(text)
    abbrs = []
    nes = []
    for i in range(len(tokens)):
        if (len(tokens[i]) > 1):
            if tokens[i].isupper():
                abbrs.append(tokens[i])
            else:
                if tokens[i][0].isupper()\
                and (not tokens[i-1].endswith((".", "!", "?", "—", "«", "…", "“", "\"", "\n"))):
                    nes.append(tokens[i])
    result = abbrs + nes
    return result

In [58]:
def named_entities(text):
    ne_list = sorta_ne(text)
    nes = [morph.parse(w)[0] for w in ne_list]
    nes = [w.normal_form for w in nes if w.tag.POS == 'NOUN']
    return [x[0] for x in Counter(nes).most_common(6)]

In [60]:
%%time
data["named_entities"] = data["content"].apply(named_entities)

CPU times: user 18.8 s, sys: 41.2 ms, total: 18.8 s
Wall time: 18.9 s


In [61]:
evaluate(data["keywords"], data["named_entities"])

Precision -  0.17
Recall -  0.19
F1 -  0.17
Jaccard -  0.1


Ну, чуть-чуть лучше, чем бейзлайн. Конечно, текстерра находит именованные сущности лучше.

In [63]:
def isms(text):
    norm_text = [morph.parse(w)[0].normal_form for w in word_tokenize(text)]
    isms = [w for w in norm_text if w.endswith("логия") or w.endswith("ция") or w.endswith("изм")]
    return isms

In [67]:
def all_named_entities(text):
    ne_list = sorta_ne(text)
    nes = [morph.parse(w)[0] for w in ne_list]
    nes = [w.normal_form for w in nes if w.tag.POS == 'NOUN']
    
    return nes

In [68]:
def nes_and_isms(text):
    nes = all_named_entities(text)
    ism = isms(text)
    together = nes + ism
    return [x[0] for x in Counter(together).most_common(6)]

In [69]:
%%time
data["nes_and_isms"] = data["content"].apply(nes_and_isms)

CPU times: user 1min 14s, sys: 101 ms, total: 1min 14s
Wall time: 1min 14s


In [70]:
evaluate(data["keywords"], data["nes_and_isms"])

Precision -  0.18
Recall -  0.2
F1 -  0.18
Jaccard -  0.11


Ну, это больше 16%.<br>

Теперь возьмём кусок датасета побольше и попробуем на нём только именованные сущности и аббревиатуры.

In [76]:
bigger_df = data.loc[::7].reset_index()

In [77]:
%%time
bigger_df['nes_and_abbrs'] = bigger_df['content'].apply(nes_and_abbrs)

ReadTimeout: HTTPSConnectionPool(host='api.ispras.ru', port=443): Read timed out. (read timeout=60)

In [None]:
evaluate(bigger_df["keywords"], bigger_df["nes_and_abbrs"])

## Итоги

Больше я ничего не успеваю, поэтому будем подводить итоги. 

**Именованные сущности и аббревиатуры** часто попадают в ключевые слова, они повышают качество. <br>

Со **словами на -логия, -изм, -ция** непонятно: скорее всего, они сильно не повысят качество, а ещё там извлекаются совсем неподходящие лишние слова.


## Что ещё я собиралась сделать, но не успела

1. Иногда извлечённые именованные сущности не совпадают с эталонными, потому что в эталонных только фамилия человека, а у нас вместе с именем (а бывает и наоборот). В текстерре можно посмотреть, к какому типу относится именованная сущность: если это персона, то можно брать только фамилию -- тогда качество может повыситься. (А вообще, если бы мы мерили качество как-то по-другому, а не по имеющемуся списку, то это было бы неважно: какая разница, ключевое слово "солженицын" или "александр солженицын", и то и другое одинаково хорошо. То же касается случаев "россия" и "рф").

2. Хорошо было бы попробовать извлечь частотные коллокации типа "выборы президента". 

3. Ещё, я думаю, помогли бы частотные слова из статьи, которые также встречаются в заголовке и в саммари текста (особенно с саммари хорошо бы получилось).

