# Именованные сущности

**Именованная сущность** (`Named Entity`) - слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.

Очевидные свойства именованных сущностей:
1. Обычно пишется с заглавной буквы
2. Всегда существует объект, именем которого является сущность

Есть несколько классов именованных сущностей: персоны (`PER`), местоположения (`LOC`), организации (`ORG`), названия произведений (`TITLE`), события (`EVENT`). Также есть класс "остальное" (`MISC`), объединяющий в себе менее обширные категории (эпохи, уникальные наименования природных явлений и т.д.). К именованным сущностям не относятся интернет-адреса, должности, денежные и временные сущности.

Категории сущностей, которые возможно идентифицировать в разных языках могут различаться.



С именованными сущностями обычно связывают две задачи:


*   Распознавание именованных сущностей (Named-entity Recognition, NER) - найти в тексте именованную сущность и привязать к ней ярлык класса.
*   Связывание именованных сущностей (Named-entity Linking, NEL)



## Named-entity Recognition (NER)

В сущности, состоит из двух задач:
1. детектирование именованной сущности
2. классификация найденной сущности

Второй пункт представляет собой задачу классификации. Если мы строим модель классификации именованных сущностей, то для ее оценки можно воспользоваться стандартной комбинацией метрик для оценки качества классификации. Напомним, это точность (`precision`, доля true positive), полнота (`recall`, доля true positive относительно всех объектов) и их среднее гармоническое F1-мера.

Неплохим инструментом для работы с именованными сущностями (и другими задачами NLP) в русском языке является модуль `natasha` ([документация](https://github.com/natasha/natasha)). Модуль выделяет три класса именованных сущностей: людей (`PER`), организации (`ORG`) и местоположение (`LOC`).

In [None]:
!pip install natasha

Collecting natasha
[?25l  Downloading https://files.pythonhosted.org/packages/51/8e/ab0745100be276750fb6b8858c6180a1756696572295a74eb5aea77f3bbd/natasha-1.4.0-py3-none-any.whl (34.4MB)
[K     |████████████████████████████████| 34.4MB 115kB/s 
[?25hCollecting razdel>=0.5.0
  Downloading https://files.pythonhosted.org/packages/15/2c/664223a3924aa6e70479f7d37220b3a658765b9cfe760b4af7ffdc50d38f/razdel-0.5.0-py3-none-any.whl
Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/07/57/b2ff2fae3376d4f3c697b9886b64a54b476e1a332c67eee9f88e7f1ae8c9/pymorphy2-0.9.1-py3-none-any.whl (55kB)
[K     |████████████████████████████████| 61kB 7.1MB/s 
[?25hCollecting navec>=0.9.0
  Downloading https://files.pythonhosted.org/packages/bc/c1/771ec5565f0ce24874d7fd325b429f9caa80517a40d2e4ce5705120591f3/navec-0.10.0-py3-none-any.whl
Collecting ipymarkup>=0.8.0
  Downloading https://files.pythonhosted.org/packages/bf/9b/bf54c98d50735a4a7c84c71e92c5361730c878ebfe903d2c2d196ef6605

В модуле есть несколько классов, решающих задачи, связанные с обработкой естественного языка:
*   сегментация текста (выделение токенов и раздение текста на предложения)
*   частеречная разметка
*   распознавание именованных сущностей и парсинг их элементов

Модели обучены на новостных статьях.





Вернемся к тексту новости Гринписа и посмотрим, что с ней можно сделать при помощи `natasha`.

In [None]:
text = """Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель. Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работают и, наоборот, могут способствовать увеличению выбросов. В Greenpeace Франции надеются, что суд признает обязанность государств бороться с климатическим кризисом — это подтверждает Хартия окружающей среды 2004 года  и Европейская конвенция о правах человека. «Такое решение было бы историческим и закрепило в законе, что борьба с изменением климата играет важную роль в защите основ ных прав граждан».Greenpeace France Кроме того, Greenpeace Франции ранее запустил петицию «Дело века», которую уже поддержало более двух миллионов граждан. «Климатический кризис оказывает серьёзное воздействие на жизнь каждого из нас: увеличение дней с экстремально высокой температурой приводит к повышению смертности людей по всему миру, растёт ареал распространения различных вирусов и инфекций. В России тоже остро стоит необходимость скорейшего начала технологической трансформации экономики в сторону климатически устойчивых технологий. Мы надеемся, что судебный процесс во Франции будет выигран людьми и станет примером в том числе и для нашего государства в вопросах важности срочного принятия мер по решению климатического кризиса», — прокомментировала руководительница энергетического отдела Greenpeace в России Елена Сакирко."""
text

'Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель. Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работают и, 

**1. Сегментация текста**

In [None]:
from natasha import Doc, Segmenter

In [None]:
segmenter = Segmenter()
doc = Doc(text)

In [None]:
doc

Doc(text='Greenpeace Франции совместно с другими НКО (Notre...)

**Выделение токенов**

In [None]:
doc.segment(segmenter)
doc.tokens[:5]

[DocToken(stop=10, text='Greenpeace'),
 DocToken(start=11, stop=18, text='Франции'),
 DocToken(start=19, stop=28, text='совместно'),
 DocToken(start=29, stop=30, text='с'),
 DocToken(start=31, stop=38, text='другими')]

**Разделение на предложения**

In [None]:
doc.sents[:5]

[DocSent(stop=256, text='Greenpeace Франции совместно с другими НКО (Notre..., tokens=[...]),
 DocSent(start=257, stop=375, text='Соответствующий иск подали ещё два года назад из-..., tokens=[...]),
 DocSent(start=376, stop=481, text='Сегодня состоялось слушание дела в суде Парижа, р..., tokens=[...]),
 DocSent(start=482, stop=671, text='Хотя климатический кризис остаётся одной из главн..., tokens=[...]),
 DocSent(start=672, stop=804, text='Выбросы парниковых газов в течение последних пяти..., tokens=[...])]

In [None]:
doc.sents[0].tokens[:10]

[DocToken(stop=10, text='Greenpeace'),
 DocToken(start=11, stop=18, text='Франции'),
 DocToken(start=19, stop=28, text='совместно'),
 DocToken(start=29, stop=30, text='с'),
 DocToken(start=31, stop=38, text='другими'),
 DocToken(start=39, stop=42, text='НКО'),
 DocToken(start=43, stop=44, text='('),
 DocToken(start=44, stop=49, text='Notre'),
 DocToken(start=50, stop=57, text='Affaire'),
 DocToken(start=58, stop=59, text='à')]

Принцип работы с объектами классов похож на `pymorphy2`.

**2. Морфологический анализ**

In [None]:
from natasha import MorphVocab, NewsEmbedding, NewsMorphTagger

In [None]:
morph_vocab = MorphVocab()
embedding = NewsEmbedding()
morph_tagger = NewsMorphTagger(embedding)

In [None]:
doc.tag_morph(morph_tagger)
doc.sents[0].tokens[:10]

[DocToken(stop=10, text='Greenpeace', pos='PROPN', feats=<Yes>),
 DocToken(start=11, stop=18, text='Франции', pos='PROPN', feats=<Inan,Gen,Fem,Sing>),
 DocToken(start=19, stop=28, text='совместно', pos='ADV', feats=<Pos>),
 DocToken(start=29, stop=30, text='с', pos='ADP'),
 DocToken(start=31, stop=38, text='другими', pos='ADJ', feats=<Ins,Pos,Plur>),
 DocToken(start=39, stop=42, text='НКО', pos='PROPN', feats=<Inan,Gen,Fem,Plur>),
 DocToken(start=43, stop=44, text='(', pos='PUNCT'),
 DocToken(start=44, stop=49, text='Notre', pos='X', feats=<Yes>),
 DocToken(start=50, stop=57, text='Affaire', pos='X', feats=<Yes>),
 DocToken(start=58, stop=59, text='à', pos='PUNCT')]

In [None]:
doc.sents[0].morph.print()

          Greenpeace PROPN|Foreign=Yes
             Франции PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
           совместно ADV|Degree=Pos
                   с ADP
             другими ADJ|Case=Ins|Degree=Pos|Number=Plur
                 НКО PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur
                   ( PUNCT
               Notre X|Foreign=Yes
             Affaire X|Foreign=Yes
                   à PUNCT
                Tous X|Foreign=Yes
                   , PUNCT
                Фонд PROPN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
              Николя PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
                 Юло PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
                   и CCONJ
               Oxfam X|Foreign=Yes
              France X|Foreign=Yes
                   ) PUNCT
             требуют VERB|Aspect=Imp|Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
                  от ADP
             властей NOUN|Animacy=Inan|Case=

**3. Лемматизация**

In [None]:
for token in doc.sents[0].tokens:
  token.lemmatize(morph_vocab)
doc.sents[0].tokens[:10]

[DocToken(stop=10, text='Greenpeace', pos='PROPN', feats=<Yes>, lemma='greenpeace'),
 DocToken(start=11, stop=18, text='Франции', pos='PROPN', feats=<Inan,Gen,Fem,Sing>, lemma='франция'),
 DocToken(start=19, stop=28, text='совместно', pos='ADV', feats=<Pos>, lemma='совместно'),
 DocToken(start=29, stop=30, text='с', pos='ADP', lemma='с'),
 DocToken(start=31, stop=38, text='другими', pos='ADJ', feats=<Ins,Pos,Plur>, lemma='другой'),
 DocToken(start=39, stop=42, text='НКО', pos='PROPN', feats=<Inan,Gen,Fem,Plur>, lemma='нко'),
 DocToken(start=43, stop=44, text='(', pos='PUNCT', lemma='('),
 DocToken(start=44, stop=49, text='Notre', pos='X', feats=<Yes>, lemma='notre'),
 DocToken(start=50, stop=57, text='Affaire', pos='X', feats=<Yes>, lemma='affaire'),
 DocToken(start=58, stop=59, text='à', pos='PUNCT', lemma='à')]

In [None]:
for word in doc.sents[0].tokens[:10]:
  print(f"{word.text}: {word.lemma}")

Greenpeace: greenpeace
Франции: франция
совместно: совместно
с: с
другими: другой
НКО: нко
(: (
Notre: notre
Affaire: affaire
à: à


**4. Синтаксический анализ**

In [None]:
from natasha import NewsSyntaxParser

In [None]:
syntax_parser = NewsSyntaxParser(embedding)

In [None]:
doc.parse_syntax(syntax_parser)
doc.sents[0].tokens[:10]

[DocToken(stop=10, text='Greenpeace', id='1_1', head_id='1_20', rel='nsubj', pos='PROPN', feats=<Yes>, lemma='greenpeace'),
 DocToken(start=11, stop=18, text='Франции', id='1_2', head_id='1_1', rel='nmod', pos='PROPN', feats=<Inan,Gen,Fem,Sing>, lemma='франция'),
 DocToken(start=19, stop=28, text='совместно', id='1_3', head_id='1_20', rel='advmod', pos='ADV', feats=<Pos>, lemma='совместно'),
 DocToken(start=29, stop=30, text='с', id='1_4', head_id='1_6', rel='case', pos='ADP', lemma='с'),
 DocToken(start=31, stop=38, text='другими', id='1_5', head_id='1_6', rel='amod', pos='ADJ', feats=<Ins,Pos,Plur>, lemma='другой'),
 DocToken(start=39, stop=42, text='НКО', id='1_6', head_id='1_3', rel='obl', pos='PROPN', feats=<Inan,Gen,Fem,Plur>, lemma='нко'),
 DocToken(start=43, stop=44, text='(', id='1_7', head_id='1_8', rel='punct', pos='PUNCT', lemma='('),
 DocToken(start=44, stop=49, text='Notre', id='1_8', head_id='1_6', rel='appos', pos='X', feats=<Yes>, lemma='notre'),
 DocToken(start=50, st

In [None]:
doc.sents[0].syntax.print()

  ┌────────────────► Greenpeace  nsubj
  │                  Франции     
  │ ┌────────►┌───── совместно   advmod
  │ │         │ ┌──► с           case
  │ │         │ │ ┌► другими     amod
  │ │   ┌─────└►└─└─ НКО         obl
  │ │   │     │   ┌► (           punct
  │ │ ┌─│ ┌─┌─└►┌─└─ Notre       appos
  │ │ │ │ │ │   └──► Affaire     flat:foreign
  │ │ │ │ │ └──────► à           flat:foreign
  │ │ │ │ └────────► Tous        flat:foreign
  │ │ │ │         ┌► ,           punct
  │ │ │ └──────►┌─└─ Фонд        conj
  │ │ │       ┌─└►┌─ Николя      appos
  │ │ │       │   └► Юло         flat:name
  │ │ │       │   ┌► и           cc
  │ │ │       └►┌─└─ Oxfam       conj
  │ │ │         └──► France      flat:foreign
  │ │ └────────────► )           punct
┌─└─└─────┌───┌─┌─── требуют     
│         │   │ │ ┌► от          case
│         │   │ └►└─ властей     obl
│       ┌─│ ┌─└──►┌─ возместить  xcomp
│       │ │ │     └► ущерб       obj
│       │ │ │     ┌► ,           punct
│       │ │ └──►

**5. NER**

Т.к. модель обучена на новостных статьях и показвает на высокую точность на соответствующих данных, авторы модуля в документации отмечают, что результаты на слабо связанных с новостями областях могут быть низкими.

In [None]:
from natasha import NewsNERTagger

In [None]:
ner_tagger = NewsNERTagger(embedding)

In [None]:
doc.tag_ner(ner_tagger)
doc.spans

[DocSpan(start=11, stop=18, type='LOC', text='Франции', tokens=[...]),
 DocSpan(start=39, stop=64, type='ORG', text='НКО (Notre Affaire à Tous', tokens=[...]),
 DocSpan(start=66, stop=81, type='ORG', text='Фонд Николя Юло', tokens=[...]),
 DocSpan(start=84, stop=96, type='ORG', text='Oxfam France', tokens=[...]),
 DocSpan(start=416, stop=422, type='LOC', text='Парижа', tokens=[...]),
 DocSpan(start=829, stop=852, type='ORG', text='Высший совет по климату', tokens=[...]),
 DocSpan(start=1053, stop=1063, type='ORG', text='Greenpeace', tokens=[...]),
 DocSpan(start=1064, stop=1071, type='LOC', text='Франции', tokens=[...]),
 DocSpan(start=1395, stop=1412, type='ORG', text='Greenpeace France', tokens=[...]),
 DocSpan(start=1425, stop=1435, type='ORG', text='Greenpeace', tokens=[...]),
 DocSpan(start=1436, stop=1443, type='LOC', text='Франции', tokens=[...]),
 DocSpan(start=1778, stop=1784, type='LOC', text='России', tokens=[...]),
 DocSpan(start=1957, stop=1964, type='LOC', text='Франции',

In [None]:
doc.ner.print()

Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд
           LOC────                     ORG──────────────────────  ORG─
 Николя Юло и Oxfam France) требуют от властей возместить ущерб, 
───────────   ORG─────────                                       
причинённый гражданам страны из-за политики в области экологии и 
начать активные действия в рамках предыдущих соглашений. 
Соответствующий иск подали ещё два года назад из-за бездействия 
государства в решении проблемы климатического кризиса. Сегодня 
состоялось слушание дела в суде Парижа, решение по которому будет 
                                LOC───                            
вынесено в течение двух недель. Хотя климатический кризис остаётся 
одной из главных проблем для французов (в 2020 году были побиты новые 
температурные рекорды), государство продолжает откладывать принятие 
необходимых мер. Выбросы парниковых газов в течение последних пяти лет
 продолжали снижаться вдвое медленнее, чем показатели, преду

Именованные сущности можно нормализовать.

In [None]:
for span in doc.spans:
  span.normalize(morph_vocab)
[(word.text, word.normal) for word in doc.spans]

[('Франции', 'Франция'),
 ('НКО (Notre Affaire à Tous', 'НКО (Notre Affaire à Tous'),
 ('Фонд Николя Юло', 'Фонд Николя Юло'),
 ('Oxfam France', 'Oxfam France'),
 ('Парижа', 'Париж'),
 ('Высший совет по климату', 'Высший совет по климату'),
 ('Greenpeace', 'Greenpeace'),
 ('Франции', 'Франция'),
 ('Greenpeace France', 'Greenpeace France'),
 ('Greenpeace', 'Greenpeace'),
 ('Франции', 'Франция'),
 ('России', 'Россия'),
 ('Франции', 'Франция'),
 ('Greenpeace', 'Greenpeace'),
 ('России', 'Россия'),
 ('Елена Сакирко', 'Елена Сакирко')]

Если именованная сущность - человек, можно определить, что имя, а что - фамилия.

In [None]:
from natasha import NamesExtractor, AddrExtractor, PER, LOC

In [None]:
names_extractor = NamesExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [None]:
for span in doc.spans:
  if span.type == PER:
    span.extract_fact(names_extractor)
[(word.normal, word.fact.as_dict) for word in doc.spans if word.type == PER]

[('Елена Сакирко', {'first': 'Елена', 'last': 'Сакирко'})]

Если именованная сущность - местоположение, можно определить, чем именно сущность является (страной, городом, улицей, проспектом и т.д.).

In [None]:
norm_places = sorted(set([word.normal for word in doc.spans if word.type == LOC]))
norm_places

['Париж', 'Россия', 'Франция']

In [None]:
loc_attr = [(addr_extractor.find(loc).fact.parts[0].value, addr_extractor.find(loc).fact.parts[0].type) for loc in norm_places if addr_extractor.find(loc)]
loc_attr

[('Россия', 'страна')]

Ничего, кроме России, модуль не признал, вероятно, потому что заточен под российские данные. 

Аналогичным образом `natasha` умеет работать с датами, определяя, что в них является годом, что месяцем, а что числом, а также парсить денежные сущности, выделяя количество и валюту.

### Кластеризация по именованным сущностям

Попробуем реализовать кластеризацию текстовых документов по найденным в них именованным сущностям. Возьмем русскоязычный датасет [отсюда](https://www.kaggle.com/miguelcorraljr/ted-ultimate-dataset). Данные в датасете сравнительно недалеки от новостных. Возможно, получятся интересные результаты.

In [None]:
import pandas as pd

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
ted_data = pd.read_csv('/content/drive/MyDrive/CompLing/ted_talks_ru.csv')

In [None]:
ted_data.sample(5)

Unnamed: 0,talk_id,title,speaker_1,all_speakers,occupations,about_speakers,views,recorded_date,published_date,event,native_lang,available_lang,comments,duration,topics,related_talks,url,description,transcript
1679,1994,Как семплирование преобразило музыку,Mark Ronson,{0: 'Mark Ronson'},{0: ['music producer and dj']},{0: 'His production credits range from Amy Win...,4659667,2014-03-17,2014-05-09,TED2014,en,"['ar', 'de', 'en', 'es', 'fr', 'he', 'hr', 'it...",102.0,1010,"['music', 'performance', 'live music', 'entert...","{1535: 'Embrace the remix', 1458: 'Beats that ...",https://www.ted.com/talks/mark_ronson_how_samp...,Семплинг — это не «ностальгия на полную катушк...,"Предполагаю, каждый здесь в то или иное время ..."
3236,36771,"Фрида Кало: женщина, ставшая легендой — Изольд...",Iseult Gillespie,{0: 'Iseult Gillespie'},,,687953,2019-03-28,2019-03-28,TED-Ed,en,"['ar', 'bg', 'de', 'el', 'en', 'es', 'fa', 'fr...",,234,"['art', 'painting', 'pain', 'arts', 'disabilit...",{36214: 'The chaotic brilliance of artist Jean...,https://www.ted.com/talks/iseult_gillespie_fri...,Посмотреть урок полностью: https://ed.ted.com/...,В 1925 году в Мехико Фрида Кало направлялась с...
2642,10376,Почему я тренирую бабушек для лечения депрессии?,Dixon Chibanda,{0: 'Dixon Chibanda'},{0: ['psychiatrist']},{0: 'Dixon Chibanda is passionate about the hu...,2741123,2017-11-01,2018-02-14,TEDWomen 2017,en,"['ar', 'bg', 'de', 'en', 'es', 'fa', 'fr', 'hi...",42.0,744,"['collaboration', 'Africa', 'communication', '...","{2739: ""There's no shame in taking care of you...",https://www.ted.com/talks/dixon_chibanda_why_i...,Диксон Чибанда — один из 12 психиатров в Зимба...,"Тёплым августовским утром в Хараре Фараи, 24-л..."
2199,2561,"Письмо тем, кто не нашёл своего места в наше в...",Anand Giridharadas,{0: 'Anand Giridharadas'},{0: ['writer']},{0: 'Anand Giridharadas writes about people an...,1045841,2016-06-29,2016-08-18,TEDSummit,en,"['ar', 'el', 'en', 'es', 'fi', 'fr', 'he', 'it...",49.0,997,"['collaboration', 'communication', 'community'...",{2219: 'A tale of two Americas. And the mini-m...,https://www.ted.com/talks/anand_giridharadas_a...,Лето 2016 года. Повсюду популисты собирают тол...,29 июня 2016 года. Дорогой гражданин нашей пла...
62,85,Билл Клинтон о восстановлении Руанды,Bill Clinton,{0: 'Bill Clinton'},{0: ['activist']},{0: 'Through his William J. Clinton Foundation...,936820,2007-03-08,2007-04-03,TED2007,en,"['ar', 'bg', 'ca', 'cs', 'de', 'el', 'en', 'es...",106.0,1447,"['Africa', 'TED Prize', 'business', 'culture',...","{59: 'My wish: Three actions for Africa', 127:...",https://www.ted.com/talks/bill_clinton_my_wish...,"Получая награду TED 2007, Билл Клинтон просит ...","Формулируя свое желание для TED, я думал, что ..."


Есть два интересных текстовых поля: `description` и `transcript`.

In [None]:
ted_data.description.iloc[0]

'С юмором и добросердечностью, которыми наполнен фильм «Неудобная Правда», Эл Гор рассказывает о 15 способах борьбы с изменением климата, которые подходят для каждого человека — от покупки гибридного автомобиля до изобретения новой, более удачной «торговой марки» для глобального потепления.'

In [None]:
ted_data.transcript.iloc[0]

'Спасибо, Крис. Это огромная честь, получить возможность выйти на эту сцену дважды. Я неимоверно благодарен. Я в восторге от этой конференции, и я хочу поблагодарить вас всех за благожелательные отзывы о моем позавчерашнем выступлении. И я говорю это от всего сердца, потому что... (Всхлип) они мне так нужны! (Смех) Поставьте себя в мое положение! Я летал на Борту Два восемь лет! Теперь мне приходится снимать ботинки перед посадкой на самолет! (Смех) (Аплодисменты) Я расскажу маленькую историю о том, каково мне было. Это правдивая история — в ней ничего не придумано. Вскоре после того как мы с Типпер попрощались с (Всхлип) Белым Домом... (Смех) мы отправились из своего дома в Нэшвилле на нашу маленькую ферму в 80 км к востоку от Нэшвилля — сами за рулем... Я знаю, для вас это обычное дело, но... (Смех) Я посмотрел в зеркало и внезапно сердце защемило. Там не было эскорта. Слышали о фантомных болях в ампутированных органах? (Смех) Это был Форд Таурус, взятый напрокат. Время было обеденно

In [None]:
ted_desc = Doc(ted_data.description.iloc[0])
ted_tran = Doc(ted_data.transcript.iloc[0])

In [None]:
ted_desc.segment(segmenter)
ted_desc.tag_ner(ner_tagger)
ted_desc.ner.print()

С юмором и добросердечностью, которыми наполнен фильм «Неудобная 
Правда», Эл Гор рассказывает о 15 способах борьбы с изменением 
         PER───                                                
климата, которые подходят для каждого человека — от покупки гибридного
 автомобиля до изобретения новой, более удачной «торговой марки» для 
глобального потепления.


In [None]:
ted_desc.spans

[DocSpan(start=74, stop=80, type='PER', text='Эл Гор', tokens=[...])]

In [None]:
ted_tran.segment(segmenter)
ted_tran.tag_ner(ner_tagger)
ted_tran.ner.print()

Спасибо, Крис. Это огромная честь, получить возможность выйти на эту 
         PER─                                                        
сцену дважды. Я неимоверно благодарен. Я в восторге от этой 
конференции, и я хочу поблагодарить вас всех за благожелательные 
отзывы о моем позавчерашнем выступлении. И я говорю это от всего 
сердца, потому что... (Всхлип) они мне так нужны! (Смех) Поставьте 
                       PER───                                      
себя в мое положение! Я летал на Борту Два восемь лет! Теперь мне 
приходится снимать ботинки перед посадкой на самолет! (Смех) 
(Аплодисменты) Я расскажу маленькую историю о том, каково мне было. 
Это правдивая история — в ней ничего не придумано. Вскоре после того 
как мы с Типпер попрощались с (Всхлип) Белым Домом... (Смех) мы 
         PER───                LOC───                           
отправились из своего дома в Нэшвилле на нашу маленькую ферму в 80 км 
                             LOC─────                         

Чем больше данных, тем выше шансы получить приличные результаты. Далее будем работать с информацией из столбца `transcript`. Здесь однозначно требуется удалить все, что по тексту заключено в скобки.

In [None]:
import re

In [None]:
pattern = r'\((.*?)\)'
result = re.sub(pattern, "", ted_data.transcript.iloc[0])
result

'Спасибо, Крис. Это огромная честь, получить возможность выйти на эту сцену дважды. Я неимоверно благодарен. Я в восторге от этой конференции, и я хочу поблагодарить вас всех за благожелательные отзывы о моем позавчерашнем выступлении. И я говорю это от всего сердца, потому что...  они мне так нужны!  Поставьте себя в мое положение! Я летал на Борту Два восемь лет! Теперь мне приходится снимать ботинки перед посадкой на самолет!   Я расскажу маленькую историю о том, каково мне было. Это правдивая история — в ней ничего не придумано. Вскоре после того как мы с Типпер попрощались с  Белым Домом...  мы отправились из своего дома в Нэшвилле на нашу маленькую ферму в 80 км к востоку от Нэшвилля — сами за рулем... Я знаю, для вас это обычное дело, но...  Я посмотрел в зеркало и внезапно сердце защемило. Там не было эскорта. Слышали о фантомных болях в ампутированных органах?  Это был Форд Таурус, взятый напрокат. Время было обеденное, мы решили заехать куда-нибудь, перекусить. Мы были на шос

In [None]:
ted_tran = Doc(result)
ted_tran.segment(segmenter)
ted_tran.tag_ner(ner_tagger)
ted_tran.ner.print()

Спасибо, Крис. Это огромная честь, получить возможность выйти на эту 
         PER─                                                        
сцену дважды. Я неимоверно благодарен. Я в восторге от этой 
конференции, и я хочу поблагодарить вас всех за благожелательные 
отзывы о моем позавчерашнем выступлении. И я говорю это от всего 
сердца, потому что...  они мне так нужны!  Поставьте себя в мое 
положение! Я летал на Борту Два восемь лет! Теперь мне приходится 
снимать ботинки перед посадкой на самолет!   Я расскажу маленькую 
историю о том, каково мне было. Это правдивая история — в ней ничего 
не придумано. Вскоре после того как мы с Типпер попрощались с  Белым 
                                         PER───                ORG───
Домом...  мы отправились из своего дома в Нэшвилле на нашу маленькую 
────────                                  LOC─────                   
ферму в 80 км к востоку от Нэшвилля — сами за рулем... Я знаю, для вас
                           LOC─────            

Удалим из датасета лишние для данной задачи столбцы.

In [None]:
df = ted_data[["topics", "title", "transcript"]]
df.count() == len(df)

topics        True
title         True
transcript    True
dtype: bool

Т.к. распознавание именованных сущностей не требует особой предобработки (токенизация, удаление стоп-слов и др.), а сразу работает с цельным текстом, другую предобработку делать не будем. Достаточно очистки данных от мусора.

In [None]:
import pymorphy2
analyzer = pymorphy2.MorphAnalyzer()

Следующая функция работает таким образом:
1. текст сегментируется на токены   
2. на токены накладывается частеречная разметка
3. токены лемматизируются
4. выделяются именованные сущности
5. токены нормализуются
6. обрабатывается нормализация географических объектов, т.к. в процессе выяснилось, что `natasha` хуже их нормализует, чем `pymorphy2`.





In [None]:
def get_ner(transcript):
  script = Doc(re.sub(r'\((.*?)\)', "", transcript))
  script.segment(segmenter)
  script.tag_morph(morph_tagger)
  for token in script.tokens:
    token.lemmatize(morph_vocab)
  script.tag_ner(ner_tagger)
  for span in script.spans:
    span.normalize(morph_vocab)
  named_ents = [(i.text, i.type, i.normal) for i in script.spans]
  normed_ents = []
  for word, tag, norm in named_ents:
    if len(word.split()) == 1 and tag == "LOC":
      for gram in range(len(analyzer.parse(word))):
        if "Geox" in analyzer.parse(word)[gram].tag:
          normed_ents.append((analyzer.parse(word)[gram].normal_form))
          break
        elif gram == len(analyzer.parse(word)) - 1:
          normed_ents.append((norm.lower().strip(".,!?;-")))
    else:
      normed_ents.append((norm.lower().strip(".,!?;-")))
  return sorted(normed_ents)

In [None]:
get_ner(df.transcript.iloc[0])

['participant productions',
 "shoney's",
 "shoney's",
 'ted',
 'азорские острова',
 'америка',
 'атлантика',
 'африка',
 'белый дом',
 'билл клинтон',
 'вашингтон',
 'винод',
 'джей лено',
 'джон доерра',
 'дэвид леттерман',
 'крис',
 'крис андерсон',
 'лагос',
 'ларри лессиг',
 'лебанон',
 'монтерей',
 'нигерия',
 'нигерия',
 'нигерия',
 'нэшвилл',
 'нэшвилл',
 'нэшвилль',
 'нэшвилль',
 'соединенные штаты',
 'сша',
 'сша',
 'сша',
 'сша',
 'тенесси',
 'типпер',
 'типпер',
 'типпер',
 'типпер',
 'типпер',
 'форд таурус',
 'эл',
 'эл гор',
 'эл гор',
 'эл гор']

In [None]:
df["named_entities"] = df.apply(lambda row: get_ner(row["transcript"]), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Интересно будет посмотреть, какие в принципе есть темы в датасете.

In [None]:
df.sample(1)

Unnamed: 0,topics,title,transcript,named_entities
2852,"['art', 'social change', 'humanity', 'society'...",Как искусство может менять американский диалог...,"Я работаю с изображениями, и я создаю революци...","[америка, африка, буш, верховный суд, вьетнам,..."


In [None]:
df["topics"] = df.apply(lambda row: re.sub(r"[\[\]'\"]", "", row["topics"]).split(", "), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
df.sample(3)

Unnamed: 0,topics,title,transcript,named_entities
1058,"[TEDx, disability, entertainment, global issue...",Дебют Британского параоркестра,"Музыка — это самый универсальный язык, который...","[tedxbrussels, британский, британский параорке..."
2125,"[communication, speech, language, mind, brain]",Секрет создания сильного выступления TED,"Некоторые думают, что у выступлений TED есть к...","[ted, ted, ted, ted, ted, ted, далиа могахед, ..."
1023,"[creativity, design, entertainment, storytelli...",Джо Сабиа: Технологии рассказа,"Дамы и господа, садитесь поудобнее. Я хочу рас...","[facebook, германия, лотар, лотар меггендорфер..."


In [None]:
from operator import itemgetter
topics = []
for topic in df["topics"].tolist():
  topics.extend(topic)
topics = sorted(set([(topic, topics.count(topic)) for topic in topics]), key=itemgetter(1), reverse=True)

In [None]:
len(topics), topics[:20]

(453,
 [('technology', 925),
  ('science', 923),
  ('culture', 647),
  ('TEDx', 541),
  ('global issues', 539),
  ('TED-Ed', 529),
  ('design', 500),
  ('society', 472),
  ('animation', 454),
  ('social change', 431),
  ('business', 417),
  ('health', 411),
  ('history', 354),
  ('innovation', 351),
  ('humanity', 346),
  ('entertainment', 342),
  ('biology', 332),
  ('education', 327),
  ('future', 309),
  ('art', 306)])

Всего уникальных тем 453, причем для одного текста обычно от 3 тем и более. Из этого следует, что у нас нет однозначного исходного числа кластеров (если бы было, мы бы решали задачу классификации). Это в перспективе усложнит оценку модели.


Произведем кластеризацию алгоритмом `k-means`. Суть в следуюшем: на вход поступает количество кластеров (`k`) и вектор признаков (в нашем случае - векторизованные тексты, в качестве векторизатора возьмем TF-IDF). Далее все объекты делятся на `k` групп, в которых выделяются начальные центры кластеров. Затем центр итеративно оптимизируется в зависимости от расстояния между объектами кластера и центром. Чем ближе объекты друг к другу, тем выше вероятность, что они относятся к одному кластеру. Алгоритм завершается, когда на некоторой итерации перестает изменяться внутрикластерное расстояние.

Именованные сущности могут отсутствовать в документе.

In [None]:
has_ner = [i for i in df.index.values if df.named_entities[i]]
len(has_ner), df.shape[0]

(3566, 3679)

Не будем рассматривать записи, в которых именованных сущностей нет.

In [None]:
df_ner = df[df.index.isin(has_ner)]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn import metrics
from sklearn.cluster import KMeans

Посмотрим, сколько всего именованных сущностей в корпусе.

In [None]:
ner_voc = []
for row in df_ner.named_entities.tolist():
  ner_voc.extend(row)
len(ner_voc), len(set(ner_voc))

(96722, 26169)

In [None]:
vocabulary = sorted(set(ner_voc))
corpus = df_ner.named_entities.apply(str).tolist()

In [None]:
pipe = Pipeline([('count', CountVectorizer(vocabulary=vocabulary)),
                 ('tfid', TfidfTransformer())]).fit(corpus)
X = pipe.fit_transform(corpus)
km = KMeans(n_clusters=30, init='k-means++', max_iter=600, 
            algorithm="full", precompute_distances=True)

In [None]:
km.fit(X)

KMeans(algorithm='full', copy_x=True, init='k-means++', max_iter=600,
       n_clusters=30, n_init=10, n_jobs=None, precompute_distances=True,
       random_state=None, tol=0.0001, verbose=0)

Есть два вида метрик оценки качества кластеризации:
1. внешние - используют дополнительные знания о кластерах (распределение по кластерам, количество кластеров)
2. внутренние - оценивают качество полученной структуры, не используя внешнюю информацию

Т.к. у нас нет никаких дополнительных знаний (но для меньшего объема данных их можно получить экспертно при необходимости), посмотрим на внутренние метрики. В `sklearn` есть [следующие](https://scikit-learn.org/stable/modules/classes.html#clustering-metrics):


*   силуэт: показывает, насколько объект похож на свой кластер относительно других кластеров; если значение стремится к `1` - хорошее разбиение, если к `-1` - плохое, если в районе `0` - кластеры пересекаются
*   индекс Дэвиcа-Болдуина: оценивает расстояние от объекта кластера до центроида и расстояние между центроидами; чем ниже, тем лучше разбиение



In [None]:
print(metrics.silhouette_score(X, km.labels_, sample_size=1000))
print(metrics.davies_bouldin_score(X.toarray(), km.labels_))

0.01382373320440638
6.032379004068051


Здесь при увеличении количества кластеров значение обеих метрик улучшаются.

In [None]:
df_ner["label"] = km.predict(X)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
df_ner["label"].value_counts()

0     1595
27     137
10     120
7      112
13      98
2       91
3       86
16      84
21      81
12      77
18      77
6       73
14      73
29      72
15      72
19      70
1       69
23      66
5       64
25      56
4       53
22      42
17      42
8       42
28      42
11      39
26      37
20      34
24      32
9       30
Name: label, dtype: int64

Похоже, что в кластер 0 собрались объекты, которые однозначно куда-то определить не удалось. Достаточно частая ситуация при неизвестном количестве кластеров. Чтобы минимизировать количество элементов в этом кластере стоит продоллжить настраивать параметры модели. При этом ситуация, когда количество кластеров равно количеству документов - крайне нежелательна.

In [None]:
df_ner.query("label == 8").sample(10)

Unnamed: 0,topics,title,transcript,named_entities,label
162,"[String theory, physics, science, storytelling...",Мюррей Гелл-Манн о красоте и истине в физике,"Спасибо, что повесили там портреты моих коллег...","[альберт эйнштейн, альберт эйнштейн, боб миллз...",8
848,"[dark matter, science, universe]","Жанна Левин: Звук, который издает Вселенная","Я хочу, чтобы вы задумались на секунду о том, ...","[proton studios, академия науки, альберт эйншт...",8
266,"[astronomy, big bang, dark matter, education, ...",Патриция Буркат освещает темную материю,"Будучи специалистом в физике частиц, я изучаю ...","[миннесота, стивен хокинг, стивен хокинг, стэн...",8
2114,"[art, beauty, computers, code, design, enterta...","Волшебный ингредиент, благодаря которому ожива...","Когда мне было семь лет, один благонамеренный ...","[pixar, альберт эйнштейн, валл-и, валл-и, валл...",8
3123,"[TED-Ed, physics, animation, food, science]",Почему кетчуп так сложно вылить? — Джордж Зайдан,Картофель фри очень вкусный. А если ещё с кетч...,[исаак ньютон],8
653,"[TEDx, children, education, math, teaching]",Пора пересмотреть курс математики,"Постарайтесь, пожалуйста, вспомнить момент, ко...","[good morning america, дэвид милч, сша, сша, с...",8
2806,"[TED-Ed, science, physics]",Какое самое холодное вещество в мире?,Самые холодные вещества в мире не в Антарктиде...,"[антарктида, бозе-эйнштейн, эверест]",8
3036,"[creativity, mind, success, productivity, moti...",Мощный способ раскрыть ваш творческий потенциал,«Делать две вещи одновременно — это не делать ...,"[facebook, snapchat, ted talk, альберт эйнштей...",8
1248,"[TEDx, complexity, crime, math, science, algor...",Жизнь действительно так сложна?,"Спасибо большое! Я Ханна Фрай, та самая задира...","[ucl, ucla, west midlands, европа, земля, кент...",8
2865,"[TED-Ed, universe, space, solar system, big ba...",Куда расширяется наша Вселенная? — Саджан Сайни,Космическая жизнь Вселенной началась с Большог...,"[большой взрыв, земля, мультивселенная, мульти...",8


In [None]:
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = pipe[0].get_feature_names()
for i in range(20):
  print("Cluster %d:" % i, end='')
  for ind in order_centroids[i, :10]:
    print(' %s' % terms[ind], end='')
  print()

Cluster 0: сша земля альцгеймер сан америка африка университет калифорния йорк институт
Cluster 1: америка сша южная северная йорк обама европа штаты центральная крис
Cluster 2: google интернет apple facebook amazon сша microsoft долина силиконовая мур
Cluster 3: корея гарвард дом белый школа гор северная сша южная америка
Cluster 4: билл гренландия давид арктика гейтс натали сша тони пит тв
Cluster 5: великобритания лондон германия сша джон франция британия европа англия королевство
Cluster 6: штаты соединенные соединенных сша америка калифорния сан китай европа вашингтон
Cluster 7: африка южная нигерия кения сахара эфиопия азия сша америка танзания
Cluster 8: эйнштейн ньютон вселенная хиггс хокинг альберт исаак земля солнце хаббл
Cluster 9: марс земля луна наса солнце nasa венера юпитер каргилл джефф
Cluster 10: сша америка европа конгресс вашингтон штаты сан африка йорк швеция
Cluster 11: иран израиль ирландия восток турция иерусалим северная сша египет стамбул
Cluster 12: джон стив

Несмотря на далекое от идеального разбиение на кластеры, наиболее частотные слова в каждом кластере выглядят вполне адекватно. Можно даже сделать выводы о том, про что в целом каждый кластер.

## LDA

Тематическое моделирование при помощи латентного размещения Дирихле (`LDA`) представляет текст в виде графовой модели, по которой выявляются неявные тематики в документах. Здесь считается, что внутри одного документа может быть собрано несколько тем, а появление определенного слова внутри документа указывает на какую-то конкретную тему. Реализован алгоритм в `gensim`.

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
analyzer = pymorphy2.MorphAnalyzer()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Произведем предобработку текста. Здесь важно хорошо составить список стоп-слов, чтобы было проще сформулировать конкретные темы. Этот этап может занять достаточно много времени.

In [None]:
def text_to_wordlist(text, remove_stopwords=False):
    # оставляем только буквенные символы, удаляем нечто в скобках
    text = re.sub("[^а-яА-ЯёЁ]"," ", re.sub(r'\((.*?)\)', "", text))
    # токенизируем текст и приводим к нижнему регистру
    words = word_tokenize(text)
    words = [w.lower() for w in words]
    norm_words = [analyzer.parse(word)[0].normal_form for word in words]
    if remove_stopwords:
      # убираем стоп-слова
      stops = stopwords.words("russian") + ["это", "который", "наш", "мочь", "год", 
                                            "такой", "знать", "мы", "свой", "один", "другой", "хотеть",
                                            "человек", "всё", "весь", "очень", "думать", "нужно",
                                            "большой", "время", "использовать", "говорить", "сказать",
                                            "иметь", "сделать", "первый", "каждый", "день", "её", "ваш",
                                            "стать", "больший", "ваше", "день", "самый", "понять",
                                            "просто", "ещё", "проблема", "также", "например"]
      norm_words = [w for w in norm_words if w not in stops]
    return norm_words

In [None]:
text_to_wordlist(df.transcript.iloc[0], remove_stopwords=True)[:15]

['спасибо',
 'крис',
 'огромный',
 'честь',
 'получить',
 'возможность',
 'выйти',
 'сцена',
 'дважды',
 'неимоверно',
 'благодарный',
 'восторг',
 'конференция',
 'поблагодарить',
 'благожелательный']

In [None]:
df["preprocessed_text"] = df.apply(lambda row: text_to_wordlist(row["transcript"], remove_stopwords=True), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
all_words = []
for doc in df["preprocessed_text"].tolist():
  all_words.extend(doc)
#all_words = sorted(set([(word, all_words.count(word)) for word in all_words]), key=itemgetter(1), reverse=True)
len(all_words)

2708223

Перейдем к созданию корпуса и построению модели.

In [None]:
import gensim.corpora as corpora
id2word = corpora.Dictionary(df["preprocessed_text"].tolist())
texts = df["preprocessed_text"].tolist()
corpus = [id2word.doc2bow(text) for text in texts]

In [None]:
print(corpus[0])

[(0, 1), (1, 5), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 2), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 2), (29, 1), (30, 1), (31, 3), (32, 3), (33, 1), (34, 1), (35, 1), (36, 1), (37, 1), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 2), (44, 3), (45, 1), (46, 1), (47, 2), (48, 1), (49, 1), (50, 1), (51, 1), (52, 1), (53, 1), (54, 1), (55, 1), (56, 4), (57, 1), (58, 1), (59, 1), (60, 1), (61, 1), (62, 1), (63, 2), (64, 1), (65, 1), (66, 2), (67, 1), (68, 5), (69, 1), (70, 3), (71, 2), (72, 1), (73, 2), (74, 1), (75, 4), (76, 1), (77, 1), (78, 3), (79, 1), (80, 1), (81, 3), (82, 2), (83, 1), (84, 2), (85, 1), (86, 1), (87, 2), (88, 1), (89, 2), (90, 2), (91, 2), (92, 1), (93, 2), (94, 1), (95, 2), (96, 1), (97, 1), (98, 2), (99, 1), (100, 1), (101, 1), (102, 1), (103, 1), (104, 1), (105, 1), (106, 1), (107, 1), (108, 1), (109, 4), (110, 1),

Количество тем - тот параметр, который надо настраивать.

In [None]:
from gensim.models import LdaMulticore
lda_model = LdaMulticore(corpus=corpus, id2word=id2word, num_topics=20)

  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt * logsumexp(Elogthetad + Elogbeta[:, int(id)]) for id, cnt in doc)
  score += np.sum(cnt

Выведем наиболее частотные ключевые слова каждой из тем.

In [None]:
lda_model.print_topics()

[(0,
  '0.005*"жизнь" + 0.004*"мир" + 0.004*"ребёнок" + 0.004*"должный" + 0.004*"страна" + 0.004*"работать" + 0.003*"дело" + 0.003*"видеть" + 0.003*"работа" + 0.003*"друг"'),
 (1,
  '0.006*"мир" + 0.005*"жизнь" + 0.004*"должный" + 0.004*"видеть" + 0.004*"делать" + 0.003*"работа" + 0.003*"хороший" + 0.003*"дело" + 0.003*"друг" + 0.003*"ребёнок"'),
 (2,
  '0.005*"должный" + 0.004*"ребёнок" + 0.004*"мир" + 0.004*"жизнь" + 0.004*"работа" + 0.004*"новый" + 0.003*"дело" + 0.003*"делать" + 0.003*"женщина" + 0.003*"хороший"'),
 (3,
  '0.006*"мир" + 0.005*"жизнь" + 0.004*"делать" + 0.003*"должный" + 0.003*"хороший" + 0.003*"друг" + 0.003*"женщина" + 0.002*"вопрос" + 0.002*"место" + 0.002*"новый"'),
 (4,
  '0.005*"делать" + 0.004*"мир" + 0.004*"видеть" + 0.004*"хороший" + 0.004*"работать" + 0.004*"должный" + 0.003*"дело" + 0.003*"жизнь" + 0.003*"работа" + 0.003*"друг"'),
 (5,
  '0.005*"мир" + 0.004*"делать" + 0.004*"должный" + 0.004*"работать" + 0.003*"система" + 0.003*"поэтому" + 0.003*"работа"

Модуль `pyLDAvis` позволяет сделать интерактивную визуализацию результатов тематического моделирования.

In [None]:
!pip install pyLDAvis



In [None]:
import pyLDAvis.gensim_models
import pickle 
import pyLDAvis
import os

In [None]:
pyLDAvis.enable_notebook()
LDAvis_prepared = pyLDAvis.gensim_models.prepare(lda_model, corpus, id2word)
LDAvis_prepared