# NLP для русского языка. Обзор библиотек

## NLP

![](https://ticary.com/assets/img/NLP.png)

**Обработка естественного языка** — дисциплина, которая изучает проблемы компьютерного анализа и синтеза естественных языков.

Часто в NLP рассматриваются задачи, связанные с разделами теоретической лингвистики. Приведем несколько примеров.

* Lemmatization, Stemming (морфология, синтаксис)

* Part-of-speech tagging (морфология, синтаксис)

* Построение word embeddings (лексическая семантика)

* Machine translation (семантика, прагматика)

Также есть широкий круг более прикладных задач, как то:

* Named entity recognition

* Question answering

* Relationship extraction

* Sentiment analysis

* Topic modeling

* Word sense induction

* Word sense disambiguation

Сегодня мы поговорим о том, какие существуют средства для решения некоторых из этих задач.

## Морфология

### pymorphy2

pymorphy2 написан на языке C++ и обёрнут в Python (работает под 2.7 и 3.3+). Он умеет:

* приводить слово к нормальной форме (например, «люди -> человек», или «гулял -> гулять»)
* ставить слово в нужную форму. Например, ставить слово во множественное число, менять падеж слова и т. д.
* возвращать грамматическую информацию о слове (число, род, падеж, часть речи и т.д.)


https://github.com/kmike/pymorphy2

In [1]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [2]:
morph.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [3]:
p = morph.parse('стали')[0]
p.normal_form

'стать'

In [4]:
p = morph.parse('захотелось')[0]
p.normal_form

'захотеться'

In [5]:
p.normalized

Parse(word='захотеться', tag=OpencorporaTag('INFN,perf,intr,Impe'), normal_form='захотеться', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'захотеться', 1574, 0),))

In [6]:
morph.parse('временами')

[Parse(word='временами', tag=OpencorporaTag('ADVB'), normal_form='временами', score=0.666666, methods_stack=((<DictionaryAnalyzer>, 'временами', 3, 0),)),
 Parse(word='временами', tag=OpencorporaTag('NOUN,inan,neut plur,ablt'), normal_form='время', score=0.333333, methods_stack=((<DictionaryAnalyzer>, 'временами', 536, 10),))]

In [7]:
morph.parse('бутявковедами')

[Parse(word='бутявковедами', tag=OpencorporaTag('NOUN,anim,masc plur,ablt'), normal_form='бутявковед', score=1.0, methods_stack=((<FakeDictionary>, 'бутявковедами', 52, 10), (<KnownSuffixAnalyzer>, 'едами')))]

In [8]:
butyavka = morph.parse('бутявка')[0]
butyavka

Parse(word='бутявка', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явка', 8, 0), (<UnknownPrefixAnalyzer>, 'бут')))

In [9]:
butyavka.inflect({'plur', 'gent'})  # кого много?

Parse(word='бутявок', tag=OpencorporaTag('NOUN,inan,femn plur,gent'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явок', 8, 8), (<UnknownPrefixAnalyzer>, 'бут')))

In [10]:
butyavka.lexeme

[Parse(word='бутявка', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явка', 8, 0), (<UnknownPrefixAnalyzer>, 'бут'))),
 Parse(word='бутявки', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явки', 8, 1), (<UnknownPrefixAnalyzer>, 'бут'))),
 Parse(word='бутявке', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явке', 8, 2), (<UnknownPrefixAnalyzer>, 'бут'))),
 Parse(word='бутявку', tag=OpencorporaTag('NOUN,inan,femn sing,accs'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явку', 8, 3), (<UnknownPrefixAnalyzer>, 'бут'))),
 Parse(word='бутявкой', tag=OpencorporaTag('NOUN,inan,femn sing,ablt'), normal_form='бутявка', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'явкой', 8, 4), (<UnknownPrefixAnalyzer>, 'бут'))),
 Parse(word='бутявкою', tag=

### pymystem3

pymystem3 — это Python-версия системы Yandex Mystem 3.0, представленной в 2014 году. Этот морфологический анализатор может проводить лемматизацию текста и выделять морфотеги для каждого токена.

https://github.com/nlpub/pymystem3

In [11]:
import json
from pymystem3 import Mystem
text = "Красивая мама красиво мыла раму"
m = Mystem()

In [12]:
lemmas = m.lemmatize(text)
print(''.join(lemmas))

красивый мама красиво мыть рама



In [13]:
lemmas = m.lemmatize(text)

print("lemmas:", ''.join(lemmas))
print("full info:", json.dumps(m.analyze(text), ensure_ascii=False))

lemmas: красивый мама красиво мыть рама

full info: [{"analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}], "text": "Красивая"}, {"text": " "}, {"analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}], "text": "мама"}, {"text": " "}, {"analysis": [{"lex": "красиво", "gr": "ADV="}], "text": "красиво"}, {"text": " "}, {"analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}], "text": "мыла"}, {"text": " "}, {"analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}], "text": "раму"}, {"text": "\n"}]


In [14]:
m.analyze('выдры')

[{'analysis': [{'gr': 'S,жен,од=(род,ед|им,мн)', 'lex': 'выдра'}],
  'text': 'выдры'},
 {'text': '\n'}]

In [15]:
m.analyze('временами')

[{'analysis': [{'gr': 'S,сред,неод=твор,мн', 'lex': 'время'}],
  'text': 'временами'},
 {'text': '\n'}]

In [16]:
m.analyze('стали')

[{'analysis': [{'gr': 'V,нп=прош,мн,изъяв,сов', 'lex': 'становиться'}],
  'text': 'стали'},
 {'text': '\n'}]

In [17]:
m.analyze('зелено')

[{'analysis': [{'gr': 'A=ед,кр,сред', 'lex': 'зеленый'}], 'text': 'зелено'},
 {'text': '\n'}]

In [18]:
m.analyze('печь')

[{'analysis': [{'gr': 'S,жен,неод=(вин,ед|им,ед)', 'lex': 'печь'}],
  'text': 'печь'},
 {'text': '\n'}]

Как мы видим, pymystem возвращает только один вариант части речи разбора, что неудобно. Похоже, что здесь реализовано намного меньше функций, чем в настоящем Mystem. Также специалисты говорят, что эта реализация уступает по скорости яндексовской.

![](https://sun9-2.userapi.com/c840630/v840630195/21207/4yvg_iUxSIw.jpg)

## Дистрибутивная семантика

### gensim

gensim позволяет работать с векторными представлениями слов, в том числе проводить тематическое моделирование. Здесь есть такие популярные алгоритмы, как word2vec, fasttext, LSA (LSI), LDA и др.

https://github.com/RaRe-Technologies/gensim

Наверняка вы много раз видели этот пример про королей и королев.

![](https://pp.userapi.com/c824503/v824503923/1341f0/dz5K0FrtOxg.jpg)

На самом деле всё намного сложнее, но зачем нам сейчас об этом думать? :) Давайте решать пропорции! 

Мы возьмем обученную модель с сайта http://www.rusvectores.org/ru/.

In [19]:
from gensim.models import Word2Vec, KeyedVectors

In [20]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [21]:
model = KeyedVectors.load_word2vec_format('ruscorpora_1_300_10.bin', binary=True)

Модели с RusVectores содержат, помимо самого слова, еще и его часть речи, поэтому нужно быть осторожными, когда обращаетесь к элементам словаря.

In [22]:
model.wv['компьютер']

KeyError: "word 'компьютер' not in vocabulary"

In [23]:
model.wv['компьютер_NOUN']

array([ 0.01430139,  0.0585151 ,  0.00888936,  0.04709152,  0.02443909,
        0.02237037,  0.01119217, -0.03856995,  0.00391753, -0.01090403,
       -0.03795073, -0.12944432,  0.00771374, -0.03216182,  0.0257799 ,
        0.14314511,  0.07175423, -0.00843156,  0.04627819,  0.04163702,
        0.04569011,  0.0178656 , -0.10358775, -0.0873604 ,  0.00504671,
       -0.08179374,  0.03362726,  0.01686064, -0.05553121, -0.00164675,
        0.07158661,  0.15203299, -0.07288519, -0.04842876, -0.025621  ,
       -0.04352614,  0.02322739,  0.03708712, -0.05625819, -0.04457819,
       -0.02869111, -0.07964686, -0.00610048, -0.05819916, -0.02231851,
        0.04443615,  0.06594996,  0.04559314,  0.1214591 , -0.07432085,
       -0.09421676,  0.00067027, -0.05282485,  0.07496892,  0.10375467,
       -0.00704413, -0.04028241, -0.01665381,  0.04324005, -0.00363478,
       -0.11470584,  0.07778125,  0.04445337, -0.00512672,  0.02029156,
        0.00285956,  0.00049445,  0.08358394,  0.03688211,  0.00

In [24]:
model.wv.most_similar(positive=['женщина_NOUN', 'король_NOUN'], negative=['мужчина_NOUN'])

[('королева_NOUN', 0.7313904166221619),
 ('герцог_NOUN', 0.6502389311790466),
 ('принцесса_NOUN', 0.626628577709198),
 ('герцогиня_NOUN', 0.6240381002426147),
 ('королевство_NOUN', 0.6094205975532532),
 ('зюдерманландский_ADJ', 0.6084391474723816),
 ('дурлахский_ADJ', 0.6081665754318237),
 ('ульрик::элеонора_NOUN', 0.6073107123374939),
 ('максимилианов_NOUN', 0.6057005524635315),
 ('принц_NOUN', 0.5984027981758118)]

Существует множество формул для решения подобных «пропорций».

Есть, например, такая.

![](https://pp.userapi.com/c824503/v824503923/1341dd/lPxvEgjbKjU.jpg)

In [25]:
model.wv.most_similar_cosmul(positive=['женщина_NOUN', 'король_NOUN'], negative=['мужчина_NOUN'])

[('королева_NOUN', 0.9440659880638123),
 ('герцог_NOUN', 0.8865480422973633),
 ('герцогиня_NOUN', 0.8756471872329712),
 ('принцесса_NOUN', 0.8743512630462646),
 ('зюдерманландский_ADJ', 0.8665050268173218),
 ('шатонефа_NOUN', 0.8633139133453369),
 ('ульрик::элеонора_NOUN', 0.8596935868263245),
 ('шанваллон_NOUN', 0.857577919960022),
 ('дурлахский_ADJ', 0.8565075397491455),
 ('королевство_NOUN', 0.85478675365448)]

In [26]:
model.wv.doesnt_match('россия_NOUN франция_NOUN германия_NOUN зимбабве_NOUN'.split())

'зимбабве_NOUN'

Более подробный туториал:

https://radimrehurek.com/gensim/models/word2vec

## Word sense disambiguation

### Adagram

Adagram — алгоритм, позволяющий для каждого слова находить не один вектор, как делают другие векторные модели, а несколько. Он был разработан исследовательской группой под руководством Дмитрия Ветрова.

https://github.com/lopuhin/python-adagram

Кстати, WSD — тема Dialogue Evaluaion 2018. Adagram использовался в качестве бейзлайна. Ниже — скриншот результатов дорожки active-dict.

![](https://sun9-6.userapi.com/c840726/v840726079/55f04/RGNoSCD1zF4.jpg)

## Тематическое моделирование

### gensim

Возьмем датасет https://www.kaggle.com/onidzelskyi/chat-messages и обучим на нем LDA-модель (процесс есть в отдельном ноутбуке). Теперь загрузим ее.

In [27]:
from gensim.models import LdaModel
model = LdaModel.load("chat_model.model")

Выведем для каждой из 4 тем топ-10 наиболее значимых слов.

In [28]:
topics = model.show_topics(4, 10)
for topic in topics:
    print(topic)

(0, '0.065*"днепр" + 0.057*"для" + 0.051*"ищу" + 0.033*"смс" + 0.032*"ищет" + 0.030*"девушку" + 0.027*"м" + 0.026*"п" + 0.023*"парень" + 0.016*"дев"')
(1, '0.056*"я" + 0.034*"и" + 0.019*"за" + 0.018*"хочу" + 0.015*"на" + 0.014*"не" + 0.012*"очень" + 0.010*"люблю" + 0.008*"сегодня" + 0.008*"номер"')
(2, '0.135*"с" + 0.052*"для" + 0.040*"м" + 0.033*"девушкой" + 0.025*"познакомлюсь" + 0.024*"смс" + 0.023*"со" + 0.022*"парень" + 0.020*"дж" + 0.017*"п"')
(3, '0.032*"девушки" + 0.029*"звоните" + 0.028*"в" + 0.027*"есть" + 0.017*"и" + 0.016*"пишите" + 0.016*"на" + 0.015*"по" + 0.015*"кто" + 0.014*"перезвоню"')


### BigARTM

![](https://camo.githubusercontent.com/f1122165c1f724d13a4f89b699734650d8b8b0b5/687474703a2f2f6269676172746d2e6f72672f696d672f4269674152544d2d6c6f676f2e737667)

Аддитивная регуляризация тематических моделей — многокритериальный подход к построению вероятностных тематических моделей коллекций текстовых документов. Охватывает наиболее известные тематические модели PLSA, LDA и многие байесовские модели. Является альтернативой байесовскому обучению тематических моделей.

https://github.com/bigartm/bigartm

Видео:

https://www.youtube.com/watch?v=Y7lGYjJ7TR8

По сравнению с реализациями стандартных алгоритмов в gensim, BigARTM имеет более широкий функционал и лучше применима к прикладным задачам информационного поиска.

## Извлечение именованных сущностей

### Natasha

![](https://camo.githubusercontent.com/95459668cd4681d492668972a8dfe63231f84244/687474703a2f2f692e696d6775722e636f6d2f4444324b5953392e706e67)

Natasha — библиотека для поиска и извлечения именованных сущностей (Named-entity recognition) из текстов на русском языке. На данный момент разбираются упоминания персон, даты и суммы денег.

In [29]:
from natasha import NamesExtractor
from natasha.markup import show_markup, show_json

extractor = NamesExtractor()

text = '''
Благодарственное письмо
Хочу поблагодарить учителей моего, теперь уже бывшего, одиннадцатиклассника:  
Бушуева Вячеслава Владимировича и Бушуеву Веру Константиновну. Они вовлекали 
сына в интересные внеурочные занятия, связанные с театром и походами.

Благодарю прекрасного учителя 1"А" класса - Волкову Наталью Николаевну, 
нашего наставника, тьютора - Ларису Ивановну, за огромнейший труд, чуткое 
отношение к детям, взаимопонимание! Огромное спасибо!
'''
matches = extractor(text)
spans = [_.span for _ in matches]
facts = [_.fact.as_json for _ in matches]
show_markup(text, spans)
show_json(facts)


Благодарственное письмо
Хочу поблагодарить учителей моего, теперь уже бывшего, одиннадцатиклассника:  
[[Бушуева Вячеслава Владимировича]] и [[Бушуеву Веру Константиновну]]. Они вовлекали 
сына в интересные внеурочные занятия, связанные с театром и походами.

Благодарю прекрасного учителя 1"А" класса - [[Волкову Наталью Николаевну]], 
нашего наставника, тьютора - [[Ларису Ивановну]], за огромнейший труд, чуткое 
отношение к детям, взаимопонимание! Огромное спасибо!

[
  {
    "first": "вячеслав",
    "middle": "владимирович",
    "last": "бушуев"
  },
  {
    "first": "вера",
    "middle": "константиновна",
    "last": "бушуева"
  },
  {
    "first": "наталья",
    "middle": "николаевна",
    "last": "волкова"
  },
  {
    "first": "лариса",
    "middle": "ивановна"
  }
]


In [30]:
from natasha import AddressExtractor
from natasha.markup import show_markup, show_json

extractor = AddressExtractor()

text = '''
Предлагаю вернуть прежние границы природного парка №71 на Инженерной улице 2.

По адресу Алтуфьевское шоссе д.51 (основной вид разрешенного использования: 
производственная деятельность, склады) размещен МПЗ. Жители требуют 
незамедлительной остановки МПЗ и его вывода из района

Контакты 
О нас телефон 7 881 574-10-02 
Адрес Республика Карелия,г.Петрозаводск,ул.Маршала Мерецкова, д.8 Б,офис 4
'''
matches = extractor(text)
spans = [_.span for _ in matches]
facts = [_.fact.as_json for _ in matches]
show_markup(text, spans)
show_json(facts)


Предлагаю вернуть прежние границы природного парка №71 на [[Инженерной улице 2]].

По адресу [[Алтуфьевское шоссе д.51]] (основной вид разрешенного использования: 
производственная деятельность, склады) размещен МПЗ. Жители требуют 
незамедлительной остановки МПЗ и его вывода из района

Контакты 
О нас телефон 7 881 574-10-02 
Адрес [[Республика Карелия,г.Петрозаводск,ул.Маршала Мерецкова, д.8 Б,офис 4]]

[
  {
    "parts": [
      {
        "name": "Инженерной",
        "type": "улица"
      },
      {
        "number": "2"
      }
    ]
  },
  {
    "parts": [
      {
        "name": "Алтуфьевское",
        "type": "шоссе"
      },
      {
        "number": "51",
        "type": "дом"
      }
    ]
  },
  {
    "parts": [
      {
        "name": "Карелия",
        "type": "республика"
      },
      {
        "name": "Петрозаводск",
        "type": "город"
      },
      {
        "name": "Маршала Мерецкова",
        "type": "улица"
      },
      {
        "number": "8 Б",
        

In [31]:
from natasha import (
    NamesExtractor,
    AddressExtractor,
    DatesExtractor,
    MoneyExtractor
)
from natasha.markup import show_markup, show_json

extractors = [
    NamesExtractor(),
    AddressExtractor(),
    DatesExtractor(),
    MoneyExtractor()
]


text = '''
Взыскать к индивидуального предпринимателя Иванова Костантипа Петровича 
дата рождения 10 января 1970 года, проживающего по адресу 
город Санкт-Петербург, ул. Крузенштерна, дом 5/1А 
8 000 (восемь тысяч) рублей 00 копеей госпошлины в пользу бюджета РФ 
'''
spans = []
facts = []
for extractor in extractors:
    matches = extractor(text)
    spans.extend(_.span for _ in matches)
    facts.extend(_.fact.as_json for _ in matches)
show_markup(text, spans)
show_json(facts)


Взыскать к индивидуального предпринимателя [[Иванова Костантипа Петровича]] 
дата рождения [[10 января 1970 года]], проживающего по адресу 
[[город Санкт-Петербург, ул. Крузенштерна, дом 5/1А]][[Крузенштерна]], дом 5/1А 
[[8 000 (восемь тысяч) рублей 00]] копеей госпошлины в пользу бюджета РФ 

[
  {
    "first": "костантип",
    "middle": "петрович",
    "last": "иванов"
  },
  {
    "last": "крузенштерн"
  },
  {
    "parts": [
      {
        "name": "Санкт-Петербург",
        "type": "город"
      },
      {
        "name": "Крузенштерна",
        "type": "улица"
      },
      {
        "number": "5/1А",
        "type": "дом"
      }
    ]
  },
  {
    "year": 1970,
    "month": 1,
    "day": 10
  },
  {
    "integer": 8000,
    "currency": "RUB",
    "coins": 0
  }
]


Основана на правилах и грамматиках.

### iPavlov, NER

![](https://avatars1.githubusercontent.com/u/29918795?s=200&v=4.png)

Проект лаборатории нейронных систем и глубокого обучения МФТИ. Обучен на трех больших датасетах Gareev corpus, FactRuEval 2016, NE3. Умеет распознавать персоны, геообъекты и названия организаций.

https://github.com/deepmipt/ner

## python-crfsuite


Библиотека на основе условных случайных полей. Говорят, для русского языка тоже работает.

https://github.com/scrapinghub/python-crfsuite

## Заключение

### Полезные ресурсы

* NLPub — каталог ресурсов для обработки естественного языка. https://nlpub.ru/

* Сайт конференции «Диалог» (там же есть доклады об алгоритмах, которые использовали участники Dialogue Evaluation). http://www.dialog-21.ru/

* #nlp (slack ODS)

* Антология Ассоциации компьютерной лингвистики (ACL). https://aclanthology.coli.uni-saarland.de/