#### NLTK

NLTK - одна из самых первых библиотек, предназначенных для решения задач NLP; она огромная и содержит очень много разных инструментов, некоторые из них никак не связаны между собой (в отличие от современных библиотек, которые скоро посмотрим). NLTK - больше исследовательская библиотека, конструктор своего рода. Для NLTK есть учебник, написанный авторами: [NLTK book](https://www.nltk.org/book/). Для этого учебника специально существует подмодуль book, который обычно импортируется целиком:

In [None]:
import nltk 
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


В этом модуле есть некий набор текстов и набор предложений, с которыми можно поиграться. 

Центральный объект для NLTK (по крайней мере, при работе с корпусами) - это Text (nltk.text.Text). По сути, в этом объекте содержится сам текст в виде списка токенов, но у него есть дополнительные методы. Что можно делать с объектом класса Text?

In [2]:
text1.concordance('Moby', width=100, lines=5)

Displaying 5 of 84 matches:
[ Moby Dick by Herman Melville 1851 ] ETYMOLOGY . ( Su
hat white whale must be the same that some call Moby Dick ." " Moby Dick ?" shouted Ahab . " Do ye k
 must be the same that some call Moby Dick ." " Moby Dick ?" shouted Ahab . " Do ye know the white w
ib in a squall . Death and devils ! men , it is Moby Dick ye have seen -- Moby Dick -- Moby Dick !" 
 devils ! men , it is Moby Dick ye have seen -- Moby Dick -- Moby Dick !" " Captain Ahab ," said Sta


Конкорданс ищет первые n вхождений заданного слова с шириной контекста width. 

In [3]:
text1.similar('whale', num=20)

ship boat sea time captain world man deck pequod other whales air
water head crew line thing side way body


similar возвращает num слов, которые встречаются в похожих контекстах (дистрибутивная похожесть). 

In [4]:
text1.common_contexts(['whale', 'ship'])  # тоже можно задать параметр num

the_s the_and the_is the_in the_the the_as the_was the_which the_i
a_in the_has the_when the_had the_with the_to the_by the_so the_that
the_would the_a


common_contexts ищет те самые совпадающие контексты. 

In [6]:
text1.count('Moby')

84

Можно посчитать количество вхождений какого-то слова. Кстати, к текстам можно применять обычные функции len(), set() и подобные. И срезы с индексами работают!

In [7]:
text1.generate(length=100)

Building ngram index...


long , from one to the top - mast , and no coffin and went out a sea
captain -- this peaking of the whales . , so as to preserve all his
might had in former years abounding with them , they toil with their
lances , strange tales of Southern whaling . at once the bravest
Indians he was , after in vain strove to pierce the profundity . ?
then ?" a levelled flame of pale , And give no chance , watch him ;
though the line , it is to be gainsaid . have been


'long , from one to the top - mast , and no coffin and went out a sea\ncaptain -- this peaking of the whales . , so as to preserve all his\nmight had in former years abounding with them , they toil with their\nlances , strange tales of Southern whaling . at once the bravest\nIndians he was , after in vain strove to pierce the profundity . ?\nthen ?" a levelled flame of pale , And give no chance , watch him ;\nthough the line , it is to be gainsaid . have been'

Можно сгенерировать текст, "похожий" на оригинальный. Это делается с помощью n-грамов (или n-грамм, я видела разные варианты по-русски...): nltk просто в случайном порядке совмещает эти n-грамы. Как можно видеть, не слишком полезный метод, однако можно побаловаться. 

Важнее то, что в nltk есть утилиты для работы с n-грамами:

In [8]:
from nltk.util import ngrams # bigrams

list(ngrams(sent9, 3))

[('THE', 'suburb', 'of'),
 ('suburb', 'of', 'Saffron'),
 ('of', 'Saffron', 'Park'),
 ('Saffron', 'Park', 'lay'),
 ('Park', 'lay', 'on'),
 ('lay', 'on', 'the'),
 ('on', 'the', 'sunset'),
 ('the', 'sunset', 'side'),
 ('sunset', 'side', 'of'),
 ('side', 'of', 'London'),
 ('of', 'London', ','),
 ('London', ',', 'as'),
 (',', 'as', 'red'),
 ('as', 'red', 'and'),
 ('red', 'and', 'ragged'),
 ('and', 'ragged', 'as'),
 ('ragged', 'as', 'a'),
 ('as', 'a', 'cloud'),
 ('a', 'cloud', 'of'),
 ('cloud', 'of', 'sunset'),
 ('of', 'sunset', '.')]

Функция ngrams (или bigrams) возвращает список всех н-грамов списка токенов, который ей дать. N-грамы еще принимают число n. 

У класса Text есть метод, который возвращает коллокации (частотные н-грамы):

In [11]:
text1.collocations()

Sperm Whale; Moby Dick; White Whale; old man; Captain Ahab; sperm
whale; Right Whale; Captain Peleg; New Bedford; Cape Horn; cried Ahab;
years ago; lower jaw; never mind; Father Mapple; cried Stubb; chief
mate; white whale; ivory leg; one hand


Как создать собственный объект класса Text? Достаточно токенизировать свой текст (любым токенизатором) и передать его в класс:

mytext = Text(tokens)

Гораздо чаще на практике, однако, используются какие-то отдельные инструменты NLTK, предназначенные для обработки текста. 

Базовая задача, которую, как правило, необходимо решать примерно всегда при работе с текстами - это сегментация текста. Текст можно сегментировать на предложения и/или на токены (существует также отдельная задача сегментации на морфемы, или автоматический глоссинг, но это более редкая вещь). 

Поскольку разделять текст на слова и предложения вроде бы очень легко, как правило, используются инструменты на правилах; хотя и не для каждого языка это верно: для языков, у которых слова не отделяются пробелами, токенизаторы могут быть нейронны или использовать статистические алгоритмы: например, для токенизации японского языка используется обычно словарь и алгоритм Витерби.и. Кстати, неплохо вспомнить, что мы сами не всегда знаем, что мы хотим считать за слово. Что мы хотим считать за токен - другой вопрос: токен определяется задачами. Например, для определенной задачи мы можем хотеть считать, что "бледно-зеленый" - это два отдельных слова, а для другой - нет.

In [21]:
from nltk.tokenize import word_tokenize 
from nltk.tokenize import RegexpTokenizer
from nltk.tokenize import sent_tokenize

tokenizer = RegexpTokenizer(r'\w+|\$[\d\.]+')
print(tokenizer.tokenize(raw))
print(word_tokenize(raw))
print(sent_tokenize(raw))

['Буллом', 'со', 'ммани', 'мандинги', 'один', 'из', 'атлантических', 'языков', 'нигеро', 'конголезской', 'макросемьи', 'Распространён', 'в', 'прибрежных', 'районах', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра', 'Леоне', 'По', 'данным', 'справочника', 'Ethnologue', 'число', 'носителей', 'составляет', '8350', 'человек', 'в', 'Сьерра', 'Леоне', 'и', 'несколько', 'человек', 'в', 'Гвинее', 'другие', 'источники', 'сообщают', 'о', 'гораздо', 'меньшем', 'количестве', 'носителей', 'около', '500', 'чел', 'Наиболее', 'близкородственный', 'язык', 'бом', 'имеется', 'небольшая', 'взаимопонимаемость', 'с', 'шербро', 'Буллом', 'со', 'активно', 'вытесняется', 'соседними', 'языками', 'главным', 'образом', 'темне']
['Буллом-со', '(', 'ммани', ',', 'мандинги', ')', '—', 'один', 'из', 'атлантических', 'языков', 'нигеро-конголезской', 'макросемьи', '.', 'Распространён', 'в', 'прибрежных', 'районах', ',', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра-Леоне', '.', 'По', 'данным', 'справочника



Следующий шаг при обработке текстов - это обычно приведение слов к словарной форме. Это уже не такая простая задача, с помощью регулярок ее не решить, приходится использовать либо словари, либо более сложные методы (нейронные сети...)

Еще в прошлом веке, правда, придумали (конечно же, для английского языка) более простой способ хоть как-то унифицировать разные словоформы одного слова: стемминг. 

Стемминг – это уже чисто историческое, можно сказать, явление: в 1980-х, когда еще не было даже графического интерфейса у компьютеров и тем более средств автоматического морфоразбора, Мартин Портер разработал свой алгоритм стемминга: усечение окончания от псевдоосновы. Этот алгоритм так и называется "стеммер Портера" и доступен в версиях для нескольких европейских языков, в т.ч. для русского (Snowball – чуть более новая версия). Алгоритм с помощью правил отсекает окончания и суффиксы, основываясь на особенностях языка. Как все правиловое, работает не без ошибок.

В NLTK есть несколько стеммеров, а именно:

1. PorterStemmer
2. SnowballStemmer
3. LancasterStemmer
4. RegexpStemmer
5. RSLPStemmer

Все смотреть не будем, можете сами поискать, если интересно, нам хватит двух. 

In [1]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()
example_words = ["python", "pythoner", "pythoning", "pythoned", "pythonly"]
for w in example_words:
 print(ps.stem(w))

python
python
python
python
pythonli


In [2]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer('russian')  # экземпляр класса 
example = ['Пердикка', 'не', 'менее', 'десяти', 'раз', 'заключал', 'и', 'расторгал', 'союзы', 'с', 'основными', 'участниками', 'войны', '.']
for token in example:
    print(stemmer.stem(token))  # stem() - метод класса

пердикк
не
мен
десят
раз
заключа
и
расторга
союз
с
основн
участник
войн
.


Другой, более крутой способ унифицировать словоформы - все-таки приводить их к словарной форме. В NLTK есть WordNetLemmatizer, который ищет нужные леммы в словаре. Работает только для английского. 

In [3]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('increases'))
print(lemmatizer.lemmatize('playing', pos="v"))
print(lemmatizer.lemmatize('playing', pos="v")) 
print(lemmatizer.lemmatize('playing', pos="n")) 
print(lemmatizer.lemmatize('playing', pos="a")) 
print(lemmatizer.lemmatize('playing', pos="r"))
print(lemmatizer.lemmatize("cats"))
print(lemmatizer.lemmatize("cacti"))
print(lemmatizer.lemmatize("geese"))
print(lemmatizer.lemmatize("rocks"))
print(lemmatizer.lemmatize("python"))
print(lemmatizer.lemmatize("better", pos="a"))
print(lemmatizer.lemmatize("best", pos="a"))
print(lemmatizer.lemmatize("run"))
print(lemmatizer.lemmatize("run",'v'))

increase
play
play
playing
playing
playing
cat
cactus
goose
rock
python
good
best
run
run


При обработке текстов для решения задач NLP, особенно если используются классические алгоритмы машинного обучения (современные нейронки извлекают признаки из всего, им часто лучше, чтобы текст сохранялся в исходном виде), бывает нужно выкинуть слишком распространенные и малозначимые слова: союзы, предлоги и т.п. В NLTK есть списки таких слов для разных языков:

In [7]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = 'При обработке текстов для решения задач NLP, особенно если используются классические алгоритмы машинного обучения (современные нейронки извлекают признаки из всего, им часто лучше, чтобы текст сохранялся в исходном виде), бывает нужно выкинуть слишком распространенные и малозначимые слова: союзы, предлоги и т.п. В NLTK есть списки таких слов для разных языков'
stop_words = set(stopwords.words('russian'))
print('Стоп-слова:', stop_words)
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w.lower() in stop_words]
print(filtered_sentence)

Стоп-слова: {'зачем', 'бы', 'сам', 'другой', 'есть', 'была', 'много', 'под', 'чуть', 'да', 'при', 'между', 'всегда', 'же', 'сейчас', 'ним', 'тем', 'а', 'по', 'ну', 'эти', 'с', 'было', 'от', 'ей', 'будто', 'один', 'тебя', 'этом', 'какая', 'и', 'через', 'чтоб', 'три', 'вдруг', 'к', 'тот', 'совсем', 'был', 'разве', 'него', 'для', 'хорошо', 'они', 'вас', 'том', 'потому', 'над', 'нельзя', 'быть', 'этот', 'со', 'себе', 'опять', 'всего', 'мне', 'какой', 'ее', 'ничего', 'перед', 'где', 'на', 'когда', 'более', 'меня', 'без', 'о', 'кто', 'мы', 'нас', 'может', 'куда', 'ему', 'эту', 'моя', 'что', 'за', 'лучше', 'чтобы', 'можно', 'им', 'ж', 'во', 'его', 'того', 'этой', 'конечно', 'такой', 'чего', 'них', 'наконец', 'в', 'уж', 'здесь', 'иногда', 'ней', 'вы', 'два', 'еще', 'там', 'после', 'нибудь', 'не', 'из', 'нет', 'ли', 'если', 'никогда', 'этого', 'больше', 'были', 'теперь', 'про', 'до', 'почти', 'раз', 'я', 'так', 'но', 'ни', 'тогда', 'или', 'себя', 'все', 'мой', 'она', 'ведь', 'вот', 'только', 'х

Наконец к морфологии. Подробнее о ней мы поговорим в следующие разы, потому что морфологический разбор (с частями речи и еще и грамматическими характеристиками) - еще более сложная задача. В NLTK реализованы простейшие статистические парсеры, которые можно самостоятельно обучать на данных размеченных корпусов NLTK.

In [10]:
import nltk

text = word_tokenize("And now for something completely different")
print(nltk.pos_tag(text))
nltk.help.upenn_tagset('NN')

[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...


In [14]:
from nltk.corpus import brown # Брауновский корпус

brown_tagged_sents = brown.tagged_sents(categories='news') # возьмем все размеченные предложения из новостей
unigram_tagger = nltk.UnigramTagger(brown_tagged_sents) # натренируем таггер на размеченных предложениях (он просто посчитает статистику)
unigram_tagger.tag(word_tokenize('I want to analyze sentences with NLTK')) # попробуем на предложении, которого он не видел

[('I', 'PPSS'),
 ('want', 'VB'),
 ('to', 'TO'),
 ('analyze', None),
 ('sentences', 'NNS'),
 ('with', 'IN'),
 ('NLTK', None)]

In [15]:
bigram_tagger = nltk.BigramTagger(brown_tagged_sents)
bigram_tagger.tag(word_tokenize('I want to analyze sentences with NLTK'))

[('I', 'PPSS'),
 ('want', 'VB'),
 ('to', 'TO'),
 ('analyze', None),
 ('sentences', None),
 ('with', None),
 ('NLTK', None)]

Bigram tagger работает как будто бы хуже, чем unigram, но в теории он может лучше справляться с омонимией (потому что учитывает рядом стоящее слово, и тогда beautiful book vs book something не разберет одинаково). 

Также NLTK умеет работать с данными базы [WordNet](https://wordnet.princeton.edu/). Оттуда он автоматически может извлекать сведения о семантических отношениях между словами, а также на данных WordNet у него реализован алгоритм Леска для решения задачи Word Sense Disambiguation. 

Это очень известная задача в NLP-мире, можно про нее подробнее посмотреть на [nlpprogress](http://nlpprogress.com/english/word_sense_disambiguation.html). Для ее решения мы должны неоднозначным словам в контекстах сопоставить дефиниции из словаря (в роли какового для английского языка успешно выступает WordNet). Алгоритм Леска был придуман в 1986 году и считается классическим подходом (бейзлайн, ага) для решения этой задачи. Мы предполагаем, что слова в заданном окне контекста (среди окружающих их слов) будут иметь похожую тематику. Это еще называется **дистрибутивная гипотеза** ("Лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения.", придумали это лингвисты уже много лет назад). По алгоритму Леска, определение в словаре для целевого слова сравнивается со словами, которые стоят вокруг него в контексте. 

В базовой имплементации алгоритм Леска делает следующее:

- считает количество слов, стоящих рядом с искомым словом и оказавшихся в словарном определении слова (для каждого варианта определения)
- Каких слов больше всего оказалось, то и значение. 

Очень просто!

In [16]:
from nltk.wsd import lesk 
from nltk.tokenize import word_tokenize 

def get_semantic(seq, key_word):
    temp = word_tokenize(seq)
    temp = lesk(temp, key_word)
    return temp.definition() 

In [17]:
print(get_semantic('The table was already booked by someone else', 'book'))
print(get_semantic('I love reading books on programming', 'book'))

arrange for and reserve (something for someone else) in advance
a number of sheets (ticket or stamps etc.) bound together on one edge


Ну и синонимы с антонимами просто собираются напрямую из WordNet:

In [18]:
from nltk.corpus import wordnet
synonyms = []
for syns in wordnet.synsets('dog'):
 synonyms.append(syns.name())
print ("synonyms", synonyms)

antonyms = []
for syn in wordnet.synsets("good"):
 for l in syn.lemmas():
  if l.antonyms():
   antonyms.append(l.antonyms()[0].name())
print(antonyms)

synonyms ['dog.n.01', 'frump.n.01', 'dog.n.03', 'cad.n.01', 'frank.n.02', 'pawl.n.01', 'andiron.n.01', 'chase.v.01']
['evil', 'evilness', 'bad', 'badness', 'bad', 'evil', 'ill']


### Русская морфология и специализированные библиотеки

Современные морфопарсеры, как правило, работают на нейронных сетях, но бывают случаи, когда важнее скорость работы, чем качество; тогда используются правиловые морфопарсеры. Для русского языка их два: pymorphy3 и pymystem3. Pymorphy был создан Михаилом Коробовым (вот его известная [статья на хабре](https://habr.com/ru/post/176575/)) как аналог Майстем. Он работает на словаре и использует тагсет [OpenCorpora](http://opencorpora.org/)), а также статистику, предпосчитанную на этом корпусе. 
Как устроен pymorphy3?

In [5]:
import pymorphy3

morph = pymorphy3.MorphAnalyzer()

parse = morph.parse('студентки')
parse

[Parse(word='студентки', tag=OpencorporaTag('NOUN,anim,femn sing,gent'), normal_form='студентка', score=0.6, methods_stack=((DictionaryAnalyzer(), 'студентки', 40, 1),)),
 Parse(word='студентки', tag=OpencorporaTag('NOUN,anim,femn plur,nomn'), normal_form='студентка', score=0.4, methods_stack=((DictionaryAnalyzer(), 'студентки', 40, 7),))]

У класса MorphAnalyzer() есть метод parse, который возвращает что? Список экземпляров класса Parse. У этого класса есть свои атрибуты: word (исходная форма слова), tag (грам. инфа), normal_form (лемма), score(предпосчитанная на OpenCorpora вероятность правильности разбора) и несколько технических. 

Соответственно, получить информацию можно, просто обращаясь к атрибутам (не забудьте, что у нас всегда список, поэтому нужно еще и индекс разбора указывать):

In [6]:
print(parse[0].word)
print(parse[0].tag)
print(parse[0].normal_form)

студентки
NOUN,anim,femn sing,gent
студентка


Атрибут tag &ndash; это экземпляр класса OpencorporaTag, как можно догадаться. У него есть еще свои атрибуты, к которым тоже можно обращаться, чтобы получать более конкретную информацию о слове. 

In [10]:
parse = morph.parse('участник')

t = parse[0].tag  # я записала в переменную, просто чтобы не копировать каждый раз все целиком
# но это то же самое, что parse[0].tag.animacy...
print(f'Часть речи: {t.POS}')
print(f'Одушевленность: {t.animacy}\nПадеж: {t.case}\nРод: {t.gender}\nНаклонение: {t.mood}\
\nЧисло: {t.number}\nЛицо: {t.person}\nВремя: {t.tense}\nПереходность: {t.transitivity}\nЗалог: {t.voice}')

Часть речи: NOUN
Одушевленность: anim
Падеж: nomn
Род: masc
Наклонение: None
Число: sing
Лицо: None
Время: None
Переходность: None
Залог: None


In [8]:
parse = morph.parse('говорит')

t = parse[0].tag  
print(f'Часть речи: {t.POS}')
print(f'Одушевленность: {t.animacy}\nПадеж: {t.case}\nРод: {t.gender}\n\
Наклонение: {t.mood}\nЧисло: {t.number}\nЛицо: {t.person}\nВремя: {t.tense}\nПереходность: {t.transitivity}\nЗалог: {t.voice}')

Часть речи: VERB
Одушевленность: None
Падеж: None
Род: None
Наклонение: indc
Число: sing
Лицо: 3per
Время: pres
Переходность: tran
Залог: None


Если вы запрашиваете категорию, которой у данного слова нет (ну нет переходности у существительного), вернется None. 

Также можно попросить pymorphy поставить слово в конкретную форму или вообще вернуть всю парадигму. 

In [9]:
parse[0].inflect({'plur'})

Parse(word='говорят', tag=OpencorporaTag('VERB,impf,tran plur,3per,pres,indc'), normal_form='говорить', score=1.0, methods_stack=((DictionaryAnalyzer(), 'говорят', 415, 6),))

In [11]:
parse[0].lexeme  
# парадигму глагола лучше не выводить - она длинная; я перед запуском этой ячейки перезапустила разбор с существительным, поэтому не удивляйтесь. :)

[Parse(word='участник', tag=OpencorporaTag('NOUN,anim,masc sing,nomn'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участник', 2, 0),)),
 Parse(word='участника', tag=OpencorporaTag('NOUN,anim,masc sing,gent'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участника', 2, 1),)),
 Parse(word='участнику', tag=OpencorporaTag('NOUN,anim,masc sing,datv'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участнику', 2, 2),)),
 Parse(word='участника', tag=OpencorporaTag('NOUN,anim,masc sing,accs'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участника', 2, 3),)),
 Parse(word='участником', tag=OpencorporaTag('NOUN,anim,masc sing,ablt'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участником', 2, 4),)),
 Parse(word='участнике', tag=OpencorporaTag('NOUN,anim,masc sing,loct'), normal_form='участник', score=1.0, methods_stack=((DictionaryAnalyzer(), 'участник

Наконец, можно попросить pymorphy выводить грам. информацию по-русски:

In [12]:
parse[0].tag.cyr_repr

'СУЩ,од,мр ед,им'

Pymorphy очень быстро работает и имеет много возможностей, но совершенно не умеет разрешать омонимию и никак не учитывает контекст.

Алгоритм, легший в основу Mystem, разрабатывался в ИППИ и был первым вообще для русского языка; его в свое время купил у них Илья Сегалович, доработал, опубликовал собственную статью. Поисковик Яндекса когда-то работал на майстеме. Сам парсер написан в С (для скорости: бинарный поиск в питоне реализовать можно только с внешними библиотеками на С, а у майстема 2 словаря, по которым нужно искать). Для питона под него сделана оболочка (pymystem3). Майстем капризный, тяжело запускается, имеет не так много функций, но работает тоже довольно быстро и умеет доносить на бастардов: сообщать, что слово не найдено в его словаре. 

In [13]:
import pymystem3

m = pymystem3.Mystem(entire_input=False)

Майстем принимает только сырой текст в виде одной строки: у него встроенный токенизатор, потому что он пытается учитывать контекст. Поэтому стоит указывать entire_input=False при создании экземпляра класса, чтобы он не выводил вообще все, включая пробелы.

In [14]:
raw = '''Пердикка II (др.-греч. Περδίκκας Β΄ της Μακεδονίας) — македонский царь, правивший в 454—413 годах до н. э. После смерти Александра I среди его сыновей возник междоусобный конфликт, победителем из которого вышел Пердикка. На момент его воцарения Македония представляла собой отсталое государство, которому угрожала опасность завоевания как со стороны Афинского морского союза на юге, так и Одрисского царства на севере. На первых порах Пердикка был вынужден всеми силами избегать открытого вооружённого противостояния и лишь наблюдать за появлением множества греческих колоний на своих границах. С началом Пелопоннесской войны македонский царь с максимальной выгодой для государства использовал запутанные отношения между греческими полисами на Халкидиках, Афинами, Спартой и Коринфом. Пердикка не менее десяти раз заключал и расторгал союзы с основными участниками войны.'''

In [15]:
lemmas = m.lemmatize(raw)
analysis = m.analyze(raw)

In [16]:
lemmas[:10]  # надеюсь, греча вас тоже порадовала

['пердикк',
 'II',
 'др',
 'греча',
 'Περδίκκας',
 'Β',
 'της',
 'Μακεδονίας',
 'македонский',
 'царь']

In [17]:
analysis[:5]

[{'analysis': [{'lex': 'пердикк',
    'qual': 'bastard',
    'gr': 'S,имя,муж,од=(вин,ед|род,ед)'}],
  'text': 'Пердикка'},
 {'analysis': [], 'text': 'II'},
 {'analysis': [{'lex': 'др', 'gr': 'S,сокр,мн,неод=(пр|вин|дат|род|твор|им)'}],
  'text': 'др'},
 {'analysis': [{'lex': 'греча', 'gr': 'S,жен,неод=род,мн'}], 'text': 'греч'},
 {'analysis': [], 'text': 'Περδίκκας'}]

С леммами вроде все должно быть понятно, а что зашито в анализе?

Майстем возвращает список. Каждый токен в этом списке - это словарь с ключами analysis & text. Первого ключа может не быть: если у нас знак пунктуации. Если же он есть, то в нем содержится список (обычно состоящий из одного элемента - если не указать при создании экземпляра класса Mystem glue_grammar_info=False). 

In [18]:
print(f'Первое слово: {analysis[0]}')
print(f"Его грам. инфа: {analysis[0]['analysis']}\nЕго оригинальная форма: {analysis[0]['text']}")
print(f"Какие есть ключи в словаре с разбором: {analysis[0]['analysis'][0].keys()}")
print(f"Лемма: {analysis[0]['analysis'][0]['lex']}\n\
Этот ключ бывает только тогда, когда слова нет в словаре: {analysis[0]['analysis'][0]['qual']}\n\
А это грам. информация: {analysis[0]['analysis'][0]['gr']}")

Первое слово: {'analysis': [{'lex': 'пердикк', 'qual': 'bastard', 'gr': 'S,имя,муж,од=(вин,ед|род,ед)'}], 'text': 'Пердикка'}
Его грам. инфа: [{'lex': 'пердикк', 'qual': 'bastard', 'gr': 'S,имя,муж,од=(вин,ед|род,ед)'}]
Его оригинальная форма: Пердикка
Какие есть ключи в словаре с разбором: dict_keys(['lex', 'qual', 'gr'])
Лемма: пердикк
Этот ключ бывает только тогда, когда слова нет в словаре: bastard
А это грам. информация: S,имя,муж,од=(вин,ед|род,ед)


Непросто, да. Еще сложнее устроен ключ 'gr', который содержит грамматическую информацию о слове: обычно майстем склеивает варианты разбора, то есть, выше запись следует читать как "существительное, имя собственное, мужского рода, одушевленное; возможно, Acc Sg, а возможно, Gen Sg. 

Вот как раз если указать, чтобы грам. информация не склеивалась, майстем будет возвращать несколько словарей с вариантами по отдельности:

In [19]:
m_noglue = pymystem3.Mystem(entire_input=False, glue_grammar_info=False)

noglueanalysis = m_noglue.analyze(raw)
noglueanalysis[0]

{'analysis': [{'lex': 'пердикк',
   'qual': 'bastard',
   'gr': 'S,имя,муж,од=вин,ед'},
  {'lex': 'пердикк', 'qual': 'bastard', 'gr': 'S,имя,муж,од=род,ед'}],
 'text': 'Пердикка'}

Теперь о вещах, которых нет в стабильной версии Mystem, а есть только в той, которая устанавливается через git:

1. Майстем очень плохо умеет обрабатывать \n. Когда он получает строку, в которой много \n (а это неизбежно, ведь мы чаще хотим обрабатывать длиннющие тексты), на каждом \n он перезапускает свой бинарник (написанный в С). Поэтому на длинных текстах работать будет ОЧЕНЬ медленно (впрочем, все равно быстрее нейронок...). Чтобы решить эту проблему - ведь замена \n на пробелы, например, искажает контекст - сделали возможность особым образом обрабатывать \n, когда загружаем текст из файла. 
2. Есть функция, которая позволяет получить часть речи для конкретного токена. 

In [None]:
analyze = m.analyze(file_path=path) # можно напрямую передавать в майстем путь к файлу с текстом - он сам откроет и обработает как ему надо

In [20]:
m.get_pos(analysis[0])

'S'

### Universal Dependencies

[Universal Dependencies](https://universaldependencies.org/) - это грандиозный существующий с 2006 года проект (сперва чешских, а потом и самых разных лингвистов, у нас в России им активно занимается О. Ляшевская), который ставит целью разработать такой формат морфосинтаксической разметки, который был бы одинаково применим к самым разным языкам. То есть, основная его фича - это *единообразие*, из-за чего, к примеру, принято решение в русском языке частицу "не" считать advmod (так она себя ведет в германских языках...), а копулу не считать вершиной (потому что копула в агглютинативных языках обычно отсутствует, ср. русское "Петя был учителем" vs турецкое "Petya öğretmendi", где -di - показатель прошедшего времени, присоединяющийся к *существительному*). 

UD для разметки использует формат файлов .conllu, которые представляют собой таблички (мы с таким на прошлых семинарах имели дело уже). В этом формате существует 10 колонок, каждая ячейка в строке отделяется знаком табуляции; предложения разделяются пустой строкой. На самом сайте UD очень много полезной информации, в том числе описание этого формата и сборник ссылок на приложения, которыми его удобно читать!

Существуют готовые библиотеки для чтения в этом формате: pyconll и conllu.

In [None]:
import pyconll

text = pyconll.load_from_file('myfile.conllu')

for sentence in text:
    for token in sentence:
        print(token.id, token.form, token.lemma, token.upos, token.feats, token.head, token.deprel)

Естественно, можно не только печатать информацию, но и добавлять в список и вообще делать все, что угодно. Что это за атрибуты у токенов?

- id - порядковый номер токена в предложении
- form - исходная форма
- lemma - лемма
- upos - часть речи в UD
- xpos - часть речи в неуниверсальном формате (обычно встречается, если датасет конвертированный)
- feats - грам. характеристики
- head - расстояние от синтаксической вершины
- deprel - тип синтаксической связи
- две зарезервированные ячейки

conllu тоже устроен очень просто:

    pip install conllu

In [20]:
from conllu import parse # парсит одиночное предложение, загружает все в оперативную память
from conllu import parse_incr # загружает в память предложения по очереди

with open("en_pud-ud-test.conllu", "r", encoding="utf-8") as datafile:
    data = datafile.read()
    sentences = parse(data) # data - строка, содержащая разметку; возвращает специальный объект, у которого есть список токенов и исходный текст
print(sentences[0].metadata['text']) # в атрибуте metadata содержатся метаданные о предложении: его sent_id, text, возможно, перевод (если есть)
for token in sentences[0]:
    print(token['id'], token['form'], token['lemma'], token['upos'], token['xpos'], token['feats'], token['head'], token['deprel'], token['deps'], token['misc'], sep='\t')

“While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday.
1	“	“	PUNCT	``	None	20	punct	[('punct', 20)]	{'SpaceAfter': 'No'}
2	While	while	SCONJ	IN	None	9	mark	[('mark', 9)]	None
3	much	much	ADJ	JJ	{'Degree': 'Pos'}	9	nsubj	[('nsubj', 9)]	None
4	of	of	ADP	IN	None	7	case	[('case', 7)]	None
5	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	7	det	[('det', 7)]	None
6	digital	digital	ADJ	JJ	{'Degree': 'Pos'}	7	amod	[('amod', 7)]	None
7	transition	transition	NOUN	NN	{'Number': 'Sing'}	3	nmod	[('nmod:of', 3)]	None
8	is	be	AUX	VBZ	{'Mood': 'Ind', 'Number': 'Sing', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}	9	cop	[('cop', 9)]	None
9	unprecedented	unprecedented	ADJ	JJ	{'Degree': 'Pos'}	20	advcl	[('advcl:while', 20)]	None
10	in	in	ADP	IN	None	13	case	[('case', 13)]	None
11	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	13	det	[('det', 13)]	None
12	Uni

In [24]:
data_file = open("en_pud-ud-test.conllu", "r", encoding="utf-8")
for i, sentence in enumerate(parse_incr(data_file)):
    if i != 0:
        break
    print(sentence.metadata['text'])
    for token in sentence:
        print(token['id'], token['form'], token['lemma'], token['upos'], token['xpos'], token['feats'], token['head'], token['deprel'], token['deps'], token['misc'], sep='\t')

“While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday.
1	“	“	PUNCT	``	None	20	punct	[('punct', 20)]	{'SpaceAfter': 'No'}
2	While	while	SCONJ	IN	None	9	mark	[('mark', 9)]	None
3	much	much	ADJ	JJ	{'Degree': 'Pos'}	9	nsubj	[('nsubj', 9)]	None
4	of	of	ADP	IN	None	7	case	[('case', 7)]	None
5	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	7	det	[('det', 7)]	None
6	digital	digital	ADJ	JJ	{'Degree': 'Pos'}	7	amod	[('amod', 7)]	None
7	transition	transition	NOUN	NN	{'Number': 'Sing'}	3	nmod	[('nmod:of', 3)]	None
8	is	be	AUX	VBZ	{'Mood': 'Ind', 'Number': 'Sing', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}	9	cop	[('cop', 9)]	None
9	unprecedented	unprecedented	ADJ	JJ	{'Degree': 'Pos'}	20	advcl	[('advcl:while', 20)]	None
10	in	in	ADP	IN	None	13	case	[('case', 13)]	None
11	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	13	det	[('det', 13)]	None
12	Uni

Где можно красивенько отрисовать .conllu файлы в виде деревьев зависимости:

[Арборатор](https://arborator.ilpga.fr/q.cgi): достаточно вставить текст в формате .conllu

[Conllu-Viewer на сайте UD](https://universaldependencies.org/conllu_viewer.html): умеет читать файлы и рисовать последовательно все предложения

Для затравки вот картинка с арборатора:

<img src='arbo.png'>

Авторы UD разместили онлайн-парсер на своем [сайте](https://lindat.mff.cuni.cz/services/udpipe/), однако для русских он без VPN не работает теперь, к сожалению.

## Крупные библиотеки NLP: SpaCy, Stanza (StanfordNLP), Natasha

#### SpaCy

Спейси - современная библиотека, которая написана в Cython и использует нейронные сети. Интерфейс спейси довольно удобный и однообразный. Центральное понятие для спейси - это pipeline: то есть, набор действий, которые спейси совершает с текстом. Чтобы обработать текст на любом из языков, представленных в библиотеке ([список](https://spacy.io/usage/models)), достаточно завести пустой пайплайн:

In [1]:
import spacy

nlp = spacy.blank('en')
doc = nlp('My beautiful sentence is here.')

Предупреждения может выдавать библиотека tensorflow, которая сообщает, что у вас не настроена CUDA, но их можно игнорировать, как и предлагается. 

Пустой пайплайн превращает наш текст в особый объект, в котором текст разделен на токены, и можно у этих токенов смотреть самые простые характеристики:

In [2]:
for token in doc:
    print(f'№ {token.i}. Токен: {token.text:>15}. Является словом: {token.is_alpha}. Является пунктуацией: {token.is_punct}. Похож на число: {token.like_num}')

№ 0. Токен:              My. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 1. Токен:       beautiful. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 2. Токен:        sentence. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 3. Токен:              is. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 4. Токен:            here. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 5. Токен:               .. Является словом: False. Является пунктуацией: True. Похож на число: False


Объект doc также позволяет смотреть спаны (несколько токенов, срез текста):

In [3]:
span = doc[1:3]
span.text

'beautiful sentence'

В стандартный пайплайн спейси сентенизация не входит, но можно ее добавить:

In [22]:
import spacy

nlp = spacy.blank('ru')
nlp.add_pipe('sentencizer')
doc = nlp(raw) # в этот момент спейси предобрабатывает наш сырой текст 
tokens = [token.text for token in doc]
print(tokens)
sents = [sent.text for sent in doc.sents]
print(sents)

['Буллом', '-', 'со', '(', 'ммани', ',', 'мандинги', ')', '—', 'один', 'из', 'атлантических', 'языков', 'нигеро', '-', 'конголезской', 'макросемьи', '.', 'Распространён', 'в', 'прибрежных', 'районах', ',', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра', '-', 'Леоне', '.', 'По', 'данным', 'справочника', 'Ethnologue', 'число', 'носителей', 'составляет', '8350', 'человек', 'в', 'Сьерра', '-', 'Леоне', 'и', 'несколько', 'человек', 'в', 'Гвинее', ',', 'другие', 'источники', 'сообщают', 'о', 'гораздо', 'меньшем', 'количестве', 'носителей', '(', 'около', '500', 'чел', ')', '.', 'Наиболее', 'близкородственный', 'язык', '—', 'бом', ',', 'имеется', 'небольшая', 'взаимопонимаемость', 'с', 'шербро', '.', 'Буллом', '-', 'со', 'активно', 'вытесняется', 'соседними', 'языками', ',', 'главным', 'образом', '—', 'темне', '.']
['Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи.', 'Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне

Ну, это все прекрасно, но хотелось бы чего-то большего. Для spacy есть довольно много предобученных моделей для разных языков (список см. выше). Модельки нужно устанавливать (скачивать) с помощью команды в командной строке - она написана у них на сайте (python -m spacy download имя_модели). Когда вы загрузили модельку, вы можете ее использовать в коде:

In [4]:
nlp = spacy.load('en_core_web_lg')

Теперь уже можно получить сведения поинтереснее:

In [5]:
doc = nlp('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')

In [14]:
for token in doc:
    print(f'{token.i:2}. {token.text:15} POS: {token.pos_:6} SyntR: {token.dep_:9} Head: {token.head.text}')

 0. The             POS: DET    SyntR: det       Head: Army
 1. 4th             POS: ADJ    SyntR: amod      Head: Army
 2. Army            POS: PROPN  SyntR: nsubj     Head: was
 3. was             POS: AUX    SyntR: ROOT      Head: was
 4. a               POS: DET    SyntR: det       Head: formation
 5. Royal           POS: PROPN  SyntR: compound  Head: Army
 6. Yugoslav        POS: ADJ    SyntR: amod      Head: Army
 7. Army            POS: PROPN  SyntR: compound  Head: formation
 8. formation       POS: NOUN   SyntR: attr      Head: was
 9. mobilised       POS: VERB   SyntR: acl       Head: formation
10. prior           POS: ADV    SyntR: advmod    Head: mobilised
11. to              POS: ADP    SyntR: prep      Head: prior
12. the             POS: DET    SyntR: det       Head: invasion
13. German          POS: PROPN  SyntR: npadvmod  Head: led
14. -               POS: PUNCT  SyntR: punct     Head: led
15. led             POS: VERB   SyntR: amod      Head: invasion
16. invasion    

Если нужно, чтобы индексы расставлялись так, как это должно быть в UD (нумерация с 1, отдельная индексация в каждом новом предложении), можно использовать такой код:

In [None]:
for sent in doc.sents:
  for token in sent:
    if token.dep_ == 'ROOT':
      head = 0
    else:
      head = token.head.i - sent.start + 1
    print(token.i - sent.start + 1, token.text, head, token.morph)
  print()

Грамматические характеристики можно тоже посмотреть:

In [15]:
for token in doc[:3]:
    print(token.morph)

Definite=Def|PronType=Art
Degree=Pos
Number=Sing


Также spacy позволяет разметить именованные сущности и посмотреть, что получилось:

In [7]:
for ent in doc.ents:
    print(f'Entity: {ent.text:30} Label: {ent.label_}')

Entity: The 4th Army                   Label: ORG
Entity: Royal Yugoslav Army            Label: ORG
Entity: German                         Label: NORP
Entity: the Kingdom of Yugoslavia      Label: GPE
Entity: World War II                   Label: EVENT


Если аббревиатуры вас смущают, spacy легко предоставит расшифровки (для всех!):

In [33]:
spacy.explain('NORP')

'Nationalities or religious or political groups'

In [34]:
spacy.explain('pobj')

'object of preposition'

Спейски библиотека удобная и самая популярная, с простым синтаксисом, но если хочется использовать оригинальный UDPipe, есть обертки для spacy + udpipe (для тех, кто хочет запускать его локально, а не с сайта). UD, как известно - очень популярный и влиятельный проект (чешский), цель которого - унифицировать тагсет для всех языков мира, причем как в морфологии, так и в синтаксисе. Неудивительно, что, поскольку в UD существует большое количество размеченных датасетов (русским языком активно занималась О. Ляшевская), то они обучили и свой парсер. Сам парсер написан в плюсах и не очень дружелюбен, но обертки для spacy делают жизнь проще. 

Внимание: я обычно это забываю, но прежде чем установить udpipe, **нужно поставить C++ Build Tools** (с сайта майкрософт, это бесплатно). Это нужно, чтобы скомпилировать udpipe из исходников в сях. Адрес сайта, откуда брать их, сам pip обычно подсказывает, но в целом можно просто погуглить. 

Две оболочки для udpipe, которые мы рассмотрим - это spacy_udpipe и corpy. Обе нужно устанавливать:

    pip install spacy_udpipe
    pip install corpy
    
Для spacy_udpipe вообще ничего больше не нужно, там максимально автоматизированно скачиваются модельки. Для corpy приходится скачивать искомую модель руками, [отсюда](https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3131) (к сожалению, с некоторых пор тоже открывается только с VPN). Эту модель вы можете положить куда угодно, главное потом указать corpy путь к ней. 

In [35]:
import spacy_udpipe

spacy_udpipe.download('en')  # эту команду достаточно выполнить только один раз - она как nltk.download()

Already downloaded a model for the 'en' language


In [37]:
nlp = spacy_udpipe.load('en')
doc = nlp('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')
for token in doc:
    print(f'{token.i:2}. {token.text:15} Lemma: {token.lemma_:15} POS: {token.pos_:6} SyntR: {token.dep_:9} Head: {token.head.text}')

 0. The             Lemma: the             POS: DET    SyntR: det       Head: Army
 1. 4th             Lemma: 4th             POS: ADJ    SyntR: amod      Head: Army
 2. Army            Lemma: Army            POS: PROPN  SyntR: nsubj     Head: formation
 3. was             Lemma: be              POS: AUX    SyntR: cop       Head: formation
 4. a               Lemma: a               POS: DET    SyntR: det       Head: formation
 5. Royal           Lemma: Royal           POS: PROPN  SyntR: compound  Head: Army
 6. Yugoslav        Lemma: Yugoslav        POS: PROPN  SyntR: compound  Head: Army
 7. Army            Lemma: Army            POS: PROPN  SyntR: compound  Head: formation
 8. formation       Lemma: formation       POS: NOUN   SyntR: nsubj     Head: mobilised
 9. mobilised       Lemma: mobilise        POS: VERB   SyntR: ROOT      Head: mobilised
10. prior           Lemma: prior           POS: ADJ    SyntR: case      Head: invasion
11. to              Lemma: to              POS: ADP  

То же самое можно сделать в corpy:

In [38]:
from corpy.udpipe import Model

model = Model('english-partut-ud-2.5-191206.udpipe')  
# тут и нужно указать путь к вашей модели. Если она лежит в той же папке, что и скрипт, достаточно только имени файла

sents = model.process('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')

corpy возвращает генератор (то есть, итерируемый объект, который как магазин автомата, расстреляли все патроны - он опустел; повторно по генератору итерироваться нельзя). Генератор на каждом шаге выдает предложение (объект специального класса Sentence()), а в предложении - объекты класса Word(). 

In [40]:
for sent in sents:
    for word in sent.words:
        print(f'{word.form:15} Лемма: {word.lemma:15} POS: {word.upostag} Грам. инфа: {word.feats}')
print('Алилуя!')

<root>          Лемма: <root>          POS: <root> Грам. инфа: <root>
The             Лемма: the             POS: DET Грам. инфа: Definite=Def|PronType=Art
4th             Лемма: 4th             POS: ADJ Грам. инфа: Degree=Pos
Army            Лемма: army            POS: NOUN Грам. инфа: Number=Sing
was             Лемма: be              POS: AUX Грам. инфа: Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
a               Лемма: a               POS: DET Грам. инфа: Definite=Ind|Number=Sing|PronType=Art
Royal           Лемма: royal           POS: PROPN Грам. инфа: 
Yugoslav        Лемма: Yugoslav        POS: PROPN Грам. инфа: 
Army            Лемма: army            POS: PROPN Грам. инфа: 
formation       Лемма: formation       POS: NOUN Грам. инфа: Number=Sing
mobilised       Лемма: mobilize        POS: VERB Грам. инфа: Mood=Ind|Person=3|Tense=Past|VerbForm=Fin
prior           Лемма: prior           POS: ADJ Грам. инфа: Degree=Pos
to              Лемма: to              POS: ADP Грам

у corpy, кстати, есть свой способ вывода имеющейся информации (хотя, по-моему, в юпитере и так красиво выводится...)

In [43]:
from corpy.udpipe import pprint

pprint(list(model.process('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')))

[Sentence(
   comments=[
     '# newdoc',
     '# newpar',
     '# sent_id = 1',
     '# text = The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.'],
   words=[
     Word(id=0, <root>),
     Word(id=1,
          form='The',
          lemma='the',
          xpostag='RD',
          upostag='DET',
          feats='Definite=Def|PronType=Art',
          head=3,
          deprel='det'),
     Word(id=2,
          form='4th',
          lemma='4th',
          xpostag='A',
          upostag='ADJ',
          feats='Degree=Pos',
          head=3,
          deprel='amod'),
     Word(id=3,
          form='Army',
          lemma='army',
          xpostag='S',
          upostag='NOUN',
          feats='Number=Sing',
          head=9,
          deprel='nsubj'),
     Word(id=4,
          form='was',
          lemma='be',
          xpostag='V',
          upostag='AUX',
          feats='Mood=Ind|Number=Sing|Person=3

### Stanza

In [None]:
!pip install stanza

Загрузка моделей

In [9]:
import stanza

In [None]:
nlp_ru = stanza.Pipeline(lang='ru')
nlp_en = stanza.Pipeline(lang='en', processors='tokenize, pos, constituency')
nlp_fr = stanza.Pipeline(lang='fr', processors='tokenize, mwt')

Токенизация, сегментация по предложениям

In [21]:
text = '''Архитектура Византии — совокупность традиций строительства и архитектуры в поздней Римской империи и в Византии в период с начала IV века по середину XV века. В качестве отдельных направлений исследования выделяют религиозную архитектуру Византии, византийскую фортификацию и гражданское строительство, включающее дворцы, общественные сооружения и частные дома. Также в рамках данной дисциплины изучают традиции строительного ремесла и декоративного искусства.'''

doc = nlp_ru(text)

In [17]:
print(*[sentence.text for sentence in doc.sentences], sep='\n')

Архитектура Византии — совокупность традиций строительства и архитектуры в поздней Римской империи и в Византии в период с начала IV века по середину XV века.
В качестве отдельных направлений исследования выделяют религиозную архитектуру Византии, византийскую фортификацию и гражданское строительство, включающее дворцы, общественные сооружения и частные дома.
Также в рамках данной дисциплины изучают традиции строительного ремесла и декоративного искусства.


In [None]:
for i, sentence in enumerate(doc.sentences):
  print(f'====== Sentence {i + 1} tokens =======')
  print(*[f'id: {token.id}\ttext: {token.text}' for token in sentence.tokens], sep='\n')

In [None]:
text_fr = '''Il est révélé par les romans Extension du domaine de la lutte (1994) et, surtout, Les Particules élémentaires (1998), qui le fait connaître d'un large public.'''

doc_fr = nlp_fr(text_fr)
for token in doc_fr.sentences[0].tokens:
    print(f'token: {token.text}\twords: {", ".join([word.text for word in token.words])}')

Лемматизация

In [None]:
print(*[f'word: {word.text+" "}\tlemma: {word.lemma}' for sent in doc.sentences for word in sent.words], sep='\n')

Морфопарсинг

In [None]:
print(*[f'word: {word.text}\tupos: {word.upos}\txpos: {word.xpos}\tfeats: {word.feats if word.feats else "_"}' for sent in doc.sentences for word in sent.words], sep='\n')

Парсинг синтаксических зависимостей

In [None]:
print(*[f'id: {word.id}\tword: {word.text}\thead id: {word.head}\thead: {sent.words[word.head-1].text if word.head > 0 else "root"}\tdeprel: {word.deprel}' for sent in doc.sentences for word in sent.words], sep='\n')

In [None]:
doc.sentences[0].print_dependencies()

Парсинг составляющих (для русского недоступен)

In [None]:
doc_en = nlp_en('This is a sentence for parsing constituencies.')

for sentence in doc_en.sentences:
    print(sentence.constituency)

### natasha

In [None]:
!pip install natasha

Natasha - сегментированная библиотека, которую можно использовать по частям. Самая востребованная часть библиотеки - сентенайзер и токенизатор, их можно и установить отдельно:

In [None]:
!pip install razdel

In [18]:
from razdel import sentenize

raw = '''Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи. Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне. По данным справочника Ethnologue число носителей составляет 8350 человек в Сьерра-Леоне и несколько человек в Гвинее, другие источники сообщают о гораздо меньшем количестве носителей (около 500 чел). Наиболее близкородственный язык — бом, имеется небольшая взаимопонимаемость с шербро. Буллом-со активно вытесняется соседними языками, главным образом — темне.'''

sents = [s.text for s in sentenize(raw)]

sents

['Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи.',
 'Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне.',
 'По данным справочника Ethnologue число носителей составляет 8350 человек в Сьерра-Леоне и несколько человек в Гвинее, другие источники сообщают о гораздо меньшем количестве носителей (около 500 чел).',
 'Наиболее близкородственный язык — бом, имеется небольшая взаимопонимаемость с шербро.',
 'Буллом-со активно вытесняется соседними языками, главным образом — темне.']

Для чего нам тут нужен генератор? Дело в том, что sentenize работает примерно как finditer: возвращает итератор из набора специальных объектов, очень похожих на Match из re, в которых содержится сам текст предложения + индексы его начала и конца в исходной строке. Обычно эти индексы никому не нужны, поэтому результат тут же пересобирывается в список строк. 

По такому же принципу устроен и токенизатор.

In [20]:
from razdel import tokenize

tokens = [t.text for t in tokenize(raw)]
tokens

['Буллом-со',
 '(',
 'ммани',
 ',',
 'мандинги',
 ')',
 '—',
 'один',
 'из',
 'атлантических',
 'языков',
 'нигеро-конголезской',
 'макросемьи',
 '.',
 'Распространён',
 'в',
 'прибрежных',
 'районах',
 ',',
 'возле',
 'границы',
 'между',
 'Гвинеей',
 'и',
 'Сьерра-Леоне',
 '.',
 'По',
 'данным',
 'справочника',
 'Ethnologue',
 'число',
 'носителей',
 'составляет',
 '8350',
 'человек',
 'в',
 'Сьерра-Леоне',
 'и',
 'несколько',
 'человек',
 'в',
 'Гвинее',
 ',',
 'другие',
 'источники',
 'сообщают',
 'о',
 'гораздо',
 'меньшем',
 'количестве',
 'носителей',
 '(',
 'около',
 '500',
 'чел',
 ')',
 '.',
 'Наиболее',
 'близкородственный',
 'язык',
 '—',
 'бом',
 ',',
 'имеется',
 'небольшая',
 'взаимопонимаемость',
 'с',
 'шербро',
 '.',
 'Буллом-со',
 'активно',
 'вытесняется',
 'соседними',
 'языками',
 ',',
 'главным',
 'образом',
 '—',
 'темне',
 '.']

Морфосинтаксический парсинг

In [2]:
from natasha import (
    Segmenter,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    
    Doc
)

In [None]:
segmenter = Segmenter()  # токенизация и разделение на предложения
emb = NewsEmbedding()  # эмбеддинги
morph_tagger = NewsMorphTagger(emb)  # морфология
syntax_parser = NewsSyntaxParser(emb) # синтаксис

text = '29 марта 2017 года правительство Великобритании инициировало процедуру выхода в соответствии со статьёй 50 Договора о Европейском союзе; первоначально планировалось, что Великобритания покинет Европейский союз через два года, 29 марта 2019 года в 23:00 по Гринвичу.'
doc = Doc(text)

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
sent = doc.sents[0]
sent.morph.print()
sent.syntax.print()

Распознание именованных сущностей

In [None]:
from natasha import NewsNERTagger

ner_tagger = NewsNERTagger(emb)
doc.tag_ner(ner_tagger)
doc.ner.print()

Лемматизация

In [None]:
from natasha import MorphVocab

morph_vocab = MorphVocab()

for token in doc.tokens:
  token.lemmatize(morph_vocab)
  print(token.lemma)

Нормализация именованных сущностей

In [None]:
for span in doc.spans:
    span.normalize(morph_vocab)
   
{_.text: _.normal for _ in doc.spans}