# Universal Dependencies и парсинг в этом формате

[Universal Dependencies](https://universaldependencies.org/) - это грандиозный существующий с 2006 года проект (сперва чешских, а потом и самых разных лингвистов, у нас в России им активно занимается О. Ляшевская), который ставит целью разработать такой формат морфосинтаксической разметки, который был бы одинаково применим к самым разным языкам. То есть, основная его фича - это *единообразие*, из-за чего, к примеру, принято решение в русском языке частицу "не" считать advmod (так она себя ведет в германских языках...), а копулу не считать вершиной (потому что копула в агглютинативных языках обычно отсутствует, ср. русское "Петя был учителем" vs турецкое "Petya öğretmendi", где -di - показатель прошедшего времени, присоединяющийся к *существительному*). 

UD для разметки использует формат файлов .conllu, которые представляют собой таблички. В этом формате существует 10 колонок, каждая ячейка в строке отделяется знаком табуляции; предложения разделяются пустой строкой. На самом сайте UD очень много полезной информации, в том числе описание этого формата и сборник ссылок на приложения, которыми его удобно читать!

В питоне существует как минимум две библиотеки, которые позволяют работать с этим форматом: conllu и pyconll.  

pyconll выглядит следующим образом:

    pip install pyconll

In [None]:
import pyconll

text = pyconll.load_from_file('myfile.conllu')

for sentence in text:
    for token in sentence:
        print(token.id, token.form, token.lemma, token.upos, token.feats, token.head, token.deprel)

Естественно, можно не только печатать информацию, но и добавлять в список и вообще делать все, что угодно. Что это за атрибуты у токенов?

- id - порядковый номер токена в предложении
- form - исходная форма
- lemma - лемма
- upos - часть речи в UD
- xpos - часть речи в неуниверсальном формате (обычно встречается, если датасет конвертированный)
- feats - грам. характеристики
- head - расстояние от синтаксической вершины
- deprel - тип синтаксической связи
- две зарезервированные ячейки

conllu тоже устроен очень просто:

    pip install conllu

In [20]:
from conllu import parse # парсит одиночное предложение, загружает все в оперативную память
from conllu import parse_incr # загружает в память предложения по очереди

with open("en_pud-ud-test.conllu", "r", encoding="utf-8") as datafile:
    data = datafile.read()
    sentences = parse(data) # data - строка, содержащая разметку; возвращает специальный объект, у которого есть список токенов и исходный текст
print(sentences[0].metadata['text']) # в атрибуте metadata содержатся метаданные о предложении: его sent_id, text, возможно, перевод (если есть)
for token in sentences[0]:
    print(token['id'], token['form'], token['lemma'], token['upos'], token['xpos'], token['feats'], token['head'], token['deprel'], token['deps'], token['misc'], sep='\t')

“While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday.
1	“	“	PUNCT	``	None	20	punct	[('punct', 20)]	{'SpaceAfter': 'No'}
2	While	while	SCONJ	IN	None	9	mark	[('mark', 9)]	None
3	much	much	ADJ	JJ	{'Degree': 'Pos'}	9	nsubj	[('nsubj', 9)]	None
4	of	of	ADP	IN	None	7	case	[('case', 7)]	None
5	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	7	det	[('det', 7)]	None
6	digital	digital	ADJ	JJ	{'Degree': 'Pos'}	7	amod	[('amod', 7)]	None
7	transition	transition	NOUN	NN	{'Number': 'Sing'}	3	nmod	[('nmod:of', 3)]	None
8	is	be	AUX	VBZ	{'Mood': 'Ind', 'Number': 'Sing', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}	9	cop	[('cop', 9)]	None
9	unprecedented	unprecedented	ADJ	JJ	{'Degree': 'Pos'}	20	advcl	[('advcl:while', 20)]	None
10	in	in	ADP	IN	None	13	case	[('case', 13)]	None
11	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	13	det	[('det', 13)]	None
12	Uni

In [24]:
data_file = open("en_pud-ud-test.conllu", "r", encoding="utf-8")
for i, sentence in enumerate(parse_incr(data_file)):
    if i != 0:
        break
    print(sentence.metadata['text'])
    for token in sentence:
        print(token['id'], token['form'], token['lemma'], token['upos'], token['xpos'], token['feats'], token['head'], token['deprel'], token['deps'], token['misc'], sep='\t')

“While much of the digital transition is unprecedented in the United States, the peaceful transition of power is not,” Obama special assistant Kori Schulman wrote in a blog post Monday.
1	“	“	PUNCT	``	None	20	punct	[('punct', 20)]	{'SpaceAfter': 'No'}
2	While	while	SCONJ	IN	None	9	mark	[('mark', 9)]	None
3	much	much	ADJ	JJ	{'Degree': 'Pos'}	9	nsubj	[('nsubj', 9)]	None
4	of	of	ADP	IN	None	7	case	[('case', 7)]	None
5	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	7	det	[('det', 7)]	None
6	digital	digital	ADJ	JJ	{'Degree': 'Pos'}	7	amod	[('amod', 7)]	None
7	transition	transition	NOUN	NN	{'Number': 'Sing'}	3	nmod	[('nmod:of', 3)]	None
8	is	be	AUX	VBZ	{'Mood': 'Ind', 'Number': 'Sing', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}	9	cop	[('cop', 9)]	None
9	unprecedented	unprecedented	ADJ	JJ	{'Degree': 'Pos'}	20	advcl	[('advcl:while', 20)]	None
10	in	in	ADP	IN	None	13	case	[('case', 13)]	None
11	the	the	DET	DT	{'Definite': 'Def', 'PronType': 'Art'}	13	det	[('det', 13)]	None
12	Uni

Где можно красивенько отрисовать .conllu файлы в виде деревьев зависимости:

[Арборатор](https://arborator.ilpga.fr/q.cgi): достаточно вставить текст в формате .conllu

[Conllu-Viewer на сайте UD](https://universaldependencies.org/conllu_viewer.html): умеет читать файлы и рисовать последовательно все предложения

Для затравки вот картинка с арборатора:

<img src='arbo.png'>

Авторы UD разместили онлайн-парсер на своем [сайте](https://lindat.mff.cuni.cz/services/udpipe/), однако для русских он без VPN не работает теперь, к сожалению.

## Крупные библиотеки NLP: SpaCy, Stanza (StanfordNLP), Natasha

#### SpaCy

Спейси - современная библиотека, которая написана в Cython и использует нейронные сети. Интерфейс спейси довольно удобный и однообразный. Центральное понятие для спейси - это pipeline: то есть, набор действий, которые спейси совершает с текстом. Чтобы обработать текст на любом из языков, представленных в библиотеке ([список](https://spacy.io/usage/models)), достаточно завести пустой пайплайн:

In [1]:
import spacy

nlp = spacy.blank('en')
doc = nlp('My beautiful sentence is here.')

Предупреждения может выдавать библиотека tensorflow, которая сообщает, что у вас не настроена CUDA, но их можно игнорировать, как и предлагается. 

Пустой пайплайн превращает наш текст в особый объект, в котором текст разделен на токены, и можно у этих токенов смотреть самые простые характеристики:

In [2]:
for token in doc:
    print(f'№ {token.i}. Токен: {token.text:>15}. Является словом: {token.is_alpha}. Является пунктуацией: {token.is_punct}. Похож на число: {token.like_num}')

№ 0. Токен:              My. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 1. Токен:       beautiful. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 2. Токен:        sentence. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 3. Токен:              is. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 4. Токен:            here. Является словом: True. Является пунктуацией: False. Похож на число: False
№ 5. Токен:               .. Является словом: False. Является пунктуацией: True. Похож на число: False


Объект doc также позволяет смотреть спаны (несколько токенов, срез текста):

In [3]:
span = doc[1:3]
span.text

'beautiful sentence'

Ну, это все прекрасно, но хотелось бы чего-то большего. Для spacy есть довольно много предобученных моделей для разных языков (список см. выше). Модельки нужно устанавливать (скачивать) с помощью команды в командной строке - она написана у них на сайте (python -m spacy download имя_модели). Когда вы загрузили модельку, вы можете ее использовать в коде:

In [4]:
nlp = spacy.load('en_core_web_lg')

Теперь уже можно получить сведения поинтереснее:

In [5]:
doc = nlp('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')

In [14]:
for token in doc:
    print(f'{token.i:2}. {token.text:15} POS: {token.pos_:6} SyntR: {token.dep_:9} Head: {token.head.text}')

 0. The             POS: DET    SyntR: det       Head: Army
 1. 4th             POS: ADJ    SyntR: amod      Head: Army
 2. Army            POS: PROPN  SyntR: nsubj     Head: was
 3. was             POS: AUX    SyntR: ROOT      Head: was
 4. a               POS: DET    SyntR: det       Head: formation
 5. Royal           POS: PROPN  SyntR: compound  Head: Army
 6. Yugoslav        POS: ADJ    SyntR: amod      Head: Army
 7. Army            POS: PROPN  SyntR: compound  Head: formation
 8. formation       POS: NOUN   SyntR: attr      Head: was
 9. mobilised       POS: VERB   SyntR: acl       Head: formation
10. prior           POS: ADV    SyntR: advmod    Head: mobilised
11. to              POS: ADP    SyntR: prep      Head: prior
12. the             POS: DET    SyntR: det       Head: invasion
13. German          POS: PROPN  SyntR: npadvmod  Head: led
14. -               POS: PUNCT  SyntR: punct     Head: led
15. led             POS: VERB   SyntR: amod      Head: invasion
16. invasion    

Грамматические характеристики можно тоже посмотреть:

In [15]:
for token in doc[:3]:
    print(token.morph)

Definite=Def|PronType=Art
Degree=Pos
Number=Sing


Также spacy позволяет разметить именованные сущности и посмотреть, что получилось:

In [7]:
for ent in doc.ents:
    print(f'Entity: {ent.text:30} Label: {ent.label_}')

Entity: The 4th Army                   Label: ORG
Entity: Royal Yugoslav Army            Label: ORG
Entity: German                         Label: NORP
Entity: the Kingdom of Yugoslavia      Label: GPE
Entity: World War II                   Label: EVENT


Если аббревиатуры вас смущают, spacy легко предоставит расшифровки (для всех!):

In [33]:
spacy.explain('NORP')

'Nationalities or religious or political groups'

In [34]:
spacy.explain('pobj')

'object of preposition'

Заметим, что спейси по умолчанию не делит текст на предложения, и нумерация токенов в нем сквозная. Если мы хотим это поведение изменить, то можно использовать следующий инструмент:

In [None]:
nlp = spacy.load('ru_core_news_sm')
nlp.add_pipe('sentencizer') # добавим шаг с сентенизацией в пайплайн

doc = nlp(text)

for sent in doc.sents: # теперь у нас есть атрибут sents
  for token in sent:
      # вершина предложения должна быть равна 0
    if token.dep_ == 'ROOT':
      head = 0
    else:
      head = token.head.i - sent.start + 1 # отсчитываем относительную вершину
    # и относительный индекс для токена
    print(token.i - sent.start + 1, token.text, head, token.dep_)

Итак, а теперь самое интересное - это обертки для spacy + udpipe (для тех, кто хочет запускать его локально, а не с сайта). UD, как известно - очень популярный и влиятельный проект (чешский), цель которого - унифицировать тагсет для всех языков мира, причем как в морфологии, так и в синтаксисе. Неудивительно, что, поскольку в UD существует большое количество размеченных датасетов (русским языком активно занималась О. Ляшевская), то они обучили и свой парсер. Сам парсер написан в плюсах и не очень дружелюбен, но обертки для spacy делают жизнь проще. 

Внимание: я обычно это забываю, но прежде чем установить udpipe, **нужно поставить C++ Build Tools** (с сайта майкрософт, это бесплатно). Это нужно, чтобы скомпилировать udpipe из исходников в сях. Адрес сайта, откуда брать их, сам pip обычно подсказывает, но в целом можно просто погуглить. 

Две оболочки для udpipe, которые мы рассмотрим - это spacy_udpipe и corpy. Обе нужно устанавливать:

    pip install spacy_udpipe
    pip install corpy
    
Для spacy_udpipe вообще ничего больше не нужно, там максимально автоматизированно скачиваются модельки. Для corpy приходится скачивать искомую модель руками, [отсюда](https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3131) (к сожалению, с некоторых пор тоже открывается только с VPN). Эту модель вы можете положить куда угодно, главное потом указать corpy путь к ней. 

In [35]:
import spacy_udpipe

spacy_udpipe.download('en')  # эту команду достаточно выполнить только один раз - она как nltk.download()

Already downloaded a model for the 'en' language


In [37]:
nlp = spacy_udpipe.load('en')
doc = nlp('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')
for token in doc:
    print(f'{token.i:2}. {token.text:15} Lemma: {token.lemma_:15} POS: {token.pos_:6} SyntR: {token.dep_:9} Head: {token.head.text}')

 0. The             Lemma: the             POS: DET    SyntR: det       Head: Army
 1. 4th             Lemma: 4th             POS: ADJ    SyntR: amod      Head: Army
 2. Army            Lemma: Army            POS: PROPN  SyntR: nsubj     Head: formation
 3. was             Lemma: be              POS: AUX    SyntR: cop       Head: formation
 4. a               Lemma: a               POS: DET    SyntR: det       Head: formation
 5. Royal           Lemma: Royal           POS: PROPN  SyntR: compound  Head: Army
 6. Yugoslav        Lemma: Yugoslav        POS: PROPN  SyntR: compound  Head: Army
 7. Army            Lemma: Army            POS: PROPN  SyntR: compound  Head: formation
 8. formation       Lemma: formation       POS: NOUN   SyntR: nsubj     Head: mobilised
 9. mobilised       Lemma: mobilise        POS: VERB   SyntR: ROOT      Head: mobilised
10. prior           Lemma: prior           POS: ADJ    SyntR: case      Head: invasion
11. to              Lemma: to              POS: ADP  

То же самое можно сделать в corpy:

In [38]:
from corpy.udpipe import Model

model = Model('english-partut-ud-2.5-191206.udpipe')  
# тут и нужно указать путь к вашей модели. Если она лежит в той же папке, что и скрипт, достаточно только имени файла

sents = model.process('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')

corpy возвращает генератор (то есть, итерируемый объект, который как магазин автомата, расстреляли все патроны - он опустел; повторно по генератору итерироваться нельзя). Генератор на каждом шаге выдает предложение (объект специального класса Sentence()), а в предложении - объекты класса Word(). 

In [40]:
for sent in sents:
    for word in sent.words:
        print(f'{word.form:15} Лемма: {word.lemma:15} POS: {word.upostag} Грам. инфа: {word.feats}')
print('Алилуя!')

<root>          Лемма: <root>          POS: <root> Грам. инфа: <root>
The             Лемма: the             POS: DET Грам. инфа: Definite=Def|PronType=Art
4th             Лемма: 4th             POS: ADJ Грам. инфа: Degree=Pos
Army            Лемма: army            POS: NOUN Грам. инфа: Number=Sing
was             Лемма: be              POS: AUX Грам. инфа: Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
a               Лемма: a               POS: DET Грам. инфа: Definite=Ind|Number=Sing|PronType=Art
Royal           Лемма: royal           POS: PROPN Грам. инфа: 
Yugoslav        Лемма: Yugoslav        POS: PROPN Грам. инфа: 
Army            Лемма: army            POS: PROPN Грам. инфа: 
formation       Лемма: formation       POS: NOUN Грам. инфа: Number=Sing
mobilised       Лемма: mobilize        POS: VERB Грам. инфа: Mood=Ind|Person=3|Tense=Past|VerbForm=Fin
prior           Лемма: prior           POS: ADJ Грам. инфа: Degree=Pos
to              Лемма: to              POS: ADP Грам

у corpy, кстати, есть свой способ вывода имеющейся информации (хотя, по-моему, в юпитере и так красиво выводится...)

In [43]:
from corpy.udpipe import pprint

pprint(list(model.process('The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.')))

[Sentence(
   comments=[
     '# newdoc',
     '# newpar',
     '# sent_id = 1',
     '# text = The 4th Army was a Royal Yugoslav Army formation mobilised prior to the German-led invasion of the Kingdom of Yugoslavia during World War II.'],
   words=[
     Word(id=0, <root>),
     Word(id=1,
          form='The',
          lemma='the',
          xpostag='RD',
          upostag='DET',
          feats='Definite=Def|PronType=Art',
          head=3,
          deprel='det'),
     Word(id=2,
          form='4th',
          lemma='4th',
          xpostag='A',
          upostag='ADJ',
          feats='Degree=Pos',
          head=3,
          deprel='amod'),
     Word(id=3,
          form='Army',
          lemma='army',
          xpostag='S',
          upostag='NOUN',
          feats='Number=Sing',
          head=9,
          deprel='nsubj'),
     Word(id=4,
          form='was',
          lemma='be',
          xpostag='V',
          upostag='AUX',
          feats='Mood=Ind|Number=Sing|Person=3

### Stanza

In [None]:
!pip install stanza

Загрузка моделей

In [9]:
import stanza

In [None]:
nlp_ru = stanza.Pipeline(lang='ru')
nlp_en = stanza.Pipeline(lang='en', processors='tokenize, pos, constituency')
nlp_fr = stanza.Pipeline(lang='fr', processors='tokenize, mwt')

Токенизация, сегментация по предложениям

In [21]:
text = '''Архитектура Византии — совокупность традиций строительства и архитектуры в поздней Римской империи и в Византии в период с начала IV века по середину XV века. В качестве отдельных направлений исследования выделяют религиозную архитектуру Византии, византийскую фортификацию и гражданское строительство, включающее дворцы, общественные сооружения и частные дома. Также в рамках данной дисциплины изучают традиции строительного ремесла и декоративного искусства.'''

doc = nlp_ru(text)

In [17]:
print(*[sentence.text for sentence in doc.sentences], sep='\n')

Архитектура Византии — совокупность традиций строительства и архитектуры в поздней Римской империи и в Византии в период с начала IV века по середину XV века.
В качестве отдельных направлений исследования выделяют религиозную архитектуру Византии, византийскую фортификацию и гражданское строительство, включающее дворцы, общественные сооружения и частные дома.
Также в рамках данной дисциплины изучают традиции строительного ремесла и декоративного искусства.


In [None]:
for i, sentence in enumerate(doc.sentences):
  print(f'====== Sentence {i + 1} tokens =======')
  print(*[f'id: {token.id}\ttext: {token.text}' for token in sentence.tokens], sep='\n')

In [None]:
text_fr = '''Il est révélé par les romans Extension du domaine de la lutte (1994) et, surtout, Les Particules élémentaires (1998), qui le fait connaître d'un large public.'''

doc_fr = nlp_fr(text_fr)
for token in doc_fr.sentences[0].tokens:
    print(f'token: {token.text}\twords: {", ".join([word.text for word in token.words])}')

Лемматизация

In [None]:
print(*[f'word: {word.text+" "}\tlemma: {word.lemma}' for sent in doc.sentences for word in sent.words], sep='\n')

Морфопарсинг

In [None]:
print(*[f'word: {word.text}\tupos: {word.upos}\txpos: {word.xpos}\tfeats: {word.feats if word.feats else "_"}' for sent in doc.sentences for word in sent.words], sep='\n')

Парсинг синтаксических зависимостей

In [None]:
print(*[f'id: {word.id}\tword: {word.text}\thead id: {word.head}\thead: {sent.words[word.head-1].text if word.head > 0 else "root"}\tdeprel: {word.deprel}' for sent in doc.sentences for word in sent.words], sep='\n')

In [None]:
doc.sentences[0].print_dependencies()

Парсинг составляющих (для русского недоступен)

In [None]:
doc_en = nlp_en('This is a sentence for parsing constituencies.')

for sentence in doc_en.sentences:
    print(sentence.constituency)

### natasha

In [None]:
!pip install natasha

Морфосинтаксический парсинг

In [2]:
from natasha import (
    Segmenter,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    
    Doc
)

In [None]:
segmenter = Segmenter()  # токенизация и разделение на предложения
emb = NewsEmbedding()  # эмбеддинги
morph_tagger = NewsMorphTagger(emb)  # морфология
syntax_parser = NewsSyntaxParser(emb) # синтаксис

text = '29 марта 2017 года правительство Великобритании инициировало процедуру выхода в соответствии со статьёй 50 Договора о Европейском союзе; первоначально планировалось, что Великобритания покинет Европейский союз через два года, 29 марта 2019 года в 23:00 по Гринвичу.'
doc = Doc(text)

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
sent = doc.sents[0]
sent.morph.print()
sent.syntax.print()

Распознание именованных сущностей

In [None]:
from natasha import NewsNERTagger

ner_tagger = NewsNERTagger(emb)
doc.tag_ner(ner_tagger)
doc.ner.print()

Лемматизация

In [None]:
from natasha import MorphVocab

morph_vocab = MorphVocab()

for token in doc.tokens:
  token.lemmatize(morph_vocab)
  print(token.lemma)

Нормализация именованных сущностей

In [None]:
for span in doc.spans:
    span.normalize(morph_vocab)
   
{_.text: _.normal for _ in doc.spans}