## NLTK

In [1]:
import nltk

In [11]:
nltk.__version__

'3.2.3'

Этой командой открывается диалоговое окно для скачивания корпусов и моделей для NLTK.
Для следующих команд нужны пакеты `Punkt Tokenizer Tagger`, `Averaged Perceptron Tagger`

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Проанализируем предложение на английском:

In [3]:
sentence = """Trump was born in the New York City borough of Queens and earned an economics degree from the Wharton School of the University of Pennsylvania."""

In [30]:
sentence_rus = """
Во втором туре выборов президента Российской академии наук победил академик Александр Сергеев, 
сообщил результаты подсчета голосов председатель счетной комиссии Юрий Балега.
"""

In [31]:
tokens = nltk.word_tokenize(sentence)

In [32]:
tokens

['Trump',
 'was',
 'born',
 'in',
 'the',
 'New',
 'York',
 'City',
 'borough',
 'of',
 'Queens',
 'and',
 'earned',
 'an',
 'economics',
 'degree',
 'from',
 'the',
 'Wharton',
 'School',
 'of',
 'the',
 'University',
 'of',
 'Pennsylvania',
 '.']

Используя список токенов, можно получить частеречную разметку
(NB: для парсинга более, чем одного предложения нужно использовать `pos_tag_sents()`)

In [33]:
tagged = nltk.pos_tag(tokens)

In [34]:
tagged

[('Trump', 'NNP'),
 ('was', 'VBD'),
 ('born', 'VBN'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('New', 'NNP'),
 ('York', 'NNP'),
 ('City', 'NNP'),
 ('borough', 'NN'),
 ('of', 'IN'),
 ('Queens', 'NNP'),
 ('and', 'CC'),
 ('earned', 'VBD'),
 ('an', 'DT'),
 ('economics', 'NNS'),
 ('degree', 'NN'),
 ('from', 'IN'),
 ('the', 'DT'),
 ('Wharton', 'NNP'),
 ('School', 'NNP'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('University', 'NNP'),
 ('of', 'IN'),
 ('Pennsylvania', 'NNP'),
 ('.', '.')]

Можно сделать то же самое для русского. Описание тегсета можно найти здесь: http://www.ruscorpora.ru/corpora-morph.html

In [35]:
nltk.pos_tag(nltk.word_tokenize(sentence_rus), lang='rus')

[('Во', 'PR'),
 ('втором', 'ANUM=m'),
 ('туре', 'S'),
 ('выборов', 'S'),
 ('президента', 'S'),
 ('Российской', 'A=f'),
 ('академии', 'S'),
 ('наук', 'S'),
 ('победил', 'V'),
 ('академик', 'S'),
 ('Александр', 'S'),
 ('Сергеев', 'S'),
 (',', 'NONLEX'),
 ('сообщил', 'V'),
 ('результаты', 'S'),
 ('подсчета', 'S'),
 ('голосов', 'S'),
 ('председатель', 'S'),
 ('счетной', 'A=f'),
 ('комиссии', 'S'),
 ('Юрий', 'S'),
 ('Балега', 'S'),
 ('.', 'NONLEX')]

Можно было заметить, что процесс был не очень быстрый. Часть времени тратится на инициализацию тэггера и загрузку модели. Можно это сделать отдельно:

In [36]:
tokenizer = nltk.tokenize.RegexpTokenizer('\w+')
words = tokenizer.tokenize(sentence)
words

['Trump',
 'was',
 'born',
 'in',
 'the',
 'New',
 'York',
 'City',
 'borough',
 'of',
 'Queens',
 'and',
 'earned',
 'an',
 'economics',
 'degree',
 'from',
 'the',
 'Wharton',
 'School',
 'of',
 'the',
 'University',
 'of',
 'Pennsylvania']

In [20]:
tokenizer = nltk.tokenize.WordPunctTokenizer()
words = tokenizer.tokenize(sentence)
words

['Trump',
 'was',
 'born',
 'in',
 'the',
 'New',
 'York',
 'City',
 'borough',
 'of',
 'Queens',
 'and',
 'earned',
 'an',
 'economics',
 'degree',
 'from',
 'the',
 'Wharton',
 'School',
 'of',
 'the',
 'University',
 'of',
 'Pennsylvania',
 '.']

In [38]:
tagger = nltk.tag.PerceptronTagger()
tagger.tag(words)

[('Trump', 'NNP'),
 ('was', 'VBD'),
 ('born', 'VBN'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('New', 'NNP'),
 ('York', 'NNP'),
 ('City', 'NNP'),
 ('borough', 'NN'),
 ('of', 'IN'),
 ('Queens', 'NNP'),
 ('and', 'CC'),
 ('earned', 'VBD'),
 ('an', 'DT'),
 ('economics', 'NNS'),
 ('degree', 'NN'),
 ('from', 'IN'),
 ('the', 'DT'),
 ('Wharton', 'NNP'),
 ('School', 'NNP'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('University', 'NNP'),
 ('of', 'IN'),
 ('Pennsylvania', 'NNP')]

Для русского языка нужно найти модель

In [44]:
tagger = nltk.tag.PerceptronTagger(load=False)
tagger.load(nltk.data.find('taggers/averaged_perceptron_tagger_ru/averaged_perceptron_tagger_ru.pickle'))
tagger.tag(tokenizer.tokenize(sentence_rus))

[('Во', 'PR'),
 ('втором', 'ANUM=m'),
 ('туре', 'S'),
 ('выборов', 'S'),
 ('президента', 'S'),
 ('Российской', 'A=f'),
 ('академии', 'S'),
 ('наук', 'S'),
 ('победил', 'V'),
 ('академик', 'S'),
 ('Александр', 'S'),
 ('Сергеев', 'S'),
 ('сообщил', 'V'),
 ('результаты', 'S'),
 ('подсчета', 'S'),
 ('голосов', 'S'),
 ('председатель', 'S'),
 ('счетной', 'A=f'),
 ('комиссии', 'S'),
 ('Юрий', 'S'),
 ('Балега', 'S')]

## MyStem

In [52]:
!pip install pymystem3



In [53]:
import pymystem3

Так инициализируется объект pymystem3. При необходимости скачивается сам майстем

In [54]:
m = pymystem3.Mystem(disambiguation=True)

In [55]:
res = m.analyze('Глокая куздра штеко будланула бокра и кудрячит бокренка')

In [57]:
for w in res:
    if 'analysis' not in w:
        continue
    for item in w['analysis']:
        print (item['gr'])

S,муж,неод=род,ед
S,ед,жен,неод=им
ADV=
S,муж,од=(вин,ед|род,ед)
S,ед,жен,неод=им
CONJ=
V,несов,пе=непрош,ед,изъяв,3-л
S,муж,неод=род,ед


In [59]:
for item in m.lemmatize('Ученые в течение года готовились к встрече кометы Сайдинг-Спринг с Марсом, когда мощная вспышка на Солнце разрушила все планы специалистов. В октябре 2014 года комета Сайдинг-Спринг приблизилась к Красной планете на близкое расстояние, о чем стало известно из материалов исследования астрономов.'):
    print (item)

ученый
 
в
 
течение
 
год
 
готовиться
 
к
 
встреча
 
комета
 
сайдинг
-
спринг
 
с
 
марс
, 
когда
 
мощный
 
вспышка
 
на
 
солнце
 
разрушать
 
весь
 
план
 
специалист
. 
в
 
октябрь
 
2014
 
год
 
комета
 
сайдинг
-
спринг
 
приближаться
 
к
 
красный
 
планета
 
на
 
близкий
 
расстояние
, 
о
 
что
 
становиться
 
известно
 
из
 
материал
 
исследование
 
астроном
.




## SyntaxNet
Если установлен и запущен SyntaxNet из докер-контейнера, можно к нему обращаться через сокеты

In [81]:
import socket

In [82]:
host = '127.0.0.1'
port = 8111

In [89]:
def read_all_from_socket(sock):
    buf = str()

    try:
        while True:
            data = sock.recv(51200)
            if data:
                buf += data.decode('utf-8')
            else:
                break
    except socket.error as err:
        print ('Err: Socket error: {}'.format(err))

    return buf

In [90]:
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
sock.connect((host, port))
sock.send((sentence_rus + '\n\n').encode('utf8'))
raw_output = read_all_from_socket(sock)
sock.close()

In [92]:
print(raw_output)

1	Во	_	INTJ	UH	fPOS=INTJ++UH	4	discourse	_	_
2	втором	_	X	LS	fPOS=INTJ++UH	4	discourse	_	_
3	туре	_	X	LS	fPOS=INTJ++UH	4	nsubj	_	_
4	выборов	_	VERB	VBZ	fPOS=INTJ++UH	0	ROOT	_	_
5	президента	_	NOUN	NN	fPOS=INTJ++UH	4	parataxis	_	_
6	Российской	_	NOUN	NN	fPOS=INTJ++UH	5	dobj	_	_
7	академии	_	NOUN	NN	fPOS=INTJ++UH	6	acl	_	_
8	наук	_	NOUN	NN	fPOS=INTJ++UH	12	compound	_	_
9	победил	_	NOUN	NN	fPOS=INTJ++UH	10	compound	_	_
10	академик	_	NOUN	NN	fPOS=INTJ++UH	12	compound	_	_
11	Александр	_	NOUN	NN	fPOS=INTJ++UH	12	compound	_	_
12	Сергеев,	_	NOUN	NN	NumType=Card|fPOS=NUM++CD	7	dobj	_	_

1	сообщил	_	INTJ	UH	fPOS=INTJ++UH	3	discourse	_	_
2	результаты	_	PRON	PRP	fPOS=INTJ++UH	3	nsubj	_	_
3	подсчета	_	VERB	VBP	fPOS=INTJ++UH	0	ROOT	_	_
4	голосов	_	NOUN	NN	fPOS=INTJ++UH	7	compound	_	_
5	председатель	_	NOUN	NN	fPOS=INTJ++UH	7	compound	_	_
6	счетной	_	NOUN	NN	fPOS=INTJ++UH	7	compound	_	_
7	комиссии	_	NOUN	NN	fPOS=INTJ++UH	3	parataxis	_	_
8	Юрий	_	NOUN	NN	fPOS=INTJ++UH	7	discourse	_	_
9	Балега.	_	PUNCT	