Для установки nltk потребуется выполнить:

In [None]:
!pip install nltk

Загрузить данные для конкретных задач можно следующим образом:

In [1]:
import nltk

In [None]:
nltk.download()

Полный пакет с данными занимает 2,2 Гб на жестком диске.

Рассмотрим простейший процесс выделения лексем (или сегментирование). Можно интерпретировать по-разному, но интересны слова и предложения. 

In [4]:
text = "Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, \
и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля. \
Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его."
text = text.split()
print(text)

['Меня', 'беспокоит,', 'что', 'в', 'этом', 'будущем', 'конгломерате,', 'между', 'людьми,', 'которыми', 'мы', 'являемся,', 'и', 'теми', 'существами,', 'которыми', 'мы', 'станем', 'через', '4–5', 'поколений,', 'будет', 'мала', 'человеческая', 'доля.', 'Поэтому', 'единственный', 'для', 'нас', 'способ', '—', 'это', 'не', 'остановить', 'прогресс,', 'а', 'возглавить', 'его.']


Возвращает список лексем с учетом пунктуации:

In [5]:
from nltk import word_tokenize
text = "Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, \
и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля. \
Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его."
words = word_tokenize(text)
print(words)

['Меня', 'беспокоит', ',', 'что', 'в', 'этом', 'будущем', 'конгломерате', ',', 'между', 'людьми', ',', 'которыми', 'мы', 'являемся', ',', 'и', 'теми', 'существами', ',', 'которыми', 'мы', 'станем', 'через', '4–5', 'поколений', ',', 'будет', 'мала', 'человеческая', 'доля', '.', 'Поэтому', 'единственный', 'для', 'нас', 'способ', '—', 'это', 'не', 'остановить', 'прогресс', ',', 'а', 'возглавить', 'его', '.']


Каждая строка - отдельное предложение:

In [6]:
from nltk import word_tokenize, sent_tokenize
text = "Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, \
и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля. \
Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его."
sentences = sent_tokenize(text)
print(sentences)

['Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля.', 'Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его.']


In [7]:
for sentence in sentences:
    words = word_tokenize(sentence)
    print(words)

['Меня', 'беспокоит', ',', 'что', 'в', 'этом', 'будущем', 'конгломерате', ',', 'между', 'людьми', ',', 'которыми', 'мы', 'являемся', ',', 'и', 'теми', 'существами', ',', 'которыми', 'мы', 'станем', 'через', '4–5', 'поколений', ',', 'будет', 'мала', 'человеческая', 'доля', '.']
['Поэтому', 'единственный', 'для', 'нас', 'способ', '—', 'это', 'не', 'остановить', 'прогресс', ',', 'а', 'возглавить', 'его', '.']


In [8]:
# Позволяет разбивать на отдельные предложения, учитывая год.
from nltk import word_tokenize, sent_tokenize
text = "Пилотируемый полет на Марс, вероятно, состоится в 2030-х г., \
после того как будет создана необходимая инфраструктура для такой экспедиции. \
Об этом заявил директор NASA Джим Брайденстайн в ходе брифинга по итогам посадки \
на Марсе автоматической станции Mars InSight."
# каждая строка - отдельное предложение
sentences = sent_tokenize(text)
print(sentences)

['Пилотируемый полет на Марс, вероятно, состоится в 2030-х г., после того как будет создана необходимая инфраструктура для такой экспедиции.', 'Об этом заявил директор NASA Джим Брайденстайн в ходе брифинга по итогам посадки на Марсе автоматической станции Mars InSight.']


In [9]:
type(sentences)

list

In [10]:
# можно работать с сообщениями в twitter
from nltk.tokenize import TweetTokenizer
tokenizer = TweetTokenizer()
tweet = "@dm_fedorov  #nltk"
print(tokenizer.tokenize(tweet))

['@dm_fedorov', '#nltk']


Слова используются в определенной последовательности.
Можем получить последовательности из n-смежных слов, которые называются n-граммами. 
При n=1 получим униграммы, далее - биграммы, триграммы и т.д. 

In [11]:
from nltk.util import ngrams
text = "Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, \
и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля. \
Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его."
text = text.split()
print(text)

['Меня', 'беспокоит,', 'что', 'в', 'этом', 'будущем', 'конгломерате,', 'между', 'людьми,', 'которыми', 'мы', 'являемся,', 'и', 'теми', 'существами,', 'которыми', 'мы', 'станем', 'через', '4–5', 'поколений,', 'будет', 'мала', 'человеческая', 'доля.', 'Поэтому', 'единственный', 'для', 'нас', 'способ', '—', 'это', 'не', 'остановить', 'прогресс,', 'а', 'возглавить', 'его.']


In [12]:
list(ngrams(text, 3))

[('Меня', 'беспокоит,', 'что'),
 ('беспокоит,', 'что', 'в'),
 ('что', 'в', 'этом'),
 ('в', 'этом', 'будущем'),
 ('этом', 'будущем', 'конгломерате,'),
 ('будущем', 'конгломерате,', 'между'),
 ('конгломерате,', 'между', 'людьми,'),
 ('между', 'людьми,', 'которыми'),
 ('людьми,', 'которыми', 'мы'),
 ('которыми', 'мы', 'являемся,'),
 ('мы', 'являемся,', 'и'),
 ('являемся,', 'и', 'теми'),
 ('и', 'теми', 'существами,'),
 ('теми', 'существами,', 'которыми'),
 ('существами,', 'которыми', 'мы'),
 ('которыми', 'мы', 'станем'),
 ('мы', 'станем', 'через'),
 ('станем', 'через', '4–5'),
 ('через', '4–5', 'поколений,'),
 ('4–5', 'поколений,', 'будет'),
 ('поколений,', 'будет', 'мала'),
 ('будет', 'мала', 'человеческая'),
 ('мала', 'человеческая', 'доля.'),
 ('человеческая', 'доля.', 'Поэтому'),
 ('доля.', 'Поэтому', 'единственный'),
 ('Поэтому', 'единственный', 'для'),
 ('единственный', 'для', 'нас'),
 ('для', 'нас', 'способ'),
 ('нас', 'способ', '—'),
 ('способ', '—', 'это'),
 ('—', 'это', 'не'),
 (

Определим грамматическую категорию - проведем частеречную разметку (POS-tagging)

In [16]:
import nltk
from nltk import pos_tag
tokens = word_tokenize("Меня беспокоит, что в этом будущем конгломерате, между людьми, которыми мы являемся, \
и теми существами, которыми мы станем через 4–5 поколений, будет мала человеческая доля. \
Поэтому единственный для нас способ — это не остановить прогресс, а возглавить его.")
print(pos_tag(tokens, lang='rus'))
#nltk.help.upenn_tagset()

[('Меня', 'S-PRO'), ('беспокоит', 'V'), (',', 'NONLEX'), ('что', 'CONJ'), ('в', 'PR'), ('этом', 'A-PRO=m'), ('будущем', 'S'), ('конгломерате', 'S'), (',', 'NONLEX'), ('между', 'PR'), ('людьми', 'S'), (',', 'NONLEX'), ('которыми', 'A-PRO=pl'), ('мы', 'S-PRO'), ('являемся', 'V'), (',', 'NONLEX'), ('и', 'CONJ'), ('теми', 'A-PRO=pl'), ('существами', 'S'), (',', 'NONLEX'), ('которыми', 'A-PRO=pl'), ('мы', 'S-PRO'), ('станем', 'V'), ('через', 'PR'), ('4–5', 'NUM=ciph'), ('поколений', 'S'), (',', 'NONLEX'), ('будет', 'V'), ('мала', 'V'), ('человеческая', 'A=f'), ('доля', 'S'), ('.', 'NONLEX'), ('Поэтому', 'ADV-PRO'), ('единственный', 'A=m'), ('для', 'PR'), ('нас', 'S-PRO'), ('способ', 'S'), ('—', 'S'), ('это', 'S-PRO'), ('не', 'PART'), ('остановить', 'V'), ('прогресс', 'S'), (',', 'NONLEX'), ('а', 'CONJ'), ('возглавить', 'V'), ('его', 'S-PRO'), ('.', 'NONLEX')]


[The morphological standard of the RNC](http://www.ruscorpora.ru/en/corpora-morph.html)

[Categorizing and Tagging Words](https://www.nltk.org/book/ch05.html)

Нормализация регистра букв:

In [17]:
'президент'.lower() == 'Президент'.lower()

True

Выделение основ слов (стемминг) - обычно отсечение суффикса:

In [18]:
from nltk import SnowballStemmer

In [19]:
stemmer = SnowballStemmer('russian')

In [20]:
stemmer.stem('рыбаки')

'рыбак'

In [21]:
stemmer.stem('рыбаков')

'рыбак'

In [22]:
stemmer.stem('рыбаками')

'рыбак'