# NLTK

Это уже третий семинар по собственно NLP, ура! В предыдущих сериях мы занимались частотностью, N-граммами, а также лемматизацией и морфологической разметкой для русского языка. Пришло время для более сложных задач! Кстати, какие задачи NLP вы знаете?

Существует несколько хороших NLP-библиотек для питона:
* Natural Language Toolkit (NLTK)
* Apache OpenNLP
* Stanford NLP suite
* Gate NLP library

Сегодня мы поработаем с NLTK. Устанавливается эта библиотека стандартно, командой `pip install nltk`. Но поскольку в эту библиотеку помимо скриптов входит еще много разных данных -- текстовые корпуса, предобученные модели для анализа тональности и морфологической разметки, списки стоп-слов для разных языков и т.п. -- перед началом работы понадобится скачать нужные данные.

In [6]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

В открывшемся окошке нужно выбрать и скачать следующие пакеты:

1. Models
    - punkt
    - maxent_treebank_pos
    - snowball_data
    - porter_test
    - averaged_perceptron
    - averaged_perceptron_russian
    - maxent_ne_chunker (необязательно сейчас, но на будущее пригодится)
2. Corpora
    - movie_reviews
    - stopwords
    - brown (на будущее)
3. All Packages
    - wordnet
    - universal_tagset
    
Можно скачать и все данные сразу (`Collections > all`), но они будут качаться долго и займут много места. И среди них есть вещи, которые скорее всего вам не понадобятся -- например, баскский корпус.

Мы посмотрим лишь на базовые функции NLTK и разберем один сложный пример. Для дальнейшей работы [вот тут](https://www.nltk.org/book/) можно найти учебник по NLTK от его авторов, а [вот тут](https://github.com/hb20007/hands-on-nltk-tutorial) много тьюториалов, где показывается, как решать различные задачи с помощью инструментов NLTK.

### Токенизация

In [4]:
text = """
Военно-морская любовь

По морям, играя, носится
с миноносцем миноносица.

Льнет, как будто к меду осочка,
к миноносцу миноносочка.

И конца б не довелось ему,
благодушью миноносьему.

Вдруг прожектор, вздев на нос очки,
впился в спину миноносочки.

Как взревет медноголосина:
"Р-р-р-астакая миноносина!"

Прямо ль, влево ль, вправо ль бросится,
а сбежала миноносица.

Но ударить удалось ему
по ребру по миноносьему.

Плач и вой морями носится:
овдовела миноносица.

И чего это несносен нам
мир в семействе миноносином?
"""

In [6]:
from nltk.tokenize import word_tokenize

print(word_tokenize(text))

['Военно-морская', 'любовь', 'По', 'морям', ',', 'играя', ',', 'носится', 'с', 'миноносцем', 'миноносица', '.', 'Льнет', ',', 'как', 'будто', 'к', 'меду', 'осочка', ',', 'к', 'миноносцу', 'миноносочка', '.', 'И', 'конца', 'б', 'не', 'довелось', 'ему', ',', 'благодушью', 'миноносьему', '.', 'Вдруг', 'прожектор', ',', 'вздев', 'на', 'нос', 'очки', ',', 'впился', 'в', 'спину', 'миноносочки', '.', 'Как', 'взревет', 'медноголосина', ':', "''", 'Р-р-р-астакая', 'миноносина', '!', "''", 'Прямо', 'ль', ',', 'влево', 'ль', ',', 'вправо', 'ль', 'бросится', ',', 'а', 'сбежала', 'миноносица', '.', 'Но', 'ударить', 'удалось', 'ему', 'по', 'ребру', 'по', 'миноносьему', '.', 'Плач', 'и', 'вой', 'морями', 'носится', ':', 'овдовела', 'миноносица', '.', 'И', 'чего', 'это', 'несносен', 'нам', 'мир', 'в', 'семействе', 'миноносином', '?']


### Сплиттинг

Этим красивым словом называется разбиение текста на предложения.

In [7]:
from nltk.tokenize import sent_tokenize

sent_tokenize(text)

['\nВоенно-морская любовь\n\nПо морям, играя, носится\nс миноносцем миноносица.',
 'Льнет, как будто к меду осочка,\nк миноносцу миноносочка.',
 'И конца б не довелось ему,\nблагодушью миноносьему.',
 'Вдруг прожектор, вздев на нос очки,\nвпился в спину миноносочки.',
 'Как взревет медноголосина:\n"Р-р-р-астакая миноносина!"',
 'Прямо ль, влево ль, вправо ль бросится,\nа сбежала миноносица.',
 'Но ударить удалось ему\nпо ребру по миноносьему.',
 'Плач и вой морями носится:\nовдовела миноносица.',
 'И чего это несносен нам\nмир в семействе миноносином?']

### Стоп-слова

In [34]:
from nltk.corpus import stopwords

stopwords.fileids()

['arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'kazakh',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [35]:
sw = stopwords.words('russian')

# какие слова исчезли?
filtered = [w for w in word_tokenize(text) if w not in sw]
print(filtered)

['Военно-морская', 'любовь', 'По', 'морям', ',', 'играя', ',', 'носится', 'миноносцем', 'миноносица', '.', 'Льнет', ',', 'меду', 'осочка', ',', 'миноносцу', 'миноносочка', '.', 'И', 'конца', 'б', 'довелось', ',', 'благодушью', 'миноносьему', '.', 'Вдруг', 'прожектор', ',', 'вздев', 'нос', 'очки', ',', 'впился', 'спину', 'миноносочки', '.', 'Как', 'взревет', 'медноголосина', ':', "''", 'Р-р-р-астакая', 'миноносина', '!', "''", 'Прямо', 'ль', ',', 'влево', 'ль', ',', 'вправо', 'ль', 'бросится', ',', 'сбежала', 'миноносица', '.', 'Но', 'ударить', 'удалось', 'ребру', 'миноносьему', '.', 'Плач', 'вой', 'морями', 'носится', ':', 'овдовела', 'миноносица', '.', 'И', 'это', 'несносен', 'нам', 'мир', 'семействе', 'миноносином', '?']


### N-граммы

In [32]:
[b for b in nltk.bigrams(word_tokenize(text))]

[('Военно-морская', 'любовь'),
 ('любовь', 'По'),
 ('По', 'морям'),
 ('морям', ','),
 (',', 'играя'),
 ('играя', ','),
 (',', 'носится'),
 ('носится', 'с'),
 ('с', 'миноносцем'),
 ('миноносцем', 'миноносица'),
 ('миноносица', '.'),
 ('.', 'Льнет'),
 ('Льнет', ','),
 (',', 'как'),
 ('как', 'будто'),
 ('будто', 'к'),
 ('к', 'меду'),
 ('меду', 'осочка'),
 ('осочка', ','),
 (',', 'к'),
 ('к', 'миноносцу'),
 ('миноносцу', 'миноносочка'),
 ('миноносочка', '.'),
 ('.', 'И'),
 ('И', 'конца'),
 ('конца', 'б'),
 ('б', 'не'),
 ('не', 'довелось'),
 ('довелось', 'ему'),
 ('ему', ','),
 (',', 'благодушью'),
 ('благодушью', 'миноносьему'),
 ('миноносьему', '.'),
 ('.', 'Вдруг'),
 ('Вдруг', 'прожектор'),
 ('прожектор', ','),
 (',', 'вздев'),
 ('вздев', 'на'),
 ('на', 'нос'),
 ('нос', 'очки'),
 ('очки', ','),
 (',', 'впился'),
 ('впился', 'в'),
 ('в', 'спину'),
 ('спину', 'миноносочки'),
 ('миноносочки', '.'),
 ('.', 'Как'),
 ('Как', 'взревет'),
 ('взревет', 'медноголосина'),
 ('медноголосина', ':'),
 

In [33]:
nltk.trigrams(word_tokenize(text))

<generator object trigrams at 0x0000018C36F6F468>

### Стемминг

#### Стеммер Портера

In [18]:
# неловкий момент: работает только для английского

from nltk.stem import PorterStemmer

hamlet = """To be, or not to be, that is the question:
Whether 'tis nobler in the mind to suffer
The slings and arrows of outrageous fortune,
Or to take arms against a sea of troubles
And by opposing end them. To die—to sleep,
No more; and by a sleep to say we end
The heart-ache and the thousand natural shocks
That flesh is heir to: 'tis a consummation
Devoutly to be wish'd. To die, to sleep;
To sleep, perchance to dream—ay, there's the rub:
For in that sleep of death what dreams may come,
When we have shuffled off this mortal coil,
Must give us pause—there's the respect
That makes calamity of so long life.
"""

porter = PorterStemmer()
words = set(word_tokenize(hamlet))

for w in sorted(words):
    print("%s: %s" % (w, porter.stem(w)))

'd: 'd
's: 's
't: 't
,: ,
.: .
:: :
;: ;
And: and
Devoutly: devoutli
For: for
Must: must
No: No
Or: Or
That: that
The: the
To: To
When: when
Whether: whether
a: a
against: against
and: and
arms: arm
arrows: arrow
be: be
by: by
calamity: calam
coil: coil
come: come
consummation: consumm
death: death
die: die
die—to: die—to
dreams: dream
dream—ay: dream—ay
end: end
flesh: flesh
fortune: fortun
give: give
have: have
heart-ache: heart-ach
heir: heir
in: in
is: is
life: life
long: long
makes: make
may: may
mind: mind
more: more
mortal: mortal
natural: natur
nobler: nobler
not: not
of: of
off: off
opposing: oppos
or: or
outrageous: outrag
pause—there: pause—ther
perchance: perchanc
question: question
respect: respect
rub: rub
say: say
sea: sea
shocks: shock
shuffled: shuffl
sleep: sleep
slings: sling
so: so
suffer: suffer
take: take
that: that
the: the
them: them
there: there
this: thi
thousand: thousand
to: to
troubles: troubl
us: us
we: we
what: what
wish: wish


#### Snowball stemmer

In [19]:
# улучшенный вараинт стеммера Портера, умеет разбирать не только английский

from nltk.stem.snowball import SnowballStemmer
SnowballStemmer.languages

('danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [20]:
snowball = SnowballStemmer("russian")

In [22]:
ruswords = set(word_tokenize(text))

for w in sorted(ruswords):
    print("%s: %s" % (w, snowball.stem(w)))

!: !
'': '
,: ,
.: .
:: :
?: ?
Вдруг: вдруг
Военно-морская: военно-морск
И: и
Как: как
Льнет: льнет
Но: но
Плач: плач
По: по
Прямо: прям
Р-р-р-астакая: р-р-р-астак
а: а
б: б
благодушью: благодуш
бросится: брос
будто: будт
в: в
вздев: вздев
взревет: взревет
влево: влев
вой: во
впился: впил
вправо: вправ
довелось: довел
ему: ем
и: и
играя: игр
к: к
как: как
конца: конц
ль: л
любовь: любов
медноголосина: медноголосин
меду: мед
миноносина: миноносин
миноносином: миноносин
миноносица: миноносиц
миноносочка: миноносочк
миноносочки: миноносочк
миноносцем: миноносц
миноносцу: миноносц
миноносьему: минонос
мир: мир
морям: мор
морями: мор
на: на
нам: нам
не: не
несносен: неснос
нос: нос
носится: нос
овдовела: овдовел
осочка: осочк
очки: очк
по: по
прожектор: прожектор
ребру: ребр
с: с
сбежала: сбежа
семействе: семейств
спину: спин
удалось: уда
ударить: удар
чего: чег
это: эт


## Лемматизация и POS-tagging

Прямо скажем, это не самая сильная сторона NLTK.  Для этих задач лучше использовать `pymorphy2` и `pymystem3` для русского языка и `Spacy` для европейских.

### Лемматизация

In [23]:
from nltk import WordNetLemmatizer

wnl = WordNetLemmatizer()

In [26]:
wnl.lemmatize('running')

'running'

In [28]:
wnl.lemmatize('running', pos='v')

'run'

### POS-tagging

#### UPenn Tagset

Теггер в NLTK по умолчанию использует своеобразную систему тегов (очень и очень устаревшую), которая, в числе прочего, описана [вот здесь](https://www.nltk.org/book/ch05.html). Она называется _UPenn Tagset_ -- по английскому корпусу Penn Treebank, где она использовалась.

* CC -- coordinating conjunction
* CD -- cardinal digit
* DT -- determiner
* EX -- existential there (“there is”, “there exists”)
* FW -- foreign word
* IN -- preposition/subordinating conjunction
* JJ -- adjective (‘big’)
* JJR -- adjective, comparative (‘bigger’)
* JJS -- adjective, superlative (‘biggest’)
* LS -- list marker
* MD -- modal ('could', 'will')
* NN -- noun, singular (‘desk’)
* NNS -- noun plural (‘desks’)
* NNP -- proper noun, singular (‘Harrison’)
* NNPS -- proper noun, plural (‘Americans’)
* PDT -- predeterminer (‘all the kids’)
* POS -- possessive ending ('parent’s')
* PRP -- personal pronoun ('I', 'he', 'she')
* PRPS -- possessive pronoun ('my', 'his', 'hers')
* RB -- adverb ('very', 'silently')
* RBR -- adverb, comparative ('better')
* RBS -- adverb, superlative ('best')
* RP -- particle ('give up')
* TO -- to-particle ('to go') 
* UH -- interjection ('errrrrrrrm')
* VB -- verb, base form ('take')
* VBD -- verb, past tense ('took')
* VBG -- verb, gerund/present participle ('taking')
* VBN -- verb, past participle ('taken')
* VBP -- verb, sing. present, non-3d ('take')
* VBZ -- verb, 3rd person sing. present ('takes')
* WDT -- wh-determiner ('which')
* WP -- wh-pronoun ('who', 'what')
* WP -- possessive wh-pronoun ('whose')
* WRB -- wh-abverb ('where', 'when')

In [2]:
nltk.pos_tag("Hey there I'm a POS-tagger".split())

[('Hey', 'NNP'),
 ('there', 'EX'),
 ("I'm", 'VBZ'),
 ('a', 'DT'),
 ('POS-tagger', 'NN')]

#### Universal Dependencies

Но -- ура! -- теперь подерживает и тегсет из _Universal Dependencies_, и **лучше использовать его**. Это нужно указать с помощью специального параметра `tagset` (предварительно скачав). Подробнее про проект можно почитать [вот тут](http://universaldependencies.org/), а про теги -- [вот тут](http://universaldependencies.org/u/pos/). Вот список основных тегов UD:

* ADJ: adjective
* ADP: adposition
* ADV: adverb
* AUX: auxiliary
* CCONJ: coordinating conjunction
* DET: determiner
* INTJ: interjection
* NOUN: noun
* NUM: numeral
* PART: particle
* PRON: pronoun
* PROPN: proper noun
* PUNCT: punctuation
* SCONJ: subordinating conjunction
* SYM: symbol
* VERB: verb
* X: other

In [8]:
nltk.pos_tag("Hey there I'm a POS-tagger".split(), tagset='universal')

[('Hey', 'NOUN'),
 ('there', 'DET'),
 ("I'm", 'VERB'),
 ('a', 'DET'),
 ('POS-tagger', 'NOUN')]

### Задание

1. Скачайте файл с английским текстом "Алисы в Зазеркалье" из папки с семинаром.
2. Очистите его от пунктуации и приведите к нижнему регистру
3. Разбейте на биграммы и на триграммы с помощью NLTK. Выведите по 20 самых частотных биграмм и триграмм.
4. Сделайте частеречную разметку текста и запишите в новый файл так, чтобы на каждой строке было одно слово и его тег.
4. Лемматизируйте текст и запишите в новый файл.
5. Очистите лемматизированный текст от стоп-слов и составьте частотный список слов. Выведите 30 самых частотных.
6. Посчитайте ipm слов 'alice', 'unicorn', 'tweedledum', 'tweedledee', 'walrus', 'looking-glass'.

### Классификация документов

Умеет ли NLTK что-то посложнее выделения N-грамм и стемминга? Да! Посмотрим пример классификации документов, т.е. разбиение некоторого корпуса текстов на классы на основе различных признаков (`features`, в простонародье "фичи"). 

In [4]:
# импортируем один из готовых корпусов: отзывы на фильмы

from nltk.corpus import movie_reviews
import random

documents = [(list(movie_reviews.words(fileid)), category)
        for category in movie_reviews.categories()
        for fileid in movie_reviews.fileids(category)]   # как называется вся эта конструкция в [ ]?
random.shuffle(documents)

Теперь нужно выбрать фичи, т.е. решить, на основании чего мы будем классифицировать тексты. Это называется красивым термином `feature engineering`. Например, мы можем выбрать в качестве фичей сами слова, т.е. наш классификатор будет принимать решение о том, к какому классу отнести тот или иной текст, на основании слов, которые в нем встречаются.

In [7]:
# смотрим частотное распределение слов
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())

# обрезаем низкочастотный хвост: берем только 2000 самых частотных слов из всех
word_features = list(all_words)[:2000]

# функция, которая извлекает фичи из документа
def document_features(document): 
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

Теперь нужно создать и обучить классификатор (для примера возьмем наивный байесовский классификатор). Подробнее о классификации, кластеризации и прочих увлекательных вещах можно узнать, углубившись в тему "машинное обучение" (осторожно: математика!)

In [8]:
# сопоставляем фичи и классы
featuresets = [(document_features(d), c) for (d,c) in documents]

# разбиваем корпус на тренировочную и тестовую выборку
train_set, test_set = featuresets[100:], featuresets[:100]

# обучаем классификатор
classifier = nltk.NaiveBayesClassifier.train(train_set)

Теперь классифицируем тестовую выборку и оцениваем качество работы классификатора с помощью подсчета accuracy ("точность").

In [11]:
# оцениваем качество
print(nltk.classify.accuracy(classifier, test_set))

# смотрим 10 самых информативных фичей
classifier.show_most_informative_features(10)

0.83
Most Informative Features
 contains(unimaginative) = True              neg : pos    =      8.4 : 1.0
        contains(welles) = True              neg : pos    =      7.7 : 1.0
    contains(schumacher) = True              neg : pos    =      7.0 : 1.0
        contains(turkey) = True              neg : pos    =      6.8 : 1.0
     contains(atrocious) = True              neg : pos    =      6.6 : 1.0
       contains(jumbled) = True              neg : pos    =      6.4 : 1.0
        contains(shoddy) = True              neg : pos    =      6.4 : 1.0
       contains(singers) = True              pos : neg    =      6.3 : 1.0
           contains(ugh) = True              neg : pos    =      5.8 : 1.0
         contains(waste) = True              neg : pos    =      5.7 : 1.0
