# NLTK

Это уже третий семинар по собственно NLP, ура! В предыдущих сериях мы занимались частотностью, N-граммами, а также лемматизацией и морфологической разметкой для русского языка. Пришло время для более сложных задач! Кстати, какие задачи NLP вы знаете?

Существует несколько хороших NLP-библиотек для питона:
* Natural Language Toolkit (NLTK)
* Apache OpenNLP
* Stanford NLP suite
* Gate NLP library
* Spacy

Сегодня мы поработаем с самой первой и самой известной из них — NLTK. Устанавливается эта библиотека стандартно, командой `pip install nltk`. Но поскольку в эту библиотеку помимо скриптов входит еще много разных данных — текстовые корпуса, предобученные модели для анализа тональности и морфологической разметки, списки стоп-слов для разных языков и т.п. — перед началом работы понадобится скачать нужные данные. 

**NB!** Не нужно скачивать данные (писать `nltk.download()`) каждый раз после импорта!

In [6]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

В открывшемся окошке нужно выбрать и скачать следующие пакеты:

1. Models
    - punkt
    - snowball_data
    - porter_test
    - maxent_ne_chunker *(необязательно сейчас, но на будущее пригодится)*
    - maxent_treebank_pos *(на будущее)*
    - averaged_perceptron *(на будущее)*
    - averaged_perceptron_russian *(на будущее)*
2. Corpora
    - movie_reviews
    - stopwords
    - brown *(на будущее)*
3. All Packages
    - wordnet
    - universal_tagset
    
Можно скачать и все данные сразу (`Collections > all`), но они будут качаться долго и займут много места. И среди них есть вещи, которые скорее всего вам не понадобятся -- например, баскский корпус.

Мы посмотрим лишь на базовые функции NLTK и разберем один сложный пример. Для дальнейшей работы [вот тут](https://www.nltk.org/book/) можно найти учебник по NLTK от его авторов, а [вот тут](https://github.com/hb20007/hands-on-nltk-tutorial) много тьюториалов, где показывается, как решать различные задачи с помощью инструментов NLTK.

## Токенизация

In [1]:
text = """
Военно-морская любовь

По морям, играя, носится
с миноносцем миноносица.

Льнет, как будто к меду осочка,
к миноносцу миноносочка.

И конца б не довелось ему,
благодушью миноносьему.

Вдруг прожектор, вздев на нос очки,
впился в спину миноносочки.

Как взревет медноголосина:
"Р-р-р-астакая миноносина!"

Прямо ль, влево ль, вправо ль бросится,
а сбежала миноносица.

Но ударить удалось ему
по ребру по миноносьему.

Плач и вой морями носится:
овдовела миноносица.

И чего это несносен нам
мир в семействе миноносином?
"""

In [2]:
import nltk
from nltk.tokenize import word_tokenize

print(word_tokenize(text))

['Военно-морская', 'любовь', 'По', 'морям', ',', 'играя', ',', 'носится', 'с', 'миноносцем', 'миноносица', '.', 'Льнет', ',', 'как', 'будто', 'к', 'меду', 'осочка', ',', 'к', 'миноносцу', 'миноносочка', '.', 'И', 'конца', 'б', 'не', 'довелось', 'ему', ',', 'благодушью', 'миноносьему', '.', 'Вдруг', 'прожектор', ',', 'вздев', 'на', 'нос', 'очки', ',', 'впился', 'в', 'спину', 'миноносочки', '.', 'Как', 'взревет', 'медноголосина', ':', "''", 'Р-р-р-астакая', 'миноносина', '!', "''", 'Прямо', 'ль', ',', 'влево', 'ль', ',', 'вправо', 'ль', 'бросится', ',', 'а', 'сбежала', 'миноносица', '.', 'Но', 'ударить', 'удалось', 'ему', 'по', 'ребру', 'по', 'миноносьему', '.', 'Плач', 'и', 'вой', 'морями', 'носится', ':', 'овдовела', 'миноносица', '.', 'И', 'чего', 'это', 'несносен', 'нам', 'мир', 'в', 'семействе', 'миноносином', '?']


## Сплиттинг

Этим красивым словом называется разбиение текста на предложения.

In [3]:
from nltk.tokenize import sent_tokenize

sent_tokenize(text)

['\nВоенно-морская любовь\n\nПо морям, играя, носится\nс миноносцем миноносица.',
 'Льнет, как будто к меду осочка,\nк миноносцу миноносочка.',
 'И конца б не довелось ему,\nблагодушью миноносьему.',
 'Вдруг прожектор, вздев на нос очки,\nвпился в спину миноносочки.',
 'Как взревет медноголосина:\n"Р-р-р-астакая миноносина!"',
 'Прямо ль, влево ль, вправо ль бросится,\nа сбежала миноносица.',
 'Но ударить удалось ему\nпо ребру по миноносьему.',
 'Плач и вой морями носится:\nовдовела миноносица.',
 'И чего это несносен нам\nмир в семействе миноносином?']

По результату работы сплиттера можно сделать вывод, что для разбиения на предложения важны сочетания знаков препинания и больших букв. Знак переноса строки, во-первых, никак не влияет на разбиение, а во-вторых, остается в тексте, как и любой другой символ. А что если мы хотим от него избавиться? Можно сделать это с помощью регулярных выражений, например.

In [5]:
import re

clean_sents = [re.sub(r'\n', r' ', sent) for sent in sent_tokenize(text)]
print(clean_sents)

[' Военно-морская любовь  По морям, играя, носится с миноносцем миноносица.', 'Льнет, как будто к меду осочка, к миноносцу миноносочка.', 'И конца б не довелось ему, благодушью миноносьему.', 'Вдруг прожектор, вздев на нос очки, впился в спину миноносочки.', 'Как взревет медноголосина: "Р-р-р-астакая миноносина!"', 'Прямо ль, влево ль, вправо ль бросится, а сбежала миноносица.', 'Но ударить удалось ему по ребру по миноносьему.', 'Плач и вой морями носится: овдовела миноносица.', 'И чего это несносен нам мир в семействе миноносином?']


## Стоп-слова

В предыдущем семинаре мы уже работали со стоп-словами — высокочастотными союзами, предлогами и другими служебными частями речи, которые не дают нам никакой информации о конкретном тексте. В NLTK есть готовые списки стоп-слов для следующих языков:

In [6]:
from nltk.corpus import stopwords

# смотрим, какие языки есть
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [7]:
# загружаем нужный список стоп-слов
sw = stopwords.words('russian')

# смотрим, что внутри
print(sw)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [16]:
# токенизируем текст, приводим к нижнему регистру и оставляем только последовательности из букв,
# т.е. все токены, где были знаки препинания и числа, исчезнут
words = [w.lower() for w in word_tokenize(text) if w.isalpha()]

# какие слова исчезли?
filtered = [w for w in words if w not in sw]
print(filtered)

['любовь', 'морям', 'играя', 'носится', 'миноносцем', 'миноносица', 'льнет', 'меду', 'осочка', 'миноносцу', 'миноносочка', 'конца', 'б', 'довелось', 'благодушью', 'миноносьему', 'прожектор', 'вздев', 'нос', 'очки', 'впился', 'спину', 'миноносочки', 'взревет', 'медноголосина', 'миноносина', 'прямо', 'ль', 'влево', 'ль', 'вправо', 'ль', 'бросится', 'сбежала', 'миноносица', 'ударить', 'удалось', 'ребру', 'миноносьему', 'плач', 'вой', 'морями', 'носится', 'овдовела', 'миноносица', 'это', 'несносен', 'нам', 'мир', 'семействе', 'миноносином']


## N-граммы

**N-граммы** — это сочетания из N элементов (слов, символов), идущих друг за другом. Одиночные элементы называются униграммами, сочетания из двух элементов — биграммами, из трёх — триграммами, а дальше все пишется цифрами: 4-граммы, 5-граммы и т.д.

In [17]:
[b for b in nltk.bigrams(word_tokenize(text.lower()))][:20]

[('военно-морская', 'любовь'),
 ('любовь', 'по'),
 ('по', 'морям'),
 ('морям', ','),
 (',', 'играя'),
 ('играя', ','),
 (',', 'носится'),
 ('носится', 'с'),
 ('с', 'миноносцем'),
 ('миноносцем', 'миноносица'),
 ('миноносица', '.'),
 ('.', 'льнет'),
 ('льнет', ','),
 (',', 'как'),
 ('как', 'будто'),
 ('будто', 'к'),
 ('к', 'меду'),
 ('меду', 'осочка'),
 ('осочка', ','),
 (',', 'к')]

In [18]:
# функции bigrams и trigrams выдают специальный объект "генератор",
# по которому можно итерироваться
nltk.trigrams(word_tokenize(text.lower()))

<generator object trigrams at 0x0000017D443DE3B8>

## Стемминг

**Стемминг** — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стем необязательно совпадает с морфлогической основой слова. Одинаковый стем может получиться и не у однокоренных слов и наоборот (в этом проблема стемминга).

### Стеммер Портера

In [27]:
# неловкий момент: работает только для английского

from nltk.stem import PorterStemmer

hamlet = """To be, or not to be, that is the question:
Whether 'tis nobler in the mind to suffer
The slings and arrows of outrageous fortune,
Or to take arms against a sea of troubles
And by opposing end them. To die — to sleep,
No more; and by a sleep to say we end
The heartache and the thousand natural shocks
That flesh is heir to: 'tis a consummation
Devoutly to be wish'd. To die, to sleep;
To sleep, perchance to dream — ay, there's the rub:
For in that sleep of death what dreams may come,
When we have shuffled off this mortal coil,
Must give us pause — there's the respect
That makes calamity of so long life.
"""

porter = PorterStemmer()
words = set(word_tokenize(hamlet))

for w in sorted(words)[25:55]:
    print("%s: %s" % (w, porter.stem(w)))

by: by
calamity: calam
coil: coil
come: come
consummation: consumm
death: death
die: die
dream: dream
dreams: dream
end: end
flesh: flesh
fortune: fortun
give: give
have: have
heartache: heartach
heir: heir
in: in
is: is
life: life
long: long
makes: make
may: may
mind: mind
more: more
mortal: mortal
natural: natur
nobler: nobler
not: not
of: of
off: off


### Snowball stemmer

In [31]:
# улучшенный вараинт стеммера Портера, умеет работать не только с английским текстом

from nltk.stem.snowball import SnowballStemmer

# смотрим список языков
SnowballStemmer.languages  

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [32]:
snowball = SnowballStemmer("russian")

In [33]:
ruswords = set(word_tokenize(text))

for w in sorted(ruswords)[20:50]:
    print("%s: %s" % (w, snowball.stem(w)))

будто: будт
в: в
вздев: вздев
взревет: взревет
влево: влев
вой: во
впился: впил
вправо: вправ
довелось: довел
ему: ем
и: и
играя: игр
к: к
как: как
конца: конц
ль: л
любовь: любов
медноголосина: медноголосин
меду: мед
миноносина: миноносин
миноносином: миноносин
миноносица: миноносиц
миноносочка: миноносочк
миноносочки: миноносочк
миноносцем: миноносц
миноносцу: миноносц
миноносьему: минонос
мир: мир
морям: мор
морями: мор


## Лемматизация и POS-tagging

Прямо скажем, это не самая сильная сторона NLTK.  Для этих задач лучше использовать `pymorphy2` и `pymystem3` для русского языка и `Spacy` для европейских.

### Лемматизация

**Лемматиза́ция** — процесс приведения словоформы к лемме, т.е. нормальной (словарной) форме. Это более сложная задача, чем стемминг, но и результаты дает гораздо более осмысленные, особенно для языков с богатой морфологией.

In [38]:
from nltk import WordNetLemmatizer

wnl = WordNetLemmatizer()

Для большинства слов возможно несколько разборов (т.е. несколько разных лемм, несколько разных частей речи и т.п.). Теггер генерирует  все варианты, ранжирует их по вероятности и по умолчанию выдает наиболее вероятный.

In [37]:
# на вход принимает по одному слову!
wnl.lemmatize('running')

'running'

Получить другие разборы тоже можно, но способ зависит от конкретной программы/библиотеки. Например, `WordNetLemmatizer'у` можно указать часть речи разбираемого слово, и тогда он будет ориентироваться на нее при выборе леммы.

In [36]:
wnl.lemmatize('running', pos='v')

'run'

Без указания частей речи WNL будет работать скорее как стеммер, так что не удивляйтесь, увидев что-то вроде "wa".

In [39]:
print(wnl.lemmatize('was'))
print(wnl.lemmatize('was', pos='v'))

wa
be


In [52]:
# как лемматизировать несколько слов
[wnl.lemmatize(w) for w in word_tokenize('my cat likes rats')]

['my', 'cat', 'like', 'rat']

### POS-tagging

**Частеречная разметка**, или **POS-tagging** _(part of speech tagging)_ —  определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов.

### UPenn Tagset

Теггер в NLTK по умолчанию использует своеобразную систему тегов (очень и очень устаревшую), которая, в числе прочего, описана [вот здесь](https://www.nltk.org/book/ch05.html). Она называется _UPenn Tagset_ — по английскому корпусу Penn Treebank, где она использовалась.

* CC — coordinating conjunction
* CD — cardinal digit
* DT — determiner
* EX — existential there (“there is”, “there exists”)
* FW — foreign word
* IN — preposition/subordinating conjunction
* JJ — adjective (‘big’)
* JJR — adjective, comparative (‘bigger’)
* JJS — adjective, superlative (‘biggest’)
* LS — list marker
* MD — modal ('could', 'will')
* NN — noun, singular (‘desk’)
* NNS — noun plural (‘desks’)
* NNP — proper noun, singular (‘Harrison’)
* NNPS — proper noun, plural (‘Americans’)
* PDT — predeterminer (‘all the kids’)
* POS — possessive ending ('parent’s')
* PRP — personal pronoun ('I', 'he', 'she')
* PRPS — possessive pronoun ('my', 'his', 'hers')
* RB — adverb ('very', 'silently')
* RBR — adverb, comparative ('better')
* RBS — adverb, superlative ('best')
* RP — particle ('give up')
* TO — to-particle ('to go') 
* UH — interjection ('errrrrrrrm')
* VB — verb, base form ('take')
* VBD — verb, past tense ('took')
* VBG — verb, gerund/present participle ('taking')
* VBN — verb, past participle ('taken')
* VBP — verb, sing. present, non-3d ('take')
* VBZ — verb, 3rd person sing. present ('takes')
* WDT — wh-determiner ('which')
* WP — wh-pronoun ('who', 'what')
* WP — possessive wh-pronoun ('whose')
* WRB — wh-abverb ('where', 'when')

In [3]:
nltk.pos_tag(word_tokenize("Hey there I'm a POS-tagger"))

[('Hey', 'NNP'),
 ('there', 'EX'),
 ('I', 'PRP'),
 ("'m", 'VBP'),
 ('a', 'DT'),
 ('POS-tagger', 'NN')]

### Universal Dependencies

Но — ура! — теперь подерживает и тегсет из _Universal Dependencies_, и **лучше использовать его**. Это нужно указать с помощью специального параметра `tagset` (предварительно скачав). Подробнее про проект можно почитать [вот тут](http://universaldependencies.org/), а про теги — [вот тут](http://universaldependencies.org/u/pos/). Вот список основных тегов UD:

* ADJ: adjective
* ADP: adposition
* ADV: adverb
* AUX: auxiliary
* CCONJ: coordinating conjunction
* DET: determiner
* INTJ: interjection
* NOUN: noun
* NUM: numeral
* PART: particle
* PRON: pronoun
* PROPN: proper noun
* PUNCT: punctuation
* SCONJ: subordinating conjunction
* SYM: symbol
* VERB: verb
* X: other

In [2]:
nltk.pos_tag(word_tokenize("Hey there I'm a POS-tagger"), tagset='universal')

[('Hey', 'NOUN'),
 ('there', 'DET'),
 ('I', 'PRON'),
 ("'m", 'VERB'),
 ('a', 'DET'),
 ('POS-tagger', 'NOUN')]

## Задание

1. Скачайте файл с английским текстом "Алисы в Зазеркалье" из папки с семинаром.
2. Очистите его от пунктуации и приведите к нижнему регистру
3. Разбейте на биграммы и на триграммы с помощью NLTK. Выведите по 20 самых частотных биграмм и триграмм.
4. Сделайте частеречную разметку текста и запишите в новый файл так, чтобы на каждой строке было одно слово и его тег.
4. Лемматизируйте текст и запишите в новый файл.
5. Очистите лемматизированный текст от стоп-слов и составьте частотный список слов. Выведите 30 самых частотных.
6. Посчитайте ipm слов 'alice', 'unicorn', 'tweedledum', 'tweedledee', 'walrus', 'looking-glass'.

## Дополнительная инфомация
### Достаем части речи из WordNet

Выше уже было показано, что для улучшения качества лемматизации нужно знать часть речи. Можно достать ее из корпуса WordNet, который и лежит в основе описанного выше лемматизатора. [Напишем](https://rustyonrampage.github.io/text-mining/2017/11/23/stemming-and-lemmatization-with-python-and-nltk.html) функцию, которая будет извлекать из ворднета часть речи для заданного слова. 

In [55]:
from nltk.corpus import wordnet
from collections import Counter

def get_pos(word):
    w_synsets = wordnet.synsets(word)

    pos_counts = Counter()
    pos_counts["n"] = len([item for item in w_synsets if item.pos()=="n"]  )
    pos_counts["v"] = len([item for item in w_synsets if item.pos()=="v"]  )
    pos_counts["a"] = len([item for item in w_synsets if item.pos()=="a"]  )
    pos_counts["r"] = len([item for item in w_synsets if item.pos()=="r"]  )
    
    most_common_pos_list = pos_counts.most_common(3)
    
    # first indexer for getting the top POS from list, 
    # second indexer for getting POS from tuple (POS: count)
    return most_common_pos_list[0][0] 

In [58]:
# пример попроще 
print(wnl.lemmatize('were', get_pos('were')))

# пример посложнее
text = "I was shocked but it worked"
for w in word_tokenize(text):
    print('%s: %s' % (w, wnl.lemmatize(w, get_pos(w))))

be
I: I
was: be
shocked: shock
but: but
it: it
worked: work


### Классификация документов

Умеет ли NLTK что-то посложнее выделения N-грамм и стемминга? Да! Посмотрим пример классификации документов, т.е. разбиение некоторого корпуса текстов на классы на основе различных признаков (`features`, в простонародье "фичи"). 

In [4]:
# импортируем один из готовых корпусов: отзывы на фильмы

from nltk.corpus import movie_reviews
import random

documents = [(list(movie_reviews.words(fileid)), category)
        for category in movie_reviews.categories()
        for fileid in movie_reviews.fileids(category)]   # как называется вся эта конструкция в [ ]?
random.shuffle(documents)

Теперь нужно выбрать фичи, т.е. решить, на основании чего мы будем классифицировать тексты. Это называется красивым термином `feature engineering`. Например, мы можем выбрать в качестве фичей сами слова, т.е. наш классификатор будет принимать решение о том, к какому классу отнести тот или иной текст, на основании слов, которые в нем встречаются.

In [7]:
# смотрим частотное распределение слов
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())

# обрезаем низкочастотный хвост: берем только 2000 самых частотных слов из всех
word_features = list(all_words)[:2000]

# функция, которая извлекает фичи из документа
def document_features(document): 
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

Теперь нужно создать и обучить **классификатор** (для примера возьмем наивный байесовский классификатор). Подробнее о классификации, кластеризации и прочих увлекательных вещах можно узнать, углубившись в тему "машинное обучение" (осторожно: математика!)

In [8]:
# сопоставляем фичи и классы
featuresets = [(document_features(d), c) for (d,c) in documents]

# разбиваем корпус на тренировочную и тестовую выборку
train_set, test_set = featuresets[100:], featuresets[:100]

# обучаем классификатор
classifier = nltk.NaiveBayesClassifier.train(train_set)

Теперь классифицируем тестовую выборку и оцениваем качество работы классификатора с помощью подсчета **accuracy** ("точность").

In [11]:
# оцениваем качество
print(nltk.classify.accuracy(classifier, test_set))

# смотрим 10 самых информативных фичей
classifier.show_most_informative_features(10)

0.83
Most Informative Features
 contains(unimaginative) = True              neg : pos    =      8.4 : 1.0
        contains(welles) = True              neg : pos    =      7.7 : 1.0
    contains(schumacher) = True              neg : pos    =      7.0 : 1.0
        contains(turkey) = True              neg : pos    =      6.8 : 1.0
     contains(atrocious) = True              neg : pos    =      6.6 : 1.0
       contains(jumbled) = True              neg : pos    =      6.4 : 1.0
        contains(shoddy) = True              neg : pos    =      6.4 : 1.0
       contains(singers) = True              pos : neg    =      6.3 : 1.0
           contains(ugh) = True              neg : pos    =      5.8 : 1.0
         contains(waste) = True              neg : pos    =      5.7 : 1.0
