# NLTK

NLTK (Natural Language Toolkit) - набор модулей для работы с естественным языком, включающий библиотеки для работы с корпусами, статистической обработки, токенизации, стемминга, парсинга и т.д.  http://www.nltk.org/

Подробный туториал по работе с NLTK - http://www.nltk.org/book/ (но он скорее для новичков или очень неуверенных пользователей).


## Токенизация

HOWTO - http://www.nltk.org/howto/tokenize.html

NLTK позволяет использовать токенизаторы по умолчанию для всех языков. Обратите внимание, что знаки препинания тоже считаются токенами.

In [1]:
import nltk
from nltk import word_tokenize
rus_text = 'Библиотека NLTK, или NLTK — пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.'
tokens = word_tokenize(rus_text)
print(tokens)

['Библиотека', 'NLTK', ',', 'или', 'NLTK', '—', 'пакет', 'библиотек', 'и', 'программ', 'для', 'символьной', 'и', 'статистической', 'обработки', 'естественного', 'языка', ',', 'написанных', 'на', 'языке', 'программирования', 'Python', '.']


In [2]:
rus_text = 'NLTK (Natural Language Toolkit) - набор модулей для работы с естественным языком, включающий библиотеки для работы с корпусами, статистической обработки, токенизации, стемминга, парсинга и т.д.'
tokens = word_tokenize(rus_text)
print(tokens)

['NLTK', '(', 'Natural', 'Language', 'Toolkit', ')', '-', 'набор', 'модулей', 'для', 'работы', 'с', 'естественным', 'языком', ',', 'включающий', 'библиотеки', 'для', 'работы', 'с', 'корпусами', ',', 'статистической', 'обработки', ',', 'токенизации', ',', 'стемминга', ',', 'парсинга', 'и', 'т.д', '.']


Обратите внимание на то, как токенизируются числа:

In [3]:
s1 = "On a $50,000 mortgage of 30 years at 8 percent, the monthly payment would be $366.88."
print(word_tokenize(s1))

['On', 'a', '$', '50,000', 'mortgage', 'of', '30', 'years', 'at', '8', 'percent', ',', 'the', 'monthly', 'payment', 'would', 'be', '$', '366.88', '.']


И сокращения:

In [4]:
s11 = "I called Dr. Jones. I called Dr. Jones."
print(word_tokenize(s11))

['I', 'called', 'Dr.', 'Jones', '.', 'I', 'called', 'Dr.', 'Jones', '.']


Кроме того NLTK позволяет создать собственный токенизатор с помощью регулярных выражений.

In [5]:
from nltk import regexp_tokenize

Функции `regexp_tokenize` нужно передать текст для токенизации, регулярное выражение и указать, как именно это выражение использовать:
* `gaps=False` - вернет массив с фрагментами текста, которые совпали с регулярным выражением,
* `gaps=True` - вернет массив с фрагментами текста, которые не совпали с регулярным выражением.

In [6]:
s = "<p>Although this is <b>not</b> the case here, we must not relax our vigilance!</p>"
print(regexp_tokenize(s, r'</?[bp]>', gaps=False))

['<p>', '<b>', '</b>', '</p>']


In [7]:
print(regexp_tokenize(s, r'</?[bp]>', gaps=True))

['Although this is ', 'not', ' the case here, we must not relax our vigilance!']


Если в выражении есть группы в скобках, то в итоговый массив войдут фрагменты, которые соответствуют группам в скобках.

In [8]:
print(regexp_tokenize(s, r'</?(b|p)>', gaps=False))

['p', 'b', 'b', 'p']


In [9]:
print(regexp_tokenize(s, r'</?(b|p)>', gaps=True))

['p', 'Although this is ', 'b', 'not', 'b', ' the case here, we must not relax our vigilance!', 'p']


In [10]:
print(regexp_tokenize(s, '(\w{2,4}) (\w{2,4})', gaps=False))

[('ough', 'this'), ('the', 'case'), ('we', 'must'), ('not', 'rela'), ('our', 'vigi')]


Регулярные выражения с обратными ссылками (backreferences) вызывают ошибку!

## Полезные простые функции

`print_string` расставляет переносы так, чтобы длина печатной строки не привысила определенного значения:

In [11]:
nltk.print_string("This is a long string, therefore it should break", 25)

This is a long string,
therefore it should break


In [12]:
nltk.print_string("NLTK (Natural Language Toolkit) - набор модулей для работы с естественным языком, включающий библиотеки для работы с корпусами, статистической обработки, токенизации, стемминга, парсинга и т.д.", 50)

NLTK (Natural Language Toolkit) - набор модулей
для работы с естественным языком, включающий
библиотеки для работы с корпусами, статистической
обработки, токенизации, стемминга, парсинга и т.д.


`re_show` позволяет посмотреть, какая часть строки совпадает с регулярным выражением:

In [13]:
nltk.re_show("[a-z]+", "sdf123")

{sdf}123


`edit_distance` позволяет посчитать расстояние редактирования между словами:

In [14]:
from nltk.metrics import *
edit_distance("муха", "слон")

4

## Стеммер 

HOWTO  - http://www.nltk.org/howto/stem.html

Стеммер позволяет отрезать от слов окончания и выделять основы. В NLTK доступны стеммеры для нескольких языков:

In [15]:
from nltk.stem.snowball import SnowballStemmer
print(" ".join(SnowballStemmer.languages))

danish dutch english finnish french german hungarian italian norwegian porter portuguese romanian russian spanish swedish


Посмотрим на русский стеммер:

In [16]:
stemmer = SnowballStemmer("russian")
print(stemmer.stem("бегущий"))

бегущ


In [17]:
tokens = word_tokenize(rus_text)
stems = [stemmer.stem(t) for t in tokens]
print(' '.join(stems))

NLTK ( Natura Languag Toolk ) - набор модул для работ с естествен язык , включа библиотек для работ с корпус , статистическ обработк , токенизац , стемминг , парсинг и т.д .


## Корпуса

Внутри NLTK находится большое количество готовых корпусов (размеченный Брауновский корпус, тексты из проекта Гутенберг, интернет-тексты и чаты, корпус президентских речей, ворднет, трибанк, переводы декларации прав человека на более чем 300 языков и т.д.) Ко всем корпусам можно обратиться из питона через уже готовые объекты класса CorpusReader. Про них можно почитать в главе 2 учебника по NLTK, она посвященна этим корпусам - http://www.nltk.org/book/ch02.html

Кроме того, можно воспользоваться возможностями NLTK, чтобы очень быстро загрузить в питон свой собственный корпус.

HOWTO - http://www.nltk.org/howto/corpus.html

Например, в папке `texts` у меня находятся тексты студентов, изучающих русский язык, каждый текст в отдельном текстовом файле, никакой разметки там нет. Все эти тексты можно загрузить в питон одной строчкой:

In [18]:
my_corpus = nltk.corpus.PlaintextCorpusReader('./texts', '.*\.txt')
# первый аргумент - корень - путь к папке с корпусом
# второй аргумент - либо регулярное выражение, описывающее имена файлов, либо массив с именами файлов, которые нужно прочитать

После этого можно получить все предложения с помощью метода `sents`,  результатом является массив массивов, каждый массив - предложение = массив токенов.

In [19]:
# .sents() - массив предложений
print(my_corpus.sents()[:5])

[['Загрязнение', 'тяжелыми', 'металлами', 'Дальнегорского', 'района', '.'], ['Одной', 'из', 'самых', 'главных', 'экологических', 'проблем', 'на', 'территории', 'Российской', 'Федерации', 'является', 'загрязнение', 'окружющей', 'среды', 'тяжелыми', 'металлами', ',', 'такими', 'как', 'свинeц', ',', 'кадмий', 'и', 'цинк', '.'], ['Эта', 'проблема', 'особеннo', 'характерна', 'для', 'тех', 'местностей', ',', 'где', 'добывается', 'руда', 'и', 'выплавляется', 'свинец', '-', 'Дальнегорский', 'район', 'Приморского', 'края', ',', 'долина', 'реки', 'Рудной', ',', 'пос', '.'], ['Рудная', 'Пристань', '.'], ['Согласно', 'проведенным', 'исследованиям', 'Тихоокеанского', 'института', 'географии', ',', 'по', 'уровню', 'загрязнения', 'почв', 'пос', '.']]


In [20]:
# путь к корню
my_corpus.root

FileSystemPathPointer('C:\\Users\\Admin\\PycharmProjects\\2017learnpython\\texts')

In [21]:
# массив с именами всех файлов в корпусе
my_corpus.fileids()[:5]

['1.txt', '10.txt', '100.txt', '1000.txt', '1001.txt']

In [22]:
# массив всех токенов в корпусе
print(my_corpus.words()[:10])

['Загрязнение', 'тяжелыми', 'металлами', 'Дальнегорского', 'района', '.', 'Одной', 'из', 'самых', 'главных']


In [23]:
len(my_corpus.words())

881030

In [24]:
# чистый текст корпуса (из нескольких файлов объединенный в одну строку)
my_corpus.raw()[:40]

' Загрязнение тяжелыми металлами Дальнего'

In [25]:
# считаем, сколько слов в первых 10 файлах
# .words() может принимать на вход имя файла
[len(my_corpus.words(d)) for d in my_corpus.fileids()[:10]]

[437, 95, 118, 82, 454, 128, 253, 305, 304, 239]

In [26]:
text50 = my_corpus.fileids()[50]
text50

'1048.txt'

In [27]:
print(my_corpus.words(text50)[:50])

['Участие', 'в', 'программе', 'мне', 'дало', 'способность', 'говорить', ',', 'читать', 'и', 'писать', 'подробно', 'о', 'разнообраных', 'темах', 'жизни', ',', ',', 'политики', 'и', 'так', 'далее', '.', 'Я', 'более', 'сомоувереный', 'в', 'моём', 'способноти', 'говорить', 'по', '-', 'русский', '.', '.', 'Я', 'смал', 'больше', 'говорить', 'и', 'обуждать', 'по', '-', 'русски', 'с', 'русскими', ',', 'с', 'которуми', 'я']


## Коллокации

HOWTO - http://www.nltk.org/howto/collocations.html 

Коллокации - это выражения из нескольких слов, которые часто встречаются вместе. Для выделения коллокаций существуют специальные метрики - функции для всех этих метрик доступны в NLTK.

In [28]:
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(my_corpus.words())

Внутри `from_words` можно также указать параметр `window_size`, например `window_size=4`, тогда в массив биграмм попадут не только пары слов, которые находятся рядом, но и все пары слов, которые находятся на расстоянии не более 4.

Пример:
     finder = TrigramCollocationFinder.from_words(tokens, window_size=4)
     
Посмотрим, какие биграммы нашлись:

In [29]:
print( finder.nbest(bigram_measures.pmi, 10) )

[('!»).', 'Старшие'), ('("', 'Событие'), ('(‘', 'Мной'), ('++,', 'Basic'), ('-"-', 'еМ'), ('.&#', '61472'), ('.....»', 'Предложение'), ('1043', 'штатных'), ('120000', 'куб'), ('15000', 'микрорентген')]


Чтобы улучшить результат, можно игнорировать биграммы, которые встретились меньше 3 раз:

In [30]:
finder.apply_freq_filter(3)
print( finder.nbest(bigram_measures.pmi, 10) )

[(':/', 'Могучей'), ('Home', 'visits'), ('Notre', 'Dame'), ('internet', 'resources'), ('iron', 'curtain'), ('modus', 'vivendi'), ('Абаб', 'Тамыр'), ('Альберт', 'Гор'), ('Вотще', 'рвалась'), ('Вульф', 'собирался')]


Если нас интересуют только определенные слова (например, только русские), можно добавить фильтр:

In [31]:
import re
# удалим из анализа слова короче 3х букв и не содержащие кириллических символов
finder.apply_word_filter(lambda w: len(w) < 3 or re.search('[а-яё]+', w.lower()) is None)
print( finder.nbest(bigram_measures.pmi, 10) )

[('Абаб', 'Тамыр'), ('Альберт', 'Гор'), ('Вотще', 'рвалась'), ('Вульф', 'собирался'), ('Вьетнамцы', 'заключали'), ('Гаагской', 'конвенции'), ('Гарольда', 'Байрона'), ('Герасимович', 'Зыбелин'), ('Кавказская', 'пленница'), ('Лилей', 'Брик')]


В примерах выше мы распечатывали 10 лучших биграмм по метрике PMI (pointwise mutual information). Посмотрим на другие метрики:

In [32]:
print( finder.nbest(bigram_measures.likelihood_ratio, 10) )

[('потому', 'что'), ('самом', 'деле'), ('может', 'быть'), ('Что', 'такое'), ('Таким', 'образом'), ('точки', 'зрения'), ('Кроме', 'того'), ('русского', 'языка'), ('Советского', 'Союза'), ('сих', 'пор')]


In [33]:
print( finder.nbest(bigram_measures.raw_freq, 10) )

[('потому', 'что'), ('что', 'они'), ('может', 'быть'), ('что', 'это'), ('Что', 'такое'), ('так', 'как'), ('что', 'она'), ('самом', 'деле'), ('Кроме', 'того'), ('Таким', 'образом')]


Можно также посмотреть и на сами числа, соответствующие коллокациям:

In [34]:
scored = finder.score_ngrams(bigram_measures.likelihood_ratio)
print(scored[:10])

[(('потому', 'что'), 8498.478921826874), (('самом', 'деле'), 3979.2590675549236), (('может', 'быть'), 3608.282467673831), (('Что', 'такое'), 3430.6486589703927), (('Таким', 'образом'), 3241.9499515941197), (('точки', 'зрения'), 2842.209363718584), (('Кроме', 'того'), 2455.2140000114678), (('русского', 'языка'), 2246.202511548758), (('Советского', 'Союза'), 2236.4322570395493), (('сих', 'пор'), 2121.5946044332572)]


А еще можно посмотреть на частоты всех биграмм:

In [35]:
freqs = finder.ngram_fd
for key, value in list(freqs.items())[:10]:
    print(key, value)

('чтобы', 'выражать') 4
('международная', 'организация') 6
('юношеского', 'питания') 9
('качеств', 'является') 3
('социальное', 'развитие') 3
('мнению', 'авторов') 8
('современном', 'языке') 3
('буду', 'говорить') 15
('нарушение', 'прав') 3
('моим', 'другом') 6


## Дополнительно

Список всех модулей внутри NLTK - http://www.nltk.org/howto/. Там например можно найти модели для статистических подсчетов, создания марковских моделей, морфологического разбора с использованием готовых таггеров или обучения новых таггеров, построения синтаксических деревьев, работы с твиттером, анализа эмоциональной окраски и многое другое.

Репозиторий проекта на гитхабе - https://github.com/nltk/nltk/wiki. Там в частности можно посмотреть часто задаваемые вопросы, а еще узнать, какие фичи сейчас в разработке. Проект опенсорсный, так что можно помочь сообществу, добавив туда какой-то свой код.


## Задание 

В ваш сайт на фласке нужно добавить еще одно приложение с использованием хотя бы одного из перечисленного: Pymorphy2, Cognitive Services, NLTK.

Примеры:

1) Задание из конспекта про Pymorphy2. 

  * Написать программу-бота, с которой можно разговаривать на вашем сайте: пользователь пишет ей реплику, а она отвечает предложением, в котором все слова заменены на какие-то случайные другие слова той же части речи и с теми же грамматическими характеристиками. Предложение-ответ должно быть согласованным. Например, на фразу "Мама мыла раму" программа может ответить "Девочка пела песню".

2) Вариант задания по NLTK.

  * Собрать небольшой корпус (например, корпус субтитров к сериалам или корпус песен вашей любимой группы) и сделать страницу с поиском по этому корпусу. На этой странице должна быть возможность искать предложения по точной форме слова, по основе, желательно еще и по части речи (за бонус), в также возможность выводить несколько самых частотных коллокаций или все коллокации с заданным словом. 
   
3) Задание про Когнитивные Сервисы.

  * Напишите страницу, на которой можно загрузить изображение с текстом и получить в ответ текст с картинки. Бонус можно получить, если изображение может содержать как печатный, так и рукописный текст.
   
4) Можно придумать своё приложение.

