## Использование текстовых корпусов с помощью Natural Language Toolkit (nltk)

В этой тетрадке описываются некоторые полезные функции, позволяющие работать с корпусами, доступными из nltk, и пользовательскими корпусами.
Желательно заранее создать папку с текстовыми файлами (хотя бы одним) или использовать [файлы из репозитория]().

<span style="color:red">*NB!*</span> Не забудьте сохранить файлы в кодировке utf-8 на Windows.

**Начинаем с импорта библиотеки nltk.**

In [1]:
import nltk
# raw corpora
from nltk.corpus import gutenberg

Второй строчкой мы импортировали один из специальных модулей, который читает корпус электронной библиотеки проекта Гутенберг. Теперь попробуем посмотреть, какие тексты есть в этом корпусе. 

In [2]:
nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

Если списка файлов нет, значит, соответствующие корпуса для nltk не загружены. Это можно сделать следующим образом (проверьте наличие интернет-соединения!):

In [3]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

В появившемся окне можно выбрать `all-corpora` во вкладке **Collections** или отдельные корпуса во вкладке **Corpora**.

Теперь попробуем получить список слов для одного из текстов и запишем его в переменную `alice`.
В скобках можно написать имя любого файла  из предыдущего списка. Также можно перечислить несколько имён в квадратных скобках (`[file1, file2, file3]`) или не указывать ничего - тогда мы получим список слов всего корпуса.

In [4]:
alice = nltk.corpus.gutenberg.words('carroll-alice.txt')

Результат работы функции `words()` является списком (см. [документацию](https://docs.python.org/3/tutorial/datastructures.html)), поэтому над ним можно производить все соответствующие операции. Например, вычислить длину (количество входящих в него элементов):

In [5]:
len(alice)

34110

Или вывести первые несколько слов:

In [6]:
print(' '.join(alice[:20]))

[ Alice ' s Adventures in Wonderland by Lewis Carroll 1865 ] CHAPTER I . Down the Rabbit - Hole


Таким же образом можно получить список предложений с помощью функции `sents()`:

In [7]:
alice_sents = nltk.corpus.gutenberg.sents('carroll-alice.txt')

Элементами списка предложений являются списки слов; мы так же можем вывести их (в примере для наглядности после каждого предложения выведем пустую строку):

In [8]:
for s in alice_sents[:5]:
    print(' '.join(s))
    print()

[ Alice ' s Adventures in Wonderland by Lewis Carroll 1865 ]

CHAPTER I .

Down the Rabbit - Hole

Alice was beginning to get very tired of sitting by her sister on the bank , and of having nothing to do : once or twice she had peeped into the book her sister was reading , but it had no pictures or conversations in it , ' and what is the use of a book ,' thought Alice ' without pictures or conversation ?'

So she was considering in her own mind ( as well as she could , for the hot day made her feel very sleepy and stupid ), whether the pleasure of making a daisy - chain would be worth the trouble of getting up and picking the daisies , when suddenly a White Rabbit with pink eyes ran close by her .



**Размеченные корпуса**

Помимо корпусов в формате plain-text с помощью nltk можно работать с корпусами, содержащими лингвистическую разметку. Например, это [Brown corpus](https://en.wikipedia.org/wiki/Brown_Corpus):

In [9]:
# categorized corpora
from nltk.corpus import brown

Корпус содержит метаразметку: указаны жанры текстов. Их можно посмотреть с помощью функции `categories()`:

In [10]:
nltk.corpus.brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

Далее эти категории можно использовать, чтобы работать с определённым подкорпусом. Например, можно снова вывести список слов, но для заданной категории:

In [11]:
nltk.corpus.brown.words(categories='news')

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

Для корпусов с разметкой можно воспользоваться функциями `tagged_words()` и `tagged_sents()`, чтобы получить слова/пердложения с морфологическими тегами:

In [12]:
nltk.corpus.brown.tagged_words()[:20]

[('The', 'AT'),
 ('Fulton', 'NP-TL'),
 ('County', 'NN-TL'),
 ('Grand', 'JJ-TL'),
 ('Jury', 'NN-TL'),
 ('said', 'VBD'),
 ('Friday', 'NR'),
 ('an', 'AT'),
 ('investigation', 'NN'),
 ('of', 'IN'),
 ("Atlanta's", 'NP$'),
 ('recent', 'JJ'),
 ('primary', 'NN'),
 ('election', 'NN'),
 ('produced', 'VBD'),
 ('``', '``'),
 ('no', 'AT'),
 ('evidence', 'NN'),
 ("''", "''"),
 ('that', 'CS')]

In [13]:
nltk.corpus.brown.tagged_sents()[0]

[('The', 'AT'),
 ('Fulton', 'NP-TL'),
 ('County', 'NN-TL'),
 ('Grand', 'JJ-TL'),
 ('Jury', 'NN-TL'),
 ('said', 'VBD'),
 ('Friday', 'NR'),
 ('an', 'AT'),
 ('investigation', 'NN'),
 ('of', 'IN'),
 ("Atlanta's", 'NP$'),
 ('recent', 'JJ'),
 ('primary', 'NN'),
 ('election', 'NN'),
 ('produced', 'VBD'),
 ('``', '``'),
 ('no', 'AT'),
 ('evidence', 'NN'),
 ("''", "''"),
 ('that', 'CS'),
 ('any', 'DTI'),
 ('irregularities', 'NNS'),
 ('took', 'VBD'),
 ('place', 'NN'),
 ('.', '.')]

По умолчанию выводится разметка в формате Брауновского корпуса; можно использовать тегсет [Universal Dependencies](http://universaldependencies.org/u/pos/all.html):

In [14]:
nltk.corpus.brown.tagged_words(tagset="universal")[:20]

[('The', 'DET'),
 ('Fulton', 'NOUN'),
 ('County', 'NOUN'),
 ('Grand', 'ADJ'),
 ('Jury', 'NOUN'),
 ('said', 'VERB'),
 ('Friday', 'NOUN'),
 ('an', 'DET'),
 ('investigation', 'NOUN'),
 ('of', 'ADP'),
 ("Atlanta's", 'NOUN'),
 ('recent', 'ADJ'),
 ('primary', 'NOUN'),
 ('election', 'NOUN'),
 ('produced', 'VERB'),
 ('``', '.'),
 ('no', 'DET'),
 ('evidence', 'NOUN'),
 ("''", '.'),
 ('that', 'ADP')]

**Пользовательские корпуса**

Похожим образом можно использовать свои корпуса; достаточно указать путь к папке с текстовыми файлами следующим образом:

In [23]:
# user corpora
from nltk.corpus import PlaintextCorpusReader
corpus_root = '../data/'
# второй параметр в скобках - регулярное выражение, описывающее файлы корпуса
wordlists = PlaintextCorpusReader(corpus_root, '.*.txt')

Можно так же посмотреть список файлов.

In [24]:
wordlists.fileids()

['input.txt']

Список слов и предложений:

In [25]:
print(wordlists.words('input.txt'))

['Фильм', 'Оливера', 'Стоуна', '"', 'Александр', '"', ...]


In [26]:
for s in wordlists.sents()[:5]:
    print(' '.join(s))
    print()

Фильм Оливера Стоуна " Александр " основан на реальной жизни одного из самых выдающихся людей в истории .

" Титаник " ( Titanic ) — фильм - катастрофа 1997 года , снятый Джеймсом Кэмероном , в котором показана гибель легендарного лайнера « Титаник ».

Главные роли в фильме исполнили Кейт Уинслет ( Роза Дьюитт Бьюкейтер ) и Леонардо Ди Каприо ( Джек Доусон ).

« Неприкасаемые »( Intouchables ) — трагикомедийный фильм 2011 года , основанный на реальных событиях .

Главные роли исполняют Франсуа Клюзе и Омар Си , удостоенный за эту актёрскую работу национальной премии « Сезар ».



Можно также загрузить корпус как `nltk.Text`:

In [27]:
words = wordlists.words()
text = nltk.Text(w.lower() for w in words)

Вот так посмотрим на методы, которые можно использовать при работе с таким объектом:

In [28]:
help(text)

Help on Text in module nltk.text object:

class Text(builtins.object)
 |  A wrapper around a sequence of simple (string) tokens, which is
 |  intended to support initial exploration of texts (via the
 |  interactive console).  Its methods perform a variety of analyses
 |  on the text's contexts (e.g., counting, concordancing, collocation
 |  discovery), and display the results.  If you wish to write a
 |  program which makes use of these analyses, then you should bypass
 |  the ``Text`` class, and use the appropriate analysis function or
 |  class directly instead.
 |  
 |  A ``Text`` is typically initialized from a given document or
 |  corpus.  E.g.:
 |  
 |  >>> import nltk.corpus
 |  >>> from nltk.text import Text
 |  >>> moby = Text(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
 |  
 |  Methods defined here:
 |  
 |  __getitem__(self, i)
 |  
 |  __init__(self, tokens, name=None)
 |      Create a Text object.
 |      
 |      :param tokens: The source text.
 |      :type 

Посмотрим на некоторые из этих функций (кажется, описания выше можно не дублировать):

In [29]:
text.vocab().most_common(n=10)

[('"', 4),
 (',', 4),
 ('в', 3),
 ('«', 3),
 ('фильм', 3),
 (')', 3),
 ('(', 3),
 ('».', 2),
 ('—', 2),
 ('и', 2)]

In [30]:
text.collocations()

главные роли


## Токенизация и теггинг в nltk

В nltk есть встроенные функции токенизации и разметки морфологическими тегами. Для морфоразметки используется один из встроенных теггеров nltk (для английского языка - `PerceptronTagger`)

In [31]:
tokens = nltk.word_tokenize("There is some text to split into tokens.")
nltk.tag.pos_tag(tokens)

[('There', 'EX'),
 ('is', 'VBZ'),
 ('some', 'DT'),
 ('text', 'NN'),
 ('to', 'TO'),
 ('split', 'VB'),
 ('into', 'IN'),
 ('tokens', 'NNS'),
 ('.', '.')]

В nltk версии 3.2.5 есть поддержка теггера для русского языка, который использует тегсет НКРЯ. Сначала нужно загрузить соответствующую модель:

In [32]:
nltk.download('averaged_perceptron_tagger_ru')

[nltk_data] Downloading package averaged_perceptron_tagger_ru to
[nltk_data]     /Users/rhubarb/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_ru is already up-to-
[nltk_data]       date!


True

In [33]:
tokens = nltk.word_tokenize("Эти типы стали есть в цехе.")
nltk.tag.pos_tag(tokens, lang='rus')

[('Эти', 'A-PRO=pl'),
 ('типы', 'S'),
 ('стали', 'V'),
 ('есть', 'V'),
 ('в', 'PR'),
 ('цехе', 'S'),
 ('.', 'NONLEX')]

**Теггеры из модуля nltk.tag**

В качестве обучающих данных будем использовать Брауновский корпус. Загружаем теггер:

In [34]:
utagger = nltk.tag.UnigramTagger(nltk.corpus.brown.tagged_sents(categories="news", tagset='universal'))

Разметим предложение полученной моделью:

In [35]:
utagger.tag(['You', 'will', 'benefit', 'from', 'it'])

[('You', 'PRON'),
 ('will', 'VERB'),
 ('benefit', 'NOUN'),
 ('from', 'ADP'),
 ('it', 'PRON')]

Можно оценить обученную модель на другом подкорпусе:

In [36]:
utagger.evaluate(nltk.corpus.brown.tagged_sents(categories="fiction", tagset='universal'))

0.8282618852937741

Попробуем то же самое с биграммным теггером:

In [37]:
btagger = nltk.tag.BigramTagger(nltk.corpus.brown.tagged_sents(categories="news", tagset='universal'))
# ...
btagger.evaluate(nltk.corpus.brown.tagged_sents(categories="fiction", tagset='universal'))

0.19635556593855857

[Теггер Брилла](https://en.wikipedia.org/wiki/Brill_tagger) - модель, которая позволяет на основе статистики встречаемости тегов и контекстов в корпусе формулировать правила снятия морфологической неоднозначности. Сначала посмотрим на шаблоны этих правил:

In [38]:
templates = nltk.tag.brill.brill24()
templates

[Template(Pos([-1])),
 Template(Pos([1])),
 Template(Pos([-2])),
 Template(Pos([2])),
 Template(Pos([-2, -1])),
 Template(Pos([1, 2])),
 Template(Pos([-3, -2, -1])),
 Template(Pos([1, 2, 3])),
 Template(Pos([-1]),Pos([1])),
 Template(Pos([-2]),Pos([-1])),
 Template(Pos([1]),Pos([2])),
 Template(Word([-1])),
 Template(Word([1])),
 Template(Word([-2])),
 Template(Word([2])),
 Template(Word([-2, -1])),
 Template(Word([1, 2])),
 Template(Word([-1, 0])),
 Template(Word([0, 1])),
 Template(Word([0])),
 Template(Word([-1]),Pos([-1])),
 Template(Word([1]),Pos([1])),
 Template(Word([0]),Word([-1]),Pos([-1])),
 Template(Word([0]),Word([1]),Pos([1]))]

Для теггера Брилла нужен теггер, который будет порождать исходную разметку. Возьмём уже обученный униграммный теггер и обучим теггер Брилла с некоторым заданным максимальным количеством правил:

In [39]:
brill_tagger = nltk.tag.BrillTaggerTrainer(utagger, templates)
trained_tagger = brill_tagger.train(nltk.corpus.brown.tagged_sents(categories="religion", tagset="universal"), 
                                    max_rules=20)
trained_tagger.evaluate(nltk.corpus.brown.tagged_sents(categories="fiction", tagset="universal"))

0.9086117276019157

А так выведем получившиеся правила в виде
id\_шаблона исходная\_чр 

In [40]:
trained_tagger.rules()

(Rule('006', None, 'NOUN', [(Pos([-3, -2, -1]),'DET')]),
 Rule('007', None, 'NOUN', [(Pos([1, 2, 3]),'.')]),
 Rule('007', None, 'NOUN', [(Pos([1, 2, 3]),'ADP')]),
 Rule('007', None, 'NOUN', [(Pos([1, 2, 3]),'VERB')]),
 Rule('001', 'PRT', 'ADP', [(Pos([1]),'DET')]),
 Rule('007', None, 'VERB', [(Pos([1, 2, 3]),'NOUN')]),
 Rule('000', 'NOUN', 'VERB', [(Pos([-1]),'PRON')]),
 Rule('017', 'NOUN', 'VERB', [(Word([-1, 0]),'to')]),
 Rule('019', 'ADJ', 'ADV', [(Word([0]),'only')]),
 Rule('019', 'NOUN', 'ADJ', [(Word([0]),'human')]),
 Rule('001', 'PRT', 'ADP', [(Pos([1]),'PRON')]),
 Rule('019', 'ADP', 'PRT', [(Word([0]),'all')]),
 Rule('009', 'NOUN', 'VERB', [(Pos([-2]),'VERB'), (Pos([-1]),'ADV')]),
 Rule('010', 'NOUN', 'ADJ', [(Pos([1]),'NOUN'), (Pos([2]),'ADP')]),
 Rule('018', 'NOUN', 'PRON', [(Word([0, 1]),'Him')]),
 Rule('008', 'VERB', 'NOUN', [(Pos([-1]),'DET'), (Pos([1]),'ADP')]),
 Rule('018', 'ADJ', 'ADV', [(Word([0, 1]),'more')]),
 Rule('011', 'NOUN', 'VERB', [(Word([-1]),'be')]),
 Rule('

In [None]:
# requires pycrfsuite package

# crf_tagger = nltk.tag.CRFTagger()
# crf_tagger.train(nltk.corpus.brown.tagged_sents(categories="news"))
# crf_tagger.evaluate(nltk.corpus.brown.tagged_sents(categories="fiction"))

In [None]:
# HMM tagger
hmm_tagger = nltk.tag.hmm.HiddenMarkovModelTagger.train(nltk.corpus.brown.tagged_sents(categories="news"))
hmm_tagger.log_probability(['look/VB', 'forward/PP'])

In [None]:
# more taggers
# Perceptron
# SequentialTagger
# --> NgramTagger
# --> RegexpTagger