# Инструментарий обработки естественного языка - библиотека NLTK
Среди инструментов NLP NLTK имеет ряд преимуществ в части простоты использования и понимания концепции. Из-за легкости освоения Python удобным становится и освоение NLTK. NLTK включил в себя большинство функций NLP, таких как токенизация, стемминг, лемматизация, Пунктуация, Подсчет символов и количество слов.

# NLTK - начало работы
Чтобы работать с NLTK, на нашем компьютере должен быть установлен Python.

# Установка NLTK
Выполните в командной строке Python команду (на моем компьютере NLTK уже установлен)

In [None]:
# pip3 install nltk

Теперь в Python выполним следующую команду, чтобы проверить установку NLTK.
Если вы не получаете сообщения об ошибке, значит NLTK успешно установлен

In [1]:
import nltk

# Загрузка набора данных и пакетов NLTK
Теперь у нас на компьютерах установлен NLTK, но для того, чтобы использовать его, нам нужно загрузить доступные в нем наборы данных (корпус текстов). Некоторые из важных доступных наборов данных - это **стоп-слова**, **guntenberg**, **framenet_v15** и так далее.

С помощью следующих команд мы можем загрузить все наборы данных NLTK:

In [2]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Импортируйте все базы из списка в меню (кнопка Download):
![Загрузка корпусов](attachment:corpus_download.png)

# Как запустить скрипт NLTK?
Ниже приведен пример, в котором мы реализуем алгоритм Porter Stemmer с помощью класса Porter Stemmer nltk.

In [3]:
import nltk
# Импортируем класс PorterStemmer, реализующий алгоритм стемминга Портера
from nltk.stem import PorterStemmer
# Создадим экземпляр класса Porter Stemmer
word_stemmer = PorterStemmer()
# Введем слово для стемминга (очистки до основания слова)
word_stemmer.stem('writing')

'write'

In [4]:
word_stemmer.stem('eating')

'eat'

# NLTK - токенизация текста
Что такое токенизация?
Процесс можно определить как разбиение фрагмента текста на более мелкие части, такие как предложения и слова. Эти более мелкие части называются токенами. Например, слово - это токенр в предложении, а предложение - это токен в абзаце.

Поскольку мы знаем, что NLP используется для создания таких приложений, как анализ настроений, системы контроля качества, языковой перевод, интеллектуальные чат-боты, голосовые системы и т.д., Следовательно, для их создания становится жизненно важным выделить шаблон в тексте. Токены очень полезны для поиска и понимания этих паттернов. Мы можем рассматривать токенизацию в качестве базового шага для других шагов NLP, таких как стемминг и лемматизация.
В библиотеке NLTK для осуществления процесса токенизации используется пакет nltk.tokenize

# Разбиение предложений по словам
Разбиение предложения на слова или создание списка слов из строки является неотъемлемой частью любой операции обработки текста. Давайте разберемся в этом с помощью различных функций/ модулей, предоставляемых пакетом nltk.tokenize.

# Модуль word_tokenize 
Модуль **word_tokenize** используется для **базовой** токенизации слов. В следующем примере этот модуль будет использоваться для разделения предложения на слова.

In [12]:
import nltk
from nltk.tokenize import word_tokenize
word_tokenize(' The Gandalf’s smoke-ring would go green and come back to hover over the wizard’s head.')

['The',
 'Gandalf',
 '’',
 's',
 'smoke-ring',
 'would',
 'go',
 'green',
 'and',
 'come',
 'back',
 'to',
 'hover',
 'over',
 'the',
 'wizard',
 '’',
 's',
 'head',
 '.']

# Класс TreebankWordTokenizer
Используемый выше модуль **word_tokenize** класса **TreebankWordTokenizer** по сути представляет собой **функцию-оболочку**, которая вызывает функцию **tokenize()** как метод класса **TreebankWordTokenizer**. Это даст тот же результат, который мы получаем при использовании модуля **word_tokenize()** для разделения **предложений** на **слова**. Давайте посмотрим на тот же пример, что реализован выше:

In [11]:
# Импортируем NLTK
import nltk
# Импортируем класс TreebankWordTokenizer для реализации алгоритма токенизатора слов
from nltk.tokenize import TreebankWordTokenizer
# Созддадим экземпляп класса TreebankWordTokenizer
Tokenizer_wrd = TreebankWordTokenizer()
# Введем фразу для разделения на токены
Tokenizer_wrd.tokenize('The Gandalf’s smoke-ring would go green and come back to hover over the wizard’s head.')

['The',
 'Gandalf’s',
 'smoke-ring',
 'would',
 'go',
 'green',
 'and',
 'come',
 'back',
 'to',
 'hover',
 'over',
 'the',
 'wizard’s',
 'head',
 '.']

Наиболее важным соглашением токенизатора является **разделение сокращений**. Например, если мы используем для этой цели модуль word_tokenize(), он выдаст следующий результат:

In [7]:
import nltk
from nltk.tokenize import word_tokenize
word_tokenize('won’t')

['won', '’', 't']

Такого рода соглашения со стороны TreebankWordTokenizer не всегла приемлемы при решении задач. Вот почему у нас есть два альтернативных токенизатора слов, а именно PunktWordTokenizer и WordPunctTokenizer.
# Класс Wordpuncttokenizer
Альтернативный токенизатор слов, который разбивает все знаки препинания на отдельные токены. Давайте посмотрим, как теперь выглядит токенизация уже знакомой нам фразы:

In [13]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
tokenizer.tokenize(" The Gandalf’s smoke-ring would go green and come back to hover over the wizard’s head.")

['The',
 'Gandalf',
 '’',
 's',
 'smoke',
 '-',
 'ring',
 'would',
 'go',
 'green',
 'and',
 'come',
 'back',
 'to',
 'hover',
 'over',
 'the',
 'wizard',
 '’',
 's',
 'head',
 '.']

# Токенизация текста на предложения
Мы собираемся разделить текст/абзац на предложения. Для этой цели в NLTK предусмотрен модуль **sent_tokenize**.

## Зачем это нужно?
Очевидный вопрос, который пришел нам в голову, заключается в том, что если у нас есть токенизатор слов, то зачем нам нужен токенизатор предложений или зачем нам нужно разбивать текст на предложения. Предположим, нам нужно подсчитать средние слова в предложениях, как мы можем это сделать? Для выполнения этой задачи нам нужна как токенизация слов, так и токенизация предложений.

Давайте поймем разницу между токенизатором слов и предложений с помощью следующего простого примера.

In [15]:
import nltk
from nltk.tokenize import sent_tokenize
text = "I should think so – in these parts! We are plain quiet folk and have no use for adventures. Nasty disturbing uncomfortable things!"
sent_tokenize(text)

['I should think so – in these parts!',
 'We are plain quiet folk and have no use for adventures.',
 'Nasty disturbing uncomfortable things!']

# Токенизация предложений с использованием регулярных выражений
Если вы чувствуете, что вывод токенизатора слов вас не устраивает и хотите получить полный контроль над тем, как токенизировать текст, у нас есть механизм **регулярных выражений**, который можно использовать при токенизации предложений. NLTK предоставляет класс **RegexpTokenizer** для достижения этой цели.

Давайте разберемся в этой концепции с помощью двух приведенных ниже примеров.

В первом примере мы будем использовать регулярное выражение для сопоставления буквенно-цифровых токенов плюс **одинарные кавычки**, чтобы не разделять сокращения типа “won't”.
## Пример1

In [10]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
print(tokenizer.tokenize("won't is a contraction."))
print(tokenizer.tokenize("can't is a contraction."))

["won't", 'is', 'a', 'contraction']
["can't", 'is', 'a', 'contraction']


В первом примере мы использовали регулярное выражение для обозначения пробелов.

## Пример 2

In [11]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('\s+', gaps = True)
tokenizer.tokenize("won't is a contraction.")

["won't", 'is', 'a', 'contraction.']

Из приведенного выше вывода мы можем видеть, что знаки препинания остаются в токенах.
Параметр **gaps = True** означает, что шаблон будет использовать для токенизации пробелы . 
С другой стороны, если мы будем использовать параметр **gaps = False**, то шаблон будет использоваться для идентификации токенов, которые можно увидеть в следующем примере (вывод пустой, нет знаков препинания - нет токенов)

In [12]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('/s+' , gaps = False)
tokenizer.tokenize("won't is a contraction.")

[]

# Обучаемый Токенизатор и фильтрация стоп-слов
Зачем тренировать собственный токенизатор предложений?
Это очень важный вопрос: если у нас есть токенизатор предложений NLTK по умолчанию, то зачем нам нужно обучать токенизатор предложений? Ответ на этот вопрос кроется в качестве токенизатора предложений NLTK по умолчанию. Токенизатор NLTK по умолчанию - это, по сути, токенизатор общего назначения. Обычно это работает очень хорошо, но только до тех пор, пока вам не придется работать с нестандартным текстом или с текстом, имеющеим уникальное форматирование. Чтобы токенизировать такой текст и получить наилучшие результаты, мы должны обучить наш собственный токенизатор предложений.

## Пример реализации
В этом примере мы будем использовать корпус **webtext**. Текстовый файл, который мы собираемся использовать из этого корпуса, имеет текст, отформатированный в виде диалогов, приведенных ниже:

**Guy**: How old are you?

**Hipster girl**: You know, I never answer that question. Because to me, it's about how mature you are, you know? I mean, a ourteen year old could be more mature than a twenty-five year old, right? I'm sorry, I just never answer that question.

**Guy**: But, uh, you're older than eighteen, right?

**Hipster girl**: Oh, yeah.

Мы сохранили этот текстовый файл с именем training_tokenizer. NLTK предоставляет класс **PunktSentenceTokenizer**, с помощью которого мы можем обучаться на необработанном тексте для создания пользовательского токенизатора предложений. Мы можем получить необработанный текст либо путем чтения из файла, либо из корпуса NLTK, используя метод **raw()**.

Давайте посмотрим на пример ниже, чтобы посмотреть, как это работает:

In [5]:
# Импортируем класс PunktSentenceTokenizer из пакета nltk.tokenize
from nltk.tokenize import PunktSentenceTokenizer
# Импортируем корпус webtext из пакета nltk.corpus
from nltk.corpus import webtext
# Используем метод raw(), загрузим необработанный текст из файла training_tokenizer.txt
text = webtext.raw('D:\\users\\acer\\Documents\\Методматериалы\\МГТУ\\NLP\\Data\\training_tokenizer.txt')
# Создадим экземпляр класса PunktSentenceTokenizer и напечатаем токенизированные предложения
sent_tokenizer = PunktSentenceTokenizer(text)
sents_1 = sent_tokenizer.tokenize(text)
print(sents_1[0])
print(sents_1[1])
print(sents_1[2])
print(sents_1[22])

White guy: So, do you have any plans for this evening?
Asian girl: Yeah, being angry!
White guy: Oh, that sounds good.
Is this the same daughter that was in a fire last summer?


Чтобы понять разницу между токенизатором предложений по умолчанию NLTK и нашим собственным обученным токенизатором предложений, давайте токенизируем один и тот же файл с помощью токенизатора предложений по умолчанию, **sent_tokenize()**.

In [6]:
from nltk.tokenize import sent_tokenize
from nltk.corpus import webtext
text = webtext.raw('D:\\users\\acer\\Documents\\Методматериалы\\МГТУ\\NLP\\Data\\training_tokenizer.txt')
sents_2 = sent_tokenize(text)

print(sents_2[0])
print(sents_2[1])
print(sents_2[2])
print(sents_2[22])

White guy: So, do you have any plans for this evening?
Asian girl: Yeah, being angry!
White guy: Oh, that sounds good.
Is this the same daughter that was in a fire last summer?


С помощью разницы в выходных данных мы можем понять концепцию, почему полезно обучать наш собственный токенизатор предложений.

# Что такое стоп-слова?
Некоторые общие слова, которые присутствуют в тексте, но не влияют на смысл предложения. Такие слова совсем не важны для целей поиска информации или обработки естественного языка. Наиболее распространенными стоп-словами являются ‘the’ и ‘a’.

## Корпус стоп-слов NLTK
Набор инструментов для естественного языка поставляется с корпусом стоп-слов, содержащим списки слов для многих языков. Давайте разберемся в его использовании с помощью следующего примера

In [15]:
# Импортируем корпус стоп−слов из пакета nltk.corpus -
from nltk.corpus import stopwords
# Будем использовать стоп-слова из английского языка
english_stops = set(stopwords.words('english'))
words = ['I', 'am', 'a', 'writer']
[word for word in words if word not in english_stops]

['I', 'writer']

# Поиск полного списка поддерживаемых языков
С помощью следующего скрипта на Python мы также можем найти полный список языков, поддерживаемых NLTK stopwords corpus −

In [16]:
from nltk.corpus import stopwords
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

# Поиск слов в Wordnet
Что такое Wordnet?
Wordnet - это большая лексическая база данных английского языка, разработанная в Принстонском университете. Это часть корпуса NLTK. Существительные, глаголы, прилагательные и наречия сгруппированы в набор синсетов, то есть когнитивных синонимов. Здесь каждый набор синсетов выражает определенное значение. Ниже приведены некоторые примеры использования Wordnet:

Его можно использовать для поиска определения слова
Мы можем найти синонимы и антонимы слова
Словесные отношения и сходства можно исследовать с помощью Wordnet
Устранение неоднозначности смысла слов для тех слов, которые имеют множество применений и определений
## Экземпляры Synset
Представляют собой группы слов-синонимов, которые выражают одно и то же понятие. Когда вы используете Wordnet для поиска слов, вы получите список экземпляров Synset.

In [17]:
#Импортируем корпус
from nltk.corpus import wordnet as wn
# Теперь укажите слово, которое вы хотите найти в Synset 
syn = wn.synsets('dog')[0]
# При помощи метода name() можно вывести уникальный идентификатор слова
print(syn.name())
# Метод definition() выводит определение слова
print(syn.definition())
# Метод examples() выводит пример употребления
print(syn.examples())

dog.n.01
a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds
['the dog barked all night']


# Получение Гипернимов (слов с более широкими значениями)
Синтаксические наборы организованы в виде древовидной структуры наследования, в которой Гипернимы представляют более абстрактные термины, в то время как гипонимы представляют более конкретные термины. Одна из важных вещей заключается в том, что это дерево можно проследить вплоть до корневой гиперссылки. Давайте разберемся в этой концепции с помощью следующего примера

In [18]:
from nltk.corpus import wordnet as wn
syn = wn.synsets('dog')[0]
syn.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

Здесь мы видим, что canine ("собачьи") и domestic_animal (домашние животные) - это гипернимы слова ‘собака’.
Теперь мы можем найти гипонимы (более узкие термины) слова "собака"

In [19]:
syn.hypernyms()[0].hyponyms()

[Synset('bitch.n.04'),
 Synset('dog.n.01'),
 Synset('fox.n.01'),
 Synset('hyena.n.01'),
 Synset('jackal.n.01'),
 Synset('wild_dog.n.01'),
 Synset('wolf.n.01')]

Из приведенного выше примера мы можем видеть, что "собака" - это лишь один из многих гипонимов ‘domestic_animals’.
Чтобы найти корневое понятие мы можем использовать следующую команду:

In [20]:
syn.root_hypernyms()

[Synset('entity.n.01')]

# Лемматизация в Wordnet
В лингвистике каноническая форма или морфологическая форма слова называется леммой. Чтобы найти синоним, а также антоним слова, мы также можем искать леммы в WordNet. Давайте посмотрим, как это сделать.

## Поиск Синонимов
Используя метод lemma(), мы можем найти количество синонимов слова Sunset. Давайте применим этот метод к синтезатору ’dog' −


In [21]:
from nltk.corpus import wordnet as wn
syn = wn.synsets('dog')[0]
lemmas = syn.lemmas()
len(lemmas)

3

Вывод означает, что слово "собака" (dog) содержит три леммы.

Выведем первую лемму в списке:

In [22]:
lemmas[0].name()

'dog'

Вторую:

In [23]:
lemmas[1].name()

'domestic_dog'

Третью:

In [24]:
lemmas[2].name()

'Canis_familiaris'

На самом деле **синсет** представляет собой **группу лемм**, которые все имеют одинаковое значение, в то время как лемма представляет собой **отдельную словоформу**.

# Поиск Антонимов
В WordNet некоторые леммы также имеют антонимы. Например, слово ‘хороший‘ имеет в общей сложности 27 синсетов, из них 5 имеют леммы с антонимами. Давайте найдем антонимы (когда слово "хороший" используется как существительное и когда слово "хороший" используется как прилагательное).

In [25]:
from nltk.corpus import wordnet as wn
syn1 = wn.synset('good.n.02')
antonym1 = syn1.lemmas()[0].antonyms()[0]
antonym1.name()

'evil'

In [26]:
antonym1.synset().definition()

'the quality of being morally wrong in principle or practice'

Приведенный выше пример показывает, что слово "добро", когда оно используется как существительное, имеет первый антоним ‘зло’.

In [27]:
from nltk.corpus import wordnet as wn
syn2 = wn.synset('good.a.01')
antonym2 = syn2.lemmas()[0].antonyms()[0]
antonym2.name()

'bad'

In [28]:
antonym2.synset().definition()

'having undesirable or negative qualities'

Приведенный выше пример показывает, что слово "хороший", когда оно используется в качестве прилагательного, имеет первый антоним ‘плохой’.

# Стемминг и лемматизация
## Что такое Стемминг?
Стемминг - это метод, используемый для извлечения базовой формы слов путем удаления из них аффиксов. Это все равно что срубать ветви дерева до самых стволов. Например, основа слов есть, ест, съеденный - это есть.

Поисковые системы используют стемминг для индексации слов. Вот почему вместо того, чтобы хранить все формы слова, поисковая система может хранить только основы. Таким образом, стемминг уменьшает размер индекса и повышает точность поиска.

## Различные алгоритмы стемминга
В NLTK класс **stemmerI**, имеющий метод **stem()**, является интерфейсом всех стеммеров, которые мы рассмотрим далее.

## Алгоритмы стемминга
### Алгоритм стемминга Портера
Это один из наиболее распространенных алгоритмов, который в основном предназначен для удаления и замены хорошо известных суффиксов английских слов.

### Класс PorterStemmer
В NLTK реализован класс **PorterStemmer**, с помощью которого мы можем легко реализовать алгоритмы стемминга Портера для слова, которое мы хотим использовать. Этот класс знает несколько **обычных словоформ и суффиксов**, с помощью которых он может преобразовать **входное слово** в **конечную основу**. Результирующая основа часто представляет собой более короткое слово, имеющее то же корневое значение. Давайте посмотрим на пример:

In [29]:
import nltk
# импортируем стеммер Портера
from nltk.stem import PorterStemmer
#Создаем экземпляр класса
word_stemmer = PorterStemmer()
# Вводим слово для стемминга
word_stemmer.stem('writing')

'write'

In [30]:
word_stemmer.stem('eating')

'eat'

# Ланкастерский алгоритм стемминга 
Еще один очень распространенный алгоритм стемминга - ланкастерский алгоритм, разработанный в Университете Ланкастера.

## Класс LancasterStemmer
В NLTK реализован класс **LancasterStemmer**, с помощью которого мы можем легко реализовать алгоритмы Lancaster Stemmer для слова, которое мы хотим создать. Давайте посмотрим на пример

In [31]:
import nltk
# импортируем класс LankasterStemmer
from nltk.stem import LancasterStemmer
#Создадим экземпляр
Lanc_stemmer = LancasterStemmer()
# Проведем стемминг заданного слова
Lanc_stemmer.stem('eats')

'eat'

# Алгоритм определения регулярных выражений
С помощью этого алгоритма стемминга мы можем создать наш собственный стеммер.
## Класс RegexpStemmer
NLTK имеет класс **RegexpStemmer**, с помощью которого мы можем легко реализовать алгоритмы обработки регулярных выражений. По сути, он принимает одно регулярное выражение и удаляет любой префикс или суффикс, соответствующий этому выражению. Давайте посмотрим на пример

In [32]:
import nltk
from nltk.stem import RegexpStemmer
Reg_stemmer = RegexpStemmer('ing')
Reg_stemmer.stem('eating')

'eat'

In [33]:
Reg_stemmer.stem('ingeat')

'eat'

In [34]:
Reg_stemmer.stem('eats')

'eats'

# Алгоритм стемминга "Snowball"
Это еще один очень полезный алгоритм получения результатов.

## Класс SnowballStemmer
В NLTK реализован класс SnowballStemmer, с помощью которого мы можем легко реализовать алгоритмы такого типа. Он поддерживает 15 неанглийских языков. Чтобы использовать этот класс стемминга, нам нужно создать экземпляр с именем языка, который мы используем, а затем вызвать метод stem(). Давайте посмотрим на пример:

In [23]:
import nltk
from nltk.stem import SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [1]:
Rus_stemmer = SnowballStemmer('russian')
Rus_stemmer.stem ('занятость')

NameError: name 'SnowballStemmer' is not defined

# Что такое лемматизация?
Техника лемматизации подобна стеммингу. Результат, который мы получим после лемматизации, называется "лемма", что является корневым словом, а не корневым стержнем, результатом стеммирования. После лемматизации мы получим действительное слово, которое означает то же самое.

NLTK предоставляет класс WordNetLemmatizer, который представляет собой тонкую оболочку вокруг корпуса wordnet. Этот класс использует функцию morphy() для класса WordNetCorpusReader, чтобы найти лемму. Давайте разберемся в этом на примере

In [3]:
import nltk
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('eating')

'eating'

In [38]:
lemmatizer.lemmatize('books')

'book'

# Разница между Стеммингом и лемматизацией
Давайте поймем разницу между стеммингом и лемматизацией с помощью следующего примера −

In [39]:
import nltk
from nltk.stem import PorterStemmer
word_stemmer = PorterStemmer()
word_stemmer.stem('believes')

'believ'

In [40]:
import nltk
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize(' believes ')

' believes '

Выходные данные обеих программ показывают основное различие между стеммингом и лемматизацией. 
Класс PorterStemmer отсекает букву "es’ от слова. С другой стороны, класс Wordnetlematizer находит допустимое слово. Проще говоря, техника стеммирования рассматривает только форму слова, в то время как техника лемматизации рассматривает значение слова. Это означает, что после применения лемматизации мы всегда получим правильное слово.

# NLTK - Замена слов
Стемминг и лемматизацию можно рассматривать как своего рода лингвистическое сжатие. В том же смысле замену слов можно рассматривать как нормализацию текста или исправление ошибок.

Но зачем нам понадобилась замена слов? Предположим, если мы говорим о токенизации, то у нее возникают проблемы с сокращениями (например, can't, won't и т.д.). Итак, для решения таких проблем нам нужна замена слов. Например, мы можем заменить сокращения их расширенными формами.

## Замена слов с помощью регулярного выражения
Во-первых, мы собираемся заменить слова, соответствующие регулярному выражению. Но для этого мы должны иметь базовое представление о регулярных выражениях, а также о модуле python re. В приведенном ниже примере мы будем заменять сокращения их расширенными формами (например, "I won't do it" будет заменено на "I will not do it"), и все это с помощью регулярных выражений.

In [6]:
import re
from nltk.corpus import wordnet
# Зададим паттерны замены
R_patterns = [(r'won\'t', 'will not'),
              (r'can\'t', 'cannot'),
              (r'i\'m', 'i am'),
              (r'(\w+)\'ll', '\g<1> will'),
              (r'(\w+)n\'t', '\g<1> not'),
              (r'(\w+)\'ve', '\g<1> have'),
              (r'(\w+)\'s', '\g<1> is'),
              (r'(\w+)\'re', '\g<1> are'),]
# созддим класс, который буде использовать заменяемые слова
class REReplacer(object):
   def __init__(self, patterns = R_patterns):
      self.pattern = [(re.compile(regex), repl) for (regex, repl) in patterns]
   def replace(self, text):
      s = text
      for (pattern, repl) in self.pattern:
         s = re.sub(pattern, repl, s)
      return s
rep_word = REReplacer()
print(rep_word.replace("I won't do it"))
print(rep_word.replace("I can't dance"))

I will not do it
I cannot dance


# Выполнение замен перед обработкой текста
Одной из распространенных практик при работе с обработкой естественного языка (NLP) является очистка текста перед обработкой текста. В этом случае мы также можем использовать наш класс ReReplacer, созданный выше в предыдущем примере, в качестве предварительного шага перед обработкой текста, то есть токенизацией.

In [42]:
import re
from nltk.corpus import wordnet
# Зададим паттерны замены
R_patterns = [(r'won\'t', 'will not'),
              (r'can\'t', 'cannot'),
              (r'i\'m', 'i am'),
              (r'(\w+)\'ll', '\g<1> will'),
              (r'(\w+)n\'t', '\g<1> not'),
              (r'(\w+)\'ve', '\g<1> have'),
              (r'(\w+)\'s', '\g<1> is'),
              (r'(\w+)\'re', '\g<1> are'),]
# созддим класс, который будет использовать заменяемые слова
class REReplacer(object):
   def __init__(self, patterns = R_patterns):
      self.pattern = [(re.compile(regex), repl) for (regex, repl) in patterns]
   def replace(self, text):
      s = text
      for (pattern, repl) in self.pattern:
         s = re.sub(pattern, repl, s)
      return s
from nltk.tokenize import word_tokenize
rep_word = REReplacer()
word_tokenize("I won't be able to do this now")

['I', 'wo', "n't", 'be', 'able', 'to', 'do', 'this', 'now']

In [43]:
word_tokenize(rep_word.replace("I won't be able to do this now"))

['I', 'will', 'not', 'be', 'able', 'to', 'do', 'this', 'now']

В приведенном выше фрагменте кода Python мы можем легко понять разницу между выводом word tokenizer без и с использованием замены регулярных выражений.

# Удаление повторяющихся символов
Соблюдаем ли мы строгую грамматику в нашем повседневном языке? Нет, это не так. Например, иногда мы пишем "Привееееет, Колян", чтобы подчеркнуть слово "Привет’. Но компьютерная система не знает, что “Hiiiiiiiiiiiiii" - это вариация слова "Hi”. В приведенном ниже примере мы создадим класс с именем rep_word_removal, который можно использовать для удаления повторяющихся слов.

In [44]:
import re
from nltk.corpus import wordnet
class Rep_word_removal(object):
   def __init__(self):
      self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
      self.repl = r'\1\2\3'
   def replace(self, word):
    if wordnet.synsets(word):
        return word
    repl_word = self.repeat_regexp.sub(self.repl, word)
    if repl_word != word:
        return self.replace(repl_word)
    else:
        return repl_word
rep_word = Rep_word_removal()
rep_word.replace ("Hiiiiiiiiiiiiiiiiiiiii")

'Hi'

In [45]:
rep_word.replace("Hellooooooooooooooo")

'Hello'

# Замена Синонимов и антонимов
## Замена слов общепринятыми синонимами
При работе с NLP, особенно в случае частотного анализа и индексации текста, всегда полезно сжимать словарный запас без потери смысла, поскольку это экономит много памяти. Чтобы достичь этого, мы должны определить сопоставление слова с его синонимами. В приведенном ниже примере мы создадим класс с именем word_syn_replacer, который можно использовать для замены слов их общими синонимами.

In [46]:
# Работаем с модулем регулярных выражений
import re
from nltk.corpus import wordnet
# Класс замены синонимов
class word_syn_replacer(object):
    def __init__(self, word_map):
        self.word_map = word_map
    def replace(self, word):
        return self.word_map.get(word, word)
# Воспользуемся классом
rep_syn = word_syn_replacer ({'bday': 'birthday'})
rep_syn.replace('bday')

'birthday'

Недостатком описанного выше метода является то, что нам придется жестко кодировать синонимы в словаре Python. У нас есть две лучшие альтернативы в виде файлов CSV и YAML. Мы можем сохранить наш словарь синонимов в любом из вышеупомянутых файлов и создать из них словарь word_map. Давайте разберемся в этой концепции с помощью примеров.

Использование CSV-файла
Чтобы использовать CSV-файл для этой цели, файл должен иметь два столбца, первый столбец состоит из слова, а второй столбец состоит из синонимов, предназначенных для его замены. Давайте сохраним этот файл как syn.csv. В приведенном ниже примере мы создадим класс с именем CSVword_syn_replacer, который будет расширять word_syn_replacer в replacesyn.py файл и будет использоваться для создания словаря word_map из файла syn.csv.

In [8]:
# Работаем с модулем регулярных выражений
import re
from nltk.corpus import wordnet
# Класс замены синонимов
class word_syn_replacer(object):
    def __init__(self, word_map):
        self.word_map = word_map
    def replace(self, word):
        return self.word_map.get(word, word)
    
import csv
class CSVword_syn_replacer(word_syn_replacer):
    def __init__(self, fname):
        word_map = {}
        for line in csv.reader(open(fname)):
            word, syn = line
            word_map[word] = syn
        super(CSVword_syn_replacer, self).__init__(word_map)
rep_syn = CSVword_syn_replacer('Data/syn.csv')
rep_syn.replace('vs') 

'versus'

In [48]:
rep_syn.replace('pls') 

'please'

# Использование файла YAML
Аналогичным образом вместо CSV-файлов можно использовать файлы типа YAML (должен быть установлен модуль PyYAML).

# Замена антонимов
Как мы знаем, антоним - это слово, имеющее противоположное значение другого слова, а противоположность замене синонима называется заменой антонима. В этом разделе мы будем иметь дело с заменой антонимов, то есть заменой слов однозначными антонимами с помощью WordNet. В приведенном ниже примере мы создадим класс с именем word_antonym_replacer, который имеет два метода: один для замены слова, а другой для удаления отрицаний.

In [49]:
from nltk.corpus import wordnet

class word_antonym_replacer(object):
    def replace(self, word, pos=None):
        antonyms = set()
        for syn in wordnet.synsets(word, pos=pos):
            for lemma in syn.lemmas():
                for antonym in lemma.antonyms():
                    antonyms.add(antonym.name())
        if len(antonyms) == 1:
            return antonyms.pop()
        else:
            return None
    def replace_negations(self, sent):
        i, l = 0, len(sent)
        words = []
        while i < l:
            word = sent[i]
            if word == 'not' and i+1 < l:
                ant = self.replace(sent[i+1])
                if ant:
                    words.append(ant)
                    i += 2
                    continue
            words.append(word)
            i += 1
        return words
rep_antonym = word_antonym_replacer()
rep_antonym.replace('uglify')

'beautify'

In [50]:
sentence = ["Let us", 'not', 'uglify', 'our', 'country']
rep_antonym.replace_negations(sentence)

['Let us', 'beautify', 'our', 'country']

# Считыватели корпусов и Пользовательские корпуса (Corpora)
## Что такое корпус?
Корпус - это большая коллекция в структурированном формате машиночитаемых текстов, созданных в естественной коммуникативной обстановке. Слово Corpora - это множественное число от Corpus. Корпус может быть получен многими способами:

- Из текста, который изначально был электронным

- Из расшифровок разговорной речи

- От оптического распознавания символов 

и т.д.

Репрезентативность корпуса, Сбалансированность корпуса, Выборка, Размер корпуса - вот элементы, которые играют важную роль при разработке корпуса. Одними из наиболее популярных корпусов для задач NLP являются TreeBank, PropBank, VarbNet и WordNet.

В работе с русским языком вам поможет следующая ссылка:
http://mathling.phil.spbu.ru/node/160

## Как создать пользовательский корпус?
При загрузке NLTK мы также установили пакет данных NLTK. Итак, на нашем компьютере уже установлен пакет данных NLTK. Если мы говорим о Windows, мы предположим, что этот пакет данных установлен в пользовательском каталоге, в папке "\AppData\Roaming\nltk_data", если мы говорим о Linux, Unix и Mac OS X, то этот пакет данных установлен в скорее всего в /usr/share/natural_language_toolkit_data.

В следующем коде Python мы собираемся создать пользовательские корпуса, которые должны находиться в пределах одного из путей, определенных NLTK. Это так, потому что его можно найти с помощью NLTK. Чтобы избежать конфликта с официальным пакетом данных NLTK, давайте создадим пользовательский каталог natural_language_toolkit_data в нашем домашнем каталоге.

In [53]:
import os, os.path
path = os.path.expanduser('~/nltk_data')
if not os.path.exists(path):
    os.mkdir(path)
os.path.exists(path)

True

In [54]:
import nltk.data
path in nltk.data.path

True

Теперь мы создадим файл списка слов с именем wordfile.txt и поместите его в папку с именем corpus в каталоге nltk_data (~/nltk_data/corpus/wordfile.txt ) и загрузим его с помощью метода nltk.data.load

In [55]:
import nltk.data
nltk.data.load('corpus/wordfile.txt', format = 'raw')



# Ридеры корпусов
NLTK предоставляет различные классы чтения корпусов. Мы рассмотрим их в следующих программах на python

## Создание корпуса списков слов
NLTK имеет класс WordListCorpusReader, который предоставляет доступ к файлу, содержащему список слов. Для следующего рецепта Python нам нужно создать файл списка слов, который может быть CSV или обычным текстовым файлом. Например, мы создали файл с именем "list", который содержит следующие данные

In [56]:
from nltk.corpus.reader import WordListCorpusReader
reader_corpus = WordListCorpusReader('.', ['list'])
reader_corpus.words()

['tutorialspoint', 'Online', 'Free', 'Tutorials']

# Создание корпуса слов с тегами частей речи (POS)
В NLTK есть класс TaggedCorpusReader, с помощью которого мы можем создать корпус слов с тегами POS. На самом деле, пометка POS - это процесс идентификации тега части речи для слова.

Одним из простейших форматов для помеченного корпуса является форма "word/tag", подобная следующей выдержке из корпуса Брауна:

The/at-tl expense/nn and/cc time/nn involved/vbn are/ber

astronomical/jj ./.

В приведенном выше отрывке каждое слово имеет тег, который обозначает его POS. Например, vb относится к глаголу.

Теперь давайте создадим экземпляр класса TaggedCorpusReaderclass, создающий слова с тегами POS из файла ‘list.pos’, в котором есть приведенный выше отрывок.

In [57]:
from nltk.corpus.reader import TaggedCorpusReader
reader_corpus = TaggedCorpusReader('.', r'.*\.pos')
reader_corpus.tagged_words()

[('The', 'AT-TL'), ('expense', 'NN'), ('and', 'CC'), ...]

# Создание фрагментированного (Chunked) корпуса фраз
В NLTK есть класс Chunkedcorpusreader, с помощью которого мы можем создать фрагментированный корпус фраз. На самом деле, фрагмент - это короткая фраза в предложении.

Например, у нас есть следующий отрывок из помеченного корпуса treebank:

[Earlier/JJR staff-reduction/NN moves/NNS] have/VBP trimmed/VBN about/


IN [300/CD jobs/NNS] ,/, [the/DT spokesman/NN] said/VBD ./.



In [58]:
from nltk.corpus.reader import ChunkedCorpusReader
reader_corpus = ChunkedCorpusReader('.', r'.*\.chunk')
reader_corpus.chunked_words()

[Tree('NP', [('Earlier', 'JJR'), ('staff-reduction', 'NN'), ('moves', 'NNS')]), ('have', 'VBP'), ...]

В приведенном выше отрывке каждый фрагмент представляет собой именную фразу, но слова, которые не заключены в скобки, являются частью дерева предложений, а не частью какого-либо поддерева именной фразы.

# Создание категоризированного текстового корпуса
NLTK имеет класс CategorizedPlaintextCorpusReader, с помощью которого мы можем создавать категоризированный текстовый корпус. Это очень полезно в том случае, когда у нас есть большой объем текста и мы хотим разделить его на отдельные разделы.

Например, корпус brown имеет несколько различных категорий. Давайте выясним их с помощью следующего кода на Python

In [59]:
from nltk.corpus import brown
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

Один из самых простых способов классифицировать корпус - иметь один файл для каждой категории. Например, давайте посмотрим два отрывка из корпуса movie_reviews:

movie_pos.txt
**The thin red line is flawed but it provokes.**

movie_neg.txt
**A big-budget and glossy production cannot make up for a lack of spontaneity that permeates their tv show.**

Итак, из приведенных выше двух файлов у нас есть две категории, а именно pos и neg.

Теперь давайте создадим экземпляр класса CategorizedPlaintextCorpusReader.

In [60]:
from nltk.corpus.reader import CategorizedPlaintextCorpusReader
reader_corpus = CategorizedPlaintextCorpusReader('.', r'movie_.*\.txt',cat_pattern = r'movie_(\w+)\.txt')
reader_corpus.categories()

['neg', 'pos']

In [61]:
reader_corpus.fileids(categories = ['neg'])

['movie_neg.txt']

In [62]:
reader_corpus.fileids(categories = ['pos'])

['movie_pos.txt']

# Основы маркировки (тэггинга) частей речи (POS)
## Что такое пометка POS?
Маркировка (тэггинг), своего рода классификация, представляет собой автоматическое присвоение описания токенов. Мы называем дескриптор "тегом", который представляет одну из частей речи (существительные, глаголы, наречия, прилагательные, местоимения, союзы и их подкатегории), семантическую информацию и так далее.

С другой стороны, если мы говорим о тегировании частей речи (POS), его можно определить как процесс преобразования предложения в виде списка слов в список кортежей. Здесь кортежи представлены в виде (word, tag). Мы также можем назвать пометкой POS процесс присвоения заданному слову одной из частей речи.
Давайте разберемся в этом с помощью эксперимента на Python:

In [63]:
import nltk
from nltk import word_tokenize
sentence = "I am going to school"
print (nltk.pos_tag(word_tokenize(sentence)))

[('I', 'PRP'), ('am', 'VBP'), ('going', 'VBG'), ('to', 'TO'), ('school', 'NN')]


# Зачем нужна разметка частей речи (POS-tagging)?
Разметка частей речи является важной частью NLP, поскольку она служит предпосылкой для следующих задач NLP:

- Разделение

- Синтаксический анализ

- Извлечение информации

- Машинный перевод

- Анализ настроений

- Грамматический анализ и устранение неоднозначности смысла слов

## TaggerI - Базовый класс

Все теги находятся в пакете NLTK.tag от nltk. Базовый класс этих теггеров - TaggerI, что означает, что все теггеры наследуются от этого класса.

Методы − класс TaggerI имеет следующие два метода, которые должны быть реализованы всеми его подклассами −

- метод tag() − Как следует из названия, этот метод принимает список слов в качестве входных данных и возвращает список помеченных слов в качестве выходных данных.

- метод evaluate() − С помощью этого метода мы можем оценить точность теггера.

## Основы POS-тэггинга
Базовым или базовым шагом пометки POS является пометка по умолчанию, которая может быть выполнена с использованием класса DefaultTagger NLTK. Маркировка по умолчанию просто присваивает один и тот же POS-тег каждому токену. Пометка по умолчанию также обеспечивает базовую линию для измерения повышения точности.

## Класс DefaultTagger
Пометка по умолчанию выполняется с помощью класса DefaultTagging, который принимает единственный аргумент, то есть тег, который мы хотим применить.

## Как это работает?
Как было сказано ранее, все теггеры наследуются от класса TaggerI. DefaultTagger наследуется от SequentialBackoffTagger, который является подклассом класса TaggerI.
Поскольку он является частью SeuentialBackoffTagger, DefaultTagger должен реализовать метод choose_tag(), который принимает следующие три аргумента.

- Список токенов

- Индекс текущего токена

- Список предыдущих токенов, т.е. история

In [64]:
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
exptagger.tag(['Tutorials','Point'])

[('Tutorials', 'NN'), ('Point', 'NN')]

В этом примере мы выбрали тег существительного, потому что это наиболее распространенные типы слов. Кроме того, Теггер по умолчанию также наиболее полезен, когда мы выбираем наиболее распространенный POS-тег.

# Оценка точности
DefaultTagger также является базовым параметром для оценки точности тегов. Именно по этой причине мы можем использовать его вместе с методом evaluate() для измерения точности. Метод evaluate() использует список помеченных токенов в качестве золотого стандарта для оценки теггера.

Ниже приведен пример, в котором мы использовали наш теггер по умолчанию с именем exptagger, созданный выше, для оценки точности подмножества предложений с тегами treebank corpus −

In [65]:
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
from nltk.corpus import treebank
testsentences = treebank.tagged_sents() [1000:]
exptagger.evaluate (testsentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.13198749536374715

Приведенный выше результат показывает, что, выбирая тэг NN (существительное) для каждого слова мы можем достичь точности тестирования около 13% на 1000 записях корпуса treebank.

# Тэггинг списка предложений
Вместо того, чтобы помечать одно предложение тегом, класс TaggerI от NLTK также предоставляет нам метод tag_sents(), с помощью которого мы можем помечать список предложений. Ниже приведен пример, в котором мы пометили два простых предложения

In [66]:
import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger('NN')
exptagger.tag_sents([['Hi', ','], ['How', 'are', 'you', '?']])

[[('Hi', 'NN'), (',', 'NN')],
 [('How', 'NN'), ('are', 'NN'), ('you', 'NN'), ('?', 'NN')]]

В приведенном выше примере мы использовали наш ранее созданный теггер по умолчанию с именем exp tagger.

# Снятие пометки с предложения
Мы также можем снять пометку с предложения. Для этой цели NLTK предоставляет метод nltk.tag.untag(). Он примет помеченное предложение в качестве входных данных и предоставит список слов без тегов. Давайте посмотрим на пример −

In [67]:
import nltk
from nltk.tag import untag
untag([('Tutorials', 'NN'), ('Point', 'NN')])

['Tutorials', 'Point']

# Тэггер униграмм в NLTK
## Что такое Unigram Tagger?
Как следует из названия, unigram tagger - это теггер, который использует только одно слово в качестве контекста для определения тега POS (части речи). Простыми словами, Unigram Tagger - это основанный на контексте теггер, контекст которого представляет собой одно слово, то есть униграмма.

## Как это работает?
Для этой цели NLTK предоставляет модуль с именем **UnigramTagger**.

# Тэггер юниграмм
UnigramTagger наследуется от NgramTagger, который является подклассом ContextTagger, который наследуется от SequentialBackoffTagger.

Работа UnigramTagger объясняется с помощью следующих шагов

1. Как мы уже видели, UnigramTagger наследует от ContextTagger, он реализует метод context(). Этот метод context() принимает те же три аргумента, что и метод choose_tag().

2. Результатом метода context() будет токен word, который в дальнейшем используется для создания модели. Как только модель создана, токен word также используется для поиска наилучшего тега.

3. Таким образом, UnigramTagger построит контекстную модель из списка помеченных предложений.

## Обучение теггера юниграмм
UnigramTagger от NLTK можно обучить, предоставив список помеченных предложений во время инициализации. В приведенном ниже примере мы собираемся использовать помеченные предложения корпуса treebank. Мы будем использовать первые 2500 предложений из этого корпуса.

In [68]:
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Uni_tagger = UnigramTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.8942306156033808

Здесь мы получили точность около 89 процентов для теггера, который использует поиск по одному слову для определения тега POS.

# Переопределение контекстной модели
Из приведенной выше диаграммы, показывающей иерархию для UnigramTagger, мы знаем, что все теги, которые наследуются от ContextTagger, вместо того, чтобы обучать свои собственные, могут использовать предварительно созданную модель. Эта предварительно созданная модель представляет собой просто сопоставление словаря Python контекстного ключа тегу. И для UnigramTagger контекстные ключи - это отдельные слова, в то время как для других подклассов NgramTagger это будут кортежи.

Мы можем переопределить эту контекстную модель, передав другую простую модель классу Unigram Tagger вместо передачи обучающего набора. Давайте разберемся в этом с помощью приведенного ниже простого примера −

In [35]:
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
Override_tagger = UnigramTagger(model = {'Vinken' : 'NN', 'will': 'VB'})
# , 'will': 'VB'
Override_tagger.tag(treebank.sents()[0])

[('Pierre', None),
 ('Vinken', 'NN'),
 (',', None),
 ('61', None),
 ('years', None),
 ('old', None),
 (',', None),
 ('will', 'VB'),
 ('join', None),
 ('the', None),
 ('board', None),
 ('as', None),
 ('a', None),
 ('nonexecutive', None),
 ('director', None),
 ('Nov.', None),
 ('29', None),
 ('.', None)]

Поскольку наша модель содержит ‘Vinken’ в качестве единственного контекстного ключа, вы можете заметить из приведенных выше выходных данных, что только это слово имеет тег, а каждое другое слово не имеет тега.

# Установка минимального порогового значения частоты
Для определения того, какой тег наиболее вероятен для данного контекста, класс ContextTagger использует частоту встречаемости. Он будет делать это по умолчанию, даже если контекстное слово и тег встречаются только один раз, но мы можем установить минимальный порог частоты, передав значение среза классу UnigramTagger. В приведенном ниже примере мы передаем значение отсечки в предыдущем рецепте, в котором мы обучили UnigramTagger −

In [70]:
from nltk.tag import UnigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Uni_tagger = UnigramTagger(train_sentences, cutoff = 4)
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.7495246768601511

# NLTK - комбинированные теггеры
## Комбинированные теггеры
Комбинация теггеров или связывание теггеров друг с другом является одной из важных функций NLTK. Основная концепция объединения теггеров заключается в том, что в случае, если один теггер не знает, как пометить слово, оно будет передано связанному теггеру. Для достижения этой цели SequentialBackoffTagger предоставляет нам функцию обратного тегирования.

## Обратная разметка
Как говорилось ранее, обратная разметка является одной из важных функций SequentialBackoffTagger, которая позволяет нам комбинировать теги таким образом, что если один теггер не знает, как пометить слово, слово будет передано следующему теггеру и так далее, пока не останется никаких обратных тегов для проверки.

## Как это работает?
На самом деле, каждый подкласс SequentialBackoffTagger может принимать аргумент ключевого слова ‘backoff’. Значение этого аргумента ключевого слова является еще одним экземпляром SequentialBackoffTagger. Теперь всякий раз, когда этот класс SequentialBackoffTagger инициализируется, будет создан внутренний список тегов backoff (с самим собой в качестве первого элемента). Более того, если задан вспомогательный теггер, будет добавлен внутренний список этих вспомогательных теггеров.

В приведенном ниже примере мы используем DefaulTagger в качестве обратного теггера в приведенном выше коде Python, с помощью которого мы обучили UnigramTagger.

In [71]:
from nltk.tag import UnigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Uni_tagger = UnigramTagger(train_sentences, backoff = back_tagger)
test_sentences = treebank.tagged_sents()[1500:]
Uni_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.9061975746536931

Из приведенного выше вывода вы можете заметить, что при добавлении обратного теггера точность увеличивается примерно на 2%.

## Сохранение таггера с сериализацией
Как мы уже видели, обучение теггера очень трудоемко и к тому же требует времени. Чтобы сэкономить время, мы можем выбрать обученный теггер для последующего использования. В приведенном ниже примере мы собираемся сделать это с нашим уже обученным теггером с именем ‘Uni_tagger’.

In [72]:
import pickle
f = open('Uni_tagger.pickle','wb')
pickle.dump(Uni_tagger, f)
f.close()
f = open('Uni_tagger.pickle','rb')
Uni_tagger = pickle.load(f)

# Класс NgramTagger
UnigramTagger наследуется от класса NgarmTagger, но у нас есть еще два подкласса класса NgarmTagger −

## Подкласс теггеров биграмм
На самом деле ngram - это подпоследовательность из n элементов, следовательно, как следует из названия, подкласс BigramTagger рассматривает два элемента. Первый элемент - это предыдущее помеченное слово, а второй элемент - текущее помеченное слово.

## Подкласс теггеров триграмм
На той же ноте, что и в случае с BigramTagger, подкласс TrigramTagger просматривает три элемента, то есть два предыдущих помеченных слова и одно текущее помеченное слово.

Практически, если мы применяем подклассы BigramTagger и TrigramTagger по отдельности, как мы это делали с подклассом UnigramTagger, они оба работают очень плохо. Давайте посмотрим на приведенные ниже примеры:

Использование подкласса BigramTagger

In [73]:
from nltk.tag import BigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Bi_tagger = BigramTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Bi_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.44669191071913594

Использование подкласса TrigramTagger

In [74]:
from nltk.tag import TrigramTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Tri_tagger = TrigramTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Tri_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.41949863394526193

Вы можете сравнить эффективность Unigram Tagger, который мы использовали ранее (точность около 89%), с BigramTagger (точность около 44%) и TrigramTagger (точность около 41%). Причина в том, что теггеры биграмм и триграмм не могут узнать контекст по первому слову (словам) в предложении. С другой стороны, класс UnigramTagger не заботится о предыдущем контексте и угадывает наиболее распространенный тег для каждого слова, следовательно, может иметь высокую базовую точность.

# Комбинированные тэггеры N-грамм
Как видно из приведенных выше примеров, очевидно, что теггеры биграмм и триграмм могут внести свой вклад, если мы объединим их с обратным тегированием. В приведенном ниже примере мы объединяем теги Unigram, Bigram и Trigram с обратным тегированием. Концепция та же, что и в предыдущем рецепте, но в ней объединены UnigramTagger и backoff tagger. Единственное отличие заключается в том, что мы используем функцию с именем backoff_tagger() из tagger_util.py , приведенных ниже, для операции резервного копирования.

In [75]:
def backoff_tagger(train_sentences, tagger_classes, backoff=None):
   for cls in tagger_classes:
      backoff = cls(train_sentences, backoff=backoff)
   return backoff

from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(train_sentences,
[UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  from ipykernel import kernelapp as app


0.9234530029238365

Из приведенного выше вывода мы видим, что это увеличивает точность примерно на 3%.

# Комбинированные теггеры NLTK
## Теггер Affix
Еще одним важным классом подкласса ContextTagger является AffixTagger. В классе AffixTagger контекст является либо префиксом, либо суффиксом слова. Именно по этой причине класс AffixTagger может изучать теги на основе подстрок фиксированной длины начала или конца слова.

## Как это работает?
Его работа зависит от аргумента с именем affix_length, который определяет длину префикса или суффикса. Значение по умолчанию равно 3. Но как он различает, является ли класс AffixTagger изученным префиксом или суффиксом слова?

- **affix_length=positive** − Если значение affix_length положительное, то это означает, что класс AffixTagger будет изучать префиксы слов.

- **affix_length=negative** − Если значение affix_length отрицательно, то это означает, что класс AffixTagger будет изучать суффиксы слов

Чтобы было понятнее, в приведенном ниже примере мы будем использовать класс AffixTagger для помеченных предложений treebank.

In [76]:
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.2800492099250667

Давайте посмотрим в приведенном ниже примере, какова будет точность, когда мы предоставим значение 4 аргументу affix_length −

In [77]:
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Prefix_tagger = AffixTagger(train_sentences, affix_length=4 )
test_sentences = treebank.tagged_sents()[1500:]
Prefix_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.18154947354966527

В этом примере AffixTagger узнает суффикс слова, потому что мы зададим отрицательное значение для аргумента affix_length.

In [78]:
from nltk.tag import AffixTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
Suffix_tagger = AffixTagger(train_sentences, affix_length = -3)
test_sentences = treebank.tagged_sents()[1500:]
Suffix_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.2800492099250667

# Brill-теггер
Brill Tagger - это теггер, основанный на преобразовании. NLTK предоставляет класс BrillTagger, который является первым теггером, который не является подклассом SequentialBackoffTagger. Напротив, Brill Tagger использует ряд правил для исправления результатов начального теггера.

## Как это работает?
Чтобы обучить класс BrillTagger с помощью BrillTaggerTrainer, мы определяем следующую функцию

In [79]:
def train_brill_tagger(initial_tagger, train_sents, **kwargs):
    templates = [
        brill.Template(brill.Pos([-1])),
        brill.Template(brill.Pos([1])),
        brill.Template(brill.Pos([-2])),
        brill.Template(brill.Pos([2])),
        brill.Template(brill.Pos([-2, -1])),
        brill.Template(brill.Pos([1, 2])),
        brill.Template(brill.Pos([-3, -2, -1])),
        brill.Template(brill.Pos([1, 2, 3])),
        brill.Template(brill.Pos([-1]), brill.Pos([1])),
        brill.Template(brill.Word([-1])),
        brill.Template(brill.Word([1])),
        brill.Template(brill.Word([-2])),
        brill.Template(brill.Word([2])),
        brill.Template(brill.Word([-2, -1])),
        brill.Template(brill.Word([1, 2])),
        brill.Template(brill.Word([-3, -2, -1])),
        brill.Template(brill.Word([1, 2, 3])),
        brill.Template(brill.Word([-1]), brill.Word([1])),
    ]
    trainer = brill_trainer.BrillTaggerTrainer(initial_tagger, templates, deterministic=True)
    return trainer.train(train_sents, **kwargs)


Как мы можем видеть, для этой функции требуются initial_tagger и train_sentences. Он принимает аргумент initial_tagger и список шаблонов, который реализует интерфейс шаблона детализации. Интерфейс BrillTemplate находится в модуле nltk.tbl.template. Одной из таких реализаций является класс **brill.Tempate**.

Основная роль теггера на основе преобразования заключается в создании правил преобразования, которые корректируют вывод исходного теггера, чтобы он больше соответствовал обучающим предложениям. Давайте посмотрим на рабочий процесс ниже −

# Brill-теггер
## Пример
В этом примере мы будем использовать combine_tagger, который мы создали, вычесывая теги (в предыдущем примере) из резервной цепочки классов NgramTagger, в качестве initial_tagger. Сначала давайте оценим результат с помощью Combine.tagger, а затем используем его в качестве initial_tagger для обучения теггера brill.

In [80]:
def backoff_tagger(train_sentences, tagger_classes, backoff=None):
   for cls in tagger_classes:
      backoff = cls(train_sentences, backoff=backoff)
   return backoff
from nltk.tag import UnigramTagger
from nltk.tag import BigramTagger
from nltk.tag import TrigramTagger
from nltk.tag import DefaultTagger
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
back_tagger = DefaultTagger('NN')
Combine_tagger = backoff_tagger(
   train_sentences, [UnigramTagger, BigramTagger, TrigramTagger], backoff = back_tagger
)
test_sentences = treebank.tagged_sents()[1500:]
Combine_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  app.launch_new_instance()


0.9234530029238365

Теперь давайте посмотрим на результат оценки, когда Combine_tagger используется в качестве initial_tagger для обучения теггера brill

In [81]:
from nltk.tag import brill, brill_trainer
def train_brill_tagger(initial_tagger, train_sents, **kwargs):
    templates = [
        brill.Template(brill.Pos([-1])),
        brill.Template(brill.Pos([1])),
        brill.Template(brill.Pos([-2])),
        brill.Template(brill.Pos([2])),
        brill.Template(brill.Pos([-2, -1])),
        brill.Template(brill.Pos([1, 2])),
        brill.Template(brill.Pos([-3, -2, -1])),
        brill.Template(brill.Pos([1, 2, 3])),
        brill.Template(brill.Pos([-1]), brill.Pos([1])),
        brill.Template(brill.Word([-1])),
        brill.Template(brill.Word([1])),
        brill.Template(brill.Word([-2])),
        brill.Template(brill.Word([2])),
        brill.Template(brill.Word([-2, -1])),
        brill.Template(brill.Word([1, 2])),
        brill.Template(brill.Word([-3, -2, -1])),
        brill.Template(brill.Word([1, 2, 3])),
        brill.Template(brill.Word([-1]), brill.Word([1])),
    ]
    trainer = brill_trainer.BrillTaggerTrainer(initial_tagger, templates, deterministic=True)
    return trainer.train(train_sents, **kwargs)
brill_tagger = train_brill_tagger(Combine_tagger, train_sentences)
brill_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.


0.9246832510505041

Мы можем заметить, что класс BrillTagger имеет немного повышенную точность по сравнению с Combine_tagger.

# TnT-теггер
TnT Tagger, расшифровывающийся как Trigram'Ntags, представляет собой статистический теггер, основанный на марковских моделях второго порядка.

## Как это работает?
Мы можем понять работу TnT tagger с помощью следующих шагов −

1. Во-первых, на основе обучающих данных TnT tagger поддерживает несколько внутренних экземпляров FreqDist и ConditionalFreqDist.

2. После этого униграммы, биграммы и триграммы будут подсчитываться по этим частотным распределениям.

3. Теперь, во время пометки, используя частоты, он будет вычислять вероятности возможных тегов для каждого слова.

Вот почему вместо построения обратной цепочки NgramTagger он использует все модели ngramtagger вместе, чтобы выбрать лучший тег для каждого слова. Давайте оценим точность с помощью TnT tagger в следующем примере


In [82]:
import sys
from nltk.tag import tnt
from nltk.corpus import treebank
train_sentences = treebank.tagged_sents()[:2500]
tnt_tagger = tnt.TnT()
tnt_tagger.train(train_sentences)
test_sentences = treebank.tagged_sents()[1500:]
tnt_tagger.evaluate(test_sentences)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  


0.9165508316157791

У нас немного меньшая точность, чем у Brill Tagger.

**Пожалуйста, обратите внимание, что нам нужно вызвать train() перед evaluate(), в противном случае мы получим точность 0%.**

# NLTK - Синтаксический анализ


## Синтаксический анализ и его значение в NLP
Слово "Синтаксический анализ" (Parsing), происхождение которого происходит от латинского слова "pars" (что означает "часть"), используется для извлечения точного значения или словарного значения из текста. Сравнивая правила формальной грамматики, синтаксический анализ проверяет текст на осмысленность. Например, предложение типа “Дайте мне горячее мороженое” будет отклонено синтаксическим анализатором или синтаксическим анализатором.

В этом смысле мы можем определить синтаксический анализ (parsing) следующим образом:
**Процесс анализа строк символов на естественном языке, соответствующих правилам формальной грамматики.**
![relevance.jpg](attachment:relevance.jpg)

## Актуальность
Мы можем понять актуальность синтаксического анализа в НЛП с помощью следующих моментов −

- Синтаксический анализатор используется для сообщения о любой синтаксической ошибке.

- Данная возможность помогает восстановиться после часто встречающейся ошибки, чтобы можно было продолжить обработку оставшейся части программы.

- Дерево синтаксического анализа создается с помощью синтаксического анализатора.

- Синтаксический анализатор используется для создания таблицы символов, которая играет важную роль в NLP.

- Синтаксический анализатор также используется для создания промежуточных представлений (IR).

## Глубокий И Поверхностный Синтаксический Анализ

|Глубокий парсинг|Поверхностный парсинг|
|-------------------------------------------------|----------------------------------------------------|
|При глубоком синтаксическом анализе стратегия поиска придаст предложению полную синтаксическую структуру.|Это задача синтаксического анализа ограниченной части синтаксической информации из данной задачи.|
|Подходит для сложных приложений NLP|Можно использовать для менее сложных приложений NLP|
|Диалоговые системы и обобщение являются примерами приложений NLP, в которых используется глубокий синтаксический анализ.| Извлечение информации и интеллектуальный анализ текста являются примерами приложений NLP, в которых используется поверхностный синтаксический анализ.|
|Также называется полным синтаксическим анализом.|Также называется разделением на части (chunking).|

## Различные типы анализаторов
Как уже обсуждалось, синтаксический анализатор - это, по сути, процедурная интерпретация грамматики. Он находит оптимальное дерево для данного предложения после поиска в пространстве множества деревьев. Давайте посмотрим на некоторые из доступных анализаторов ниже −

## Анализатор рекурсивного спуска
Синтаксический анализ с рекурсивным спуском - одна из самых простых форм синтаксического анализа. Ниже приведены некоторые важные моменты о синтаксическом анализаторе рекурсивного спуска −

- Производится по принципу "сверху вниз".

- Пытается проверить, является ли синтаксис входного потока правильным или нет.

- Считывает вводимое предложение слева направо.

Одной из необходимых операций для анализатора рекурсивного спуска является считывание символов из входного потока и сопоставление их с терминальными символами из грамматики.

## Анализатор сдвига-уменьшения
Ниже приведены некоторые важные моменты о синтаксическом анализаторе shift-reduce −
- Следует простому восходящему процессу.
- Пытается найти последовательность слов и фраз, которые соответствуют правой части грамматического произведения, и заменяет их левой частью произведения.
- Описанная выше попытка найти последовательность слов продолжается до тех пор, пока все предложение не будет сокращено.

Иначе говоря, синтаксический анализатор shift-reduce начинается с входного символа и пытается построить дерево синтаксического анализа вплоть до начального символа.

## Анализатор диаграмм
Ниже приведены некоторые важные моменты о анализаторе диаграмм:
- В основном полезен или подходит для неоднозначных грамматик, включая грамматики естественных языков.
- Применяет динамическое программирование к задачам синтаксического анализа.
- Из-за динамического программирования частичные гипотетические результаты хранятся в структуре, называемой ‘диаграммой’.
- ‘Диаграмма’ также может быть использована повторно.

# Анализатор регулярных выражений
Синтаксический анализ регулярных выражений - один из наиболее часто используемых методов синтаксического анализа. Ниже приведены некоторые важные моменты о анализаторе регулярных выражений −
- Как следует из названия, он использует регулярное выражение, определенное в форме грамматики поверх строки с POS-тегом.
- В основном использует эти регулярные выражения для синтаксического анализа входных предложений и создания на их основе дерева синтаксического анализа.

Ниже приведен рабочий пример синтаксического анализатора регулярных выражений −

In [83]:
import nltk
sentence = [
   ("a", "DT"),
   ("clever", "JJ"),
   ("fox","NN"),
   ("was","VBP"),
   ("jumping","VBP"),
   ("over","IN"),
   ("the","DT"),
   ("wall","NN")
]
grammar = "NP:{<DT>?<JJ>*<NN>}" 
Reg_parser = nltk.RegexpParser(grammar)
Reg_parser.parse(sentence)
Output = Reg_parser.parse(sentence)
Output.draw()

![semantic_tree.png](attachment:semantic_tree.png)

# Синтаксический анализ зависимостей
Анализ зависимостей (DP), современный механизм синтаксического анализа, основная концепция которого заключается в том, что каждая лингвистическая единица, то есть слова, связаны друг с другом прямой связью. Эти прямые связи на самом деле являются "зависимостями" в лингвистике. Например, на следующей диаграмме показана грамматика зависимостей для предложения “Джон может ударить по мячу”.
![dependency_parsing.jpg](attachment:dependency_parsing.jpg)

## Пакет синтаксического анализа зависимостей в NLTK
У нас есть следующие два способа выполнить синтаксический анализ зависимостей с помощью NLTK −
- Вероятностный, проективный анализатор зависимостей

Это первый способ, которым мы можем выполнить синтаксический анализ зависимостей с помощью NLTK. Но этот анализатор имеет ограничение на обучение с ограниченным набором обучающих данных.
- Стэнфордский анализатор

Это еще один способ, которым мы можем выполнить синтаксический анализ зависимостей с помощью NLTK. Stanford parser - это современный анализатор зависимостей. У NLTK есть оболочка вокруг него. Чтобы использовать его, нам нужно загрузить следующие две вещи −

## Анализатор CoreNLP из Стэнфорда.
Языковая модель для желаемого языка. Например, модель английского языка.

**Примечание:** первоначальную установку парсера можно выполнить, пройдя по ссылке:
https://nlp.stanford.edu/software/lex-parser.shtml#Download

После того, как вы загрузили модель, мы можем использовать ее через NLTK следующим образом −

In [84]:
import os
java_path = 'D:/Program files/Java/bin/java.exe'
os.environ['JAVAHOME'] = java_path

from nltk.parse.stanford import StanfordDependencyParser
path_jar = 'C:/Users/acer/nltk_data/stanford-parser-4.2.0/stanford-parser.jar'
path_models_jar = 'C:/Users/acer/nltk_data/stanford-parser-4.2.0/stanford-parser-4.2.0-models.jar'

dep_parser = StanfordDependencyParser(
   path_to_jar = path_jar, path_to_models_jar = path_models_jar
)
result = dep_parser.raw_parse('I shot an elephant in my sleep')
dependency = next(result)
list(dependency.triples())

Please use [91mnltk.parse.corenlp.CoreNLPDependencyParser[0m instead.
  # Remove the CWD from sys.path while we load stuff.


[(('shot', 'VBD'), 'nsubj', ('I', 'PRP')),
 (('shot', 'VBD'), 'obj', ('elephant', 'NN')),
 (('elephant', 'NN'), 'det', ('an', 'DT')),
 (('shot', 'VBD'), 'obl', ('sleep', 'NN')),
 (('sleep', 'NN'), 'case', ('in', 'IN')),
 (('sleep', 'NN'), 'nmod:poss', ('my', 'PRP$'))]

# Фрагментация и Извлечение информации
## Что такое фрагментация (chunking)?
Фрагментация, один из важных процессов обработки естественного языка, используется для идентификации частей речи (POS) и коротких фраз. Другими простыми словами, с помощью фрагментации мы можем получить структуру предложения. Это также называется частичным синтаксическим анализом.

## Шаблоны фрагментов и фрагменты
Шаблоны фрагментов - это шаблоны тегов частей речи (POS), которые определяют, какие слова составляют фрагмент. Мы можем определять шаблоны фрагментов с помощью модифицированных регулярных выражений.

Более того, мы также можем определить шаблоны для того, какие слова не должны быть в фрагменте, и эти непересекающиеся слова известны как пробелы.

### Пример реализации
В приведенном ниже примере, наряду с результатом синтаксического анализа предложения “в книге много глав”, есть грамматика для именных фраз, которая сочетает в себе как фрагмент, так и шаблон chink

In [85]:
import nltk
sentence = [("the", "DT"),("book", "NN"),("has","VBZ"),("many","JJ"),("chapters","NNS")]
chunker = nltk.RegexpParser(
   r'''
   NP:{<DT><NN.*><.*>*<NN.*>}
   }<VB.*>{
   '''
)
chunker.parse(sentence)
Output = chunker.parse(sentence)
Output.draw()

![semantic_tree2.png](attachment:semantic_tree2.png)

## Шаблоны фрагментов
Как видно выше, шаблон для указания фрагмента заключается в использовании фигурных скобок следующим образом, а чтобы указать разрыв, мы можем перевернуть фигурные скобки.

# Извлечение информации
   
Мы рассмотрели теггеры, а также синтаксические анализаторы, которые можно использовать для создания механизма извлечения информации. Давайте посмотрим на базовый конвейер извлечения информации −

Извлечение информации имеет множество применений, включая −
- Бизнес-аналитика
- Возобновите сбор урожая
- Анализ средств массовой информации
- Обнаружение настроений
- Патентный поиск
- Сканирование электронной почты
- Распознавание именованных объектов (NER)

Распознавание именованных сущностей (NER) на самом деле является способом извлечения некоторых наиболее распространенных сущностей, таких как имена, организации, местоположение и т.д. Давайте посмотрим на пример, который выполнял все этапы предварительной обработки, такие как токенизация предложений, пометка POS, разделение на фрагменты, NER, и следует конвейеру, представленному на рисунке выше.

In [86]:
import nltk
file = open ('naming.txt')
data_text = file.read()
sentences = nltk.sent_tokenize(data_text)
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
for sent in tagged_sentences:
    print(nltk.ne_chunk(sent))

(S
  A/DT
  (ORGANIZATION Pacific/NNP Ocean/NNP)
  вЂ/NNP
  ”/VBZ
  A/DT
  blue/JJ
  demi-globe/NN
  ./.)
(S Islands/NNS like/IN punctuation/NN marks/NNS ./.)
(S
  A/DT
  cruising/NN
  airliner/NN
  ;/:
  Passengers/NNP
  unwrapping/VBG
  pats/NNS
  of/IN
  butter/NN
  ./.)
(S
  A/DT
  hurricane/NN
  arises/NNS
  ,/,
  Tosses/VBZ
  the/DT
  plane/NN
  into/IN
  the/DT
  sea/NN
  ./.)
(S
  Five/CD
  of/IN
  them/PRP
  ,/,
  flung/VB
  onto/IN
  an/DT
  island/NN
  beach/NN
  ,/,
  (GPE Survived/NNP)
  ./.)
(S Tom/NNP the/DT reporter/NN ./.)
(S Susan/NNP the/DT botanist/NN ./.)
(S Jim/NNP the/DT high/JJ jump/NN champion/NN ./.)
(S Bill/IN the/DT carpenter/NN ./.)
(S Mary/NNP the/DT eccentric/JJ widow/NN ./.)


Некоторые из модифицированных функций распознавания именованных объектов (NER) также можно использовать для извлечения таких объектов, как названия продуктов, биомедицинские объекты, название бренда и многое другое.

# Извлечение отношений
Извлечение связей, еще одна часто используемая операция извлечения информации, представляет собой процесс извлечения различных связей между различными объектами. Могут существовать различные отношения, такие как наследование, синонимы, аналогии и т.д., Определение которых зависит от потребности в информации. Например, предположим, что если мы хотим найти название книги, то авторство будет представлять собой связь между именем автора и названием книги.

В следующем примере мы используем тот же конвейер IE, как показано на приведенной выше диаграмме, который мы использовали до отношения именованных сущностей (NER), и расширяем его шаблоном отношений, основанным на тегах NER.

In [87]:
import nltk
import re
IN = re.compile(r'.*\bin\b(?!\b.+ing)')
for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):
    for rel in nltk.sem.extract_rels('ORG', 'LOC', doc, corpus = 'ieer',pattern = IN):
        print(nltk.sem.rtuple(rel))

[ORG: 'WHYY'] 'in' [LOC: 'Philadelphia']
[ORG: 'McGlashan &AMP; Sarrail'] 'firm in' [LOC: 'San Mateo']
[ORG: 'Freedom Forum'] 'in' [LOC: 'Arlington']
[ORG: 'Brookings Institution'] ', the research group in' [LOC: 'Washington']
[ORG: 'Idealab'] ', a self-described business incubator based in' [LOC: 'Los Angeles']
[ORG: 'Open Text'] ', based in' [LOC: 'Waterloo']
[ORG: 'WGBH'] 'in' [LOC: 'Boston']
[ORG: 'Bastille Opera'] 'in' [LOC: 'Paris']
[ORG: 'Omnicom'] 'in' [LOC: 'New York']
[ORG: 'DDB Needham'] 'in' [LOC: 'New York']
[ORG: 'Kaplan Thaler Group'] 'in' [LOC: 'New York']
[ORG: 'BBDO South'] 'in' [LOC: 'Atlanta']
[ORG: 'Georgia-Pacific'] 'in' [LOC: 'Atlanta']


В приведенном выше коде мы использовали встроенный корпус с именем ieer. В этом корпусе предложения помечаются до отношения именованной сущности (NER). Здесь нам нужно только указать шаблон отношения, который мы хотим, и тип NER, который мы хотим, чтобы это отношение определяло. В нашем примере мы определили взаимосвязь между организацией и местоположением. Мы извлекли все комбинации этих паттернов.

# NLTK - Преобразование фрагментов
## Зачем преобразовывать фрагменты?
До сих пор у нас были куски или фразы из предложений, но что мы должны с ними делать? Одна из важных задач - трансформировать их. Но почему? Это делается для того, чтобы сделать следующее −

- грамматическая коррекция и
- перестановка фраз
- Фильтрация незначимых/бесполезных слов

Предположим, если вы хотите оценить значение фразы, то есть много часто используемых слов, таких как "the", "a", которые являются незначительными или бесполезными. Например, смотрите следующую фразу −

‘Фильм был хорошим’.

Здесь наиболее значимыми словами являются "фильм" и "хороший’. Другими словами, и "то", и ‘было’ бесполезны или незначительны. Это потому, что и без них мы можем получить то же значение фразы. ‘Хороший фильм’.

В следующем коде python мы узнаем, как удалить бесполезные / незначимые слова и сохранить значимые слова с помощью POS-тегов.
Во-первых, просматривая корпус treebank в поисках стоп-слов, нам нужно решить, какие теги части речи являются значимыми, а какие нет. Давайте посмотрим на следующую таблицу незначимых слов и тегов

В этом примере мы собираемся использовать функцию с именем filter(), которая принимает один фрагмент и возвращает новый фрагмент без каких-либо незначительных помеченных слов. Эта функция отфильтровывает все теги, которые заканчиваются на DT или CC.

In [88]:
import nltk
def filter(chunk, tag_suffixes=['DT', 'CC']):
   significant = []
   for word, tag in chunk:
      ok = True
      for suffix in tag_suffixes:
         if tag.endswith(suffix):
            ok = False
            break
      if ok:
         significant.append((word, tag))
   return (significant)
filter([('the', 'DT'),('good', 'JJ'),('movie', 'NN')])

[('good', 'JJ'), ('movie', 'NN')]

# Исправление глаголов
Много раз в реальном языке мы видим неправильные формы глаголов. Например, "с тобой все в порядке?" - это неверно. Форма глагола в этом предложении неправильная. Предложение должно быть таким: "Ты в порядке?’ NLTK предоставляет нам способ исправить такие ошибки, создавая сопоставления для исправления глаголов. Эти корректирующие сопоставления используются в зависимости от того, есть ли в фрагменте существительное во множественном или единственном числе.

Чтобы реализовать код Python, нам сначала нужно определить сопоставления коррекции глаголов. Давайте создадим два отображения следующим образом

In [89]:
# Сопоставления множественного числа с единственным числом
plural= {('is', 'VBZ'): ('are', 'VBP'),('was', 'VBD'): ('were', 'VBD')}
# Сопоставления единственного числа с множественным числом
singular = {('are', 'VBP'): ('is', 'VBZ'),('were', 'VBD'): ('was', 'VBD')}

Как видно выше, каждое сопоставление имеет помеченный глагол, который сопоставляется с другим помеченным глаголом. Начальные сопоставления в нашем примере охватывают основы сопоставлений is to are, was to were и наоборот.

Далее мы определим функцию с именем verbs(), в которой вы можете передать фрагмент с неправильной формой глагола и получить исправленный фрагмент обратно. Чтобы сделать это, функция verb() использует вспомогательную функцию с именем index_chunk(), которая будет искать в фрагменте позицию первого помеченного слова.

Давайте посмотрим на эти функции:

In [90]:
# Сопоставления множественного числа с единственным числом
plural= {('is','VBZ'):('are','VBP'), ('was','VBD'):('were','VBD')}
# Сопоставления единственного числа с множественным числом
singular = {('are','VBP'):('is','VBZ'),('were','VBD'):('was','VBD')}

def index_chunk(chunk, pred, start = 0, step = 1):
    l = len(chunk)
    end = l if step > 0 else -1
    for i in range(start, end, step):
        if pred(chunk[i]):
            return i  
    return None    
    
def tag_startswith(prefix):
    def f(wt):
        return wt[1].startswith(prefix)
    return f

def verbs(chunk):
    vbidx = index_chunk(chunk, tag_startswith('VB'))
    # if no verb found, do nothing
    if vbidx is None:
        return chunk
    verb, vbtag = chunk[vbidx]
    nnpred = tag_startswith('NN')
    # find nearest noun to the right of verb
    nnidx = index_chunk(chunk, nnpred, start = vbidx+1)
    # if no noun found to right, look to the left
    if nnidx is None:
        nnidx = index_chunk(chunk, nnpred, start = vbidx-1, step = -1)
    if nnidx is None:
        return chunk
    noun, nntag = chunk[nnidx]
    # get correct verb form and insert into chunk"
    if nntag.endswith('S'):
        chunk[vbidx] = plural.get((verb,vbtag),(verb,vbtag))
    else:
        chunk[vbidx] = singular.get((verb,vbtag),(verb,vbtag))
    return chunk

verbs([('is','VBZ'),('hipsters','NNPS'),('fine','VBG')])

[('are', 'VBP'), ('hipsters', 'NNPS'), ('fine', 'VBG')]

# Исключение пассивного залога из фраз
Еще одна полезная задача - исключить пассивный залог из фраз. Это можно сделать с помощью замены слов вокруг глагола. Например, ‘учебное пособие было отличным" может быть преобразовано в "отличное учебное пособие’.
Для достижения этой цели мы определяем функцию с именем eliminate_passive(), которая заменит правую часть фрагмента на левую, используя глагол в качестве точки поворота. Чтобы найти глагол для поворота, он также будет использовать функцию index_chunk(), определенную выше.

In [91]:
def index_chunk(chunk, pred, start = 0, step = 1):
    l = len(chunk)
    end = l if step > 0 else -1
    for i in range(start, end, step):
        if pred(chunk[i]):
            return i  
    return None

def eliminate_passive(chunk):
   def vbpred(wt):
      word, tag = wt
      return tag != 'VBG' and tag.startswith('VB') and len(tag) > 2
   vbidx = index_chunk(chunk, vbpred)
   if vbidx is None:
      return chunk
   return chunk[vbidx+1:] + chunk[:vbidx]

eliminate_passive([('the', 'DT'), ('tutorial', 'NN'), ('was', 'VBD'), ('great', 'JJ')])

[('great', 'JJ'), ('the', 'DT'), ('tutorial', 'NN')]

# Перестановка "кардинальных чисел" у имен существительных
Как мы знаем, кардинальное число (слово-число, часть речи, используемая для счета), такое как 5, помечается как CD в фрагменте. Эти кардинальные слова часто встречаются перед существительным или после него, но для целей нормализации полезно всегда ставить их перед существительным. Например, дата 5 января может быть записана как 5 января. Давайте разберемся в этом на следующем примере.
Для достижения этой цели мы определяем функцию с именем swapping_cardinals(), которая заменит любой кардинал, который встречается сразу после существительного, на существительное. При этом кардинальное число будет стоять непосредственно перед существительным. Для того, чтобы выполнить сравнение равенства с данным тегом, он использует вспомогательную функцию, которую мы назвали tag_eql().

In [92]:
def tag_eql(tag):
    def f(wt):
        return wt[1] == tag
    return f

def swapping_cardinals (chunk):
    cdidx = index_chunk(chunk, tag_eql('CD'))
    if not cdidx or not chunk[cdidx-1][1].startswith('NN'):
        return chunk
    noun, nntag = chunk[cdidx-1]
    chunk[cdidx-1] = chunk[cdidx]
    chunk[cdidx] = noun, nntag
    return chunk

swapping_cardinals([('Janaury', 'NNP'), ('5', 'CD')])

[('5', 'CD'), ('Janaury', 'NNP')]

In [93]:
[('10', 'CD'), ('January', 'NNP')]

[('10', 'CD'), ('January', 'NNP')]

Таким образом, мы разобрали базовые функции анализа текстов в NLTK
# Домашнее задание
- Разберитесь с приведенными примерами.
- Выберите самостоятельно тексты на английском для примеров (в блокноте Jupyter и в файлах в папке блокнота), посмотрите как будут работать на них алгоритмы NLP

In [3]:
import nltk

nltk.download('omw') # загрузка русского корпуса WordNet

from nltk.corpus import wordnet

# Теперь вы можете использовать русский корпус WordNet

[nltk_data] Downloading package omw to C:\Users\acer/nltk_data...


In [4]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

text = "Послушайте, ребята, Что вам расскажет дед. Земля наша богата, Порядка в ней лишь нет."
wordnet = WordNetLemmatizer()
tokenizer = word_tokenize(text)

for token in tokenizer:
    print(token,"--->",wordnet.lemmatize(token))

Послушайте ---> Послушайте
, ---> ,
ребята ---> ребята
, ---> ,
Что ---> Что
вам ---> вам
расскажет ---> расскажет
дед ---> дед
. ---> .
Земля ---> Земля
наша ---> наша
богата ---> богата
, ---> ,
Порядка ---> Порядка
в ---> в
ней ---> ней
лишь ---> лишь
нет ---> нет
. ---> .


In [6]:
from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize,pos_tag

lemmatizer = WordNetLemmatizer()

phrase = "Послушайте, ребята, Что вам расскажет дед. Земля наша богата, Порядка в ней лишь нет."

words = phrase.split()

lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

lemmatized_phrase = ' '.join(lemmatized_words)

print(lemmatized_phrase)

Послушайте, ребята, Что вам расскажет дед. Земля наша богата, Порядка в ней лишь нет.
