# Автоматическая обработка текста

[Список полезных библиотек для обработки текста](https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0)

In [34]:
import warnings

warnings.filterwarnings('ignore')

In [179]:
# Возьмём предлодение:

sentence = ['Образование само по себе имеет ценность, независимо от того, \
            какое экономическое воздействие оно оказывает на общество.']

Для того, чтобы данное предложение было машиночитаемым, переведём его в математический объект

In [182]:
# Установим библиотеку scikit-learn
!pip install scikit-learn



Используя модуль CountVectorizer библиотеки scikit-learn, можно векторизовать предыдущее предложение и сгенерировать выходную матрицу с вектором:

In [183]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit_transform(sentence).todense()

matrix([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

Библиотека Natural Language Toolkit ( NLTK ) — одна из самых популярных библиотек Python для обработки естественного языка. Она была разработана Стивеном Бердом и Эдвардом Лопером из Пенсильванского университета. Эта библиотека, разработанная учеными и исследователями, предназначена для поддержки исследований в области NLP и содержит набор обучающих ресурсов, которые предоставляют отличный способ изучения NLP.

Официальный сайт NLTK: https://www.nltk.org/

In [185]:
# установим NLTK:
!pip install nltk



#### Корпуса НЛТК
Корпус — это большой массив текстовых или лингвистических данных, который очень важен в NLP-исследованиях для разработки и тестирования приложений. NLTK позволяет пользователям получить доступ к более чем 50 корпусам и лексическим ресурсам (многие из них сопоставлены с приложениями на основе ML). Мы можем импортировать любой из доступных корпусов в нашу программу и использовать функции NLTK для анализа текста в импортированном корпусе.  
Более подробную информацию о каждом корпусе можно найти здесь: http://www.nltk.org/book/ch02.html.

#### Обработка текста
Ключевой частью NLP является преобразование текста в математические объекты. NLTK предоставляет различные функции, которые помогают нам преобразовывать текст в векторы. Самая основная функция NLTK для этой цели — токенизация, которая разбивает документ на список единиц. Этими единицами могут быть слова, алфавиты или предложения.

Обратитесь к следующему фрагменту кода, чтобы выполнить токенизацию с помощью библиотеки NLTK

In [186]:
# загрузим NKTL:
from nltk.tokenize import word_tokenize

text = 'Для писателя самое ценное — читать всё, что попадется ему в руки, следовать его порыву.'
tokens = word_tokenize(text)
print(tokens)

['Для', 'писателя', 'самое', 'ценное', '—', 'читать', 'всё', ',', 'что', 'попадется', 'ему', 'в', 'руки', ',', 'следовать', 'его', 'порыву', '.']


Мы токенизировали предыдущее предложение, используя word_tokenize() - функцию NLTK, которая просто разбивает предложение пробелами. На выходе получается список, который является первым шагом к векторизации.

Для рационализации векторов обычно используют некоторые другие полезные функции NLTK, такие как стоп-слова, лемматизация и выделение корней

Выполнив код ниже, вы получите список русских стоп-слов в NLTK. Стоп-слова — это в основном слова-связки, которые не сильно влияют на смысл предложения.

In [207]:
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords

stop_words = stopwords.words('russian')

print(stop_words)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Kasutaja\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [208]:
# подсчитаем количество стоп-слов в этом списке, запросив длину списка:

len(stop_words)

151

Этот список далеко не отвечает действительному набору большей части стоп-слов в русском языке, поэтому рекомендуется дополнять его для каждой задачи отдельно, либо использовать другие списки стоп-слов.

In [209]:
# строка из новых стоп-слов
stop_words_1 = 'которых которые твой которой которого сих ком свой твоя этими слишком \
                  нами всему будь саму чаще ваше сами наш затем еще самих наши ту каждое \
                  мочь весь этим наша своих оба который зато те этих вся ваш такая теми ею \
                  которая нередко каждая также чему собой самими нем вами ими откуда такие \
                  тому та очень сама нему алло оно этому кому тобой таки твоё каждые твои \
                  мой нею самим ваши ваша кем мои однако сразу свое ними всё неё тех хотя \
                  всем тобою тебе одной другие этао само эта буду самой моё своей такое всею \
                  будут своего кого свои мог нам особенно её самому наше кроме вообще вон мною никто это'

# преобразование строки в список
stop_words_1 = stop_words_1.split(' ')

print(stop_words_1)

['которых', 'которые', 'твой', 'которой', 'которого', 'сих', 'ком', 'свой', 'твоя', 'этими', 'слишком', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'нами', 'всему', 'будь', 'саму', 'чаще', 'ваше', 'сами', 'наш', 'затем', 'еще', 'самих', 'наши', 'ту', 'каждое', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'мочь', 'весь', 'этим', 'наша', 'своих', 'оба', 'который', 'зато', 'те', 'этих', 'вся', 'ваш', 'такая', 'теми', 'ею', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'которая', 'нередко', 'каждая', 'также', 'чему', 'собой', 'самими', 'нем', 'вами', 'ими', 'откуда', 'такие', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'тому', 'та', 'очень', 'сама', 'нему', 'алло', 'оно', 'этому', 'кому', 'тобой', 'таки', 'твоё', 'каждые', 'твои', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'мой', 'нею', 'самим', 'ваши', 'ваша', 'кем', 'мои', 'однако', 'сразу', 'свое', 'н

In [210]:
stop_words_1.sort()
print(stop_words_1)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'алло', 'буду', 'будут', 'будь', 'вами', 'ваш', 'ваша', 'ваше', 'ваши', 'весь', 'вон', 'вообще', 'всем', 'всему', 'всею', 'вся', 'всё', 'другие', 'еще', 'ею', 'её', 'затем', 'зато', 'ими', 'каждая', 'каждое', 'каждые', 'кем', 'кого', 'ком', 'кому', 'которая', 'которого', 'которой', 'которые', 'который', 'которых', 'кроме', 'мною', 'мог', 'мои', 'мой', 'мочь', 'моё', 'нам', 'нами', 'наш', 'наша', 'наше', 'наши', 'нем', 'нему', 'нередко', 'нею', 'неё', 'никто', 'ними', 'оба', 'однако', 'одной

In [211]:
stop_words_1 = ['алло', 'буду', 'будут', 'будь', 'вами', 'ваш', 'ваша', 'ваше', 'ваши', 'весь',
    'вон', 'вообще', 'всем', 'всему', 'всею', 'вся', 'всё', 'другие', 'еще', 'ею',
    'её', 'затем', 'зато', 'ими', 'каждая', 'каждое', 'каждые', 'кем', 'кого', 'ком',
    'кому', 'которая', 'которого', 'которой', 'которые', 'который', 'которых', 'кроме',
    'мною', 'мог', 'мои', 'мой', 'мочь', 'моё', 'нам', 'нами', 'наш', 'наша', 'наше',
    'наши', 'нем', 'нему', 'нередко', 'нею', 'неё', 'никто', 'ними', 'оба', 'однако', 
    'одной', 'оно', 'особенно', 'откуда', 'очень', 'сама', 'сами', 'самим', 'самими', 
    'самих', 'само', 'самой', 'самому', 'саму', 'свое', 'своего', 'своей', 'свои', 
    'своих', 'свой', 'сих', 'слишком', 'собой', 'сразу', 'та', 'такая', 'также', 'таки', 
    'такие', 'такое', 'твои', 'твой', 'твоя', 'твоё', 'те', 'тебе', 'теми', 'тех', 
    'тобой', 'тобою', 'тому', 'ту', 'хотя', 'чаще', 'чему', 'эта', 'этао', 'этим', 
    'этими', 'этих', 'это', 'этому']

In [212]:
with open('swl_optimum.txt', 'r', encoding='utf-8') as f:
    stop_words_2 = f.readlines()
# you may also want to remove whitespace characters like '\n' at the end of each line
stop_words_2 = [x.strip() for x in stop_words_2] 

print(stop_words_2)

['а', 'а. л.', 'а.л.', 'а/о', 'аа', 'а-а', 'ааа', 'а-а-а', 'а-а-а-а', 'абы', 'авось', 'авт. л.', 'авт.л.', 'ага', 'адм.-терр.', 'аж', 'аз', 'ай', 'ай-ай-ай', 'айда', 'ай-яй-яй', 'акад.', 'аки', 'але', 'али', 'алле', 'алло', 'аль', 'а-ля', 'аминь', 'ан', 'апчхи', 'атас', 'ау', 'аф', 'ах', 'ахти', 'аще', 'б', 'б', 'ба', 'бабах', 'ба-бах', 'баста', 'бах', 'бац', 'без', 'безо', 'бен', 'бис', 'бишь', 'б-ка', 'благо', 'благодаря', 'близ', 'бо', 'более', 'больше', 'бом', 'браво', 'брр', 'бррр', 'брысь', 'бу-бу-бу', 'буде', 'будто', 'буль-буль', 'бум', 'бы', 'было', 'в', 'в.', 'в/о', 'вай', 'ван', 'вау', 'ваш', 'вблизи', 'вв.', 'ввиду', 'вглубь', 'вдоль', 'вдруг', 'ведь', 'везде', 'весь', 'весьма', 'взамен', 'виват', 'вишь', 'вкз.', 'включая', 'вкруг', 'вместе', 'вместо', 'вне', 'внизу', 'внутри', 'внутрь', 'во', 'во-во', 'возле', 'возможно', 'вокруг', 'вон', 'вона', 'вообще', 'вообще-то', 'во-он', 'во-от', 'вопреки', 'вослед', 'вост.-европ.', 'вот', 'вперед', 'впереди', 'вполне', 'впрочем', '

In [213]:
with open('stop_words_russian.txt', 'r', encoding='utf-8') as f:
    stop_words_3 = f.readlines()
# you may also want to remove whitespace characters like '\n' at the end of each line
stop_words_3 = [x.strip() for x in stop_words_3] 

print(stop_words_3)

['а', 'е', 'и', 'ж', 'м', 'о', 'на', 'не', 'ни', 'об', 'но', 'он', 'мне', 'мои', 'мож', 'она', 'они', 'оно', 'мной', 'много', 'многочисленное', 'многочисленная', 'многочисленные', 'многочисленный', 'мною', 'мой', 'мог', 'могут', 'можно', 'может', 'можхо', 'мор', 'моя', 'моё', 'мочь', 'над', 'нее', 'оба', 'нам', 'нем', 'нами', 'ними', 'мимо', 'немного', 'одной', 'одного', 'менее', 'однажды', 'однако', 'меня', 'нему', 'меньше', 'ней', 'наверху', 'него', 'ниже', 'мало', 'надо', 'один', 'одиннадцать', 'одиннадцатый', 'назад', 'наиболее', 'недавно', 'миллионов', 'недалеко', 'между', 'низко', 'меля', 'нельзя', 'нибудь', 'непрерывно', 'наконец', 'никогда', 'никуда', 'нас', 'наш', 'нет', 'нею', 'неё', 'них', 'мира', 'наша', 'наше', 'наши', 'ничего', 'начала', 'нередко', 'несколько', 'обычно', 'опять', 'около', 'мы', 'ну', 'нх', 'от', 'отовсюду', 'особенно', 'нужно', 'очень', 'отсюда', 'в', 'во', 'вон', 'вниз', 'внизу', 'вокруг', 'вот', 'восемнадцать', 'восемнадцатый', 'восемь', 'восьмой', 'вве

In [214]:
# добавим к списку стоп-слов NLTK список слов из stop_words_1
stop_words.extend(stop_words_1)

In [215]:
len(stop_words)

262

In [216]:
# используем set(), чтобы удалить дубликаты из списка
new_stop_words = list(set(stop_words))

In [217]:
len(new_stop_words)

260

In [218]:
print(stop_words)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

Теперь мы можем просто отфильтровать стоп-слова из нашего списка слов:

In [220]:
newtokens = [word for word in tokens if word not in stop_words]
newtokens

['Для',
 'писателя',
 'самое',
 'ценное',
 '—',
 'читать',
 ',',
 'попадется',
 'руки',
 ',',
 'следовать',
 'порыву',
 '.']

Мы можем дополнительно модифицировать наш вектор, используя лемматизацию и выделение корней, которые представляют собой методы, используемые для приведения слов к их корневой форме.

В следующем фрагменте кода показан пример выполнения лемматизации с использованием WordNetlemmatizerмодуля библиотеки NLTK:

In [223]:
nltk.download('wordnet') # need to download first time

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Kasutaja\AppData\Roaming\nltk_data...


True

In [226]:
from nltk.stem import WordNetLemmatizer


text = 'Never make fun of someone who speaks broken English. It means they know another language'

tokens = word_tokenize(text)
lemmatizer = WordNetLemmatizer()
tokens=[lemmatizer.lemmatize(word) for word in tokens]

print(tokens)

['Never', 'make', 'fun', 'of', 'someone', 'who', 'speaks', 'broken', 'English', '.', 'It', 'mean', 'they', 'know', 'another', 'language']


In [231]:
# для русского языка
from nltk.stem.snowball import SnowballStemmer 

text = 'Идея о том, что мышление и язык — одно и то же, — это пример того, что может \
быть названо общепринятым заблуждением: некое утверждение противоречит самому очевидному, \
но тем не менее, все в него верят, поскольку каждый смутно помнит, что он это где-то слышал \
или потому что это утверждение можно истолковать неоднозначно. (К таким заблуждениям относится, \
например, тот «факт», что мы используем только пять процентов нашего мозга; что лемминги совершают \
массовые самоубийства; что «Руководство для бойскаута» — самая ежегодно продаваемая книга; \
что можно управлять продажами, воздействуя на подсознание покупателя.) Подумайте вот о чем. \
Всем нам случалось произнести или написать некое предложение, а потом остановиться, сообразив, \
что это отнюдь не то, что мы хотели сказать. Для появления такого чувства необходимо, чтобы было то, \
«что мы хотели сказать», отличное от того, что мы сказали. Порой далеко не просто найти любые слова, \
в полной мере выражающие мысль. Когда мы слышим или читаем, мы обычно запоминаем смысл, а не сами слова, \
так что должна существовать такая вещь, как смысл, который не есть то же самое, что и набор слов. \
И если бы мысли зависели от слов, как вообще можно было бы создавать новые слова? Как мог бы ребенок \
выучить свое самое первое слово? Как бы существовала возможность перевода с одного языка на другой?'


stemmer.stem(text)

tokens = word_tokenize(text)
stemmer = SnowballStemmer("russian") 
tokens=[stemmer.stem(word) for word in tokens]

print(tokens)

['иде', 'о', 'том', ',', 'что', 'мышлен', 'и', 'язык', '—', 'одн', 'и', 'то', 'же', ',', '—', 'эт', 'пример', 'тог', ',', 'что', 'может', 'быт', 'назва', 'общепринят', 'заблужден', ':', 'нек', 'утвержден', 'противореч', 'сам', 'очевидн', ',', 'но', 'тем', 'не', 'мен', ',', 'все', 'в', 'нег', 'вер', ',', 'поскольк', 'кажд', 'смутн', 'помн', ',', 'что', 'он', 'эт', 'где-т', 'слыша', 'ил', 'пот', 'что', 'эт', 'утвержден', 'можн', 'истолкова', 'неоднозначн', '.', '(', 'к', 'так', 'заблужден', 'относ', ',', 'например', ',', 'тот', '«', 'факт', '»', ',', 'что', 'мы', 'использу', 'тольк', 'пят', 'процент', 'наш', 'мозг', ';', 'что', 'лемминг', 'соверша', 'массов', 'самоубийств', ';', 'что', '«', 'руководств', 'для', 'бойскаут', '»', '—', 'сам', 'ежегодн', 'продава', 'книг', ';', 'что', 'можн', 'управля', 'продаж', ',', 'воздейству', 'на', 'подсознан', 'покупател', '.', ')', 'подума', 'вот', 'о', 'чем', '.', 'всем', 'нам', 'случа', 'произнест', 'ил', 'написа', 'нек', 'предложен', ',', 'а', 'по

In [234]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

text = 'Never make fun of someone who speaks broken English. It means they know another language'

tokens=word_tokenize(text.lower())
ps = PorterStemmer()
tokens=[ps.stem(word) for word in tokens]

print(tokens)

['never', 'make', 'fun', 'of', 'someon', 'who', 'speak', 'broken', 'english', '.', 'it', 'mean', 'they', 'know', 'anoth', 'languag']


#### Тегирование части речи
Тегирование части речи (тегирование POS) определяет часть речи (существительное, глагол, наречие и т. д.) каждого слова в предложении. Это важный шаг для многих приложений NLP, поскольку, определяя POS слова, мы можем вывести его контекстуальное значение. Например, значение слова «сталь» отличается, когда оно используется как существительное; например, "этот ящик из стали" по сравнению с тем, когда оно используется в качестве глагола, например, "дети стали намного спокойнее".

Обратитесь к следующему фрагменту кода, чтобы выполнить маркировку POS с помощью NLTK:

In [236]:
nltk.download('averaged_perceptron_tagger') # need to download first time

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Kasutaja\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [241]:
nltk.pos_tag(["fatally"])

[('fatally', 'RB')]

In [242]:
nltk.pos_tag(["fate"])

[('fate', 'NN')]

In [245]:
nltk.pos_tag(["diabolical"])

[('diabolical', 'JJ')]

Доступ к исчерпывающему списку POS-тегов NLTK можно получить с помощью upenn_tagset() функции NLTK:

In [247]:
nltk.download('tagsets') # need to download first time
nltk.help.upenn_tagset()

[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\Kasutaja\AppData\Roaming\nltk_data...


$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data]   Unzipping help\tagsets.zip.


POS в библиотеке NLTK выводит определенные теги для определенных слов. Ниже приведен список тегов POS с примерами того, что означает каждый POS.  

The POS tagger in the NLTK library outputs specific tags for certain words. The list of POS tags is as follows, with examples of what each POS stands for.

CC coordinating conjunction  
CD cardinal digit  
DT determiner  
EX existential there (like: “there is” … think of it like “there exists”)  
FW foreign word  
IN preposition/subordinating conjunction  
JJ adjective ‘big’  
JJR adjective, comparative ‘bigger’  
JJS adjective, superlative ‘biggest’  
LS list marker 1)  
MD modal could, will  
NN noun, singular ‘desk’  
NNS noun plural ‘desks’  
NNP proper noun, singular ‘Harrison’  
NNPS proper noun, plural ‘Americans’  
PDT predeterminer ‘all the kids’  
POS possessive ending parent’s  
PRP personal pronoun I, he, she  
PRP$ possessive pronoun my, his, hers  
RB adverb very, silently,  
RBR adverb, comparative better  
RBS adverb, superlative best  
RP particle give up  
TO, to go ‘to’ the store.  
UH interjection, errrrrrrrm  
VB verb, base form take  
VBD verb, past tense took  
VBG verb, gerund/present participle taking  
VBN verb, past participle taken  
VBP verb, sing. present, non-3d take  
VBZ verb, 3rd person sing. present takes  
WDT wh-determiner which  
WP wh-pronoun who, what   
WP possessive wh-pronoun whose  
WRB wh-abverb where, when  

Мы можем сгенерировать POS для каждого слова предложения, перебирая список токенов и применяя pos_tag() функцию по отдельности.   Следующий код является примером того, как теги POS могут выполняться итеративно:

In [246]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(text)
[nltk.pos_tag([word]) for word in tokens]

[[('Never', 'RB')],
 [('make', 'VB')],
 [('fun', 'NN')],
 [('of', 'IN')],
 [('someone', 'NN')],
 [('who', 'WP')],
 [('speaks', 'NNS')],
 [('broken', 'NN')],
 [('English', 'JJ')],
 [('.', '.')],
 [('It', 'PRP')],
 [('means', 'NNS')],
 [('they', 'PRP')],
 [('know', 'VB')],
 [('another', 'DT')],
 [('language', 'NN')]]

#### Textblob

Textblob — это популярная библиотека, используемая для анализа тональности, тегирования частей речи, перевода и т. д. Она построена поверх других библиотек, включая NLTK, и имеет очень простой в использовании интерфейс, что делает его незаменимым для новичков в NLP. 

Вы можете обратиться к документации Textblob, https://textblob.readthedocs.io/en/dev/ , или посетить его страницу GitHub, https://github.com/sloria/TextBlob, чтобы подробно познакомиться с этой библиотекой.

####  Анализ настроений
Анализ тональности — важная область исследований в NLP, целью которой является анализ текста и оценка его тональности. Библиотека Textblob позволяет пользователям анализировать тональность данного фрагмента текста очень удобным способом. Документация по библиотеке Textblob (https://textblob.readthedocs.io/en/dev/) довольно подробная, легко читаемая, а также содержит учебные пособия.

Мы можем установить textblob библиотеку и загрузить связанные корпуса, выполнив следующие команды в командной строке:

In [None]:
pip install -U textblob
python -m textblob.download_corpora

Обратитесь к следующему фрагменту кода, чтобы увидеть, насколько удобно использовать библиотеку для расчета тональности:

In [248]:
from textblob import TextBlob

TextBlob("I love pizza").sentiment

Sentiment(polarity=0.5, subjectivity=0.6)

После импорта библиотеки TextBlob всё, что нам нужно сделать для расчета тональности, — это передать текст, который необходимо проанализировать, и использовать модуль тональности библиотеки.  
Модуль настроений выводит кортеж с оценкой полярности и оценкой субъективности. Оценка полярности варьируется от -1 до 1, где -1 наиболее негативные настроения и 1 наиболее позитивные утверждения. Оценка субъективности колеблется от 0 до 1, при этом оценка 0 подразумевает, что утверждение соответствует действительности, тогда как оценка 1 подразумевает в высшей степени субъективное утверждение.

Для предыдущего утверждения, I love pizza, мы получаем показатель полярности 0.5, подразумевая положительное настроение. Субъективность предыдущего утверждения также оценивается как высокая, что кажется правильным.

TextBlob поддерживает только английский язык. Для русского языка есть библиотека dostoevsky (https://github.com/bureaucratic-labs/dostoevsky).

#### Машинный перевод
Textblob использует API Google Translator для предоставления очень простого интерфейса перевода текста. Просто используйте функцию translate() для перевода заданного текста на нужный язык (из каталога языков Google).

Список языковых кодов можно получить на странице https://cloud.google.com/translate/docs/basic/translating-text#language-params

In [8]:
from textblob import TextBlob

blob = TextBlob("Buongiorno!")
print(blob.translate(from_lang ='it', to='en'))

Good morning!


In [32]:
lang = 'en'
languages = ['ru', 'fr', 'it']

In [33]:
blob = TextBlob("serendipity")

for language in languages:
    print(blob.translate(from_lang = lang, to=language))

случайность
sérendipité
colpo di fortuna


Это всего лишь несколько популярных приложений Textblob, демонстрирующих простоту использования и универсальность программы. Существует множество других приложений Textblob, и вам предлагается изучить их. Хорошим местом для начала знакомства с Textblob и ознакомления с другими приложениями Textblob будет учебник по Textblob, доступ к которому можно получить по адресу https://textblob.readthedocs.io/en/dev/quickstart.html.