# Обработка естественного языка

## TextBlob


[TextBlob](https://textblob.readthedocs.io/en/latest/) — объектно-ориентированная библиотека NLP-обработки текста, построенная на базе NLP-библиотек NLTK и pattern и упрощающая некоторые аспекты их функциональности. Вот примеры операций NLP, которые можно
выполнять при помощи TextBlob:
- разбиение на лексемы — разбиение текста на содержательные блоки (например, слова и числа);
- пометка частей речи — идентификация части речи каждого слова (существительное, глагол, прилагательное и т. д.);
- извлечение именных конструкций — обнаружение групп слов, представляющих имена существительные;
- анализ эмоциональной окраски — определение положительной, отрицательной или нейтральной окраски текста;
- перевод на другие языки и распознавание языка на базе Google Translate;
- формообразование — образование множественного и единственного числа. У формообразования существуют и другие аспекты, которые не поддерживаются TextBlob;
- проверка орфографии и исправление ошибок;
- выделение основы — исключение приставок, суффиксов и т. д.; например, при выделении основы из слова «varieties» будет получен результат
«varieti»;
- лемматизация — аналог выделения основы, но с формированием реальных слов на основании контекста исходных слов; например, результатом
лемматизации «varieties» является слово «variety»;
- определение частот слов — определение того, сколько раз каждое слово встречается в корпусе;
- интеграция с WordNet для поиска определений слов, синонимов и антонимов;
- устранение игнорируемых слов — исключение таких слов, как a, an, the, I, we, you и т. д., с целью анализа важных слов в корпусе;
- n-граммы — построение множеств последовательно идущих слов в корпусе для выявления слов, часто располагающихся по соседству друг с другом.

Подобных модулей [много](https://nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0).

In [None]:
# !conda install -c conda-forge textblob

Пример перевода:

In [3]:
from textblob import TextBlob

poem = 'Послушайте! Ведь, если звезды зажигают - значит - это кому-нибудь нужно? Значит - кто-то хочет, чтобы они были? Значит - кто-то называет эти плевочки жемчужиной?'

blob = TextBlob(poem)
print(blob.translate(to='en'))

Listen! After all, if the stars are lit, it means that somebody needs it? So - someone wants them to be? So - someone calls these spit a pearl?


In [4]:
blob

TextBlob("Послушайте! Ведь, если звезды зажигают - значит - это кому-нибудь нужно? Значит - кто-то хочет, чтобы они были? Значит - кто-то называет эти плевочки жемчужиной?")

Разбиение текста на предложения:

In [10]:
blob.sentences

[Sentence("Послушайте!"),
 Sentence("Ведь, если звезды зажигают - значит - это кому-нибудь нужно?"),
 Sentence("Значит - кто-то хочет, чтобы они были?"),
 Sentence("Значит - кто-то называет эти плевочки жемчужиной?")]

In [6]:
blob.words

WordList(['Послушайте', 'Ведь', 'если', 'звезды', 'зажигают', 'значит', 'это', 'кому-нибудь', 'нужно', 'Значит', 'кто-то', 'хочет', 'чтобы', 'они', 'были', 'Значит', 'кто-то', 'называет', 'эти', 'плевочки', 'жемчужиной'])

Определение [частей речи](https://www.clips.uantwerpen.be/clips.bak/pages/mbsp-tags):

In [11]:
blob.tags

[('Послушайте', 'NN'),
 ('Ведь', 'NN'),
 ('если', 'NNP'),
 ('звезды', 'NNP'),
 ('зажигают', 'NNP'),
 ('значит', 'SYM'),
 ('это', 'JJ'),
 ('кому-нибудь', 'JJ'),
 ('нужно', 'NN'),
 ('Значит', 'LS'),
 ('кто-то', 'JJ'),
 ('хочет', 'NN'),
 ('чтобы', 'NNP'),
 ('они', 'NNP'),
 ('были', 'NNP'),
 ('Значит', 'LS'),
 ('кто-то', 'JJ'),
 ('называет', 'NN'),
 ('эти', 'NNP'),
 ('плевочки', 'NNP'),
 ('жемчужиной', 'NNP')]

Извлечение именных конструкций:

In [12]:
blob.noun_phrases

WordList(['если звезды зажигают', 'это кому-нибудь нужно', 'кто-то хочет', 'чтобы они были', 'кто-то называет эти плевочки жемчужиной'])

Анализ эмоциональной окраски:

In [13]:
blob.sentiment

Sentiment(polarity=0.0, subjectivity=0.0)

В показанном выводе полярность (показатель polarity) означает эмоциональную окраску со значениями от -1.0 (отрицательная) до 1.0 (положительная); значение 0.0 соответствует нейтральной эмоциональной окраске. На основании данных TextBlob общая эмоциональная окраска близка к нейтральной, а текст в целом субъективен.

Получение эмоциональной окраски предложения:

In [14]:
for sentence in blob.sentences:
    print(sentence.sentiment)

Sentiment(polarity=0.0, subjectivity=0.0)
Sentiment(polarity=0.0, subjectivity=0.0)
Sentiment(polarity=0.0, subjectivity=0.0)
Sentiment(polarity=0.0, subjectivity=0.0)


In [15]:
blob.detect_language()

'ru'

In [16]:
from textblob import Word

In [20]:
word = Word('рыбаки')

In [21]:
word.stem()

'рыбаки'

In [22]:
word.lemmatize()

'рыбаки'