# Работа с естественным текстом

В прошлых блоках мы сравнивали числа и строки между собой самым простым образом: они либо в точности совпадали, либо нет. При работе с реальными текстами это доставит нам много проблем, т. к. в большинстве случаев слова пишутся в разных падежах и склонениях. Например, чтобы понять, близки ли описания товаров на сайте между собой, уже недостаточно просто найти общие слова. 

В этом модуле мы научимся:

Получать основу и словарную форму слова (процедура стемминга и лемматизации). Это позволит принципиально улучшить любые сравнения и вычисления, связанные с анализом текстов. Например, поиск дубликатов описаний товаров.
Строить статистику уникальных слов в наборе поисковых запросов с учетом падежей и склонений. При этом мы будем исключать из результатов так называемые стоп-слова (союзы, предлоги и другие лишние слова).

# Основные библиотеки

В этом блоке мы рассмотрим примеры работы трех библиотек для решения так называемых задач обработки естественного языка, а также решим задачу подсчета слов в наборе поисковых запросов с учетов падежей и склонений.

Библиотека Pymystem (https://pypi.python.org/pypi/pymystem3) считается одной из лучших для преобразования слов в словарную форму. Разработана в Яндексе, умеет работать с несуществующими словами. Недостаток — самая медленная из рассматриваемых.

In [1]:
! pip install pymystem3

Collecting pymystem3
  Downloading https://files.pythonhosted.org/packages/00/8c/98b43c5822620458704e187a1666616c1e21a846ede8ffda493aabe11207/pymystem3-0.2.0-py3-none-any.whl
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [2]:
from pymystem3 import Mystem
m = Mystem()

Installing mystem to /Users/kovaleva/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-macosx.tar.gz


Мы будем работать со статистикой 100 тысяч поисковых запросов, состоящих из двух столбцов: самого поискового запроса и количества его появлений. Выведем на экран первые 10 строк файла, разбитых по табуляции:

In [4]:
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')
        print( line )
        if i > 10:
            break
        i += 1

['вк', '1']
['одноклассники', '1']
['порно', '1']
['ютуб', '1']
['вконтакте', '1']
['одноклассники моя страница', '3']
['майл', '1']
['авито', '1']
['переводчик', '1']
['яндекс', '1']
['сбербанк онлайн', '2']
['mail', '1']


Запишем значения из первого столбца в переменную word, второго — в wordCount:

In [5]:
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')
        word = line[0]
        wordCount = line[1]
        print( word, wordCount )
        if i > 10:
            break
        i += 1

вк 1
одноклассники 1
порно 1
ютуб 1
вконтакте 1
одноклассники моя страница 3
майл 1
авито 1
переводчик 1
яндекс 1
сбербанк онлайн 2
mail 1


Теперь для каждого слова word мы можем получить его словарную форму (т. е. лемму). Выведем слово и его словарную форму на экран. Это займет некоторое время, т. к. Pymystem работает не очень быстро:

In [6]:
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')
        word = line[0]
        wordCount = line[1]
        lemmas = m.lemmatize( word )
        print( word, ''.join(lemmas) )
        if i > 10:
            break
        i += 1

вк вк

одноклассники одноклассник

порно порно

ютуб ютуб

вконтакте вконтакте

одноклассники моя страница одноклассник мой страница

майл майл

авито авито

переводчик переводчик

яндекс яндекс

сбербанк онлайн сбербанк онлайн

mail mail



Видно, что некоторые слова изменились в своей словарной форме. Теперь, когда мы будем считать суммарную статистику этих слов в файле, мы получим все варианты написания слова как одно, т. е. его словарную форму.

Получите лемму строчки 'и хрюкотали зелюки как мюмзики в мове'. При выводе результата используйте конструкцию print( ''.join( ... ) )

In [7]:
line = 'и хрюкотали зелюки как мюмзики в мове'
line = line.strip().split('\t')
for i in line:
    lemmas = m.lemmatize( i )
    print( i, ''.join(lemmas) )

и хрюкотали зелюки как мюмзики в мове и хрюкотать зелюк как мюмзик в мов



## NLTK (Natural Language Toolkit)

Для более быстрой обработки текста рассмотрим библиотеку NLTK (Natural Language Toolkit), которая по умолчанию уже установлена в Anaconda. Библиотека умеет работать со многими языками, а также имеет встроенный список стоп-слов, который мы используем в ближайшей задаче. Работает быстрее Pymystem и проводит процедуру стемминга, т. е. процесс нахождения основы слова.

Давайте выведем на экран аналогичные пары слов из нашего файла, но с использованием NLTK:

In [8]:
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer( "russian" )
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')        
        word = line[0]
        wordCount = line[1]      
        stem = snowball_stemmer.stem( word )
        print( word, ''.join( stem ) )        
        if i > 10:
            break        
        i += 1

вк вк
одноклассники одноклассник
порно порн
ютуб ютуб
вконтакте вконтакт
одноклассники моя страница одноклассники моя страниц
майл майл
авито авит
переводчик переводчик
яндекс яндекс
сбербанк онлайн сбербанк онлайн
mail ma


Процесс происходит гораздо быстрее, т. к. стемминг проще лемматизации. Разница между этими методами не всегда очевидна, поэтому часто результаты оказываются одинаковыми.

Мы используем библиотеку NLTK в обработке всего файла в этом блоке.

## Библиотека Pymorphy

Наконец, рассмотрим самый «продвинутый» вариант разбора слов — морфологический анализатор pymorphy.https://pymorphy2.readthedocs.io/en/latest/index.html Процесс установки аналогичен:

In [9]:
!pip install pymorphy2

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/a3/33/fff9675c68b5f6c63ec8c6e6ff57827dda28a1fa5b2c2d727dffff92dd47/pymorphy2-0.8-py2.py3-none-any.whl (46kB)
[K    100% |████████████████████████████████| 51kB 635kB/s ta 0:00:011
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/a2/55/8f8cab2afd404cf578136ef2cc5dfb50baa1761b68c9da1fb1e4eed343c9/docopt-0.6.2.tar.gz
Collecting dawg-python>=0.7 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2)
[?25l  Downloading https://files.pythonhosted.org/packages/02/51/2465fd4f72328ab50877b54777764d928da8cb15b74e2680fc1bd8cb3173/pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.whl (7.1MB)
[K    100% |████████████████████████████████| 7.1MB 1.2MB/s ta 0:00:011    50% |████████████████▎   

Импортируем библиотеку в наш код:

In [10]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Рассмотрим принцип ее работы на примере морфологического анализа слова 'стали':

In [11]:
morph.parse( 'стали' )

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

Библиотека производит анализ слова и выдает его возможные атрибуты (обратите внимание, что на выходе получился лист из нескольких элементов Parse). Например, первый элемент с параметром score=0.984662 указывает на то, что слово 'стали', скорее всего, является глаголом (от слова 'стать'). Тэги в элементе tag указывают на так называемые граммемы, характеризующие данное слово: множественное или единственное число, настоящее или прошедшее время и т. д. Остальные элементы результата указывают, что слово 'стали' может быть существительным (от слова 'сталь').

Применим аналогичный разбор к первым 5 словам нашего файла:

In [12]:
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')      
        word = line[0]
        wordCount = line[1]       
        morph_analyze = morph.parse( word )
        print( morph_analyze )       
        if i > 5:
            break       
        i += 1

[Parse(word='вк', tag=OpencorporaTag('UNKN'), normal_form='вк', score=1.0, methods_stack=((<UnknAnalyzer>, 'вк'),))]
[Parse(word='одноклассники', tag=OpencorporaTag('NOUN,anim,masc plur,nomn'), normal_form='одноклассник', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'одноклассники', 2, 6),))]
[Parse(word='порно', tag=OpencorporaTag('NOUN,inan,neut,Fixd sing,nomn'), normal_form='порно', score=0.08333333333333333, methods_stack=((<DictionaryAnalyzer>, 'порно', 23, 0),)), Parse(word='порно', tag=OpencorporaTag('NOUN,inan,neut,Fixd sing,gent'), normal_form='порно', score=0.08333333333333333, methods_stack=((<DictionaryAnalyzer>, 'порно', 23, 1),)), Parse(word='порно', tag=OpencorporaTag('NOUN,inan,neut,Fixd sing,datv'), normal_form='порно', score=0.08333333333333333, methods_stack=((<DictionaryAnalyzer>, 'порно', 23, 2),)), Parse(word='порно', tag=OpencorporaTag('NOUN,inan,neut,Fixd sing,accs'), normal_form='порно', score=0.08333333333333333, methods_stack=((<DictionaryAnalyzer>, 'порн

In [13]:
i = 0
with open( 'keywords.txt', 'r', encoding = 'utf-8' ) as f:
    for line in f:
        line = line.strip().split('\t')       
        word = line[0]
        wordCount = line[1]        
        morph_analyze = morph.parse( word )
        print( word, morph_analyze[0].normal_form )        
        if i > 5:
            break        
        i += 1

вк вк
одноклассники одноклассник
порно порно
ютуб ютуба
вконтакте вконтакте
одноклассники моя страница одноклассники моя страница
майл майла


# Итак, мы изучили еще один способ приведения слов к единой форме.

Дан текст:

words = 'Крымский отель Mriya Resort & Spa признали лучшим в мире курортным комплексом для отдыха по версии престижной международной премии World Travel Awards'

Необходимо вывести на экран существительные в этом тексте.

Подсказка. После получения разбора слова (можно сделать по аналогии с кодом в занятии в переменной morph_analyze) проверить результат на "признак" существительного можно с помощью кода:

if 'NOUN' in morph_analyze[0].tag:

In [14]:
words = 'Крымский отель Mriya Resort & Spa признали лучшим в мире курортным комплексом для отдыха по версии престижной международной премии World Travel Awards'

In [15]:
line = words.strip().split()       
for i in line:      
    a = morph.parse(i)    
    if 'NOUN' in a[0].tag:
        print( i, a[0].normal_form )        

отель отель
мире мир
комплексом комплекс
отдыха отдых
версии версия
премии премия


# Регулярные выражения

Очень важным типом фильтров являются так называемые регулярные выражения. В этом модуле мы ненадолго отойдем от построения рекомендательной системы, чтобы разобраться в работе регулярных выражений на нескольких примерах. Такого рода задачи будут часто встречаться вам при работе с данными любого типа:

Как найти номера банковских карт в списке транзакций.
Отфильтровать список URL страниц по шаблону '/ и восемь цифр подряд'.
Проверка корректности email-адресов.
Подсчет статистики почтовых систем и выделение логинов пользователей из email-адресов.
Фильтры, которые мы рассматривали в прошлых блоках, были относительно простыми: сравнения чисел, поиск подстроки. Более сложные условия и проверки задавали с помощью внешних функций. Однако часто встречаются задачи, в которых необходимо внести дополнительные условия прямо в условие фильтра. Например, найти все слова, которые состоят из 16 цифр (т. е. нужно найти все номера банковских карт в тексте).

Для решения таких задач предназначены регулярные выражения. Это правила, которые позволяют задавать шаблоны поиска по строке (например, 16 цифр подряд). Если этот шаблон найден в строке, то она удовлетворяет регулярному выражению.

Многие системы аналитики и языки программирования имеют встроенные возможности по использованию регулярных выражений. Стоит помнить, что в каждой системе эти правила могут немного отличаться. Составлено большое число таблиц и сервисов, которые облегчают работу с регулярными выражениями. Например:

    Проверка регулярных выражений в питоне онлайн pyregex.com.
    Короткая памятка по регулярным выражениям petefreitag.com/cheatsheets/regex/.
    Длинная памятка rexegg.com/regex-quickstart.html.
    
Допустим, нужно выделить из следующего текста номера карт из 16 цифр:

card number #1 1234123412341234
wrong number 9876
card number #1 4321432143214321
Согласно правилам регулярных выражений, шаблон для 16 цифр будет выглядеть как «любая цифра, повторенная 16 раз». Что соответствует такой записи: \d{16}. Убедимся, что онлайн-проверка дает верный результат, т. е. находит номера 1234123412341234 и 4321432143214321 и исключает все остальные варианты. 

# Сложный фильтр для URL страниц

Давайте рассмотрим, как делать то же самое в своем коде на примере следующей задачи. Имеется набор URL страниц проекта (файл URLs.txt), нам необходимо выделить из этого списка страницы новостей, которые содержат восьмизначный номер новости. Т. е. нам нужны страницы вида '/world/36007585-tramp-pridumal-kak-reshit-ukrainskiy-vopros/?smi2=1', а другие страницы вроде '/politics/', '/latest/?page=1' и '/' нас не интересуют.

Такие задачи часто встречаются, когда в системах аналитики (например, Google Analytics) вам нужно получить статистику определенного раздела. Например, сколько просмотров страниц было у новостных текстов за период? С помощью регулярных выражений можно решить подобную задачу с помощью фильтра в одну строку.

Импортируем стандартную библиотеку для работы с регулярными выражениями:

In [16]:
import re

Теперь необходимо задать шаблон (т. е. правило для фильтра) для страниц вида /world/36007585-tramp-pridumal-kak-reshit-ukrainskiy-vopros/?smi2=1. Сформулируем его так: «любая последовательность символов, затем /, затем 8 цифр, затем тире и последовательность символов». Распишем эту последовательность в терминах регулярных выражений:

.* — это любая последовательность символов (точка означает любой символ, * — повторение прошлого символа любое количество раз). Итого .* — это последовательность любых символов (нулевой длины, кстати, тоже);
/ прямой слэш;
[0-9] любая цифра от 0 до 9 (кстати таким же способом можно задавать любую букву алфавита: [a-z])
{8} количество повторений прошлого символа, т. е. в нашем случае цифры;
— тире;
.* снова любое количество символов.
Запишем наше выражение в шаблон:

In [17]:
pattern = '.*/[0-9]{8}-.+'

Переведем наш шаблон в объект регулярного выражения. Это существенно ускорит поиск при обработке больших файлов:

In [18]:
prog = re.compile(pattern)

Пройдемся по файлу URL.txt. Для простоты пока не используем Pandas, а просто выведем его содержимое на экран:

In [19]:
with open('URLs.txt', 'r') as f:
    for line in f:
        line = line.strip()        
        print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'URLs.txt'

Теперь добавляем проверку на соответствие регулярному выражению:

In [None]:
with open('URLs.txt', 'r') as f:    
    for line in f:
        line = line.strip()        
        # если текст строки удовлетворяем регулярному выражению pattern, то выводим строку
        if prog.match( line ):
            print( line )

# Проверка корректности email-адреса

Регулярные выражения позволяют не только фильтровать данные, но и извлекать полезные данные. В этом шаге мы извлечем название домена из списка email-адресов и построим распределение почтовых сервисов этой базы, причем одновременно будем проверять корректность адреса.

В этом шаге мы будем работать с файлом 'email_base.csv', в котором записаны 1000 email-адресов в зашифрованном виде. Причем часть строк имеют «битые» адреса без домена. Нам необходимо для каждого адреса определить, является ли он валидным, и выделить имя пользователя и домен.

Файл email_base.csv

Запишем файл в датафрейм emails:

In [None]:
import re
import pandas as pd
emails = pd.read_csv('email_base.csv', sep = '\t', names = ['email'])
emails.head()

Сформулируем правило корректного email-адреса в нашей задаче следующим образом: «последовательность символов, точек или тире, затем @, затем последовательность символов и на конце '.ru' или '.com'». Реальные проверки для валидации корректности адреса более сложные, но в данном случае мы можем ограничиться такой.

Запишем сначала шаблон такой проверки только для адресов домена .ru:

In [None]:
pattern = '[\w\.-]+@[\w]+\.ru'

In [None]:
# адрес должен соответствовать шаблону
if re.match(pattern, 'username@yandex.ru'):
    print(True)

In [None]:
# адрес должен соответствовать шаблону
if re.match(pattern, 'username-1990@yandex.ru'):
    print(True)

In [None]:
# адрес не должен соответствовать шаблону
if re.match(pattern, '@yandex.ru'):
    print(True)

In [None]:
# адрес не должен соответствовать шаблону
if re.match(pattern, 'username@yandex'):
    print(True)

Теперь, чтобы добавить проверку доменов .com, допишем правило с комбинацией ru и com через знак логического ИЛИ:

In [20]:
pattern = '[\w\.-]+@[\w]+(\.ru|\.com$)'

In [21]:
# адрес должен соответствовать шаблону
if re.match(pattern, 'username-1990@gmail.com'):
    print(True)

True


In [22]:
# адрес должен соответствовать шаблону
if re.match(pattern, 'username-1990@gmail.com123'):
    print(True)

# Статистика почтовых систем

Итак, наш шаблон проверки работает. Давайте решим следующую задачу: необходимо посчитать количество адресов в файле email_base.csv в разбивке по почтовым доменам. Т. е. посчитать сколько адресов принадлежат yandex.ru, сколько - gmail.com итд. А если адрес не похож на email, то необходимо посчитать количество таких строк как 'wrong email'

Для решения этой задачи сначала выделим имя пользователя и домен. Для этого укажем эти email-адреса части в скобках шаблона регулярного выражения:

In [23]:
pattern = '([\w\.-]+)@([\w]+(\.ru|\.com)*)'

В поиске нам поможет метод search. Перебор результатов можно делать с помощью метода group, в качестве аргумента пишем номер группы в скобках:

In [24]:
# то что стоит в первых скобках
re.search(pattern, 'username@yandex.ru').group(1)

'username'

In [25]:
# то что стоит во вторых скобках
re.search(pattern, 'username@yandex.ru').group(2)

'yandex.ru'

In [26]:
# то что стоит во внутренних скобках
re.search(pattern, 'username@yandex.ru').group(3)

'.ru'

Теперь оформим проверку соответствия регулярному выражению в функцию. Если адрес не подходит под шаблон, то ставим 'wrong email':

In [27]:
def get_email_domain(row):
    if re.match(pattern, row['email']):
        return re.search(pattern, row['email']).group(2)  
    else:
        return 'wrong email'
    

Применяем функцию к датафрейму email и пишем результат в столбец 'domain':

In [28]:
emails['domain'] = emails.apply(get_email_domain, axis = 1)
emails.head()

NameError: name 'emails' is not defined

Теперь можем получить распределение почтовых систем для нашей базы:

In [29]:
%matplotlib inline
emails['domain'].value_counts().plot.bar(color = 'blue')

NameError: name 'emails' is not defined

In [None]:
emails.loc[emails['domain'] == 'wrong email']

# Выделение email-адресов из текста

Регулярные выражения дают еще одну крайне полезную возможность выделить все шаблоны в тексте. Давайте получим из следующего текста адреса электронной почты:

In [30]:
text = 'Андрей Марков страхование markov_chains@yandex.ru. Мария Кюри технологии mary_decay@gmail.com Петр Капица онлайн-образование study-hard@rambler.ru'

In [31]:
pattern = '([\w\.-]+)@([\w]+(\.ru|\.com))'

In [32]:
re.findall(pattern, text)

[('markov_chains', 'yandex.ru', '.ru'),
 ('mary_decay', 'gmail.com', '.com'),
 ('study-hard', 'rambler.ru', '.ru')]

Мы получили набор групп group шаблона pattern. Давайте изменим порядок скобок, чтобы не разделять имя пользователя и домен:

In [33]:
pattern = '([\w\.-]+@[\w]+(\.ru|\.com))'

In [34]:
re.findall(pattern, text)

[('markov_chains@yandex.ru', '.ru'),
 ('mary_decay@gmail.com', '.com'),
 ('study-hard@rambler.ru', '.ru')]

Теперь в первом элементе каждой строки выводится искомый email-адрес. Запишем итоговый алгоритм:

In [35]:
for address in re.findall(pattern, text):
    print(address[0])

markov_chains@yandex.ru
mary_decay@gmail.com
study-hard@rambler.ru


# Постановка задачи

Итак, давайте применим новые знания для решения следующей задачи: имеется список отзывов о ресторанах. Необходимо разделить их на положительные и отрицательные. В случае невозможности классификации ставить 'undef'.

Файл с отзывами texts_opinions.txt

Файл с отзывами имеет кодировку UTF-8 и может некорректно отображаться при открытии в браузере.

Для классификации для каждого отзыва будем использовать следующий алгоритм:

Предварительно составляем список основ слов, которые характеризуют положительные и отрицательные отзывы. Используем SnowballStemmer библиотеки NLTK (можно было использовать Pymystem, сейчас для простоты используем NLTK).
Разбиваем текст отзыва на отдельные слова (здесь нам заранее придется удалить все знаки препинания).
Заменяем каждое слово на его основу с помощью SnowballStemmer библиотеки NLTK.
Ищем основу каждого слова отзыва среди основ слов из пункта 1. Считаем каких слов получилось больше - из списка «положительных» или «отрицательных» слов. Если таких слов в отзыве не нашлось или их число совпало, то возвращаем 'undef'.
После классификации отзывов мы можем сверить наш результат с «правильной» классификацией texts_ratings.txt, которую выставляли сами пользователи, когда писали эти отзывы.

Файл texts_ratings.txt

Несколько замечаний:

Сейчас мы не рассматриваем качество и правдивость составленных отзывов. Наша задача — научиться пользоваться инструментами для подобных задач.
Существует множество алгоритмов решения этой задачи, в том числе с помощью машинного обучения. Абсолютное большинство из них начинаются так же, как и наш: со стемминга или лемматизации исходных текстов.
Аналогичный подход может сильно помочь вам в задачах фильтрации данных по словам.

Итак, сначала составим список основ слов, которые характерны для положительных и отрицательных отзывов. Чтобы не учитывать их многочисленные формы используем стеммер NLTK. Например, найдем основу слова «благодарны»:

In [36]:
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer( "russian" )
snowball_stemmer.stem( 'благодарны' )

'благодарн'

Аналогичную основу будут иметь многие вариации этого слова:

In [40]:
for word in ['благодарность', 'благодарностью', 'благодарны']:
    print(snowball_stemmer.stem( word ))

благодарн
благодарн
благодарн


Мы взяли несколько простых вариантов «положительных» и «отрицательных» наборов слов, чтобы получить самый простой классификатор. Запишем их в файл params.yaml.
Теперь напишем алгоритм классификатора. Сначала импортируем список слов в переменную params:

In [41]:
from yaml import load
params = load( open('params.yaml', mode = 'r', encoding = 'utf-8') )

Сначала необходимо удалить из текста знаки препинания, чтобы его можно легко было разбить на слова через пробел. Воспользуемся методом translate. Метод берет список знаков препинания symbols и применяет к ним метод translate, заменяя их на пробелы. Для этого мы заводим строку spaces из такого же количества пробелов, что и symbols:

In [42]:
def clear_punctuation(text):
    """Удаление знаком пунктуации из текста text"""
    symbols = '.,!()"<>'
    spaces = ' ' * len(symbols)
    return text.translate( text.maketrans(symbols, spaces) )

In [43]:
clear_punctuation('Просто шикарный клуб! Ходили с другом на "Animal Джаz"! Остались очень довольны, атмосфера очень уютная, дружелюбная, есть второй этаж, бар')

'Просто шикарный клуб  Ходили с другом на  Animal Джаz   Остались очень довольны  атмосфера очень уютная  дружелюбная  есть второй этаж  бар'

Теперь этот текст легко можно разделить на слова, используя пробел в качестве разделителя.

# Построение классификатора

Чтобы получить список слов, основы которых входят в список «положительных» наборов слов, достаточно использовать list comprehension:

In [44]:
text = 'Просто шикарный клуб! Ходили с другом на "Animal Джаz"! Остались очень довольны, атмосфера очень уютная, дружелюбная, есть второй этаж, бар'
text_no_punctuation = clear_punctuation(text)
positive_words_list = [x for x in text_no_punctuation.split(' ') if snowball_stemmer.stem(x) in params['positive']]

В этом тексте оказалось только одно «положительное» слово. Есть чем расширить наши списки для улучшения модели классификации:

In [45]:
positive_words_list

['довольны']

In [46]:
positive_words_count = len( [x for x in text_no_punctuation.split(' ') if snowball_stemmer.stem(x) in params['positive']] )
positive_words_count

1

Оформим эти вычисления в функцию. Если количество положительных отзывов больше, чем отрицательных, возвращаем 'positive'. Если меньше, 'negative'. В случае равенства (в том числе 0) возвращаем 'undef'.

In [47]:
def classifier(text):
    """Классификация отзыва text на 'positive', 'negative' и 'undef' по совпадающим основам слов из params.yaml"""
    text = clear_punctuation(text)
    positive_words_count = len( [x for x in text.split(' ') if snowball_stemmer.stem(x) in params['positive']] )
    negative_words_count = len( [x for x in text.split(' ') if snowball_stemmer.stem(x) in params['negative']] )
    if positive_words_count > negative_words_count:
        return 'positive'
    elif positive_words_count < negative_words_count:
        return 'negative'
    return 'undef'

Проверяем, как работает (на очевидных примерах):

In [48]:
text = 'Просто шикарный клуб! Ходили с другом на "Animal Джаz"! Остались очень довольны, атмосфера очень уютная, дружелюбная, есть второй этаж, бар'

classifier(text)

'positive'

In [49]:
text = 'Ужасное место. Сотрудники клуба от них в восторге! А культурным людям тут не место.'
classifier(text)

'negative'

Прогоним наш файл с отзывами через классификатор. В этом скрипте мы используем одни и те же файлы для чтения и записи. В таких случаях рекомендуется «закрывать» их с помощью метода close, чтобы при следующем открытии не возникало проблем, и каждый раз не придумывать новые названия переменных:

In [50]:
f = open('texts_opinions.txt', mode = 'r', encoding = 'utf-8')
f_classified = open('texts_classified.txt', mode = 'w', encoding = 'utf-8')
for line in f:
    line = line.strip()    
    f_classified.write('{}\n'.format(classifier(line)))
f.close()
f_classified.close()

Теперь давайте сравним оценки нашего классификатора с реальными оценками пользователей в файле texts_ratings.txt. Будем пользовать следующими правилами:

Не учитываем отзывы, которые мы не смогли классифицировать (значение 'undef').
Для определенных типов отзывов (positive и negative) считаем их общее количество в переменной total_defined_ratings.
Если оценка отзыва в файлах совпала, то увеличиваем переменную right_classifications на 1.
В конце алгоритма выводим долю верно угаданных отзывов.

In [51]:
f_classified = open('texts_classified.txt', mode = 'r', encoding = 'utf-8')
f_ratings = open('texts_ratings.txt', mode = 'r', encoding = 'utf-8')
classified_list = [line.strip() for line in f_classified]
ratings_list = [line.strip() for line in f_ratings]
right_classifications = 0
total_defined_ratings = 0
for i in range(len(classified_list)):  
    if classified_list[i] != 'undef':
        total_defined_ratings += 1        
        if classified_list[i] == ratings_list[i]:
            right_classifications += 1
print('Доля верно классифицированных отзывов: {:.0%}'.format(right_classifications / total_defined_ratings))
f_classified.close()
f_ratings.close()

Доля верно классифицированных отзывов: 77%


Доля верно классифицированных отзывов: 77%

Итак, при первой самой простой модели мы получили точность классификации 77%. Конечно, это без учета того, что часть отзыва мы не классифицировали. Но долю неопределенных отзывов можно уменьшить, добавив в наш словарь больше «положительных» и «отрицательных» слов.

Попробуйте улучшить классификатор, добавив в params.yaml больше слов.