# Sentiment Analysis using Doc2Vec

Рассмотрим задачу определения тональности рецензии фильма из датасета IMDB.

Импортируем нужные библиотеки

In [1]:
import random

# gensim modules
from gensim import utils
from gensim.models.doc2vec import TaggedDocument
from gensim.models import Doc2Vec

from os.path import join
DATA_DIR = 'data/imdb_sentiment'

import numpy
from sklearn.metrics import precision_score, recall_score
from sklearn.linear_model import LogisticRegression


### Data

Датасет состоит из следующих документов
The result is to have five documents:

- `test-neg.txt`: тестовый набор из 12500 негативных рецензий на фильмы
- `test-pos.txt`: тестовый набор из 12500 позитивных рецензий на фильмы
- `train-neg.txt`: обучающий набор данных из 12500 негативных рецензий на фильмы
- `train-pos.txt`: обучающий набор данных из 12500 позитивных рецензий на фильмы
- `train-unsup.txt`: неразмеченный сет из 50000 рецензий

Для всех текстов уже проведена минимальная предобработка (приведение к нижнему регистру, удаление пунктуации,...)
Каждая рецензия идет с новой строки файла 

### Скармливаем тексты в Doc2Vec

Определим класс, который преобразует данные к формату, который ожидает док2век. Помним, что при обучении мы учим вектора для текстов, передавая внутрь некий условный айдишник документа в базе. 

Это то, чем док2вес отличается от ворд2века. Он интерпретирует айдишник документа как "специальное слово" и учит для него свой вектор, который и является представлением документа. 

Таким образом, док2век ждет данные в формате
```python
[['word1', 'word2', 'word3', 'lastword'], ['label1']]
```

In [2]:
class LabeledLineSentence(object):
    def __init__(self, sources):
        self.sources = sources
        
        doc_ids = {}
        
        # тут нужно убедиться, что id для всех документов уникальны (мы ведь его будем подавать внутрь алгоритма)
        for key, value in sources.items():
            if value not in doc_ids:
                doc_ids[value] = key
            else:
                raise Exception('Non-unique prefix encountered')
        
    def to_array(self):  # так как у нас есть несколько файлов с выборками, надо прочитать их все (даже неразмеченную)
        self.sentences = []
        self.textbook = {}
        for source, prefix in self.sources.items():
            with utils.smart_open(join(DATA_DIR, source)) as fin:  # читаем каждый файл с рецензиями
                for item_no, line in enumerate(fin):
                    doc_label = prefix + '_%s' % item_no
                    self.textbook[doc_label] = line
                    sentence_words = utils.to_unicode(line).split()
                    tagged_line = TaggedDocument(sentence_words, [doc_label])
                    self.sentences.append(tagged_line)
        return self.sentences
    
    def sentences_perm(self):  # рандомно перемешиваем тексты (это значительно влияет на качество)
        shuffled = list(self.sentences)
        random.shuffle(shuffled)
        return shuffled

In [3]:
sources = {'test-neg.txt':'TEST_NEG', 'test-pos.txt':'TEST_POS', 'train-neg.txt':'TRAIN_NEG', 'train-pos.txt':'TRAIN_POS', 'train-unsup.txt':'TRAIN_UNS'}
# sources - отображение "файл с текстом" -> "префикс для метки"
sentences = LabeledLineSentence(sources)


## Model

### Строим словарь

Перед обучением док2век строит словарь по корпусу тектов, считает частоты слов, при необходимости удаляет редкие слова


- `min_count`: выбрасываем из рассмотрения все слова, которые появляются меньше чем min_count раз в выборке. Здесь нужно поставить =1, потому что айдишники документов у нас уникальны (встречаются 1 раз) и тоже интерпретируются как слова
- `window`: размер окна контекста, все как обычно
- `vector_size`: размерность получаемого вектотра. 100 - обычно ок. можете попробовать 300 или 500, но запаситесь кофе. ждать придется подольше
- `sample`: "тот самый порог" для downsampling'а слишком частотных слов (как в ворд2веке)
- `workers`: количество воркеров, зависит от "мощей" вашей тачки (ставьте равным количеству ядер). 
- `epochs`: сколько раз хотим пройтись по всей выборке 
- `dm`: режим обучения doc2vec. Если стоит dm=1 (по умолчанию) - будет учиться PV-DM (distributed memory). Если dm=1 - PV-DBOW
- `dm_mean`: параметр для PV-DM (при dm=1). Определяет то, как будут аггрегироваться информация для вектора текста и векторов слов при обучении. dm_mean=0 - суммирование вектора текста и всех векторов слов, dm_mean=1 - усреднение всех векторов
- `dm_concat`: параметр для PV-DM (при dm=1). Конкатенация вектора текста и векторов слов (вместо уреднения/суммирования)


# Определим PV-DM модель

In [4]:
%%time
model = Doc2Vec(dm=1, epochs=10, min_count=1, window=10, vector_size=100, sample=1e-4, negative=5, workers=4)

model.build_vocab(sentences.to_array())

CPU times: user 17.2 s, sys: 1.13 s, total: 18.3 s
Wall time: 19.6 s


### Обучение Doc2Vec

Запустим обучение модели. Обучается лучше, если после каждой эпохи перемешивать выборку. Поэтому в классе LabeledLineSentence есть метод sentences_perm, который выполняет ровно эту задачу.

Давайте запустим на 10 эпох

In [5]:
%%time
model.train(sentences.sentences_perm(), epochs=model.epochs, total_examples=model.corpus_count)

CPU times: user 7min 1s, sys: 21.8 s, total: 7min 23s
Wall time: 3min 22s


## Сохраним модель для подгрузки

In [6]:
model.save(join(DATA_DIR, 'imdb_10epochs.d2v'))

In [7]:
model = Doc2Vec.load(join(DATA_DIR, 'imdb_10epochs.d2v'))

### Проверим, чему научилась модель

Давайте проверим, как модель научилась строить вектора для слов в процессе обучения

In [9]:
model.wv.most_similar('bad', topn=20)

  if np.issubdtype(vec.dtype, np.int):


[('terrible', 0.8218690156936646),
 ('awful', 0.8145092129707336),
 ('horrible', 0.7970844507217407),
 ('good', 0.7474997043609619),
 ('lousy', 0.7229648232460022),
 ('stupid', 0.7059834599494934),
 ('poor', 0.678953230381012),
 ('crappy', 0.6580066680908203),
 ('lame', 0.6575591564178467),
 ('really', 0.6417423486709595),
 ('cheesy', 0.6368817090988159),
 ('just', 0.632099449634552),
 ('dumb', 0.6202185153961182),
 ('decent', 0.6072367429733276),
 ('ridiculous', 0.6067180037498474),
 ('movie', 0.6021982431411743),
 ('laughable', 0.5955305099487305),
 ('even', 0.5954839587211609),
 ('atrocious', 0.5939431190490723),
 ('ok', 0.5769880414009094)]

Похоже, что вполне себе адекватно

Мы можем для каждого документа посмотреть его обученный вектор, обратившись по айдишнику данного длокумента

In [10]:
model['TRAIN_NEG_0']

array([ 0.05684923, -0.07725863,  0.13775468,  0.12887442,  0.00908506,
        0.01480276,  0.02513479,  0.18365568, -0.05325323, -0.10734014,
       -0.16174875,  0.10802115, -0.02439884,  0.06430485,  0.07098597,
        0.09168662,  0.06569406, -0.13009293,  0.1423154 , -0.03993802,
       -0.15709767, -0.00654513, -0.09003363,  0.05924307, -0.241081  ,
       -0.12206589, -0.03812149, -0.04539146,  0.03792131, -0.22440206,
       -0.1265503 , -0.06980037, -0.09843055, -0.03765225,  0.07679053,
       -0.14751945, -0.00324497, -0.14627582, -0.28507626,  0.15701021,
        0.0921864 ,  0.16014545,  0.0012446 ,  0.3154778 , -0.05361024,
        0.05003441, -0.00273197, -0.30428532, -0.07969783, -0.0585442 ,
       -0.09689523,  0.01964809, -0.1155773 ,  0.0268969 , -0.00834335,
        0.05198096,  0.22581883,  0.02129975, -0.08291249,  0.05874895,
       -0.12564994,  0.01517223, -0.1587225 ,  0.04311007, -0.13332868,
       -0.05965387,  0.1506662 ,  0.11073697,  0.02142926,  0.09

In [56]:
query_id = 'TRAIN_POS_120'
print('Original query:')
print(sentences.textbook[query_id])    
print('-----------')

similar_doc = model.docvecs.most_similar(query_id, topn=5)

for tag, prob in similar_doc:
    print(sentences.textbook[tag])
    print('-----------')

Original query:
b'an absolute classic the direction is flawless the acting is just superb words fall short for this great work the most definitive movie on mumbai police this movie has stood the test of timesom puri gives a stellar performance smita patil no less all the actors have done their best and the movie races on thrilling you at every moment this movie shakes your whole being badly and forces you to rethink about many issues that confront our societythis is the story of a cop om puri who starts out in his career as a honest man but ultimately degenerates into a killer the first attempt in bollywood to get behind the scenes and expose the depressing truth about mumbai cops kudos to nihalani after this movie a slew of bollywood movies got released that exposed the criminalpoliticianpolice nexus thus this movie was truly a trend setter this trend dominated the hindi movie scene for more than a decade this movie was a moderate box office hit a mustsee for discerning movie fans\n'


  if np.issubdtype(vec.dtype, np.int):


## Оценим, насколько хорошо получились вектора для документов на внешней задаче - предсказания тональности рецензии

Используем полученные вектора текстов, чтобы построить классификатор оценки тональности.

Создадим такой датасет

In [11]:
train_arrays = numpy.zeros((25000, 100))  # 12500 позитивных и 12500 негативных
train_labels = numpy.zeros(25000)  # метка сентимента

for i in range(12500):
    prefix_train_pos = 'TRAIN_POS_' + str(i)
    prefix_train_neg = 'TRAIN_NEG_' + str(i)
    train_arrays[i] = model[prefix_train_pos]  # model[prefix_train_pos] - вектор для документа с id=prefix_train_pos
    train_arrays[12500 + i] = model[prefix_train_neg]
    train_labels[i] = 1
    train_labels[12500 + i] = 0

The training array looks like this: rows and rows of vectors representing each sentence.

In [12]:
print (train_arrays)

[[-0.05842066  0.08639163  0.32506874 ... -0.02422987 -0.31255844
  -0.04418823]
 [-0.32492828  0.36115882  0.49848297 ... -0.04447221 -0.08652838
  -0.32622376]
 [ 0.04599966  0.05331992  0.09771408 ... -0.07748941 -0.14217965
   0.09537445]
 ...
 [-0.2491194   0.01202065  0.11303478 ...  0.02232761  0.11644159
   0.00602041]
 [ 0.19666162  0.08343677  0.32887426 ...  0.03588881  0.14314343
   0.33295429]
 [ 0.02957906  0.08606755  0.23530437 ... -0.03992742 -0.07587323
   0.12089675]]


The labels are simply category labels for the sentence vectors -- 1 representing positive and 0 for negative.

In [13]:
print (train_labels)

[1. 1. 1. ... 0. 0. 0.]


### Подготовим такой же датасет для тестовых данных


In [14]:
test_arrays = numpy.zeros((25000, 100))
test_labels = numpy.zeros(25000)

for i in range(12500):
    prefix_test_pos = 'TEST_POS_' + str(i)
    prefix_test_neg = 'TEST_NEG_' + str(i)
    test_arrays[i] = model[prefix_test_pos]
    test_arrays[12500 + i] = model[prefix_test_neg]
    test_labels[i] = 1
    test_labels[12500 + i] = 0

### Попробуем обучить логистическую регрессию поверх векторов документов

In [15]:
classifier = LogisticRegression(solver = 'lbfgs')
classifier.fit(train_arrays, train_labels)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False)

## Посмотрим, какого качества удалось достичь на тестовой выборке

In [16]:
pred_test = classifier.predict(test_arrays)

In [17]:
prec = precision_score(pred_test, test_labels)
recall = recall_score(pred_test, test_labels)

print("Precision:", prec)
print("Recall:", recall)

Precision: 0.842
Recall: 0.8383782061494345


### Вполне себе ничего. попробуйте улучшить! =)