In [317]:
import json

import bz2
import regex
from tqdm import tqdm, tqdm_notebook
from scipy import sparse

In [318]:
import pandas as pd
import numpy as np
import nltk
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [319]:
import warnings
warnings.filterwarnings('ignore')

In [320]:
responses = []
with bz2.BZ2File('../data/banki_responses.json.bz2', 'r') as thefile:
    for row in tqdm(thefile):
        resp = json.loads(row)
        if not resp['rating_not_checked'] and (len(resp['text'].split()) > 0):
            responses.append(resp)

201030it [01:34, 2136.68it/s]


#  Домашнее задание по NLP # 2 [100 баллов] 
## Составление словарей для классификации по тональности
При классификации текстов или предложений по тональности необходимо использовать оценочные словари для предметной области, то есть, такие словари, в которых содержатся отрицательные и позитивные слова для какой-то предметной области. Идея подобных словарей основана на следующих наблюдениях: во-первых, для разных товаров используются разные оценочные слова (например бывает “захватывающая книга”, но не бывает “захватывающих лыж”), во-вторых, в контексте разных товаров одни и те же слова могут иметь разную окраску (слово “тормоз” в отзыве на велосипед имеет нейтральную окраску, в отзыве на компьютер – резко негативную, “пыль” в контексте пылесосов – нейтральную, в контексте кофемолок – положительную (“мелкий помол в пыль”)). Еще один пример: "теплое пиво" – это плохо, а "теплый свитер" – это хорошо.  

Составление таких словарей в ручную – трудоемкий процесс, но, к счастью, его не сложно автоматизировать, если собрать достаточно большие корпуса отзывов. В этом домашнем задании вам предстоит попробовать реализовать один их подходов к составлению оценочных словарей, основанный на статье Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora (https://nlp.stanford.edu/pubs/hamilton2016inducing.pdf).


Данные для задания – уже знакомые вам отзывы на банки, собранные с нескольких сайтов Рунета. Отзывы могут быть как положительными (оценка 5), так и отрицательными (оценка 1).

In [321]:
responses[99]

{'city': 'г. Саратов',
 'rating_not_checked': False,
 'title': 'Карта ко вкладу',
 'num_comments': 0,
 'bank_license': 'лицензия № 880',
 'author': 'ronnichka',
 'bank_name': 'Югра',
 'datetime': '2015-06-03 20:56:57',
 'text': 'Здравствуйте! Хотела написать, что мне месяц не выдают карту ко вкладу, ссылаясь на "нам же их из Самары везут" (на секундочку 5 часов езды от нашего города). Но! Прочитала, что людям 3,5 месяцев не выдают карту, и поняла, что у меня все хорошо, пока что. И подарок мне дали, и кулер в отделении есть. Так что я, конечно, готова ждать. Правда хотелось бы не очень долго.',
 'rating_grade': 3}

## Часть 1. Обучение модели word2vec [50 баллов]

1. Разбейте всю коллекцию отзывов на предложения. Лемматизируйте все слова. 
2. Обучите по коллекции предложений word2vec
3. Приведите несколько удачных и неудачных примеров решения стандартных текстов для word2vec:
    * тест на определение ближайших слов
    * тест на аналогии (мужчина – король : женщина – королева)
    * тест на определение лишнего слова.
    
4. Постройте несколько визуализаций:
    * TSNE для топ-100 (или топ-500) слов и найдите осмысленные кластеры слов
    * задайте координаты для нового пространства следующим образом: одна  ось описывает отношение "плохо – хорошо", вторая – "медленно – быстро" и найдите координаты названий банков в этих координатах.  Более формально:
    берем вектор слова "хорошо", вычитаем из него вектор слова "плохо", получаем новый вектор, который описывает разницу между хорошими и плохими словами. Берем вектор слова "сбербанк" и умножаем его на этот новый вектор – получаем координату по первой оси. Аналогично – для второй оси. Две координаты уже можно нарисовать на плоскости.  

Ссылка на примеры визуализаций: https://towardsdatascience.com/game-of-thrones-word-embeddings-does-r-l-j-part-2-30290b1c0b4b

In [322]:
from nltk import sent_tokenize
from nltk.corpus import stopwords
from pymystem3 import Mystem
from pymorphy2 import MorphAnalyzer

lemmatizator = Mystem()
pm2 = MorphAnalyzer()

regex = '[А-Яа-я]+'
rus_stopwords = stopwords.words('russian')

def get_sentences(text):
    try:
        return sent_tokenize(text)
    except:
        return []


def words_only(text, regex=regex):
    try:
        value = ' '.join(re.findall(regex, text)).lower()
        return value
    except:
        return ''
    
def drop_stopwords(text, stopwords=rus_stopwords):
    try:
        value = ' '.join([token for token in text.split() if not token in stopwords])
        return value
    except:
        return ''
    
def lemmatize(text, converter=pm2):
    try:
        value = [converter.parse(word)[0].normal_form for word in text.split()]
        return value
    except:
        return []
    
def nounizator(text, converter=pm2):
    try:
        value = [converter.parse(word)[0].normal_form for word in text.split() 
                              if 'NOUN' in converter.parse(word)[0].tag]
        return ' '.join(value)
    except:
        return ''
    

In [323]:
data = pd.DataFrame.from_dict(responses)

In [324]:
# Сформируем набор предложений, на основе которых дальше построим модель word2vecb
texts = data.text.sample(8000).copy()
sentences = []

for text in tqdm_notebook(texts, total=len(texts)):
    text_sentences = get_sentences(text)
    for sent in text_sentences:
        sent = words_only(sent)
        sent = drop_stopwords(sent)
        sent = lemmatize(sent)
        sentences.append(sent)
    

HBox(children=(IntProgress(value=0, max=8000), HTML(value='')))




In [325]:
# word2vec
from gensim.models import Word2Vec

# Обучим модель Word2Vec
model = Word2Vec(sentences, size=100, window=3, min_count=20, workers=4)

In [326]:
model.save("word2v.model")
model = Word2Vec.load("word2v.model")

Определение ближайших слов
    

In [327]:
model.most_similar("спасибо")

[('благодарность', 0.7701407670974731),
 ('выражать', 0.6997246742248535),
 ('светлана', 0.6870566606521606),
 ('квалифицировать', 0.6787351369857788),
 ('компетентность', 0.6686392426490784),
 ('отзывчивый', 0.6636867523193359),
 ('профессиональный', 0.6624307036399841),
 ('виктория', 0.6577518582344055),
 ('благодарить', 0.6545282602310181),
 ('грамотный', 0.6535828113555908)]

In [328]:
model.most_similar("сша")

[('доллар', 0.9109354615211487),
 ('евро', 0.8953583836555481),
 ('валюта', 0.8338183164596558),
 ('номинал', 0.8091088533401489),
 ('иностранный', 0.8027701377868652),
 ('кеш', 0.7758646011352539),
 ('равный', 0.7681918144226074),
 ('сейф', 0.7681764364242554),
 ('конвертация', 0.7661270499229431),
 ('рублёвый', 0.7542959451675415)]

##### Аналогии (мужчина – король : женщина – королева)

In [329]:
model.most_similar(positive=["сбербанк", 'доллар'], negative=["райффайзенбанк"])

[('евро', 0.693849503993988),
 ('валюта', 0.6243140697479248),
 ('купюра', 0.6003172397613525),
 ('копейка', 0.59272700548172),
 ('конвертация', 0.5861779451370239),
 ('тысяча', 0.5661194324493408),
 ('наличка', 0.5592322945594788),
 ('сша', 0.5504907369613647),
 ('наличность', 0.5479194521903992),
 ('рубль', 0.5345660448074341)]

##### Определение лишнего слова.

In [330]:
model.doesnt_match("доллар рубль россия евро".split())

'россия'

In [331]:
model.doesnt_match("россия украина сша девушка".split())

'девушка'

#### Визуализация:
    * TSNE для топ-100 (или топ-500) слов и найдите осмысленные кластеры слов

In [332]:
from nltk import FreqDist

top_words = []

fd = FreqDist()
for text in tqdm(sentences):
    fd.update(text)
for i in fd.most_common(1000):
    top_words.append(i[0])
print(top_words[:15])

100%|██████████| 136967/136967 [00:01<00:00, 120012.25it/s]

['банка', 'карта', 'банк', 'это', 'деньга', 'день', 'год', 'кредит', 'мой', 'который', 'отделение', 'сотрудник', 'клиент', 'счёт', 'сказать']





In [333]:
from sklearn.manifold import TSNE

top_words_vec = model[top_words]
tsne = TSNE(n_components=2, random_state=0)

%time top_words_tsne = tsne.fit_transform(top_words_vec)

CPU times: user 6.61 s, sys: 404 ms, total: 7.01 s
Wall time: 6.96 s


In [334]:
from bokeh.models import ColumnDataSource, LabelSet
from bokeh.plotting import figure, show, output_file
from bokeh.io import output_notebook
output_notebook()

p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="word2vec T-SNE for most common words")

source = ColumnDataSource(data=dict(x1=top_words_tsne[:,0],
                                    x2=top_words_tsne[:,1],
                                    names=top_words))

p.scatter(x="x1", y="x2", size=8, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=6,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)


show(p)

    * задайте координаты для нового пространства следующим образом: одна  ось описывает отношение "плохо – хорошо", вторая – "медленно – быстро" и найдите координаты названий банков в этих координатах.  Более формально:
  
    берем вектор слова "хорошо", вычитаем из него вектор слова "плохо", получаем новый вектор, который описывает разницу между хорошими и плохими словами. Берем вектор слова "сбербанк" и умножаем его на этот новый вектор – получаем координату по первой оси. Аналогично – для второй оси. Две координаты уже можно нарисовать на плоскости.  

In [335]:
vect_good_bad = model['отлично'] - model['плохо']
vect_fast_slow = model['быстро'] - model['медленно']

In [336]:
# Банки:
banks = ['сбербанк', 'втб', 'райффайзенбанк', 'альфа', 'стандарт', 
         'ситибанк', 'мтс', 'мкб', 'хоум', 'связной', 'отп', 'авангард']

df = pd.DataFrame.from_dict({'bank': banks})

df['vector'] = df.apply(lambda row: model[row['bank']], axis=1)
df['bad_good'] = df.apply(lambda row: np.dot(vect_good_bad, row['vector']), axis=1)
df['slow_fast'] = df.apply(lambda row: np.dot(vect_fast_slow, row['vector']), axis=1)

In [337]:
p = figure(tools="pan,wheel_zoom,reset,save",
           toolbar_location="above",
           title="Good/bad and Fast/Slow banks")

source = ColumnDataSource(data=dict(x1=df.bad_good,
                                    x2=df.slow_fast,
                                    names=df.bank))

p.scatter(x="x1", y="x2", size=4, source=source)

labels = LabelSet(x="x1", y="x2", text="names", y_offset=3,
                  text_font_size="8pt", text_color="#555555",
                  source=source, text_align='center')
p.add_layout(labels)
p.xaxis.axis_label = 'Bad / Good'
p.yaxis.axis_label = 'Slow / Fast'

show(p)

## Часть 2. Распространение метки [50 баллов]

Определите 5-8 позитивных слов (например, “быстрый”, “удобный”) и 5-8  негативных слов (например,“очередь”, “медленно”). Эти слова будут основной будущего оценочного словаря. Пусть позитивному классу соответствует метка 1, негативному – -1. Пометьте выбранные слова в лексическом графе соответствующими метками. Запустите любой известный вам метод распространения метки (Label Propogation) в лексическом графе. На выходе метода распространения ошибки должны быть новые слова, помеченные метками 1 и -1 – это и есть искомые оценочные слова.

Алгоритмы распространения метки устроены примерно так: пусть мы находимся в выршине, помеченном +1. С какой-то вероятностью мы переносим эту метку на соседние узлы. С меньшей вероятностью переносим ее на вершины на расстоянии два. В конце распространения метки, часть вершин оказывается помечена меткой +1, часть – -1, большая часть остается без метки.

Рекомендуемые алгоритмы распространения метки:
1. ```graphlab.label_propagation``` (```graphlab``` доступен бесплатно по образовательной лицензии)
2. ```sklearn.semi_supervised.LabelPropagation``` 
3. ```sklearn.semi_supervised.LabelSpreading```

In [338]:
import numpy as np
from sklearn import datasets
from sklearn.semi_supervised import LabelSpreading

positives = ['быстрый', 'удобный', 'качественный', 'спасибо', 'исчерпывающий']
negatives = ['медленный', 'очередь', 'плохо', 'негативный', 'грубость', 'хамство']

In [345]:
vectors = pd.DataFrame(data=model.wv[model.wv.vocab.keys()])
vectors['word'] = model.wv.vocab.keys()

In [349]:
vectors['TARGET'] = vectors.apply(lambda row: 1 if row['word'] in positives else 0 if row['word'] 
                                  in negatives else -1, axis=1)
y = vectors['TARGET']
X = vectors.drop(['word', 'TARGET'], axis=1)

# Подбор негативных меток
label_prop_model = LabelSpreading(kernel='knn', alpha=0.2, n_neighbors=5, max_iter=5, tol=0.3)
label_prop_model.fit(X, y)

vectors['results'] = label_prop_model.transduction_
vectors[(vectors.results==1)][['word', 'TARGET', 'results']]

Unnamed: 0,word,TARGET,results
44,информация,-1,1
46,вопрос,-1,1
60,заранее,-1,1
61,спасибо,1,1
62,ответ,-1,1
98,причина,-1,1
109,запрос,-1,1
112,извинение,-1,1
157,проблема,-1,1
181,ждать,-1,1


In [352]:
vectors['TARGET'] = vectors.apply(lambda row: 0 if row['word'] in positives else 1 if row['word'] 
                                  in negatives else -1, axis=1)
y = vectors['TARGET']
X = vectors.drop(['word', 'TARGET'], axis=1)

# Подбор позитивных меток

label_prop_model = LabelSpreading(kernel='knn', alpha=0.1, n_neighbors=5, max_iter=5, tol=0.2)
label_prop_model.fit(X, y)

vectors['results'] = label_prop_model.transduction_
vectors[(vectors.results==1)][['word', 'TARGET', 'results']]

Unnamed: 0,word,TARGET,results
2,ситуация,-1,1
112,извинение,-1,1
114,неудобство,-1,1
134,нарекание,-1,1
143,очередь,1,1
163,отзыв,-1,1
176,абсолютно,-1,1
179,работа,-1,1
203,сторона,-1,1
339,оценка,-1,1
