# Векторные представления слов.

In [3]:
import gensim
import numpy as np
from sklearn.cluster import MiniBatchKMeans
from sklearn.metrics.pairwise import cosine_distances
from collections import defaultdict
import warnings
warnings.filterwarnings('ignore')

Загрузим данные из тех же файлов.

In [2]:
!pip install gensim

Collecting gensim
[?25l  Downloading https://files.pythonhosted.org/packages/82/f2/c2f2c87ed72483fce010fbfea1a3adbd168c0f0dafc878cbfb5a76381b03/gensim-3.4.0-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl (22.8MB)
[K    100% |████████████████████████████████| 22.8MB 48kB/s ta 0:00:015
Collecting smart-open>=1.2.1 (from gensim)
  Downloading https://files.pythonhosted.org/packages/4b/69/c92661a333f733510628f28b8282698b62cdead37291c8491f3271677c02/smart_open-1.5.7.tar.gz
Collecting bz2file (from smart-open>=1.2.1->gensim)
  Downloading https://files.pythonhosted.org/packages/61/39/122222b5e85cd41c391b68a99ee296584b2a2d1d233e7ee32b4532384f2d/bz2file-0.98.tar.gz
Collecting boto3 (from smart-open>=1.2.1->gensim)
[?25l  Downloading https://files.pythonhosted.org/packages/d1/1d/7e85f1da7c544ade28e6a195dd80ac6f09a058ae10579e1dc381dd36363a/boto3-1.7.25-py2.py3-none-any.whl (128kB)
[K    100% |████████████████████████████████| 133k

In [4]:
sents = open('data/train_pos.out').read().split('\n\n') + \
        open('data/test_pos.out').read().split('\n\n')


Для word2vec'а лучше использовать лемматизированные слова, а для fasttext'а подойдут и сырые слова.

In [5]:
# сохраним целые предложения на будущее
sents_ = []

# не будем учитывать слова короче 4 (так заодно выкинтся все знаки препинания)
lemmas = []
for sent in sents:
    sent_lemmas = []
    for line in sent.split('\n'):
        lemma = line.split('\t')[1]
        if len(lemma) > 3:
            sent_lemmas.append(lemma.lower())
    lemmas.append(sent_lemmas)

raw = []
for sent in sents:
    sent_lemmas = []
    s = []
    for line in sent.split('\n'):
        lemma = line.split('\t')[0]
        s.append(lemma)
        if len(lemma) > 3:
            sent_lemmas.append(lemma.lower())
    raw.append(sent_lemmas)
    sents_.append(s)

In [6]:
len(lemmas)

83148

In [7]:
lemmas[:10]

[['чей-то', 'рука', 'лечь', 'плечо'],
 ['голодать', 'мёрзнуть', 'вокзал', 'дождь', 'унижать', 'бить'],
 ['дальний', 'конец', 'лагерь', 'распространяться', 'аромат', 'жаркое'],
 ['потратить',
  'куча',
  'деньги',
  'мнение',
  'лишь',
  'чтобы',
  'поехать',
  'пригород',
  'встретиться',
  'девочка',
  'весь'],
 ['подчиняться',
  'интуиция',
  'строитель',
  'приблизиться',
  'котлован',
  'который',
  'расчёт',
  'вскоре',
  'должный',
  'быть',
  'заполниться',
  'вода',
  'напоследок',
  'ощупать',
  'каждый',
  'брелок'],
 ['душа', 'попасть'],
 ['один',
  'нежный',
  'впечатлительный',
  'девочка',
  'увидеть',
  'этот',
  'фильм',
  'сойти',
  'начаться',
  'буйный',
  'помешательство',
  'ужас',
  'война'],
 ['присмотреть', 'себя', 'подарок', 'этот', 'дата'],
 ['близко',
  'ночь',
  'дружно',
  'грузиться',
  'собственный',
  'выделенный',
  'нужда',
  'легковой',
  'транспорт',
  'убираться',
  'город'],
 ['подозревать',
  'вышедший',
  'давным-давно',
  'открытка',
  'быть',
 

In [13]:
# посмотрим параметры
?gensim.models.Word2Vec

In [14]:
w2v = gensim.models.Word2Vec(lemmas, size=200,sg=1, max_vocab_size=100000)

In [15]:
# проверим что за модель получилась, посмотрев на близкие слова
w2v.wv.most_similar('семья')

[('спорт', 0.9314305782318115),
 ('учитель', 0.9286872744560242),
 ('родственник', 0.9269474744796753),
 ('традиция', 0.924402117729187),
 ('творчество', 0.9240153431892395),
 ('роль', 0.9228749871253967),
 ('как_правило', 0.9225726127624512),
 ('родина', 0.9207941293716431),
 ('возраст', 0.920457124710083),
 ('семейный', 0.9192546606063843)]

In [6]:
# посмотрим параметры
?gensim.models.FastText

In [16]:
ft = gensim.models.FastText(raw, min_n=3, max_n=6, sg=1, size=100, max_vocab_size=100000)

In [20]:
# проверим что за модель получилась, посмотрев на близкие слова
ft.wv.most_similar('женщина')

[('мужчина', 0.9776095747947693),
 ('жена', 0.971518337726593),
 ('женщине', 0.9657437801361084),
 ('женщину', 0.9579909443855286),
 ('женская', 0.9570773243904114),
 ('женат', 0.9507824778556824),
 ('любимая', 0.9497514367103577),
 ('вина', 0.9495512843132019),
 ('женщин', 0.9483605623245239),
 ('всякая', 0.9473156929016113)]

### Как ни странно, но из одельных векторов слов можно сделать хорошие представления целых предложений.

Для этого просто усредним векторы отдельных векторов.

In [21]:
X = np.zeros((len(lemmas), 200))

for i, sent in enumerate(lemmas):
    try:
        vectors = w2v[sent]
    except (KeyError, ValueError):
        continue
    
    average_vector = np.mean(vectors, axis=0)
    X[i] = average_vector

Можно также искать похожие предложения с помощью косинусной близости (или каких-то других метрик)

In [22]:
sents_[26]

['Со', 'времени', 'ее', 'отъезда', 'прошло', 'три', 'года', '.']

In [24]:
cosine_distances(X[26].reshape(1,-1), X).argsort()

array([[   26, 54970, 57904, ..., 32956, 60599, 41573]])

In [25]:
sents_[54970]

['С', 'тех', 'пор', 'прошло', 'немало', 'времени', '.']

Для наглядности кластеризуем предложения и посмотрим какие получаются кластеры.

In [26]:
km = MiniBatchKMeans(1000, verbose=1)
km.fit(X)

Init 1/3 with method: k-means++
Inertia for init 1/3: 4.577089
Init 2/3 with method: k-means++
Inertia for init 2/3: 4.929391
Init 3/3 with method: k-means++
Inertia for init 3/3: 5.525910
Minibatch iteration 1/83200: mean batch inertia: 0.096289, ewa inertia: 0.096289 
Minibatch iteration 2/83200: mean batch inertia: 0.113559, ewa inertia: 0.096331 
Minibatch iteration 3/83200: mean batch inertia: 0.120676, ewa inertia: 0.096389 
Minibatch iteration 4/83200: mean batch inertia: 0.119075, ewa inertia: 0.096444 
Minibatch iteration 5/83200: mean batch inertia: 0.100133, ewa inertia: 0.096453 
Minibatch iteration 6/83200: mean batch inertia: 0.103523, ewa inertia: 0.096470 
Minibatch iteration 7/83200: mean batch inertia: 0.120630, ewa inertia: 0.096528 
Minibatch iteration 8/83200: mean batch inertia: 0.102404, ewa inertia: 0.096542 
Minibatch iteration 9/83200: mean batch inertia: 0.105247, ewa inertia: 0.096563 
[MiniBatchKMeans] Reassigning 50 cluster centers.
Minibatch iteration 10/

MiniBatchKMeans(batch_size=100, compute_labels=True, init='k-means++',
        init_size=None, max_iter=100, max_no_improvement=10,
        n_clusters=1000, n_init=3, random_state=None,
        reassignment_ratio=0.01, tol=0.0, verbose=1)

In [27]:
f = open('clusters_.txt', 'w')

labels = km.labels_ # в km.labels_ тут хранятся кластеры для каждого примера

clusters = defaultdict(list)
for i in range(len(sents_)):
    clusters[labels[i]].append(sents_[i])

for cluster in clusters:
    f.write('\n\n\nCLUSTER - {}\n'.format(cluster))
    for sent in clusters[cluster]:
        f.write(' '.join(sent) + '\n')
f.close()
    

Простое усреднение работает очень хорошо. Если найти корпус побольше и подобрать параметры, векторы предложения будут очень хорошие и подойдут для классификации.

Есть несколько способоб сделать векторы ещё лучше.


Про них можно почитать вот тут:

https://github.com/nlptown/sentence-similarity/blob/master/Simple%20Sentence%20Similarity.ipynb