In [49]:
import numpy as np
import faiss

In [9]:
VOCAB_PATH = '../routing/data/sberbank_embeddings/w2v_m5_w3_v300_norm_v48_vocab.txt'
W2V_MATRIX_PATH = '../routing/data/sberbank_embeddings/w2v_m5_w3_v300_norm_v48_vectors.npy'

In [10]:
import faiss

In [11]:
with open(VOCAB_PATH) as f:
    vocab = f.read().split('\n')

In [14]:
w2v_matrix = np.load(W2V_MATRIX_PATH)

In [140]:
class Word2Vec:
    
    def __init__(self, vocab_path, matrix_path):
        
        with open(VOCAB_PATH) as f:
            self.vocab = f.read().split('\n')
            
        self._exist_words = set(self.vocab)
            
        self.word_matrix = np.load(matrix_path)
        
        self.index = faiss.IndexFlatL2(self.word_matrix.shape[1])
        self.index.add(self.word_matrix)
        
    def get_word_index(self, word):
        
        if word in self._exist_words:
            return self.vocab.index(word)
        
    def __call__(self, word):
        
        index = self.get_word_index(word)
        
        if index:
        
            return self.word_matrix[index]
    
    def __getitem__(self, word):
        
        return self.__call__(word)
    
    def get_similar(self, word, k=1):
        
        k += 1
        
        vector = self.__call__(word)
        
        if vector is None:
            return None
        
        _, indexes = self.index.search(x=np.array([vector]), k=k)
        
        indexes = indexes[0][1:]
        
        return [self.vocab[n] for n in indexes]

In [141]:
w2v = Word2Vec(VOCAB_PATH, W2V_MATRIX_PATH)

In [142]:
w2v.get_similar('сервис', 6)

['онлайн-сервис',
 'интернет-сервис',
 'интернет-банкинг',
 'интерфейс',
 'интернет-банк',
 'услуга']

In [158]:
import random

In [285]:
class TfIdfReplacer:
    
    def __init__(self, w2v, idf_values, k_top_words=1):
        
        self.w2v = w2v
        self.vocab = self.w2v.vocab
    
        self.idf_values = idf_values
        
        self.k_top_words = k_top_words

    def replace_word(self, word):
        
        index = self.w2v.get_word_index(word)
        
        if index is None:
            return word
        
        idf = self.idf_values[index]
        
        if idf > random.random():
            
            similar_word = random.choice(self.w2v.get_similar(word, k=self.k_top_words))
            
            return similar_word
        
        else:
            
            return word
        
    def replace_sentence(self, tokens):
        
        replaced = [self.replace_word(tok) for tok in tokens]
        
        return replaced

In [286]:
replacer = TfIdfReplacer(w2v=w2v, idf_values=np.random.rand(len(w2v.vocab)), k_top_words=5)

In [287]:
replacer.replace_word('мама')

'мама'

In [288]:
replacer.replace_sentence('мама мыла рама .'.split())

['мама', 'мыла', 'рама', '.']

In [289]:
import json

In [290]:
with open('../routing/data/dataset/data.jsonl') as f:
    train = [json.loads(sample) for sample in f.read().split('\n')]

In [291]:
train[0]

{'text': 'Я в Воронеже открыл расчетный счет, я уехал в другой город и не успел сделать логин и пароль, чтобы я мог с компьютера заходит Бизнес Онлайн Сбербанк. И поэтому возможно ли мне в другом городе, я нахожусь в Сочи, пойти в какое-то отделение банка со своим паспортом, чтобы мне могли сделать логин и пароль',
 'target': 'ANNA.1.sales',
 'parsed': {'normalized_text': 'GEO_TOKEN открывать расчетный_счет уезжать другой город не успевать сделать логин пароль компьютер заходить бизнес онлайн сбербанк . поэтому возможно другой город находиться GEO_TOKEN пойти какой-то отделение банк со свой паспорт сделать логин пароль .',
  'original_text': 'Я в Воронеже открыл расчетный счет, я уехал в другой город и не успел сделать логин и пароль, чтобы я мог с компьютера заходит Бизнес Онлайн Сбербанк. И поэтому возможно ли мне в другом городе, я нахожусь в Сочи, пойти в какое-то отделение банка со своим паспортом, чтобы мне могли сделать логин и пароль',
  'tokenized_elements_list': [{'text': 'Я'

In [293]:
origin = train[0]['parsed']['normalized_text'].split()

replaced = replacer.replace_sentence(origin)

for n in range(len(origin)):
    print(origin[n], replaced[n])

GEO_TOKEN GEO_TOKEN
открывать открывать
расчетный_счет расчетный_счет
уезжать уезжать
другой realite
город регион
не он
успевать успевать
сделать сделать
логин пароль
пароль код
компьютер ноутбук
заходить заходить
бизнес бизнес
онлайн онлайн
сбербанк сбербанк
. .
поэтому поэтому
возможно малоосуществимый
другой myr
город город
находиться находиться
GEO_TOKEN GEO_TOKEN
пойти пойти
какой-то какой-то
отделение отделение
банк ORG_TOKEN
со ип-шный
свой свой
паспорт паспорт
сделать сделать
логин индификатор
пароль код
. .


In [294]:
%%timeit
replaced = replacer.replace_sentence(origin)

276 ms ± 34.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
w2v = 

In [86]:
w2v.get_similar('NUM_TOKEN')

array([148619,    999,   1656,   2134,   2906])

In [78]:
w2v.get_similar('NUM_TOKEN')[0][0]

148619

In [None]:
self

In [62]:
w2v('AEF')

In [33]:
w2v

<__main__.Word2Vec at 0x12e317f60>

In [35]:
w2v['PAD']

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

In [36]:
import numpy as np

d = 64                           # dimension
nb = 100000                      # database size
nq = 10000                       # nb of queries
np.random.seed(1234)             # make reproducible
xb = np.random.random((nb, d)).astype('float32')
xb[:, 0] += np.arange(nb) / 1000.
xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000.

import faiss                   # make faiss available
index = faiss.IndexFlatL2(d)   # build the index
print(index.is_trained)
index.add(xb)                  # add vectors to the index
print(index.ntotal)

k = 4                          # we want to see 4 nearest neighbors
D, I = index.search(xb[:5], k) # sanity check
print(I)
print(D)
D, I = index.search(xq, k)     # actual search
print(I[:5])                   # neighbors of the 5 first queries
print(I[-5:])  

True
100000
[[  0 393 363  78]
 [  1 555 277 364]
 [  2 304 101  13]
 [  3 173  18 182]
 [  4 288 370 531]]
[[0.        7.1751733 7.207629  7.2511625]
 [0.        6.3235645 6.684581  6.7999454]
 [0.        5.7964087 6.391736  7.2815123]
 [0.        7.2779055 7.5279865 7.6628466]
 [0.        6.7638035 7.2951202 7.3688145]]
[[ 381  207  210  477]
 [ 526  911  142   72]
 [ 838  527 1290  425]
 [ 196  184  164  359]
 [ 526  377  120  425]]
[[ 9900 10500  9309  9831]
 [11055 10895 10812 11321]
 [11353 11103 10164  9787]
 [10571 10664 10632  9638]
 [ 9628  9554 10036  9582]]


In [38]:
xb.shape

(100000, 64)

In [48]:
index

<faiss.swigfaiss.IndexFlatL2; proxy of <Swig Object of type 'faiss::IndexFlatL2 *' at 0x114cda870> >

In [57]:
index.search(x=np.array([xb[3]]), k=50)

(array([[0.       , 7.2779055, 7.5279865, 7.6628466, 7.7859573, 7.790914 ,
         7.8467503, 7.968584 , 7.9748025, 8.072303 , 8.2378   , 8.283958 ,
         8.310099 , 8.373755 , 8.421442 , 8.435308 , 8.440677 , 8.449957 ,
         8.463082 , 8.468847 , 8.474012 , 8.475058 , 8.486101 , 8.529457 ,
         8.537892 , 8.552284 , 8.573315 , 8.588804 , 8.593359 , 8.616568 ,
         8.628586 , 8.636904 , 8.65514  , 8.65827  , 8.681647 , 8.694721 ,
         8.708933 , 8.711966 , 8.715076 , 8.743424 , 8.754325 , 8.759266 ,
         8.76605  , 8.767513 , 8.770529 , 8.775406 , 8.782171 , 8.788196 ,
         8.7998295, 8.825308 ]], dtype=float32),
 array([[   3,  173,   18,  182,  484,   64,  527,  887,  409,  316,  609,
          768,  412,   74,  766,  392,  210,  911,    8,  577,  149,  925,
          491,  635,  418,  248,  225,  980, 1092,  139,   42,  265,  508,
           84,  434,  535,  913,  476,  612,  809,  791,  281,  751,  201,
            4,  403,  498, 1246,   26,  238]]))

In [59]:
faiss.METRIC_INNER_PRODUCT

0