# Load Data

In [1]:
from torch_data import UserCommentDataset
from train_config import data_path_config
from keras.utils import to_categorical

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [2]:
train_path = data_path_config['train_data_path']
valid_path = data_path_config['valid_data_path']
test_path = data_path_config['test_data_path']

In [3]:
train_data = UserCommentDataset(train_path, 'location_traffic_convenience', content='jieba_seg')
valid_data = UserCommentDataset(valid_path, 'location_traffic_convenience', content='jieba_seg')
test_data = UserCommentDataset(test_path, 'location_traffic_convenience', content='jieba_seg')

In [4]:
train_sentences = [sentence for sentence, target in train_data]
valid_sentences = [sentence for sentence, target in valid_data]
test_sentences = [sentence for sentence, target in test_data]

In [5]:
all_sentences = train_sentences[:]+valid_sentences[:]+test_sentences[:]

In [6]:
len(all_sentences)

135000

In [15]:
train_sentences[0]

'" 吼吼 吼 ， 萌死 人 的 棒棒糖 ， 中 了 大众 点评 的 霸王餐 ， 太 可爱 了 。 一直 就 好奇 这个 棒棒糖 是 怎么 个 东西 ， 大众 点评 给 了 我 这个 土老冒 一个 见识 的 机会 。 看 介绍 棒棒糖 是 用 德国 糖 做 的 ， 不会 很甜 ， 中间 的 照片 是 糯米 的 ， 能 食用 ， 真是太 高端 大气 上档次 了 ， 还 可以 买 蝴蝶结 扎口 ， 送人 可以 买 礼盒 。 我 是 先 打 的 卖家 电话 ， 加 了 微信 ， 给 卖家 传 的 照片 。 等 了 几天 ， 卖家 就 告诉 我 可以 取货 了 ， 去 大官 屯 那取 的 。 虽然 连 卖家 的 面 都 没 见到 ， 但是 还是 谢谢 卖家 送 我 这么 可爱 的 东西 ， 太 喜欢 了 ， 这 哪 舍得吃 啊 。 "'

# Train Word2Vec Model with Gensim

In [8]:
from gensim.models import Word2Vec



In [9]:
embedding_path = 'word2vec/model_word_400.kv'
vocab_path = 'word2vec/model_word_vocab_400.kv'
embedding_dim = 400

In [10]:
w2v = Word2Vec(all_sentences,
               size=embedding_dim,
               window=5,
               min_count=5,
               hs=0,
               iter=10,
               negative=5,
               workers=12)

In [11]:
w2v.similarity('牛肉','鸡肉')

  """Entry point for launching an IPython kernel.


KeyError: "word '牛肉' not in vocabulary"

In [None]:
w2v.wv.save_word2vec_format(embedding_path, vocab_path, binary=True)

In [18]:
type(w2v.wv.vocab)

dict

In [19]:
for tok in w2v.wv.vocab:
    print(tok)
    break

"


In [21]:
def build_tok2idx(w2v):
    tok2idx = {}
    idx = 1
    for tok in enumerate(w2v.vocab):
        if tok == '':
            continue
        tok2idx[tok] = idx
        idx += 1
    return tok2idx

In [22]:
tok2idx = build_tok2idx(w2v.wv)

In [23]:
tok2idx

{(0, '"'): 1,
 (1, ' '): 2,
 (2, '吼'): 3,
 (3, '，'): 4,
 (4, '萌'): 5,
 (5, '死'): 6,
 (6, '人'): 7,
 (7, '的'): 8,
 (8, '棒'): 9,
 (9, '糖'): 10,
 (10, '中'): 11,
 (11, '了'): 12,
 (12, '大'): 13,
 (13, '众'): 14,
 (14, '点'): 15,
 (15, '评'): 16,
 (16, '霸'): 17,
 (17, '王'): 18,
 (18, '餐'): 19,
 (19, '太'): 20,
 (20, '可'): 21,
 (21, '爱'): 22,
 (22, '。'): 23,
 (23, '一'): 24,
 (24, '直'): 25,
 (25, '就'): 26,
 (26, '好'): 27,
 (27, '奇'): 28,
 (28, '这'): 29,
 (29, '个'): 30,
 (30, '是'): 31,
 (31, '怎'): 32,
 (32, '么'): 33,
 (33, '东'): 34,
 (34, '西'): 35,
 (35, '给'): 36,
 (36, '我'): 37,
 (37, '土'): 38,
 (38, '老'): 39,
 (39, '冒'): 40,
 (40, '见'): 41,
 (41, '识'): 42,
 (42, '机'): 43,
 (43, '会'): 44,
 (44, '看'): 45,
 (45, '介'): 46,
 (46, '绍'): 47,
 (47, '用'): 48,
 (48, '德'): 49,
 (49, '国'): 50,
 (50, '做'): 51,
 (51, '不'): 52,
 (52, '很'): 53,
 (53, '甜'): 54,
 (54, '间'): 55,
 (55, '照'): 56,
 (56, '片'): 57,
 (57, '糯'): 58,
 (58, '米'): 59,
 (59, '能'): 60,
 (60, '食'): 61,
 (61, '真'): 62,
 (62, '高'): 63,
 (63, '端'):