In [183]:
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import sys
import argparse

import jieba

In [184]:
class Embedding(object):
    def __init__(self, size = 128, window = 5, 
                 min_count = 5, workers = 5, 
                 epochs = 50, pretrained_model = None):
        """
        训练词嵌入向量
        Args:
            size - 向量维度
            window - 窗口长度
            min_count - 最小词频
            workers - 并行化
            epochs - 迭代次数
            pretrained_model - 预训练模型
        """
        self._model = None
        self._size = size
        self._window = window
        self._min_count = min_count
        self._workers = workers
        self._epochs = epochs
        if pretrained_model:
            self._model = Word2Vec.load(pretrained_model)
            
    def train(self, sentences = []):
        if self._model:
            self._model.train(sentences,
                             total_examples = len(sentences),
                             epochs = self._epochs)
        else:
            self._model = Word2Vec(sentences,
                                  size=self._size,
                                  window=self._window,
                                  min_count=self._min_count,
                                  workers=self._workers)
    def save(self, model_path = None):
        self._model.save(model_path)
        
    @property
    def model(self):
        return self._model

In [185]:
# 读取搜狗语料库中的文本数据
sentences = []
with open('./sougou.txt', 'r') as corpus_file:
    for line in corpus_file:
        words = line.strip().split("\n")[0][9:-11]
        
        if len(words) == 0:
            continue
        sentences.append(list(jieba.cut(words, cut_all=False)))
"""
sentences
[['中广网',
  '唐山',
  '６',...],
  ['专项',
  '行动',
  '“',
  '统一',],
  ...
]
"""

"\nsentences\n[['中广网',\n  '唐山',\n  '６',...],\n  ['专项',\n  '行动',\n  '“',\n  '统一',],\n  ...\n]\n"

In [186]:
sentences[0:2]

[['中广网',
  '唐山',
  '６',
  '月',
  '１',
  '２',
  '日',
  '消息',
  '（',
  '记者',
  '汤一亮',
  '\u3000',
  '庄胜春',
  '）',
  '据',
  '中国',
  '之声',
  '《',
  '新闻',
  '晚',
  '高峰',
  '》',
  '报道',
  '，',
  '今天',
  '（',
  '１',
  '２',
  '日',
  '）',
  '上午',
  '，',
  '公安机关',
  '２',
  '０',
  '１',
  '２',
  '年缉枪',
  '制爆',
  '专项',
  '行动',
  '“',
  '统一',
  '销毁',
  '非法',
  '枪爆',
  '物品',
  '活动',
  '”',
  '在',
  '河北',
  '唐山',
  '正式',
  '启动',
  '，',
  '１',
  '０',
  '万余只',
  '非法',
  '枪支',
  '、',
  '２',
  '５',
  '０',
  '余吨',
  '炸药',
  '在',
  '全国',
  '１',
  '５',
  '０',
  '个',
  '城市',
  '被',
  '统一',
  '销毁',
  '。',
  '；',
  '泼',
  '鳎',
  '合衷',
  '谖',
  '倚布',
  '，',
  '全国',
  '缉枪',
  '制爆',
  '统一',
  '销毁',
  '行动',
  '开始',
  '！',
  'Ｋ',
  '孀',
  '殴安',
  '部副',
  '部长',
  '黄明',
  '一声令下',
  '，',
  '大量',
  '仿制',
  '式',
  '枪',
  '以及',
  '猎枪',
  '、',
  '火药枪',
  '、',
  '气枪',
  '在',
  '河北',
  '唐山',
  '钢铁厂',
  '被',
  '投入',
  '炼钢炉',
  '。',
  '与此同时',
  '，',
  '在',
  '全国',
  '各',
  '省区市',
  '１',
  '５',
  '０',
  '个',
  '城市',
  '，',
  '破

In [187]:
embedding = Embedding()

# 训练模型
embedding.train(sentences)
# 将训练好的模型保存到指定路径
embedding.save('./outputs/word2vec_128features_5mincount_5content')

In [188]:
# 与企业最相似的词
embedding.model.most_similar('企业')

  


[('并', 0.9999498128890991),
 ('公司', 0.9999490976333618),
 ('经济', 0.9999486207962036),
 ('地', 0.999948263168335),
 ('与', 0.9999468922615051),
 ('投资', 0.9999436736106873),
 ('中', 0.9999427795410156),
 ('了', 0.9999395608901978),
 ('工作', 0.9999392628669739),
 ('已', 0.9999392032623291)]

In [189]:
# 查看字典中所有的单词
embedding.model.wv.vocab.keys()

dict_keys(['６', '月', '１', '２', '日', '消息', '（', '记者', '\u3000', '）', '据', '中国', '《', '新闻', '晚', '高峰', '》', '报道', '，', '今天', '上午', '０', '专项', '行动', '“', '统一', '销毁', '非法', '物品', '活动', '”', '在', '正式', '启动', '枪支', '、', '５', '全国', '个', '城市', '被', '。', '；', '鳎', '开始', '！', 'Ｋ', '孀', '大量', '以及', '各', '和', '群众', '主动', '的', '集中', '指定', '场所', '分别', '公安部', '介绍', '三个', '方面', 'Ａ', '犯罪', '还有', '从', '境外', '走私', 'Ｔ', '现场', '看到', '了', '制式', '按照', '我国', '这些', '都', '是', '个人', '持有', '世界', '上', '最低', '国家', '之一', 'Ｖ', '跨国', '武器弹药', '案', '＝', '中', '美', '执法', '部门', '成功', '抓获', '嫌疑人', '３', '名', '缴获', '各类', '９', '支', '配件', '美国', '这是', '与', '海关', '通过', '联合', '调查', '方式', '重大', '案件', '又', '一', '＃', '蹦', '辏', '拢', '玻', '等', '眨', '对', '发', '往', '浙江', '申报', '为', '进行', '时', '发现', '货物', '内', '７', '经', '具有', '及其', '这', '海关总署', '成', '：', '因为', '进口', '检查', '出来', '说明', '来源', '说', '国外', '应该', '一起', 'Ｉ', 'Ｊ', '成立', '专案组', '侦查', '于', '８', 'Ｕ', 'Ｐ', 'Ｓ', '处', '将', '王挺', '男', '岁', '人', '他', '网站', '年', '以来', '长期', '居住', '一个', '群体