### build vocabulary

In [1]:
import jieba
jieba.dt.tmp_dir = './'
jieba.initialize()

Building prefix dict from the default dictionary ...
Loading model from cache ./jieba.cache
Loading model cost 0.571 seconds.
Prefix dict has been built succesfully.


In [109]:
class Vocabulary(object):
    def __init__(self, max_lines=10000, min_count=10):
        self.max_lines = max_lines
        self.min_count = min_count
        self.line_counter = 0
        self.closed = False
        self.special_words = [u"PAD", u"START", u"EOS", u"UNK"]
        self.words = []
        self.word2id = {self.words[i]:i for i in range(len(self.words))}
        self.wordcount = {k:1 for k, _ in self.word2id.iteritems()}
        
    def tokenize(self, sentence):
        # if isinstance(sentence, str):
        # sentence = sentence.decode("utf8")
        # assert isinstance(sentence, unicode), "%s is %s, should be unicode" %(sentence, type(sentence))
        return jieba.cut(sentence, cut_all=False) # using jieba cut here
    
    def update(self, sentence):
        assert not self.closed, "already closed, should stop update~"
        for word in self.tokenize(sentence):
            if self.word2id.has_key(word):
                self.wordcount[word] += 1
            else:
                self.words.append(word)
                self.word2id[word] = len(self.words) - 1
                self.wordcount[word] = 1
    
    def build_from_file(self, filename):
        # support filenames ? [filename1, filename2,...]
        for line in open(filename, 'r'):
            self.update(line)
            self.line_counter += 1
            if (self.line_counter > self.max_lines):
                break
        self.shrink()
        self.close()
                
    def shrink(self):
        # shrink the dict by min_count
        self.words = [word for word, freq in self.wordcount.iteritems() if freq >= self.min_count]
        self.word2id = {self.words[i]:i for i in range(len(self.words))}
    
    def close(self):
        self.closed = True
        self.words = self.special_words + self.words # merge specail words
        self.word2id = {self.words[i]:i for i in range(len(self.words))}
    
    def sentence_to_word_ids(self, sentence):
        # it is ugly, but works...
        return map(self.word2id.get, 
                   [word if self.word2id.has_key(word) else u"UNK" for word in self.tokenize(sentence)])
    
    def word_ids_to_sentence(self, word_ids):
        return u"".join(
            [self.words[word_id] if word_id < len(self.words) and word_id >= 0 else u"UNK" 
             for word_id in word_ids])
    
    @property
    def details(self):
        #print u"words: " + u", ".join(self.vocab[0:50]) + u"..." + u"\n"
        info = u"class Vocabulary,  got %d words\n" %(len(self.words))
        info += u"words =【" + u" / ".join(self.words[0:10]) + u"】..." + u"\n"
        info += u"line counter = " + unicode(self.line_counter) + u"\n"
        return info

vocab = Vocabulary()
vocab.build_from_file('small.txt')
print vocab

<__main__.Vocabulary object at 0x7fcf08385290>


In [93]:
print vocab.words[189]
print len(vocab.words)

疫情
6486


In [89]:
word_ids = vocab.sentence_to_word_ids("突然宣布在香港实习？")
print word_ids
sentence = vocab.word_ids_to_sentence(word_ids)
print sentence
word_ids = vocab.sentence_to_word_ids(sentence)
print word_ids

[1751, 1733, 5414, 1761, 3, 5753]
突然宣布在香港UNK？
[1751, 1733, 5414, 1761, 3, 5753]


In [90]:
print len(vocab.words)
for word in vocab.words:
    print word

6486
PAD
START
EOS
UNK
五线
海峡两岸
奥迪
出来
第二
还要
门票
鸣人
第五
为主
科在
作弊
一是
卡拉
银子
幸运星
谈
线
黑豹
反
财政厅
困境
0.506884753704
幼童
须知
万余元
世纪
0.599535107613
起诉
西藏
线上
闹
见面会
美罗
史诗
第一
经济损失
第三
中西医
Max
刘飞
应
抱住
公路
为了
三年
事前
国脚
逼平恒大
AT&T
0.470207974315
党员干部
钻戒
中小城市
明确
在家
18183
第六次
画质
0.926888644695
翻译
0.847989976406
之旅
开工
漫漫
新闻
女神
探底
产品
须
收回
目前
上
后
综艺节目
机制
txt
一次
批复
0.936728239059
丈夫
伴
离
据说
开局
周本顺
尔特
岗位
诊疗
占据
强调
开展
90
正式
EDG
0.061470988724
计委
做出
为何
命案
精准
0.289149539173
节
银价
爱情
市场主体
各级
意见
总统
司法
木地板
A
0.423862367868
生物
比利时
逾
标的
奶茶
射雕
0.353408247232
柳州
硫酸
错误
wins
通常
王晓晨
变质
一栋
强大
社区
GSMA
挖
最帅
2020
中敏
所
那个
订阅
改造
基地
校长
机关
媒体
在外
猪肉
砂石
首秀
追回
考试网
越
帕金森病
爸爸
0.340383648872
姜栋
有关
魔法师
目击
封顶
突出
做到
群体
电动车
开心
懂
医改
秋景
闰土
成都
司机
副校长
全部
秒
周围
连
0.886992633343
市政府
群众
驻
0.435768723488
好
重甲套
刘恺威
或
176
第七版
疫情
异客
BRAIN
斯
功夫
0.573544807732
随后
萝卜
外媒
牵手
开幕
解除
突发
沈部
各类
十二五
厂长
讨论
包容
晴川
」
亲戚
行驶
３
开庭
记
吨重
春梦
0.782162070274
不饱和
当
赫雷斯
办公厅
马龙
卧蚕
幸亏
内维尔
解锁
维和部队
失控
0.83428299427
思思
丢
童车
年前
机场
‘
卡曼
微博晒
0.567690312862
天上
发酵
案
打印
秘密
义诊
日常
X
保税
0.51419001817

疑心
0.914584994316
角卫
养老金
艺术
报告会
0.87
非法
铺设
比
0.700740791857
孤峰
双方
努力
流浪
变大
女
猪圈
亿股
0.693504393101
视角
快餐
英皇
红色旅游
视觉
级别
田朴珺以
原则性
推介
近
人称
办理
林志颖
车
上述
升学
强赛
别人
之下
这里
播求
KO
自救
公寓
吗
租赁
资源优势
广阔
可治
国网
开设
辆车
300
大部地区
O
里
重拳
坐在
条
文化部
0.457579344511
增加
0.561934947968
地摊货
业内人士
排放
导读
证明
女王
空头
乳粉
中奖
投入
日起
导语
持续
抓取
传前
1.50
贼
巨型
CF10
0.331763595343
专电
危机
专用
逐步
羚山
任何
中央
哭
选手
离开
蛇口
红黑榜
涉嫌
单刷
地市
意念
这部
%
此事
服装界
优惠
洞窟
金额
正视
大错
老兵
白银
刚下
旗下
海南岛
0.181767576064
进一步
查获
行为
游戏
均价
制品
约定
2000
0.920368611813
行业
去年
刘扬来
电网
↑
黄金市场
麻豆
0.784285604954
转换
渤
美媒
暴露
生育
0.762935519218
奖励
巴士
一下
江西网
敲诈勒索
鄂尔多斯市
盗墓
入口
带动
统战部
电缆
调研
身体
包邮
工程
领空
北部
行凶
２
异能
森福罗
宠物
迎来
特点
设计
免费
3D
方案
国外
进驻
房子
0.329066649079
0.81275254488
中国
制定
利率
图文
钢管
442
救命
草案
发文
38
一两
微软
31
30
36
35
督办
小妙
器重
弄
率
0.742101728916
窝点
公告
展现
几百万
集团化
副局长
年轻
…
新鲜事
照片
定西
城乡
为
抽
六场
麦田
环保
0.139146819711
产品线
天空
0.127947792411
0.715700685978
道路交通
0.417147691051
请
新能源
糕点
枪击
YG
东方
编剧
换届选举
对战
典型
电气化
八强
炒房团
0.569031587243
秀
登顶
道士
美国联邦
党员
金智秀
那英
0.794100522995
僵尸
市长
药物
更是
暴雨
概念车
国家
小学

In [91]:
print vocab.special_words
print vocab.words, '\n'
print vocab.word2id, '\n'
print vocab.wordcount, '\n'

[u'PAD', u'START', u'EOS', u'UNK']
[u'PAD', u'START', u'EOS', u'UNK', u'\u4e94\u7ebf', u'\u6d77\u5ce1\u4e24\u5cb8', u'\u5965\u8fea', u'\u51fa\u6765', u'\u7b2c\u4e8c', u'\u8fd8\u8981', u'\u95e8\u7968', u'\u9e23\u4eba', u'\u7b2c\u4e94', u'\u4e3a\u4e3b', u'\u79d1\u5728', u'\u4f5c\u5f0a', u'\u4e00\u662f', u'\u5361\u62c9', u'\u94f6\u5b50', u'\u5e78\u8fd0\u661f', u'\u8c08', u'\u7ebf', u'\u9ed1\u8c79', u'\u53cd', u'\u8d22\u653f\u5385', u'\u56f0\u5883', u'0.506884753704', u'\u5e7c\u7ae5', u'\u987b\u77e5', u'\u4e07\u4f59\u5143', u'\u4e16\u7eaa', u'0.599535107613', u'\u8d77\u8bc9', u'\u897f\u85cf', u'\u7ebf\u4e0a', u'\u95f9', u'\u89c1\u9762\u4f1a', u'\u7f8e\u7f57', u'\u53f2\u8bd7', u'\u7b2c\u4e00', u'\u7ecf\u6d4e\u635f\u5931', u'\u7b2c\u4e09', u'\u4e2d\u897f\u533b', u'Max', u'\u5218\u98de', u'\u5e94', u'\u62b1\u4f4f', u'\u516c\u8def', u'\u4e3a\u4e86', u'\u4e09\u5e74', u'\u4e8b\u524d', u'\u56fd\u811a', u'\u903c\u5e73\u6052\u5927', u'AT&T', u'0.470207974315', u'\u515a\u5458\u5e72\u90e8', u'\u94bb\

### orgnize data

In [110]:
import numpy as np
import random

class Dataset(object):
    def __init__(self, vocabulary, filename, name='dataset', batch_size=3):
        self.name = name
        self.batch_size = batch_size
        self.dataset = np.array([map(vocabulary.sentence_to_word_ids, line.split('\t')[0:2])
                        for line in open(filename, 'r')])
        random.shuffle(self.dataset)
        
    def __len__(self):
        return len(self.dataset)
        
    def __getitem__(self, index):
        assert index >= 0 and index < self.__len__(), 'invalid index'
        return self.dataset[index]
    
    def __iter__(self):
        index = 0
        while index < self.__len__():
            yield self.__getitem__(index)
            index += 1
    
    def next_batch(self):
        indices = [random.randint(0, self.__len__() - 1) for i in range(self.batch_size)]
        return self.dataset[indices]
            


<__main__.Dataset object at 0x7fcf08f46550>


In [116]:
print dataset.batch_size

3


In [115]:
dataset = Dataset(vocab, 'small.txt')
print dataset, '\n'

print type(dataset[0])
print dataset[0], '\n'

print type(dataset.next_batch())
print dataset.next_batch()

<__main__.Dataset object at 0x7fcf08366a50> 

<type 'numpy.ndarray'>
[list([609, 3, 597, 609, 225, 3, 3, 3, 3, 3, 427, 248, 3, 3, 312])
 list([3, 574, 3, 60, 3, 597, 571, 225, 3, 3, 3, 3, 3, 570, 3, 3, 427, 574, 3, 3, 3, 252, 410, 255, 3, 334, 3, 11, 225, 3, 574, 244, 404, 3, 3, 555, 406, 3, 3])] 

<type 'numpy.ndarray'>
[[ list([573, 3, 574, 441, 351, 3, 252, 3, 574, 3, 3, 557, 252, 3, 3, 368, 3, 3, 513, 557, 323, 3, 3, 143, 3, 574, 662, 659, 3, 3, 3, 3])
  list([3, 355, 574, 441, 252, 3, 3, 557, 252, 3, 3, 180, 3, 3, 574, 441, 3, 351, 3, 3, 3, 252, 3])]
 [list([146, 492, 12, 10, 3, 3, 3, 248, 3, 3, 3, 3])
  list([3, 144, 3, 60, 492, 12, 10, 410, 362, 3, 3, 571, 570, 3, 3, 277, 480, 3, 10, 574, 137, 3, 252, 146, 60, 492, 12, 10, 410, 362, 3, 3, 571, 79, 13, 3, 574, 3, 216, 3, 252, 459, 117, 99, 3, 99, 3, 99, 546, 99, 3, 99, 3, 117, 99, 3, 3, 574, 283, 570, 3, 3, 404, 3, 469, 252, 3, 99, 3, 99, 3, 99, 3, 99, 3, 99, 3, 99, 3, 99, 3, 99, 591, 3, 99, 3, 390, 3, 12, 10, 34, 3, 3])]
 [list(