In [1]:
pwd

u'/notebooks/w1'

## 1. 使用 jieba 分词并统计词频

In [9]:
import jieba

In [6]:
from collections import Counter

In [13]:
line_no = 0
limit = 10000
lm = Counter()

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = jieba.cut(line.strip()) # strip把句子前后的空格去掉
    for word in words:
        # 转为 utf-8
        lm[word.encode('utf-8')] += 1
#        lm[word] += 1
# 如果用 Counter project，则不需要写下面的 if-else
#        if word in lm:
#            lm[word] += 1
#        else:
#            lm[word] = 1

            

In [11]:
# 显示出现最多的10个词
lm.most_common(10)

[(u'\uff0c', 19065),
 (u'\u3002', 7170),
 (u'\uff1a', 3934),
 (u'\u201d', 3859),
 (u'\u201c', 3858),
 (u'\u9053', 2994),
 (u'\u4e86', 2775),
 (u'\u6211', 2313),
 (u'\u4ed6', 2277),
 (u'\u4f60', 2257)]

In [14]:
# 转为 utf-8 
lm.most_common(10)

[('\xef\xbc\x8c', 19065),
 ('\xe3\x80\x82', 7170),
 ('\xef\xbc\x9a', 3934),
 ('\xe2\x80\x9d', 3859),
 ('\xe2\x80\x9c', 3858),
 ('\xe9\x81\x93', 2994),
 ('\xe4\xba\x86', 2775),
 ('\xe6\x88\x91', 2313),
 ('\xe4\xbb\x96', 2277),
 ('\xe4\xbd\xa0', 2257)]

In [18]:
# 可以将结果打印出来
for (word, cnt) in lm.most_common(10):
    print('%s %d' % (word,cnt))

， 19065
。 7170
： 3934
” 3859
“ 3858
道 2994
了 2775
我 2313
他 2277
你 2257


## 2. 使用 pseg 分词，标注词性并统计词频

In [494]:
import jieba.posseg as pseg

In [495]:
line_no = 0
limit = 10000
lm = Counter()

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    for word,flag in words:
        # 如果是标点符号，就不要打印
        if flag == 'x':
            continue
        # 转为 utf-8
        lm[(word.encode('utf-8'), flag.encode('utf-8'))] += 1           

### 2.1 不打印标点

In [25]:
# 不打印标点符号
for (word,flag), cnt in lm.most_common(10):
    print('%s %s %d' % (word, flag, cnt))

道 q 3120
了 ul 2795
我 r 2454
他 r 2387
你 r 2266
那 r 2096
的 uj 1986
是 v 1598
行者 n 1562
来 v 1028


In [26]:
# 所有词的个数
sum(lm.values())

132268

In [33]:
# 计算各词百分比
s = float(sum(lm.values()))
for key, cnt in lm.items():
    lm[key] /= s

In [39]:
for (word,flag), cnt in lm.most_common(20):# 取 20 个
    print('%s %s %f' % (word, flag, cnt))

道 q 0.023588
了 ul 0.021131
我 r 0.018553
他 r 0.018047
你 r 0.017132
那 r 0.015847
的 uj 0.015015
是 v 0.012082
行者 n 0.011809
来 v 0.007772
有 v 0.007583
这 r 0.007266
在 p 0.007266
也 d 0.007069
去 v 0.006751
又 d 0.005980
不 d 0.005806
得 ud 0.005776
与 p 0.005708
师父 n 0.005217


### 2.2 只显示词和百分比

In [497]:
line_no = 0
limit = 10000
lm = Counter()

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    for word,flag in words:
        # 如果是标点符号，就不要打印
        if flag == 'x':
            continue
        # 转为 utf-8
        lm[word.encode('utf-8')] += 1           

In [498]:
# 计算各词百分比
s = float(sum(lm.values()))
for key, cnt in lm.items():
    lm[key] /= s

In [499]:
for word, cnt in lm.most_common(20):# 取 20 个
    print('%s %f' % (word, cnt))

道 0.023672
了 0.021131
我 0.018553
他 0.018047
你 0.017132
那 0.015847
的 0.015015
是 0.012082
行者 0.011809
来 0.007772
有 0.007583
在 0.007266
这 0.007266
也 0.007069
去 0.006751
又 0.005980
不 0.005829
得 0.005776
与 0.005708
师父 0.005217


## 3. 基于语料构建词语生成器

In [500]:
import random

In [501]:
def generate(lm):
    r = random.random() # 生成随机数
    s_ = 0.0
    for (word, prob) in lm.items():
        s_ += prob
        if s_ >= r:
            return word

In [508]:
# 每次可以 print 出一个不同的词
print(generate(lm))

念咒


### 3.1 生成段落

In [51]:
s = ''
for i in range(100):
    word = generate(lm)
    s += word + ' ' # 用空格将生成的词语隔开
print(s)

青霄 擒 招 行者 路 作 打 门首 行者 道 老 菩萨 望见 那沙僧 行者 行者 推聋妆哑 他 奴才 今日 光 行者 筑 我 按 不得 见 大 拜佛 宣 对 受苦 揭开 捉 观众 你 扑 看看 火 去 缠 坐在 先锋 八戒 云端 第一 血 个 教 把 果是 穿 下 不 老子 莫惊 之 马上 他 祸 又 都 也 直接 度牒 他 我 传家之宝 妖 跳 觌 熟 报道 高 所有 行者 偏正 闲 孙 说 一观 这 同行者 声金 是 愆 不息 地方 诀窍 将 骨 的 筒子 想 兵 他 难 了 一口 耍子 


In [52]:
s = ''
for i in range(100):
    word = generate(lm)
    s += word + ' ' # 用空格将生成的词语隔开
print(s)

大 我 丢 翻腾 模样 判官 仍 骂 又 两个 哩 星月 迎 原来 阁 瞒 你 师父 一个多月 如何 那话儿 说 问道 既 那处 也 山根 教 是 僧家 脚尖儿 里灵霄 回东 路径 说 了 打造 去 到 一行 这 得 享 只管 之 他 生 时 若 黑鱼 慌 玉液 且 正 的 门 嚷 好 惫懒 倒 捉拿 天 我 与 进去 了 难 来 个贩 得 这 即 什么 瞒 而复 不要 那 你 什么 那 得 陪 与 腰 断乎 道 一根 上午 我 眉 曰 及 是 来 的 受用 鞭 问 家书 点点 


### 3.2 将标点符号也考虑进去

In [53]:
line_no = 0
limit = 10000
lm = Counter()

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    for word,flag in words:
        # 转为 utf-8
        lm[word.encode('utf-8')] += 1    

In [55]:
for word, cnt in lm.most_common(10):
    print('%s %d' % (word,cnt))

， 19065
。 7170
： 3934
” 3859
“ 3858
道 3131
了 2795
我 2454
他 2387
你 2266


In [61]:
# 计算各词百分比
s = float(sum(lm.values()))
for key, cnt in lm.items():
    lm[key] /= s

In [62]:
for word, cnt in lm.most_common(20):# 取 20 个
    print('%s %f' % (word, cnt))

， 0.109139
。 0.041045
： 0.022520
” 0.022091
“ 0.022085
道 0.017924
了 0.016000
我 0.014048
他 0.013665
你 0.012972
那 0.011999
的 0.011369
！ 0.009835
是 0.009148
行者 0.008942
？ 0.008919
来 0.005885
有 0.005742
在 0.005501
这 0.005501


In [63]:
s = ''
for i in range(100):
    word = generate(lm)
    s += word
print(s)

，。你，今日本庄伶仃盖留衣服：道文殊心复来龙头着正说正当这尸首冤家大胆腰疼了叫形影这，出道猴：”看看的”自己波翻浪他师父将！若了来一堆：宝殿只祈，祖宗道整一整行筋八戒呼唤—。知了行者鞭！人。哩，提念金銮殿行者摇身一变挑担方丈，，？出，这轮才哩”：是天下三人你可以有个你山门是太子罪


## 4. 改进的语言模型：n-gram

### 4.1 ngram = 2 时

In [27]:
line_no = 0
limit = 5
lm = Counter()
ngram = 2
for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    # cut 生成的是 generator，需要转换为 list 才能使用 len 函数
    words = [i.word for i in words] # pseg.cut 返回一对值，只需要
    # a,b,c,d
    # bi-gram
    # (c/a,b)
    # (d/b,c)
    # 2-gram，从第 3 个词开始 
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i]
        print('\t'.join(context))
        print(word)
        print('-----')
    
#    for word,flag in words:
#        # 转为 utf-8
#        lm[word.encode('utf-8')] += 1    

（	明
）
-----
明	）
吴承恩
-----
）	吴承恩
著
-----
灵根	育孕
源流
-----
育孕	源流
出
-----
源流	出
心性
-----
出	心性
修持
-----
心性	修持
大道
-----
修持	大道
生
-----
诗	曰
：
-----


### 4.2 n-gram = 5 时

In [34]:
line_no = 0
limit = 5
lm = Counter()
ngram = 5
for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    # cut 生成的是 generator，需要转换为 list 才能使用 len 函数
    words = [i.word for i in words] # pseg.cut 返回一对值，只需要
    # a,b,c,d
    # bi-gram
    # (c/a,b)
    # (d/b,c)
    # 2-gram，从第 3 个词开始 
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i]
        print('\t'.join(context))
        print(word)
        print('-----')

灵根	育孕	源流	出	心性
修持
-----
育孕	源流	出	心性	修持
大道
-----
源流	出	心性	修持	大道
生
-----


- 通过下面代码的分析，我们知道 ngram = 5 时，很多行其实并未被使用到
- 因为原文是按行存储的，我们也是按行读入的

In [54]:
line_no = 0
limit = 5
lm = Counter()
ngram = 5
for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    # cut 生成的是 generator，需要转换为 list 才能使用 len 函数
    words = [i.word for i in words] # pseg.cut 返回一对值，只需要
    print('------')    
    print(' '.join(words))
    print(len(''.join(words)))

------

0
------
（ 明 ） 吴承恩 著
7
------
第一回
3
------
灵根 育孕 源流 出 心性 修持 大道 生
14
------
诗 曰 ：
3


### 4.3 使用模型

In [896]:
line_no = 0
limit = 1000
lm0 = Counter()
#lm1 = Counter()
lm2 = Counter()
ngram = 2

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    # cut 生成的是 generator，需要转换为 list 才能使用 len 函数
    words = [i.word for i in words] # pseg.cut 返回一对值，只需要
    # a,b,c,d
    # bi-gram
    # (c/a,b)
    # (d/b,c)
    # 2-gram，从第 3 个词开始 
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i-ngram]
        lm0[context[0].encode('utf-8'),context[1].encode('utf-8')] += 1
        lm2[word.encode('utf-8')] += 1
#        print('\t'.join(context))
#        print('-----')
#        print(word)
#        word1 = words[(i-ngram)]
#        word2 = words[i-ngram]
#        lm0[context[0].encode('utf-8'),context[1].encode('utf-8')] += 1
#        lm2[context[0].encode('utf-8')] += 1
#        lm1[word1.encode('utf-8')] += 1
#        lm2[word2.encode('utf-8')] += 1

In [897]:
len(lm0)

10386

In [898]:
len(lm2)

3981

In [899]:
sum(lm0.values())

15221

In [900]:
sum(lm2.values())

15221

**注意：虽然 lm0 和 lm2 的长度不一样，但求和总数是一样的，因为都在一个循环内？**

In [901]:
for word,cnt in lm2.items()[0:9]:
    print('%s %d' %(word,cnt))

名鹰 1
没管 1
惊张 1
土 6
不瞒你说 1
一遍 3
脑浆 1
形 1
夸赞 1


In [902]:
for (word1,word2),cnt in lm0.items()[0:9]:
    print('%s %s %d' %(word1,word2,cnt))

揭 不得 1
此处 远 1
三藏 着 1
及 回看 1
摸摸 ， 1
坐 着 2
做 如意 1
的 人物 1
我 亲 1


In [903]:
# 计算各词百分比
s0 = float(sum(lm0.values()))
for key, cnt in lm0.items():
    lm0[key] /= s0

In [904]:
# 计算各词百分比
s2 = float(sum(lm2.values()))
for key, cnt in lm2.items():
    lm2[key] /= s2

In [905]:
for (word1,word2), cnt in lm0.most_common(10):
    print('%s %s %f'  % (word1, word2, cnt))

： “ 0.020564
道 ： 0.017739
。 ” 0.009986
？ ” 0.004796
” 三藏 0.004599
！ ” 0.003876
” 行者 0.003285
， 你 0.003285
， 我 0.003154
三藏 道 0.002956


In [906]:
for word, cnt in lm2.most_common(10):
    print('%s %f' %(word, cnt))

， 0.109980
。 0.037448
： 0.021024
“ 0.020892
” 0.019578
道 0.018527
了 0.016425
我 0.015702
他 0.012943
的 0.012943


In [907]:
lm = {}

for i in range(len(lm0)):
    lm[lm0.items()[i][0]]  = lm0.items()[i][1]/lm2[lm0.items()[i][0][0]]

In [909]:
for (word1,word2), cnt in lm.items()[0:9]:
    print('%s %s %f' %(word1, word2, cnt))

揭 不得 0.111111
此处 远 0.142857
三藏 着 0.007407
及 回看 0.333333
摸摸 ， 1.000000
坐 着 0.181818
做 如意 0.034483
的 人物 0.005076
我 亲 0.004184


In [None]:
# 错误代码，没有搞清楚贝叶斯

lm = {}

# len(lm0) = 10386
# len(lm2) = 3855
for i in range(10385):
    for j in range(3854):
        lm[(lm0.items()[i][0], lm2.items()[j][0])]  = lm0.items()[i][1]*lm2.items()[j][1]

### 4.4 合并代码

In [8]:
import jieba
from collections import Counter
import jieba.posseg as pseg

line_no = 0
limit = 10000
lm = {}
lm0 = Counter()
lm2 = Counter()
ngram = 2

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    words = [i.word for i in words]
    
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i]
        lm0[context[0].encode('utf-8'),context[1].encode('utf-8')] += 1
        #lm2[context[0].encode('utf-8')] += 1
        lm2[word.encode('utf-8')] += 1

# 将 values 从数额换成百分比
s0 = float(sum(lm0.values()))
for key, cnt in lm0.items():
    lm0[key] /= s0

s2 = float(sum(lm2.values()))
for key, cnt in lm2.items():
    lm2[key] /= s2

# P(B|A) = P(A*B)/P(A)
# 注意，这里应该是： P(AB) = P(A|B) * P(B)，上面的小代码按上一行的公式
for i in range(len(lm0)):
    lm[lm0.items()[i][0]]  = lm0.items()[i][1] * lm2[lm0.items()[i][0][0]]

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.381 seconds.
Prefix dict has been built succesfully.


In [953]:
for (word1,word2), cnt in lm0.items()[0:9]:
    print('%s %s %f' %(word1, word2, cnt))

我 洞 0.000006
今 喜寿 0.000006
急 整衣 0.000006
了 几卷 0.000006
大圣 归善 0.000006
蟮 ， 0.000006
也 认得 0.000013
宽限 。 0.000006
戒 。 0.000006


In [956]:
for word, cnt in lm2.items()[0:9]:
    print('%s %f' %(word, cnt))

赛过 0.000019
承领 0.000006
寻寻 0.000006
土 0.000116
圜 0.000019
吉日 0.000019
体性 0.000006
守承 0.000006
念咒 0.000077


In [968]:
max(lm0.values()),min(lm0.values())

(0.021669796033848606, 6.430206538234008e-06)

In [969]:
max(lm2.values()),min(lm2.values())

(0.11456698989171532, 6.430206538234008e-06)

In [970]:
max(lm.values()),min(lm.values())

(0.0005201609390310762, 0.0)

In [957]:
s0

155516.0

In [958]:
s2

155516.0

In [959]:
len(lm0)

74135

In [960]:
len(lm2)

17603

### 4.5 补充：About Dict

In [251]:
from collections import defaultdict

line_no = 0
limit = 10
lm = Counter()
ngram = 2
dct = defaultdict(Counter)

for line in open('/tensorflow/w0/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    # cut 生成的是 generator，需要转换为 list 才能使用 len 函数
    words = [i.word for i in words] # pseg.cut 返回一对值，只需要
    # a,b,c,d
    # bi-gram
    # (c/a,b)
    # (d/b,c)
    # 2-gram，从第 3 个词开始 
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i]
        dct['context']['word'] += 1

In [252]:
dct.items()

[('context', Counter({'word': 57}))]

In [184]:
dct['context']

Counter({'word': 57})

In [185]:
dct['word']

Counter()

In [160]:
list(dct.items())

[('context', Counter({'word': 57}))]

In [155]:
dct.values()

[Counter({'word': 57})]

In [116]:
# defaultdict 表示当 key 不在 dict 中时，会构造一个函数

from collections import defaultdict

dct = defaultdict(Counter)

dct['context']['word'] += 1

In [156]:
import collections
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = collections.defaultdict(list)
for k, v in s:
    d[k].append(v)
list(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

In [158]:
import collections
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
# defaultdict
d = collections.defaultdict(list)
for k, v in s:
    d[k].append(v)
# Use dict and setdefault   
g = {}
for k, v in s:
    g.setdefault(k, []).append(v)
      
# Use dict
e = {}
for k, v in s:
    e[k] = v
##list(d.items())
##list(g.items())
##list(e.items())

In [159]:
list(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

In [161]:
list(g.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

In [162]:
list(e.items())

[('blue', 4), ('red', 1), ('yellow', 3)]

### 4.6 构造 n-gram 生成器

In [9]:
def generate(lm):
    
    import random
    
    r = random.uniform(min(lm.values()),max(lm.values())) # 生成在区间内随机数
    s_ = 0.0
    for (word1, word2), prob in lm.items():
        s_ += prob
        if s_ >= r:
            return word1 + word2

In [10]:
s = ''
for i in range(200):
    word = generate(lm)
    s += str(word)
print(s)

，特了便，学。那，忽，多多，命，配，摘，遇木。大圣，果，正，莫来，老和尚，迎，多多，手执，吹。那马，不识，妖精，吹，大势，特。那，特，忽，里面。那，冒冒！变化，径自，吹，正，学。那，忽，忽。诚他扎大仙在了奸心，四海，移，兵器到他他那，多，取我看，何来了与那，跨海，忽，忽，正，吹。那，夜授，滑冻，夜授“莫要，上头“女的吃。那的形影，怨。那，外边，顺出，穿，取，特，映着，正，庆贺，忽，吹，水，大势，贯。那，分开，忽，找，上头”这，至儿来，找，有烦。那，忽。那。言语，条条他这，穿，撞。那，虚里他。，差说？。那，乱打，敌。那，撞，大势，学，取，忽，四海，忽，吹，妖精师父渡河，喘气，望空，取，映着，不识。那在老孙，穿。那，俯仰我徒弟，乱打，不识。大圣。那，至“唐僧，跨海，吹弹歌舞，找。大圣，近朱者赤，正，水。那，手执，逢你先，正，毂辘，分开。那。那，人间，找。大圣，谁，四海，忽。那，正，倘，何”却”果，你们，忽，找，分开，鸿蒙他。，你好，不非。那。那，水，多“开园，取，撞，忽，算了，腾，往里，冒冒，找，水势，你们，吹，忽。那救你们，幸有，入林，点，吹，跌的供不强似


### 4.7 新的 n-gram 生成器

**可以写一个随机开始词，然后依据这个词找到 lm（词组构成的字典）的最大概率词，循环若干次生成若干个词构成的句子或段落。**  

In [1]:
pwd

u'/notebooks/OMOOC.DeepLearning/w1_Ngram'

In [5]:
cd OMOOC.DeepLearning

/notebooks/OMOOC.DeepLearning


In [5]:
pwd

u'/notebooks/OMOOC.DeepLearning/w1_Ngram'

In [6]:
cd ..

/notebooks/OMOOC.DeepLearning


In [6]:
ls

[0m[01;34mAssisantEvaluate[0m/  [01;34mw0_PreStart[0m/  [01;34mw1_Ngram[0m/  [01;34mw2_NaiveBayes[0m/  [01;34mw3_Tensorflow-NN[0m/


In [7]:
import jieba
from collections import Counter
import jieba.posseg as pseg

line_no = 0
limit = 200
lm = {}
lm0 = Counter()
lm2 = Counter()
ngram = 2

for line in open('./AssisantEvaluate/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    words = [i.word for i in words]
    
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i]
        lm0[context[0].encode('utf-8'),context[1].encode('utf-8')] += 1
        #lm2[context[0].encode('utf-8')] += 1
        lm2[word.encode('utf-8')] += 1

# 将 values 从数额换成百分比
s0 = float(sum(lm0.values()))
for key, cnt in lm0.items():
    lm0[key] /= s0

s2 = float(sum(lm2.values()))
for key, cnt in lm2.items():
    lm2[key] /= s2

# P(B|A) = P(A*B)/P(A)
# 注意，这里应该是： P(AB) = P(A|B) * P(B)，上面的小代码按上一行的公式
for i in range(len(lm0)):
    lm[lm0.items()[i][0]]  = lm0.items()[i][1] * lm2[lm0.items()[i][0][0]]

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.384 seconds.
Prefix dict has been built succesfully.


In [28]:
lm0.items()[0]

(('\xe3\x80\x82', '\xe4\xbb\x96'), 0.0007730962504831851)

In [22]:
for (word1,word2), cnt in lm.items()[0:9]:
    print('%s %s %f' %(word1, word2, cnt))

也 省得 0.000001
丈 四尺 0.000000
三等 名 0.000000
列位 安眠 0.000000
此处 远 0.000000
骏马 ， 0.000000
禽 言 0.000000
到 此天 0.000000
立志 潜心 0.000000


In [17]:
for (word1,word2), cnt in lm0.items()[0:9]:
    print('%s %s %f' %(word1, word2, cnt))

。 他 0.000773
也 省得 0.000387
丈 四尺 0.000387
三等 名 0.000387
列位 安眠 0.000387
此处 远 0.000387
骏马 ， 0.000387
禽 言 0.000387
到 此天 0.000387


In [20]:
for word, cnt in lm2.items()[0:9]:
    print('%s %f' % (word, cnt))

浮玉 0.000387
排列 0.000387
土 0.000773
奇葩 0.000387
运通 0.000387
异果 0.000387
不觉 0.000387
罗拜 0.000387
古云 0.000387


In [8]:
def generate(lm):
    
    import random
    wordtest = ''
    r = random.uniform(min(lm.values()),max(lm.values())) # 生成在区间内随机数
    s_ = 0.0
    for word, prob in lm.items():
        s_ += prob
        if s_ >= r:
            return word

In [9]:
print(generate(lm2))

各享


In [10]:
wordtest = generate(lm2)

lmm ={}

for (word1, word2), prob in lm.items():
    
    if word2 == wordtest:
        
        lmm[(word1, word2)] = lm[(word1, word2)]

In [239]:
lmm

{('\xe5\xb1\xb1\xe7\x9f\xb3', '\xe5\x9c\x9f'): 1.4941945312778993e-07,
 ('\xe6\x9c\x89', '\xe5\x9c\x9f'): 5.379100312600437e-06,
 ('\xe9\xab\x98\xe7\xa7\xaf', '\xe5\x9c\x9f'): 1.4941945312778993e-07}

In [11]:
lmmm = {}

for (word1, word2), prob in lmm.items():
    
    if prob == max(lmm.values()):
        
        lmmm[(word1, word2)] = lmm[(word1, word2)]

In [12]:
lmmm

{('\xe5\x8f\x88', '\xe8\xbf\x9b\xe6\x9d\xa5'): 1.7930334375334792e-06,
 ('\xe6\x88\x91', '\xe8\xbf\x9b\xe6\x9d\xa5'): 1.7930334375334792e-06}

#### 合并代码

In [13]:
def generate1(lm):
    
    import random
    
    r = random.uniform(min(lm.values()),max(lm.values())) # 生成在区间内随机数
    s_ = 0.0
    for word, prob in lm.items():
        s_ += prob
        if s_ >= r:
            return word

In [14]:
def generate(wordtest,lm):
    lmm ={}
    lmmm = {}
#    wordtest = generate1(lm1)
    
    for (word1, word2), prob in lm.items():
        if word2 == wordtest:
            lmm[(word1, word2)] = lm[(word1, word2)]
    
    for (word1, word2), prob in lmm.items():
        if prob == max(lmm.values()):
            lmmm[(word1, word2)] = lmm[(word1, word2)]
    return word1 + word2

In [547]:
generate(generate1(lm2),lm)

'\xe7\x9b\x98\xe5\x8f\xa4\xe5\xbc\x80\xe8\xbe\x9f'

In [20]:
s = ''

for i in range(100):
    word = generate(generate1(lm2),lm)
#    s[i+1] = generate(s[i])
    s += word
print(s)

，无忧无虑隐了，不觉比山猴而日落满地奇葩五点梅花其石北俱见有金字儿隐五点梅花故曰地务必访原堤草色，拉的拉仔细再他围住，大声为花果山一跳着驴骡猴拍手在仙山九宫八卦，不觉一仙石中跳出，整整齐齐，惟有奉酒，学座铁板桥是我们。此收拾些，忽赐恩座铁板桥，惟有隐了赐恩猴道行”猴王翠柏长春其石更解搬得力因见风隐了隐了故曰地享乐天真竿修是我们连日东南风一点儿远虑在仙山樽 复瞑目会元功出心性其石故曰混沌故曰地一跳精月华，而复。持篙中跳出，萦回座铁板桥世界之间搬得力马猴等。故曰满地奇葩，善哉摘异果为花果山潜息矣九窍八孔称美猴王果独自跳上岸。此有土隐了北俱樽 隐了翠柏长春称美猴王那股涧水“天气北俱见那股瓜涌溅涧壑此三者


## 5. 新代码

In [41]:
import jieba
from collections import Counter
from collections import defaultdict
import jieba.posseg as pseg

line_no = 0
limit = 200
dct = defaultdict(Counter)
ngram = 2

for line in open('./AssisantEvaluate/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    words = [i.word.encode('utf-8') for i in words]
    
    for i in range(ngram, len(words)):
        context = ''.join(words[(i-ngram):i])
        word = words[i]
        dct[context][word] += 1
        
    for context, wordcnt in dct.items():
        s = float(sum(wordcnt.values()))
        for w, cnt in wordcnt.items():
            dct[context][word] = cnt/s

In [49]:
def generate(lm):
    
    import random
    
    r = random.uniform(min(lm[context].values()),max(lm[context].values())) # 生成在区间内随机数
    s_ = 0.0
    for word, prob in lm[context].items():
        s_ += prob
        if s_ >= r:
            return word

In [50]:
s = ''

for i in range(100):
    word = generate(dct)
    s += word
print(s)

得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇得遇


In [41]:
import jieba
from collections import Counter
import jieba.posseg as pseg

line_no = 0
limit = 200
lm = {}
lm0 = Counter()
lm2 = Counter()
ngram = 2

for line in open('./AssisantEvaluate/西游记.txt'):
    line_no += 1
    if line_no > limit:
        break
    words = pseg.cut(line.strip())
    words = [i.word for i in words]
    
    for i in range(ngram, len(words)):
        context = words[(i-ngram):i]
        word = words[i-ngram]
        lm0[context[0].encode('utf-8'),context[1].encode('utf-8')] += 1
        lm2[word.encode('utf-8')] += 1

In [49]:
for i in range(len(lm0)):
    lm[lm0.items()[i][0]]  = float(lm0.items()[i][1]) / lm2[lm0.items()[i][0][0]]

In [172]:
def generate1(lm):
    r = random.random() # 生成随机数
    s_ = 0.0
    for (word, prob) in lm.items():
        s_ += prob/100.0
        if s_ >= r:
            return word

In [157]:
def generate(wordtest,lm):
    lmm ={}
    lmmm = {}
    
    for (word1, word2), prob in lm.items():
        if word1 == wordtest:
            lmm[(word1, word2)] = lm[(word1, word2)]
    
    for (word1, word2), prob in lmm.items():
        if prob == max(lmm.values()):
            lmmm[(word1, word2)] = lmm[(word1, word2)]
    return word1 + word2

In [232]:
def generate(wordtest,lm):

    for (word1, word2), prob in lm.items():
        if word1 == wordtest:
            return word1 + word2

In [238]:
s = ''

for i in range(100):
    word = generate(generate1(lm2),lm)
    s += word
print(s)

圣大开辟以来于丑神圣三者在山中须臾回金光焰了。何怕阎君些枯松桥边有者，呼兄，迟眠不金光焰午、地，难。于丑仙山之内隆，五形齿肩了。呼兄，了。滑凳板生花芋栗剖开仙山之内浮玉，了。二将果神圣三者了。跳出一个通者，异果，在山中五形迸裂，辰时食后此，仙桃，者，在山中午、桥边有呼兄，了。云。何怕阎君些枯松迟眠不些枯松仙桃，了。芋栗剖开些枯松地，仙桃，在山中了。遮闭门户海波中跳出一个通跳出一个通金光焰古云：二将果开辟以来滑凳板生花锦鸡鸣列位安眠成家之者，了。地秀，芋栗剖开古云：于丑海波中了。在山中此，了。至时来跳出一个通直至西 靠遮闭门户在山中浮玉，神圣三者神圣三者神圣三者遮闭门户猕猴、迟眠不遮闭门户芋栗剖开


In [None]:
#!usr/bin/env python3
# coding: utf-8
"""读取语料 生成 n-gram 模型"""

from collections import Counter, defaultdict
#from pprint import pprint
from random import random
import jieba


# N = 2  # N元模型
START = '$$' # 句首的 token
BREAK = '。！？'  # 作为句子结束的符号
IGNORE = '\n “”"《》〈〉()*'  # 忽略不计的符号


def process_segs(segments):
    """对 segments (iterator) 进行处理，返回一个 list. 处理规则： 
    - 忽略 \n、空格、引号、书名号等
    - 在断句符号后添加 START token
    """
    results = [START for i in range(N-1)]
    for seg in segments:
        if seg in IGNORE:
            continue
        else:
            results.append(seg)
            if seg in BREAK:
                results.extend([START for i in range(N-1)])
    # 小瑕疵：segments 会以 start token 结束，但对语言模型没有影响，暂且忽略
    return results


def count_ngram(segments):
    """统计 N-gram 出现次数"""
    dct = defaultdict(Counter)
    for i in range(N-1, len(segments)):
        context = tuple(segments[i-N+1:i])
        word = segments[i]
        dct[context][word] += 1
    return dct


def to_prob(dct):
    """将次数字典转换为概率字典"""
    prob_dct = dct.copy()
    for context, count in prob_dct.items():
        total = sum(count.values())
        for word in count:
            count[word] /= total  # works in Python 3
    return prob_dct


def generate_word(context):
    """根据 context 及条件概率，随机生成 word"""
    r = random()
    psum = 0
    for word, prob in prob_dct[context].items():
        psum += prob
        if psum > r:
            return word
    #return START


def generate_sentences(m):
    """生成 m 个句子"""
    sentences = []
    text = ''
    context = tuple(START for i in range(N-1))
    i = 0
    while (i < m):
        word = generate_word(context)
        text = text + word
        context = tuple((list(context) + [word])[1:])
        if word in BREAK:
            sentences.append(text)
            text = ''
            context = tuple(START for i in range(N-1))
            i += 1
    return sentences


for N in range(2, 6):
    print('\n*** reading corpus ***')
    with open('ZhangAiLing.txt') as f:
        corpus = f.read()
    print('*** cutting corpus ***')
    raw_segments = jieba.cut(corpus)
    print('*** processing segments ***')
    segments = process_segs(raw_segments)
    print('*** generating {}-gram count dict ***'.format(N))
    dct = count_ngram(segments)
    print('*** generating {}-gram probability dict ***'.format(N))
    prob_dct = to_prob(dct)
    #pprint(prob_dct)
    print('*** generating sentences ***')
    with open('generated_{}gram.txt'.format(N), 'w') as f:
        f.write('\n'.join(generate_sentences(20)))

In [None]:
import jieba
from jieba import posseg as pseg
from collections import Counter, defaultdict
import random

In [165]:

def load_file(file_name):
    f = open(file_name, 'r')
    lines = f.readlines()
    f.close()
    segs = []
    for line in lines:
        line = line.strip().decode('utf-8')
        words = pseg.cut(line)
        words = [key for (key, flag) in words]
        for word in words:
            segs.append(word)            
    return segs

In [166]:

def create_model(segs, n, padding):
    Delimiter = [u'。',u'！',u'？']
    lm = defaultdict(Counter)
    if n < 1:
        n = 1
    post_segs = []
    for i in range(n):
        post_segs.append(padding)
    for word in segs:
        post_segs.append(word)
        context = tuple(post_segs[-n-1:-1])
        lm[context][word] += 1
        if word in Delimiter:
            for j in range(n):
                post_segs.append(padding)  
                
    for key, cnt in lm.items():
        s = float(sum(cnt.values()))
        for word in cnt:
            cnt[word] /= s
    return lm

In [167]:

def generate_head(n, pad):
    head = []
    for i in range(n):
       head.append(pad)
    return head

In [168]:

def generate_word(lm_counter, context):
    r = random.random()
    s = 0.0
    for word, value in lm_counter[context].items():
        s += value
        if s > r:
            return word

In [169]:

def generate_sentence(lm, start):    
    context = start
    sentence = []
    text = ''

    while (True):
        word = generate_word(lm, context)
        if word == None: 
            break
        else:
            text += word
            temp = list(context)[1:]
            temp.append(word)
            context = tuple(temp) 
            
    sentence.append(text.encode('utf-8'))
    return sentence

In [170]:

def generate_sample_text(lm, n, sentence_count, padding):
    heads = generate_head(n, padding)
    start = tuple(heads)
    text = ''
    for i in range(sentence_count):
        sentences = generate_sentence(lm, start)
        sentences.append('\r\n')
        text += ''.join(sentences)
    return text

In [171]:

def demo_model_from_file(file_name, max_n):
    segs = Load_File(file_name)
    padding = u'%'
    
    if max_n > 5:
        max_n = 5
    else:
        if max_n < 1:
            max_n = 1
            
    for n in range(1,max_n):
        print '-----------ngram = %d-----------' % (n)
        lm = create_model(segs, n, padding)
        text = generate_sample_text(lm, n, 10, padding)
        print text
        print '--------------------------------'

