# 1.课堂代码复现

## （1）Sentence Generator

In [129]:
import random
class SentenceGenerator(object):
    def __init__(self, gram_str=None, line_split='\n', target_split='=>', cell_split="|"):
        if gram_str is not None:
            self.set_gram(gram_str, line_split, target_split, cell_split)
    
    @staticmethod
    def format_gram(gram_str, line_split='\n', target_split='=>', cell_split="|"):
        """把输入的语法字符串格式化为字典对象，以便后续操作"""
        gram = {}
        for line in gram_str.split(line_split):
            if line.strip():
                target, cells_str = line.split(target_split)
                cells = cells_str.split(cell_split)
                gram[target.strip()] = [cell.strip().split() for cell in cells]
        return gram
    
    @classmethod
    def sentence_gen(cls, gram=None, target=None):
        """根据语法字典和句子标签，生成句子"""
        if gram is None:
            return ''
        if target not in gram:
            return target
        # 递归
        expaned = [cls.sentence_gen(gram, t) for t in random.choice(gram[target])]
        sentence = ''.join(x if x != '/n' else '\n' for x in expaned if x != 'null')
        return sentence
    
    def set_gram(self, gram_str, line_split='\n', target_split='=>', cell_split="|"):
        """设置对象的语法， 输入语法字符串"""
        self.gram = self.format_gram(gram_str, line_split, target_split, cell_split)
    
    def get_sentence(self, target=None):
        """根据句子标签，获取生成的句子"""
        return self.sentence_gen(self.gram, target)

In [130]:
example_gram_str = '''
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见
Adj =>  蓝色的 | 好看的 | 小小的
'''

In [131]:
generator = SentenceGenerator(example_gram_str, target_split='=')

In [132]:
generator.gram

{'sentence': [['>', 'noun_phrase', 'verb_phrase']],
 'noun_phrase': [['>', 'Article', 'Adj*', 'noun']],
 'Adj*': [['>', 'null'], ['Adj', 'Adj*']],
 'verb_phrase': [['>', 'verb', 'noun_phrase']],
 'Article': [['>', '一个'], ['这个']],
 'noun': [['>', '女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['>', '看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['>', '蓝色的'], ['好看的'], ['小小的']]}

In [133]:
for _ in range(15):
    print(generator.get_sentence('sentence'))

>>>一个好看的好看的>桌子>听着>>一个>小猫
>>>一个>桌子>听着>这个>小猫
>>这个好看的>蓝色的>桌子>>看着>>一个好看的>篮球
>>>一个>蓝色的>>女人>听着>>一个小小的>桌子
>>这个>>女人>听着>>一个>小猫
>>这个>小猫>听着>这个>桌子
>>>一个>桌子>看见>这个好看的>蓝色的>小猫
>>这个>蓝色的好看的小小的>蓝色的>小猫>看见>这个>蓝色的好看的好看的>蓝色的>篮球
>>>一个>>女人>听着>这个小小的小小的>小猫
>>这个>桌子>坐在>>一个小小的>桌子
>>这个>小猫>看见>这个小小的>篮球
>>这个好看的>>女人>>看着>这个>桌子
>>>一个>>女人>听着>这个>小猫
>>这个>篮球>听着>这个好看的>>女人
>>>一个>篮球>看见>>一个>篮球


In [145]:
#一个“接待员”的语言可以定义为
host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称 ,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 玩玩 | 具体业务
玩玩 = 思考人生 | 闭目养神 | 入关
具体业务 = 喝酒 | 打牌 | 打猎 | 赌博
结尾 = 吗？
"""

In [135]:
# 重新设置语句生成器对象的语法
generator.set_gram(host, target_split='=')

In [136]:
generator.gram

{'host': [['寒暄', '报数', '询问', '业务相关', '结尾']],
 '报数': [['我是', '数字', '号', ',']],
 '数字': [['单个数字'], ['数字', '单个数字']],
 '单个数字': [['1'], ['2'], ['3'], ['4'], ['5'], ['6'], ['7'], ['8'], ['9']],
 '寒暄': [['称谓', '打招呼'], ['打招呼']],
 '称谓': [['人称', ',']],
 '人称': [['先生'], ['女士'], ['小朋友']],
 '打招呼': [['你好'], ['您好']],
 '询问': [['请问你要'], ['您需要']],
 '业务相关': [['玩玩'], ['具体业务']],
 '玩玩': [['思考人生'], ['闭目养神'], ['入关']],
 '具体业务': [['喝酒'], ['打牌'], ['打猎'], ['赌博']],
 '结尾': [['吗？']]}

In [124]:
for _ in range(20):
    print(generator.get_sentence('host'))

您好我是34号,请问你要打猎吗？
您好我是96号,您需要赌博吗？
小朋友,你好我是9号,您需要赌博吗？
你好我是3号,请问你要打牌吗？
小朋友,你好我是21号,您需要打猎吗？
小朋友,您好我是3号,您需要赌博吗？
你好我是6号,请问你要闭目养神吗？
先生,你好我是1号,请问你要闭目养神吗？
你好我是1号,请问你要打牌吗？
您好我是51号,请问你要闭目养神吗？
小朋友,您好我是5号,您需要思考人生吗？
先生,您好我是12号,您需要喝酒吗？
你好我是1号,请问你要打猎吗？
女士,你好我是8号,请问你要闭目养神吗？
你好我是73号,您需要打牌吗？
你好我是5号,您需要思考人生吗？
您好我是9号,您需要赌博吗？
你好我是443号,请问你要打猎吗？
你好我是65号,您需要思考人生吗？
先生,您好我是6号,请问你要赌博吗？


## （2）Language Model

In [33]:
import random
import pandas as pd
import re
import jieba
from collections import Counter

In [10]:
file_path = r'..\sqlResult_1558435.csv'

In [15]:
data = pd.read_csv(file_path, encoding='gb18030')

In [16]:
data.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


In [17]:
articles = data['content']

In [18]:
len(articles)

89611

In [20]:
articles[:10]

0    此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...
1    骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...
2    此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...
3      这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n
4    （原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...
5    　　受到A股被纳入MSCI指数的利好消息刺激，A股市场从周三开始再度上演龙马行情，周四上午金...
6    虽然至今夏普智能手机在市场上无法排得上号，已经完全没落，并于 2013 年退出中国市场，但是...
7    　　沙漠雄鹰：震荡有利消化套牢筹码\r\n　　周四开盘上证50在银行券商大蓝筹带动下一度涨近...
8    （原标题：武汉警方一下子抓了808人，还都是俊男靓女！原来他们每天偷偷摸摸干这事！）\r\n...
9    　　6月21日，A股纳入MSCI指数尘埃落定，但当天被寄予厚望的券商股并未扛起反弹大旗。22...
Name: content, dtype: object

In [25]:
token = lambda string: re.findall('\w+', string)

In [37]:
example_article = token(articles[9100])

In [38]:
example_article

['新华社北京6月14日电',
 '记者刘铮',
 '国际货币基金组织',
 'IMF',
 '第一副总裁大卫',
 '利普顿14日在北京表示',
 '对人民币的评估显示其币值与基本面大致相符',
 '利普顿在新闻发布会上介绍与中国进行的2017年度第四条款磋商的初步结论时说',
 '进一步放开资本账户应按照合理顺序谨慎推进',
 '辅以必要的配套改革',
 '包括建立有效的货币政策框架',
 '构建稳健的金融体系',
 '以及增强汇率灵活性',
 '利普顿说',
 '中国改革在广泛范围取得进展',
 '经济继续进行转型',
 '中国政府充分认识到当前面临的挑战',
 '已经采取了关键而可取的措施',
 '目前正针对金融部门风险实施重要的监管措施',
 '企业债务的增长在放缓',
 '处理金融部门风险至关重要',
 '建议继续进行下去',
 '所谓第四条款磋商',
 '是指根据IMF协定第四条款',
 'IMF派出工作人员小组访问成员国',
 '收集经济和金融信息并与该国官员讨论经济发展情况和政策',
 '回到总部后',
 '工作人员准备一份报告',
 '这份报告构成执董会讨论的基础',
 '免责声明',
 '本文仅代表作者个人观点',
 '与环球网无关',
 '其原创性以及文中陈述文字和内容未经本站证实',
 '对本文以及其中全部或者部分内容',
 '文字的真实性',
 '完整性',
 '及时性本站不作任何保证或承诺',
 '请读者仅作参考',
 '并请自行核实相关内容']

In [42]:
cutor = lambda string: jieba.lcut(string)
cutor(''.join(example_article))

['新华社',
 '北京',
 '6',
 '月',
 '14',
 '日电',
 '记者',
 '刘铮',
 '国际货币基金组织',
 'IMF',
 '第一副',
 '总裁',
 '大卫',
 '利普顿',
 '14',
 '日',
 '在',
 '北京',
 '表示',
 '对',
 '人民币',
 '的',
 '评估',
 '显示',
 '其',
 '币值',
 '与',
 '基本面',
 '大致',
 '相符',
 '利普顿',
 '在',
 '新闻',
 '发布会',
 '上',
 '介绍',
 '与',
 '中国',
 '进行',
 '的',
 '2017',
 '年度',
 '第四',
 '条款',
 '磋商',
 '的',
 '初步',
 '结论',
 '时说',
 '进一步',
 '放开',
 '资本',
 '账户',
 '应',
 '按照',
 '合理',
 '顺序',
 '谨慎',
 '推进',
 '辅以',
 '必要',
 '的',
 '配套改革',
 '包括',
 '建立',
 '有效',
 '的',
 '货币政策',
 '框架',
 '构建',
 '稳健',
 '的',
 '金融体系',
 '以及',
 '增强',
 '汇率',
 '灵活性',
 '利普顿',
 '说',
 '中国',
 '改革',
 '在',
 '广泛',
 '范围',
 '取得',
 '进展',
 '经济',
 '继续',
 '进行',
 '转型',
 '中国政府',
 '充分认识',
 '到',
 '当前',
 '面临',
 '的',
 '挑战',
 '已经',
 '采取',
 '了',
 '关键',
 '而',
 '可取',
 '的',
 '措施',
 '目前',
 '正',
 '针对',
 '金融部门',
 '风险',
 '实施',
 '重要',
 '的',
 '监管',
 '措施',
 '企业',
 '债务',
 '的',
 '增长',
 '在',
 '放缓',
 '处理',
 '金融部门',
 '风险',
 '至关重要',
 '建议',
 '继续',
 '进行',
 '下去',
 '所谓',
 '第四',
 '条款',
 '磋商',
 '是',
 '指',
 '根据',
 'IMF',
 '协定',
 '第四',
 '条款',
 'IMF',
 '派出',

In [64]:
%time
TOKEN = []
for i, article in enumerate(articles):
    try:
        TOKEN += cutor(''.join(token(article)))
    except:
        print(i)

100
103
997
1273
1282
1434
2593
3003
4631
4754
4781
4784
4787
4791
4793
4837
4839
4843
4856
4873
4874
4877
4880
4892
4898
4918
5092
5096
5098
5101
5105
5134
5654
5660
5681
5779
5788
5860
5890
5948
5957
5964
5972
5979
6034
6053
6078
6093
6096
6231
6240
6249
6285
6337
6385
6453
6457
6525
6541
6582
6588
6609
6647
6676
6680
6685
6759
6807
6815
6910
6963
6970
7117
7134
7382
7481
7792
7825
7831
7851
7890
7946
8003
8009
8077
8080
8081
8082
8083
8084
8085
8086
8087
8088
8089
8090
8091
8092
8093
8094
8095
8096
8097
8098
8099
8100
8101
8102
8103
8104
8105
8106
8107
8108
8109
8110
8111
8112
8113
8114
8115
8116
8117
8118
8119
8120
8121
8122
8123
8124
8125
8126
8127
8128
8129
8130
8131
8132
8133
8134
8135
8136
8137
8138
8139
8140
8141
8142
8143
8144
8145
8146
8147
8148
8149
8150
8151
8152
8153
8154
8155
8156
8157
8158
8159
8160
8161
8162
8163
8164
8165
8166
8167
8168
8169
8170
8171
8172
8173
8174
8175
8176
8177
8178
8179
8180
8181
8182
8183
8184
8185
8186
8187
8188
8189
8190
8191
8192
8193
8194
819

9999
10065
10066
10067
10068
10069
10070
10071
10072
10073
10074
10075
10076
10077
10078
10079
10080
10081
10082
10083
10084
10085
10086
10087
10088
10089
10090
10091
10092
10093
10094
10095
10096
10097
10098
10099
10100
10101
10102
10103
10104
10105
10106
10107
10108
10109
10110
10111
10112
10113
10114
10115
10116
10117
10118
10119
10120
10121
10122
10123
10124
10125
10126
10127
10128
10129
10130
10131
10132
10133
10134
10135
10136
10137
10138
10139
10140
10141
10142
10143
10144
10145
10146
10147
10148
10149
10150
10151
10152
10153
10154
10155
10156
10157
10158
10159
10160
10161
10162
10163
10164
10165
10166
10167
10168
10169
10170
10171
10172
10173
10174
10175
10176
10177
10178
10179
10180
10181
10182
10183
10184
10185
10186
10187
10188
10189
10190
10191
10192
10193
10194
10195
10196
10197
10198
10199
10200
10201
10202
10203
10204
10205
10206
10207
10208
10209
10210
10211
10212
10213
10214
10215
10216
10217
10218
10219
10220
10221
10222
10223
10224
10225
10226
10227
10228
10229
10230

In [65]:
len(TOKEN)

17526086

In [68]:
word_count = Counter(TOKEN)

In [70]:
word_count.most_common(100)

[('的', 703716),
 ('n', 382020),
 ('在', 263597),
 ('月', 189330),
 ('日', 166300),
 ('新华社', 142462),
 ('和', 134061),
 ('年', 123106),
 ('了', 121938),
 ('是', 100909),
 ('１', 88187),
 ('０', 84945),
 ('外代', 83268),
 ('中', 73926),
 ('中国', 71179),
 ('２', 70521),
 ('2017', 69894),
 ('记者', 62147),
 ('二线', 61998),
 ('将', 61420),
 ('与', 58309),
 ('等', 58162),
 ('为', 57019),
 ('5', 54578),
 ('照片', 52271),
 ('4', 51626),
 ('对', 50317),
 ('上', 47452),
 ('也', 47401),
 ('有', 45767),
 ('５', 40857),
 ('说', 39017),
 ('发展', 37632),
 ('他', 37194),
 ('３', 36906),
 ('以', 36867),
 ('国际', 35842),
 ('nn', 35330),
 ('４', 34659),
 ('比赛', 32232),
 ('６', 30575),
 ('到', 30109),
 ('人', 29572),
 ('从', 29489),
 ('6', 29002),
 ('都', 28027),
 ('不', 27963),
 ('后', 27393),
 ('当日', 27186),
 ('就', 26684),
 ('并', 26568),
 ('国家', 26439),
 ('７', 26386),
 ('企业', 26147),
 ('进行', 25987),
 ('3', 25491),
 ('美国', 25485),
 ('举行', 25389),
 ('被', 25277),
 ('北京', 25245),
 ('体育', 24873),
 ('2', 24376),
 ('1', 24182),
 ('这', 24118),
 ('新', 2

In [71]:
prob_1 = lambda word: word_count.get(word) / len(TOKEN)

In [76]:
prob_1('你')

0.00039769290188351237

In [77]:
TOKEN_2gram = [''.join(TOKEN[i:i+2]) for i in range(len(TOKEN) - 1)]

In [78]:
words_count_2 = Counter(TOKEN_2gram)

In [79]:
def prob_2(w1, w2):
    if w1+w2 in TOKEN_2gram:
        return words_count_2[w1+w2] / len(TOKEN_2gram)
    else:
        return 1 / len(TOKEN_2gram)

In [82]:
prob_2('我', '在')

2.8585962010340588e-05

In [83]:
prob_2('去', '吃饭')

7.988093176542279e-07

In [84]:
prob_2('在', '吃饭')

2.8528904201936714e-07

In [153]:
def get_probablity(sentence):
    words = cutor(''.join(token(sentence)))
    sentence_pro = 1
    for i, word in enumerate(words[:-1]):
        word_n = words[i+1]
        prob = prob_2(word, word_n)
        sentence_pro *= prob
    return sentence_pro

In [154]:
get_probablity('你吃了吗')

1.6856335944432106e-16

In [155]:
get_probablity('你噶了吗')

4.2352602875457544e-20

In [156]:
get_probablity('小明今天抽奖抽到一台苹果手机')

1.5527553413488704e-42

In [93]:
get_probablity('小明今天抽奖抽到一架播音飞机')

3.4505674252197117e-44

In [94]:
get_probablity('洋葱奶昔来一杯')

1.8575703015551556e-22

In [96]:
get_probablity('养乐多绿来一杯')

3.255593499853129e-15

In [178]:
gram_test = """
sen=主 谓 宾
主=大妈|小朋友|美女
谓=写|跳|抹
宾=广场舞|作业|口红
"""

In [179]:
genrator = SentenceGenerator(gram_test, target_split='=')

In [188]:
generator.get_sentence('sen')

'大妈写口红'

In [177]:

for _ in range(10):
    sentence = generator.get_sentence('sen')
    prob = get_probablity(sentence)
    print("%s 的概率是：" % sentence, prob)

美女写广场舞 的概率是： 5.12689403229223e-20
大妈抹广场舞 的概率是： 5.12689403229223e-20
小朋友写作业 的概率是： 1.9533560999118775e-14
美女写作业 的概率是： 1.9533560999118775e-14
美女写作业 的概率是： 1.9533560999118775e-14
美女抹口红 的概率是： 3.255593499853129e-15
美女跳作业 的概率是： 3.255593499853129e-15
大妈跳广场舞 的概率是： 1.9994886725939694e-18
小朋友抹广场舞 的概率是： 5.12689403229223e-20
小朋友抹作业 的概率是： 3.255593499853129e-15
