### 复现课堂代码

In [103]:
import numpy as np
import pandas as pd
import jieba
import random
from functools import partial

In [2]:
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [3]:
simple_grammar

'\nsentence => noun_phrase verb_phrase\nnoun_phrase => Article Adj* noun\nAdj* => null | Adj Adj*\nverb_phrase => verb noun_phrase\nArticle =>  一个 | 这个\nnoun =>   女人 |  篮球 | 桌子 | 小猫\nverb => 看着   |  坐在 |  听着 | 看见\nAdj =>  蓝色的 | 好看的 | 小小的\n'

In [4]:
def adj(): return np.random.choice(list(map(lambda s: s.strip(), '蓝色的 | 好看的 | 小小的'.split('|'))))

In [5]:
adj()

'蓝色的'

In [6]:
def adj_star(): return np.random.choice([lambda : '', lambda : adj()+adj_star()])()

In [7]:
adj_star()

'蓝色的'

In [8]:
list(map(lambda s: s.strip(), '蓝色的 | 好看的 | 小小的'.split('|')))

['蓝色的', '好看的', '小小的']

In [9]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [10]:
def create_grammar(grammar_str, split_='=>', line_split='\n'):
    grammar = {}
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        k, v = line.split(split_)
        grammar[k.strip()] = [s.split() for s in v.split('|')]
    return grammar

In [11]:
create_grammar(adj_grammar)

{'Adj*': [['null'], ['Adj', 'Adj*']], 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [12]:
def generate(gram, target):
    if target not in gram: return target
    expanded = [generate(gram, t) for t in random.choice(gram[target])]
    return ''.join(s for s in expanded if s != 'null')

In [13]:
example_grammar = create_grammar(simple_grammar)
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [14]:
generate(example_grammar, 'sentence')

'一个篮球看着一个蓝色的蓝色的小猫'

In [15]:
from collections import Counter

In [16]:
with open('article_9k.txt', 'r') as f:
    articles = list(map(lambda s: s.strip('\n'), f.readlines()))

In [17]:
articles[:2]

['此外自本周6月12日起除小米手机6等15款机型外其余机型已暂停更新发布含开发版体验版内测稳定版暂不受影响以确保工程师可以集中全部精力进行系统优化工作有人猜测这也是将精力主要用到MIUI9的研发之中MIUI8去年5月发布距今已有一年有余也是时候更新换代了当然关于MIUI9的确切信息我们还是等待官方消息',
 '骁龙835作为唯一通过Windows10桌面平台认证的ARM处理器高通强调不会因为只考虑性能而去屏蔽掉小核心相反他们正联手微软找到一种适合桌面平台的兼顾性能和功耗的完美方案报道称微软已经拿到了一些新的源码以便Windows10更好地理解biglittle架构资料显示骁龙835作为一款集成了CPUGPU基带蓝牙WiFi的SoC比传统的Wintel方案可以节省至少30的PCB空间按计划今年Q4华硕惠普联想将首发骁龙835Win10电脑预计均是二合一形态的产品当然高通骁龙只是个开始未来也许还能见到三星Exynos联发科华为麒麟小米澎湃等进入Windows10桌面平台']

In [18]:
with_jieba_cut = Counter(jieba.cut(articles[1]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\xxx\AppData\Local\Temp\jieba.cache
Loading model cost 0.789 seconds.
Prefix dict has been built succesfully.


In [19]:
with_jieba_cut

Counter({'骁龙': 4,
         '835': 2,
         '作为': 2,
         '唯一': 1,
         '通过': 1,
         'Windows10': 3,
         '桌面': 3,
         '平台': 3,
         '认证': 1,
         '的': 8,
         'ARM': 1,
         '处理器': 1,
         '高通': 2,
         '强调': 1,
         '不会': 1,
         '因为': 1,
         '只': 1,
         '考虑': 1,
         '性能': 2,
         '而': 1,
         '去': 1,
         '屏蔽掉': 1,
         '小': 1,
         '核心': 1,
         '相反': 1,
         '他们': 1,
         '正': 1,
         '联手': 1,
         '微软': 2,
         '找到': 1,
         '一种': 1,
         '适合': 1,
         '兼顾': 1,
         '和': 1,
         '功耗': 1,
         '完美': 1,
         '方案': 2,
         '报道': 1,
         '称': 1,
         '已经': 1,
         '拿到': 1,
         '了': 2,
         '一些': 1,
         '新': 1,
         '源码': 1,
         '以便': 1,
         '更好': 1,
         '地': 1,
         '理解': 1,
         'biglittle': 1,
         '架构': 1,
         '资料': 1,
         '显示': 1,
         '一款': 1,
         '集成': 1,
   

In [20]:
articles[1]

'骁龙835作为唯一通过Windows10桌面平台认证的ARM处理器高通强调不会因为只考虑性能而去屏蔽掉小核心相反他们正联手微软找到一种适合桌面平台的兼顾性能和功耗的完美方案报道称微软已经拿到了一些新的源码以便Windows10更好地理解biglittle架构资料显示骁龙835作为一款集成了CPUGPU基带蓝牙WiFi的SoC比传统的Wintel方案可以节省至少30的PCB空间按计划今年Q4华硕惠普联想将首发骁龙835Win10电脑预计均是二合一形态的产品当然高通骁龙只是个开始未来也许还能见到三星Exynos联发科华为麒麟小米澎湃等进入Windows10桌面平台'

In [21]:
def cut(string): return list(jieba.cut(string))

In [22]:
token = []
for sentence in articles[:10000]:
    token += cut(sentence)

In [23]:
words_count = Counter(token)

In [24]:
words_count.most_common(100)

[('的', 184244),
 ('在', 47370),
 ('了', 36722),
 ('和', 30809),
 ('是', 30283),
 ('月', 18711),
 ('也', 15995),
 ('年', 15971),
 ('有', 14714),
 ('为', 14448),
 ('等', 14340),
 ('将', 14060),
 ('对', 13074),
 ('与', 12568),
 ('日', 12322),
 ('中', 11117),
 ('中国', 11036),
 ('6', 10477),
 ('上', 10192),
 ('不', 10027),
 ('他', 9530),
 ('都', 9447),
 ('发展', 8795),
 ('企业', 8584),
 ('就', 8537),
 ('到', 8338),
 ('市场', 8095),
 ('但', 7729),
 ('这', 7658),
 ('被', 7575),
 ('从', 7513),
 ('并', 7412),
 ('人', 7339),
 ('后', 7084),
 ('公司', 6915),
 ('一个', 6772),
 ('说', 6703),
 ('新', 6467),
 ('表示', 6309),
 ('要', 6276),
 ('还', 6245),
 ('会', 6179),
 ('个', 6176),
 ('我', 6141),
 ('而', 6090),
 ('进行', 5802),
 ('我们', 5742),
 ('记者', 5734),
 ('以', 5615),
 ('5', 5569),
 ('工作', 5135),
 ('没有', 5000),
 ('美国', 4840),
 ('下', 4741),
 ('更', 4739),
 ('通过', 4720),
 ('大', 4704),
 ('让', 4701),
 ('可以', 4681),
 ('经济', 4670),
 ('时', 4654),
 ('目前', 4645),
 ('国家', 4628),
 ('项目', 4538),
 ('问题', 4422),
 ('创新', 4416),
 ('多', 4410),
 ('已经', 4391),
 ('建设

In [91]:
def prob_1(word, gram_1): return gram_1[word] / sum(gram_1.values())

In [93]:
prob_1('我们', words_count)

0.0015587203508559526

In [27]:
token[:10]

['此外', '自', '本周', '6', '月', '12', '日起', '除', '小米', '手机']

In [28]:
token_2_gram = [token[i]+token[i+1] for i in range(len(token)-1)]

In [29]:
token_2_gram[:10]

['此外自', '自本周', '本周6', '6月', '月12', '12日起', '日起除', '除小米', '小米手机', '手机6']

In [30]:
words_count_2 = Counter(token_2_gram)
words_count_2.most_common(10)

[('6月', 8502),
 ('2016年', 2773),
 ('2017年', 2496),
 ('的是', 2250),
 ('5月', 2111),
 ('也是', 2054),
 ('nannan', 1740),
 ('都是', 1590),
 ('自己的', 1496),
 ('更多', 1490)]

In [94]:
def prob_2(word1, word2, gram_2):
    if word1 + word2 in gram_2: 
        return gram_2[word1+word2] / sum(gram_2.values())
    else:
        return 1 / len(gram_2.values())

In [109]:
prob_2('在', '吃饭', words_count_2)

2.7145955659796026e-07

In [110]:
prob_2('我们', '在', words_count_2)

4.696250329144712e-05

In [116]:
def get_probability(sentence, words_count=words_count_2):
    words = cut(sentence)
    
    p = 1
    for i in range(len(words)-1):
        p *= prob_2(words[i], words[i+1], words_count)
    return p

In [117]:
get_probability('小明今天抽奖抽到一台苹果手机', words_count_2)

3.612475783065937e-37

In [113]:
get_probability('小明今天抽奖抽到一架波音飞机', words_count_2)

2.2577973644162107e-38

In [37]:
get_probability('洋葱奶昔来一杯', words_count_2)

2.000393368470005e-20

In [114]:
for sen in [generate(gram=example_grammar, target='sentence') for _ in range(10)]:
    print('sentence: {} with prob: {}'.format(sen, get_probability(sen, words_count_2)))

sentence: 这个好看的小猫看见一个篮球 with prob: 9.897510764937688e-38
sentence: 一个蓝色的小猫听着这个桌子 with prob: 8.2068729537664e-43
sentence: 这个桌子坐在一个小猫 with prob: 1.3676780000708865e-25
sentence: 这个好看的好看的桌子看着这个女人 with prob: 2.8650228880476293e-49
sentence: 这个好看的女人听着一个好看的小猫 with prob: 8.715878316636085e-53
sentence: 一个蓝色的小小的蓝色的好看的好看的桌子坐在这个小小的小小的小猫 with prob: 2.809559122806049e-92
sentence: 这个小小的蓝色的桌子看见一个好看的小猫 with prob: 1.4193261263018874e-55
sentence: 一个小猫看着这个女人 with prob: 1.0900895908562276e-25
sentence: 一个篮球听着这个好看的篮球 with prob: 1.0156005280285918e-41
sentence: 这个桌子看着一个小猫 with prob: 1.3676780000708865e-25


In [118]:
need_compared = [
    "今天晚上请你吃大餐，我们一起吃日料 明天晚上请你吃大餐，我们一起吃苹果",
    "真事一只好看的小猫 真是一只好看的小猫",
    "今晚我去吃火锅 今晚火锅去吃我",
    "洋葱奶昔来一杯 养乐多绿来一杯"
]
for s in need_compared:
    s1, s2 = s.split()
    p1, p2 = map(get_probability, [s1, s2])
    
    better = s1 if p1 > p2 else s2
    print('{} is more possible'.format(better))
    print('-'*4+'{} with probability {}'.format(s1, p1))
    print('-'*4+'{} with probability {}'.format(s2, p2))

今天晚上请你吃大餐，我们一起吃日料 is more possible
----今天晚上请你吃大餐，我们一起吃日料 with probability 9.886806225389095e-61
----明天晚上请你吃大餐，我们一起吃苹果 with probability 9.886806225389093e-61
真是一只好看的小猫 is more possible
----真事一只好看的小猫 with probability 1.8230175590384903e-31
----真是一只好看的小猫 with probability 2.997746374854626e-25
今晚我去吃火锅 is more possible
----今晚我去吃火锅 with probability 4.216444190595275e-18
----今晚火锅去吃我 with probability 9.810806317706048e-25
养乐多绿来一杯 is more possible
----洋葱奶昔来一杯 with probability 2.248991923502565e-19
----养乐多绿来一杯 with probability 3.698213082112612e-13


### 问答和编程练习

#### 基础理论部分

#### 编程实践部分

##### 设计自己的句子生成器

In [40]:
def generate_n(grammar, target, n):
    res = []
    for _ in range(n):
        res.append(generate(grammar, target))
    return res

In [41]:
singer = """
singer = 姓名 程度副词* 擅长 特点
姓名 = 华晨宇 | 毛不易
程度副词* = null | 程度副词 程度副词*
程度副词 = 很 | 非常 | 特别 | 极其
擅长 = 喜欢 | 善于 | 擅长
特点 = 作词 | 作曲 | 喝酒 | 怼人
"""

In [42]:
singer_grammar = create_grammar(singer, split_='=')
singer_grammar

{'singer': [['姓名', '程度副词*', '擅长', '特点']],
 '姓名': [['华晨宇'], ['毛不易']],
 '程度副词*': [['null'], ['程度副词', '程度副词*']],
 '程度副词': [['很'], ['非常'], ['特别'], ['极其']],
 '擅长': [['喜欢'], ['善于'], ['擅长']],
 '特点': [['作词'], ['作曲'], ['喝酒'], ['怼人']]}

In [43]:
generate(singer_grammar, 'singer')

'华晨宇极其极其极其极其非常很特别喜欢作曲'

In [44]:
generate_n(singer_grammar, 'singer', 6)

['华晨宇非常喜欢作词',
 '华晨宇非常喜欢作词',
 '华晨宇非常喜欢作曲',
 '毛不易极其极其很非常非常喜欢作词',
 '华晨宇善于怼人',
 '华晨宇喜欢怼人']

In [48]:
self_introduction = """
self_introduction = 礼貌称呼 报姓名 来处 主修 喜欢 具体爱好*
礼貌称呼 = null | 您好， | 你们好， | 老师们好，
报姓名 = 我 动词 姓名
动词 = 是 | 叫
姓名 = xhp， | bxf，
来处 = 来自 学校
学校 = 同济大学， | 华东师范大学， | 中南大学，
主修 = null | 专业是 专业
专业 = 植物学， | 采矿工程， | 土木工程，
喜欢 = 喜欢 | 擅长 | 善于
具体爱好* = 具体爱好 | 具体爱好*
具体爱好 = 听歌 | 码代码 | 弹钢琴 | 画画 | 跑步 
"""

In [49]:
self_introduction_grammar = create_grammar(self_introduction, split_='=')
self_introduction_grammar

{'self_introduction': [['礼貌称呼', '报姓名', '来处', '主修', '喜欢', '具体爱好*']],
 '礼貌称呼': [['null'], ['您好，'], ['你们好，'], ['老师们好，']],
 '报姓名': [['我', '动词', '姓名']],
 '动词': [['是'], ['叫']],
 '姓名': [['xhp，'], ['bxf，']],
 '来处': [['来自', '学校']],
 '学校': [['同济大学，'], ['华东师范大学，'], ['中南大学，']],
 '主修': [['null'], ['专业是', '专业']],
 '专业': [['植物学，'], ['采矿工程，'], ['土木工程，']],
 '喜欢': [['喜欢'], ['擅长'], ['善于']],
 '具体爱好*': [['具体爱好'], ['具体爱好*']],
 '具体爱好': [['听歌'], ['码代码'], ['弹钢琴'], ['画画'], ['跑步']]}

In [51]:
generate(self_introduction_grammar, 'self_introduction')

'您好，我叫xhp，来自华东师范大学，专业是植物学，善于弹钢琴'

In [52]:
generate_n(self_introduction_grammar, 'self_introduction', 5)

['你们好，我叫bxf，来自同济大学，专业是采矿工程，擅长跑步',
 '老师们好，我叫xhp，来自华东师范大学，专业是土木工程，善于画画',
 '您好，我是bxf，来自华东师范大学，专业是采矿工程，善于弹钢琴',
 '你们好，我是xhp，来自华东师范大学，专业是植物学，善于画画',
 '您好，我叫bxf，来自华东师范大学，专业是植物学，善于跑步']

##### 使用新数据源完成语言模型的训练

In [57]:
movie_comments = pd.read_csv('../../datasource-master/movie_comments.csv')

  interactivity=interactivity, compiler=compiler, result=result)


In [58]:
movie_comments.head()

Unnamed: 0,id,link,name,comment,star
0,1,https://movie.douban.com/subject/26363254/,战狼2,吴京意淫到了脑残的地步，看了恶心想吐,1
1,2,https://movie.douban.com/subject/26363254/,战狼2,首映礼看的。太恐怖了这个电影，不讲道理的，完全就是吴京在实现他这个小粉红的英雄梦。各种装备轮...,2
2,3,https://movie.douban.com/subject/26363254/,战狼2,吴京的炒作水平不输冯小刚，但小刚至少不会用主旋律来炒作…吴京让人看了不舒服，为了主旋律而主旋...,2
3,4,https://movie.douban.com/subject/26363254/,战狼2,凭良心说，好看到不像《战狼1》的续集，完虐《湄公河行动》。,4
4,5,https://movie.douban.com/subject/26363254/,战狼2,中二得很,1


In [60]:
comments = movie_comments['comment'].tolist()
comments[:5]

['吴京意淫到了脑残的地步，看了恶心想吐',
 '首映礼看的。太恐怖了这个电影，不讲道理的，完全就是吴京在实现他这个小粉红的英雄梦。各种装备轮番上场，视物理逻辑于不顾，不得不说有钱真好，随意胡闹',
 '吴京的炒作水平不输冯小刚，但小刚至少不会用主旋律来炒作…吴京让人看了不舒服，为了主旋律而主旋律，为了煽情而煽情，让人觉得他是个大做作、大谎言家。（7.29更新）片子整体不如湄公河行动，1.整体不够流畅，编剧有毒，台词尴尬；2.刻意做作的主旋律煽情显得如此不合时宜而又多余。',
 '凭良心说，好看到不像《战狼1》的续集，完虐《湄公河行动》。',
 '中二得很']

In [61]:
len(comments)

261497

In [62]:
import re

In [82]:
def token(comments):
    res = []
    for c in comments:
        try:
            res.append(''.join(re.findall('\w+', c)))
        except TypeError:
            print(c)
    return ''.join(res)

In [83]:
tokens = token(comments)

nan
nan


In [85]:
tokens[:100]

'吴京意淫到了脑残的地步看了恶心想吐首映礼看的太恐怖了这个电影不讲道理的完全就是吴京在实现他这个小粉红的英雄梦各种装备轮番上场视物理逻辑于不顾不得不说有钱真好随意胡闹吴京的炒作水平不输冯小刚但小刚至少不'

In [89]:
comments_cut = list(jieba.cut(tokens))

In [87]:
comments_count = Counter(comments_cut)

In [88]:
comments_count.most_common(10)

[('的', 328253),
 ('了', 102408),
 ('是', 73433),
 ('我', 50520),
 ('都', 36251),
 ('很', 34760),
 ('看', 33850),
 ('电影', 33638),
 ('也', 32064),
 ('和', 31291)]

In [90]:
comments_2_gram = [comments_cut[i]+comments_cut[i+1] for i in range(len(comments_cut)-1)]
comments_2_gram[:10]

['吴京意淫', '意淫到', '到了', '了脑残', '脑残的', '的地步', '地步看', '看了', '了恶心', '恶心想']

In [98]:
comments_2_gram_count = Counter(comments_2_gram)

In [100]:
comments_2_gram_count.most_common(10)

[('的电影', 8631),
 ('看的', 7075),
 ('都是', 6335),
 ('让人', 5278),
 ('的故事', 4707),
 ('看了', 4538),
 ('也是', 4407),
 ('的时候', 4398),
 ('的是', 4348),
 ('的人', 4344)]

In [101]:
prob_2('好', '电影', comments_2_gram_count)

0.00012458126542918915

In [119]:
comments_compare = [
    '这个电影真好看 这个电影正好看',
    '晚上一起去看电影啊 一起去看晚上的电影啊'
]
for comment in comments_compare:
    c1, c2 = comment.split()
    p1, p2 = map(partial(get_probability, words_count=comments_2_gram_count), [c1, c2])
    better = c1 if p1 > p2 else p2
    print('{} is more possible'.format(better))
    print('*'*4 + '{} with probability {}'.format(c1, p1))
    print('*'*4 + '{} with probability {}'.format(c2, p2))

这个电影真好看 is more possible
****这个电影真好看 with probability 7.845413924131364e-14
****这个电影正好看 with probability 1.1622835443157575e-17
晚上一起去看电影啊 is more possible
****晚上一起去看电影啊 with probability 1.6097900116028303e-23
****一起去看晚上的电影啊 with probability 1.1082732920029169e-27
