# 1 设计自己的句子生成器

如何生成句子是一个很经典的问题，从1940s开始，图灵提出机器智能的时候，就使用的是人类能不能流畅和计算机进行对话。和计算机对话的一个前提是，计算机能够生成语言。

计算机如何能生成语言是一个经典但是又很复杂的问题。 我们课程上为大家介绍的是一种基于规则（Rule Based）的生成方法。该方法虽然提出的时间早，但是现在依然在很多地方能够大显身手。值得说明的是，现在很多很实用的算法，都是很久之前提出的，例如，二分查找提出与1940s, Dijstra算法提出于1960s 等等。

## 1.1 思路
1. 定义好语法规则
2. 语句分割，字典存储，key：grammar, value: words
3. 递归调用实现


## 1.2 语法1，豆瓣影评打分

In [145]:
# 采用这种语法，报错，递归深度太深
opinion2 = """
opinion = 时间 地点 影院 电影名称 副词 形容词
时间 = 年 月 日
年 = 数字 年
月 = 数字 月
日 = 数字 日
数字 = 1 | 2 | 3 | 4
地方 = 南京 | 上海 | 广东
影院 = 卢米埃影城 | 幸福蓝海国际影城 | 时代华纳影城
电影名称 = 湄公河行动 | 战狼 | 唐顿庄园 | 哈利波特
副词 = 很 | 颇 | 极 | 十分
形容词 = 燃 | 好看 | 难看 
"""

opinion = """
opinion = 电影名称 标点符号 副词 形容词 标点符号 评分 star 
电影名称 = 湄公河行动 | 战狼 | 唐顿庄园 | 哈利波特
副词 = 很 | 颇 | 极 | 十分
形容词 = 燃 | 还不错 | 难看 
标点符号 = 。| !
star = 1 | 2 | 3 | 4 
"""

In [168]:
# 1.完成数据格式化，保存在字典中
def grammar_process(grammar_str, split='='):
    grammar_dict = {}
    for sentences in grammar_str.split('\n'):
        if not sentences:
            continue
        sen, formula = sentences.split(split)
#         print(sen, formula)
        formulas = formula.split('|')
#         print(formulas)
        formulas = [f.split() for f in formulas]
#         print(formulas)
        grammar_dict[sen.strip()] = formulas
        print(sen,":",formulas)
    return grammar_dict

In [169]:
grammar_dict = grammar_process(opinion)

opinion  : [['电影名称', '标点符号', '副词', '形容词', '标点符号', '评分', 'star']]
电影名称  : [['湄公河行动'], ['战狼'], ['唐顿庄园'], ['哈利波特']]
副词  : [['很'], ['颇'], ['极'], ['十分']]
形容词  : [['燃'], ['还不错'], ['难看']]
标点符号  : [['。'], ['!']]
star  : [['1'], ['2'], ['3'], ['4']]


In [170]:
# 2. 递归调用，生成语句
import random
choice_a_exp = random.choice
import sys 
sys.setrecursionlimit(1000000) #例如这里设置为一百万

def sen_generate(grammar_dict: dict, target: str):
    if target not in grammar_dict:
        return target
    expr = choice_a_exp(grammar_dict[target])
    return ''.join(sen_generate(grammar_dict, t) for t in expr)
    

In [184]:
for i in range(10):
    print(sen_generate(grammar_dict, "opinion"))

唐顿庄园!极燃。评分2
哈利波特。十分燃。评分2
湄公河行动。很还不错!评分4
哈利波特。很还不错!评分1
湄公河行动!极难看!评分3
哈利波特!颇燃。评分4
唐顿庄园。十分燃。评分4
战狼。很还不错!评分2
哈利波特。十分还不错!评分4
哈利波特。十分燃!评分2


### * 问题
1. 递归深度

```
---------------------------------------------------------------------------
RecursionError                            Traceback (most recent call last)
<ipython-input-136-0ca81b7e2880> in <module>
----> 1 sen_generate(grammar_dict, "opinion")

<ipython-input-135-40615388b3c0> in sen_generate(grammar_dict, target)
      7         return target
      8     expr = choice_a_exp(grammar_dict[target])
----> 9     return ' '.join(sen_generate(grammar_dict, t) for t in expr)
     10 

<ipython-input-135-40615388b3c0> in <genexpr>(.0)
      7         return target
      8     expr = choice_a_exp(grammar_dict[target])
----> 9     return ' '.join(sen_generate(grammar_dict, t) for t in expr)
     10 

... last 2 frames repeated, from the frame below ...

<ipython-input-135-40615388b3c0> in sen_generate(grammar_dict, target)
      7         return target
      8     expr = choice_a_exp(grammar_dict[target])
----> 9     return ' '.join(sen_generate(grammar_dict, t) for t in expr)
     10 

RecursionError: maximum recursion depth exceeded while calling a Python object
```
原因：超过递归深度
解决：
```
import sys
sys.setrecursionlimit(1000000) #例如这里设置为一百万
```
2. 语法过于复杂
语法过于复杂的时候，会出现服务器挂调的情况
需要重新优化代码

## 1.3 语法2，星座性格

In [150]:
# |:或； &：与 ～：范围
constellation = """
constellation =  生日: YY 月 XX 日, 对应, 星座性格
YY = 1~12  
XX = 1~30
星座性格 = 水瓶座&智慧 | 双鱼座&浪漫  | 白羊座&直率 | 金牛座&可靠 | 双子座&机智 | 巨蟹座&真挚 | 狮子座&热心 | 处女座&保守 | 天秤座&和谐 | 天蝎座&狂妄 | 射手座&活泼 | 魔蝎座&原则
"""

In [151]:
# 分割，扩展操作
def test_process1(l, op='~'):
    ll = []
    for i in l:        
        start, end = i.split(op)
    for i in range(int(start), int(end)+1):
        ll.append(str(i))
    ll = [t.split() for t in ll]
    return ll

In [152]:
# 替换操作
def test_process2(l, op='&', rep="性格特点:"):
#     l = ['水瓶座&智慧']
    lll = []
    for i in l:
        lll.append(i.replace(op, rep))
    ll = [t.split() for t in lll]
    return ll

In [153]:
test_process2([' 水瓶座&智慧 ', ' 双鱼座&浪漫  ', ' 白羊座&直率 ', ' 金牛座&可靠 ', ' 双子座&机智 ', ' 巨蟹座&真挚 ', ' 狮子座&热心 ', ' 处女座&保守 ', ' 天秤座&和谐 ', ' 天蝎座&狂妄 ', ' 射手座&活泼 ', ' 魔蝎座&原则'])

[['水瓶座性格特点:智慧'],
 ['双鱼座性格特点:浪漫'],
 ['白羊座性格特点:直率'],
 ['金牛座性格特点:可靠'],
 ['双子座性格特点:机智'],
 ['巨蟹座性格特点:真挚'],
 ['狮子座性格特点:热心'],
 ['处女座性格特点:保守'],
 ['天秤座性格特点:和谐'],
 ['天蝎座性格特点:狂妄'],
 ['射手座性格特点:活泼'],
 ['魔蝎座性格特点:原则']]

In [154]:
# 1.星座出生日期数据格式化，保存在字典中，出生年月日->星座->性格
def grammarC_process(grammar_str, split='='):
    grammar_dict = {}
    for sentences in grammar_str.split('\n'):
        if not sentences:
            continue
        sen, formula = sentences.split(split)
        formulas = formula.split('|')
        ll = []
        if "~" in str(formulas):
            formulas = test_process1(formulas)
        elif "&" in str(formulas):
            formulas = test_process2(formulas)
        else:                               
            formulas = [f.split() for f in formulas]
        grammar_dict[sen.strip()] = formulas   
    return grammar_dict

In [155]:
grammar_dict = grammarC_process(constellation)

In [156]:
# 2. 递归调用，生成语句
import random
choice_a_exp = random.choice
import sys 
sys.setrecursionlimit(1000000) #例如这里设置为一百万

def senC_generate(grammar_dict: dict, target: str):
    if target not in grammar_dict:
        return target
    expr = choice_a_exp(grammar_dict[target])
    return ''.join(sen_generate(grammar_dict, t) for t in expr)

In [157]:
for i in range(20):
    print(senC_generate(grammar_dict, "constellation"))

生日:8月26日,对应,天蝎座性格特点:狂妄
生日:7月22日,对应,魔蝎座性格特点:原则
生日:11月7日,对应,天蝎座性格特点:狂妄
生日:1月17日,对应,狮子座性格特点:热心
生日:12月18日,对应,天秤座性格特点:和谐
生日:2月1日,对应,水瓶座性格特点:智慧
生日:4月7日,对应,处女座性格特点:保守
生日:6月1日,对应,处女座性格特点:保守
生日:2月2日,对应,射手座性格特点:活泼
生日:12月18日,对应,天蝎座性格特点:狂妄
生日:4月28日,对应,魔蝎座性格特点:原则
生日:10月2日,对应,射手座性格特点:活泼
生日:12月18日,对应,处女座性格特点:保守
生日:7月5日,对应,天秤座性格特点:和谐
生日:10月16日,对应,双鱼座性格特点:浪漫
生日:10月25日,对应,双鱼座性格特点:浪漫
生日:2月9日,对应,双鱼座性格特点:浪漫
生日:1月22日,对应,金牛座性格特点:可靠
生日:3月4日,对应,双子座性格特点:机智
生日:1月16日,对应,水瓶座性格特点:智慧


# 2 使用新数据完成语言模型训练

## 2.1 数据预处理
- 表格数据提取
- 数据预处理，去除噪音
- 分词

In [190]:
import random

In [191]:
random.choice(range(100))

0

In [160]:
filename = 'data/movie_comments.csv'

In [161]:
import pandas as pd

In [189]:
content = pd.read_csv(filename, encoding='utf-8')

FileNotFoundError: [Errno 2] File b'data/movie_comments.csv' does not exist: b'data/movie_comments.csv'

In [163]:
content.head()

Unnamed: 0,id,link,name,comment,star
0,1,https://movie.douban.com/subject/26363254/,战狼2,吴京意淫到了脑残的地步，看了恶心想吐,1
1,2,https://movie.douban.com/subject/26363254/,战狼2,首映礼看的。太恐怖了这个电影，不讲道理的，完全就是吴京在实现他这个小粉红的英雄梦。各种装备轮...,2
2,3,https://movie.douban.com/subject/26363254/,战狼2,吴京的炒作水平不输冯小刚，但小刚至少不会用主旋律来炒作…吴京让人看了不舒服，为了主旋律而主旋...,2
3,4,https://movie.douban.com/subject/26363254/,战狼2,凭良心说，好看到不像《战狼1》的续集，完虐《湄公河行动》。,4
4,5,https://movie.douban.com/subject/26363254/,战狼2,中二得很,1


In [164]:
articles = content['comment'].tolist()

In [19]:
len(articles)

261497

In [25]:
for i in range(50):
    print(articles[i])

吴京意淫到了脑残的地步，看了恶心想吐
首映礼看的。太恐怖了这个电影，不讲道理的，完全就是吴京在实现他这个小粉红的英雄梦。各种装备轮番上场，视物理逻辑于不顾，不得不说有钱真好，随意胡闹
吴京的炒作水平不输冯小刚，但小刚至少不会用主旋律来炒作…吴京让人看了不舒服，为了主旋律而主旋律，为了煽情而煽情，让人觉得他是个大做作、大谎言家。（7.29更新）片子整体不如湄公河行动，1.整体不够流畅，编剧有毒，台词尴尬；2.刻意做作的主旋律煽情显得如此不合时宜而又多余。
凭良心说，好看到不像《战狼1》的续集，完虐《湄公河行动》。
中二得很
“犯我中华者，虽远必诛”，吴京比这句话还要意淫一百倍。
脑子是个好东西，希望编剧们都能有。
三星半，实打实的7分。第一集在爱国主旋律内部做着各种置换与较劲，但第二集才真正显露吴京的野心，他终于抛弃李忠志了，新增外来班底让硬件实力有机会和国际接轨，开篇水下长镜头和诸如铁丝网拦截RPG弹头的细节设计都让国产动作片重新封顶，在理念上，它甚至做到《绣春刀2》最想做到的那部分。
开篇长镜头惊险大气引人入胜 结合了水平不俗的快剪下实打实的真刀真枪 让人不禁热血沸腾 特别弹簧床架挡炸弹 空手接碎玻璃 弹匣割喉等帅得飞起！就算前半段铺垫节奏散漫主角光环开太大等也不怕 作为一个中国人 两个小时弥漫着中国强大得不可侵犯的氛围 还是让那颗民族自豪心砰砰砰跳个不停。
15/100吴京的冷峰在这部里即像成龙，又像杰森斯坦森，但体制外的同类型电影，主角总是代表个人，无能的政府需要求助于这些英雄才能解决难题，体现的是个人的价值，所以主旋律照抄这种模式实际上是有问题的。我们以前嘲笑个人英雄主义，却没想到捆绑爱国主义的全能战士更加难以下咽。
犯我中华者虽远必诛，是有多无脑才信这句话。
这部戏让人看的热血沸腾，对吴京路转粉，最后的彩蛋，让我们没有理由不期待下一部。
假嗨，特别恶心的电影。
有几处情节设置过于尴尬，彰显国家自豪感的部分稍显突兀。
就是一部爽片，打戏挺燃，但是故事一般。达康书记不合适这个角色，赵东来倒是很合适。张瀚太太太违和了，分分钟穿越回偶像剧。
赵东来：达康书记，我们接到在非洲卧底的冷锋报告，丁义珍现在非洲，我们请求抓捕。李达康：东来，这件事先不要声张，特别是别让省厅知道，就你和我一起去非洲，加上冷锋同志，三人逮捕丁义珍。这次行就叫战狼2吧
下一部拍喜剧吧，整个片子真

In [33]:
import re
def token(string):
    return re.findall('\w+', string)    

In [34]:
for i in range(20):
    print(token(articles[i]))

['吴京意淫到了脑残的地步', '看了恶心想吐']
['首映礼看的', '太恐怖了这个电影', '不讲道理的', '完全就是吴京在实现他这个小粉红的英雄梦', '各种装备轮番上场', '视物理逻辑于不顾', '不得不说有钱真好', '随意胡闹']
['吴京的炒作水平不输冯小刚', '但小刚至少不会用主旋律来炒作', '吴京让人看了不舒服', '为了主旋律而主旋律', '为了煽情而煽情', '让人觉得他是个大做作', '大谎言家', '7', '29更新', '片子整体不如湄公河行动', '1', '整体不够流畅', '编剧有毒', '台词尴尬', '2', '刻意做作的主旋律煽情显得如此不合时宜而又多余']
['凭良心说', '好看到不像', '战狼1', '的续集', '完虐', '湄公河行动']
['中二得很']
['犯我中华者', '虽远必诛', '吴京比这句话还要意淫一百倍']
['脑子是个好东西', '希望编剧们都能有']
['三星半', '实打实的7分', '第一集在爱国主旋律内部做着各种置换与较劲', '但第二集才真正显露吴京的野心', '他终于抛弃李忠志了', '新增外来班底让硬件实力有机会和国际接轨', '开篇水下长镜头和诸如铁丝网拦截RPG弹头的细节设计都让国产动作片重新封顶', '在理念上', '它甚至做到', '绣春刀2', '最想做到的那部分']
['开篇长镜头惊险大气引人入胜', '结合了水平不俗的快剪下实打实的真刀真枪', '让人不禁热血沸腾', '特别弹簧床架挡炸弹', '空手接碎玻璃', '弹匣割喉等帅得飞起', '就算前半段铺垫节奏散漫主角光环开太大等也不怕', '作为一个中国人', '两个小时弥漫着中国强大得不可侵犯的氛围', '还是让那颗民族自豪心砰砰砰跳个不停']
['15', '100吴京的冷峰在这部里即像成龙', '又像杰森斯坦森', '但体制外的同类型电影', '主角总是代表个人', '无能的政府需要求助于这些英雄才能解决难题', '体现的是个人的价值', '所以主旋律照抄这种模式实际上是有问题的', '我们以前嘲笑个人英雄主义', '却没想到捆绑爱国主义的全能战士更加难以下咽']
['犯我中华者虽远必诛', '是有多无脑才信这句话']
['这部戏让人看的热血沸腾', '对吴京路转粉', '最后的彩蛋', '让我们没有

## 2.2 切词，语言模型构建

In [31]:
# 分词
import jieba

articles_clean = [''.join(token(str(a))) for a in articles]

In [35]:
print(articles_clean[:100])

['吴京意淫到了脑残的地步看了恶心想吐', '首映礼看的太恐怖了这个电影不讲道理的完全就是吴京在实现他这个小粉红的英雄梦各种装备轮番上场视物理逻辑于不顾不得不说有钱真好随意胡闹', '吴京的炒作水平不输冯小刚但小刚至少不会用主旋律来炒作吴京让人看了不舒服为了主旋律而主旋律为了煽情而煽情让人觉得他是个大做作大谎言家729更新片子整体不如湄公河行动1整体不够流畅编剧有毒台词尴尬2刻意做作的主旋律煽情显得如此不合时宜而又多余', '凭良心说好看到不像战狼1的续集完虐湄公河行动', '中二得很', '犯我中华者虽远必诛吴京比这句话还要意淫一百倍', '脑子是个好东西希望编剧们都能有', '三星半实打实的7分第一集在爱国主旋律内部做着各种置换与较劲但第二集才真正显露吴京的野心他终于抛弃李忠志了新增外来班底让硬件实力有机会和国际接轨开篇水下长镜头和诸如铁丝网拦截RPG弹头的细节设计都让国产动作片重新封顶在理念上它甚至做到绣春刀2最想做到的那部分', '开篇长镜头惊险大气引人入胜结合了水平不俗的快剪下实打实的真刀真枪让人不禁热血沸腾特别弹簧床架挡炸弹空手接碎玻璃弹匣割喉等帅得飞起就算前半段铺垫节奏散漫主角光环开太大等也不怕作为一个中国人两个小时弥漫着中国强大得不可侵犯的氛围还是让那颗民族自豪心砰砰砰跳个不停', '15100吴京的冷峰在这部里即像成龙又像杰森斯坦森但体制外的同类型电影主角总是代表个人无能的政府需要求助于这些英雄才能解决难题体现的是个人的价值所以主旋律照抄这种模式实际上是有问题的我们以前嘲笑个人英雄主义却没想到捆绑爱国主义的全能战士更加难以下咽', '犯我中华者虽远必诛是有多无脑才信这句话', '这部戏让人看的热血沸腾对吴京路转粉最后的彩蛋让我们没有理由不期待下一部', '假嗨特别恶心的电影', '有几处情节设置过于尴尬彰显国家自豪感的部分稍显突兀', '就是一部爽片打戏挺燃但是故事一般达康书记不合适这个角色赵东来倒是很合适张瀚太太太违和了分分钟穿越回偶像剧', '赵东来达康书记我们接到在非洲卧底的冷锋报告丁义珍现在非洲我们请求抓捕李达康东来这件事先不要声张特别是别让省厅知道就你和我一起去非洲加上冷锋同志三人逮捕丁义珍这次行就叫战狼2吧', '下一部拍喜剧吧整个片子真感觉挺搞笑的', '战狼2里吴京这么能打他打得过徐晓冬么', '心往一处想劲往一处使就能实现我们的梦

In [71]:
len(articles_clean)

261497

In [67]:
output = '../../data/asssignment01/articles_douban.txt'
with open(output, 'w') as f:
    for a in articles_clean:
        f.write(a + '\n')

In [68]:
def seg_atrticles(string):
    return list(jieba.cut(string))

In [80]:
# output_seg="../../data/assignment01/articles_douban_cut.txt"
output_seg="articles_douban_cut.txt"

In [81]:
words_list = []
words_list = seg_atrticles(open(output).read())
def seg2txt(articles_list, output):
    line_dict = {}
    with open(output, 'w') as f:
        for i, line in enumerate(articles_list):
            line_dict[i] = line
        f.write(str(line_dict))

In [82]:
seg2txt(words_list, output_seg)

In [85]:
def seg2list(output):
    for i, line in enumerate((open(output))):
        if i % 100 == 0:
            print(i)
        if i > 10000:
            break
        words_list += seg_atrticles(line)
    return words_list

In [88]:
from collections import Counter

In [89]:
from functools import reduce

In [90]:
from operator import add, mul

In [97]:
words_count = Counter(words_list)

In [98]:
words_count.most_common(100)


[('的', 328262),
 ('\n', 261497),
 ('了', 102420),
 ('是', 73106),
 ('我', 50338),
 ('都', 36255),
 ('很', 34712),
 ('看', 34022),
 ('电影', 33675),
 ('也', 32065),
 ('和', 31290),
 ('在', 31245),
 ('不', 28435),
 ('有', 27939),
 ('就', 25685),
 ('人', 23909),
 ('好', 22858),
 ('啊', 20803),
 ('这', 17484),
 ('还', 17449),
 ('一个', 17343),
 ('你', 17282),
 ('还是', 16425),
 ('但', 15578),
 ('故事', 15010),
 ('没有', 14343),
 ('就是', 14007),
 ('喜欢', 13566),
 ('让', 13304),
 ('太', 12676),
 ('又', 11566),
 ('剧情', 11359),
 ('没', 10858),
 ('说', 10764),
 ('吧', 10747),
 ('他', 10675),
 ('不错', 10416),
 ('得', 10349),
 ('到', 10341),
 ('给', 10300),
 ('这个', 10058),
 ('上', 10054),
 ('被', 9939),
 ('对', 9824),
 ('最后', 9694),
 ('一部', 9693),
 ('片子', 9590),
 ('什么', 9571),
 ('能', 9532),
 ('与', 9168),
 ('多', 8977),
 ('可以', 8972),
 ('不是', 8811),
 ('最', 8669),
 ('觉得', 8626),
 ('中', 8446),
 ('导演', 8390),
 ('自己', 8354),
 ('拍', 8172),
 ('好看', 8085),
 ('要', 8081),
 ('真的', 7908),
 ('感觉', 7828),
 ('但是', 7723),
 ('里', 7655),
 ('那', 7503),
 ('有点',

In [99]:
len(words_list)

4751810

In [100]:
import matplotlib.pylab as plt

In [101]:
import numpy as np

In [103]:
# 一个单词出现的概率
def prob_1(word):
    return words_count[word] / len(words_list)

In [104]:
prob_1("我们")

0.0012363709828465365

In [109]:
# 两个词两两组合
token_2gram = [''.join(words_list[i:i+2]) for i in range(len(words_list[:-2]))]

In [110]:
token_2gram[:10]

['吴京意淫', '意淫到', '到了', '了脑残', '脑残的', '的地步', '地步看', '看了', '了恶心', '恶心想']

In [116]:
word_count2 = Counter(token_2gram)

In [117]:
def prob_2(word1, word2):
    if word1 + word2 in word_count2:
        return word_count2[word1+word2] / len(token_2gram)
    else:
        return 1 / len(token_2gram)

In [118]:
prob_2('我们','在')


2.0202836478241545e-05

In [137]:
# 获取一个句子的概率
def get_sen_prob(sentence):
    words_seg = seg_atrticles(sentence)
    sentence_prob = 1
    for i, word in enumerate(words_seg[:-1]):
        next_ = words_seg[i+1]
        prob = prob_2(word, next_)
        sentence_prob *= prob
    sentence_prob *= prob_1(words_seg[-1])
    return sentence_prob
    

In [138]:
get_sen_prob('小明今天抽奖抽到一台苹果手机')

2.705511236850992e-44

In [188]:
for sen in [sen_generate(grammar_dict, "opinion") for i in range(20)]:
#     print(sen)
    print('sentence: {}    with prob: {}  '.format(sen, get_sen_prob(sen)))

sentence: 唐顿庄园!极还不错!评分2    with prob: 2.852266781508377e-53  
sentence: 战狼。颇难看。评分2    with prob: 1.0986569279374638e-43  
sentence: 唐顿庄园!极难看!评分2    with prob: 6.936245706502436e-50  
sentence: 战狼。颇燃。评分4    with prob: 2.687230755520918e-44  
sentence: 湄公河行动。十分燃。评分1    with prob: 3.118271392048038e-49  
sentence: 湄公河行动!十分还不错!评分4    with prob: 3.720760660070827e-53  
sentence: 唐顿庄园!很还不错。评分2    with prob: 2.852266781508377e-53  
sentence: 战狼。十分还不错。评分3    with prob: 1.7409722817488258e-47  
sentence: 战狼!很还不错!评分1    with prob: 1.904094468769333e-47  
sentence: 唐顿庄园。十分燃。评分4    with prob: 6.786210441636326e-50  
sentence: 唐顿庄园!很燃!评分4    with prob: 1.6123384533125515e-43  
sentence: 哈利波特!极还不错。评分1    with prob: 4.0471656545403906e-52  
sentence: 战狼!很燃!评分2    with prob: 2.610303389714332e-37  
sentence: 湄公河行动!很难看。评分4    with prob: 7.510072888744198e-48  
sentence: 战狼!很还不错!评分4    with prob: 1.1050212669131148e-47  
sentence: 湄公河行动。颇还不错!评分3    with prob: 5.862096386887099e-53  
sentence: 湄公河行动。颇难看。

# 3 获得优质的语言
当我们能够生成随机的语言并且能判断之后，我们就可以生成更加合理的语言了。请定义 generate_best 函数，该函数输入一个语法 + 语言模型，能够生成**n**个句子，并能选择一个最合理的句子: 


In [209]:
# 思路：输入语法--》 语法生成句子--》句子经过语言模型判断（设置阈值）
def generate_best():
    # 生成句子。元组保存（sen, prob)
    sen2prob = [] 
    sen_tuple = ()
    for sen in [sen_generate(grammar_dict, "opinion") for i in range(100)]:
        sen_tuple = sen, get_sen_prob(sen)
        sen2prob.append(sen_tuple)
#         print('sentence: {}    with prob: {}  '.format(sen, get_sen_prob(sen)))    
    return sen2prob

In [211]:
sen2prob = generate_best()

In [212]:
def sorted_prob(sen2prob):
    sorted(sen2prob, key=lambda x:x[0])
    print(sen2prob)
