## Language Model (Rule-based & Probability-based)

#### 1. 基于规则的语言模型

第一个语法：

In [1]:
mission_grammar = '''
mission = 人名 ， 方式 去 地点 结尾词
人名 = Kitty | Jeremy | Ben | Alice
方式 = 骑马 | 坐车 | 弹射 | 游泳
地点 = 月球 | 火星 | 市中心 | 地心
结尾词 = 吗？ | 吧！
'''

第二个语法：

In [2]:
sentence_grammar = '''
sentence = NP VP
NP = Det Adj* Noun
Adj* = null | Adj Adj*
VP = V NP | V NP PP
PP = 在 NP Direction
Det = 这个 | 那个 | 这些 | 那些 | 一个 
Adj = 搞笑的 | 美丽的 | 胖胖的 | 湖南的 | 昏暗的
Noun = 女孩 | 男孩 | 公司 | 长凳 | 湖面 | 健身房
V = 看见 | 打 | 洗脸 | 起床 | 跑向
P = 在
Direction = 上 | 下 | 里 | 外
'''

In [3]:
# {key: list}
def create_grammar(grammar_str, split='=', line_split='\n'):
    grammar = {}
    for line in grammar_str.split('\n'):
        if not line.strip(): continue
        l = line.strip().split(split)
        grammar[l[0].strip()] = [form.split() for form in l[1].split('|')]
    return grammar

In [4]:
grammar1 = create_grammar(mission_grammar)
grammar1

{'mission': [['人名', '，', '方式', '去', '地点', '结尾词']],
 '人名': [['Kitty'], ['Jeremy'], ['Ben'], ['Alice']],
 '方式': [['骑马'], ['坐车'], ['弹射'], ['游泳']],
 '地点': [['月球'], ['火星'], ['市中心'], ['地心']],
 '结尾词': [['吗？'], ['吧！']]}

In [5]:
grammar2 = create_grammar(sentence_grammar)
grammar2

{'sentence': [['NP', 'VP']],
 'NP': [['Det', 'Adj*', 'Noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'VP': [['V', 'NP'], ['V', 'NP', 'PP']],
 'PP': [['在', 'NP', 'Direction']],
 'Det': [['这个'], ['那个'], ['这些'], ['那些'], ['一个']],
 'Adj': [['搞笑的'], ['美丽的'], ['胖胖的'], ['湖南的'], ['昏暗的']],
 'Noun': [['女孩'], ['男孩'], ['公司'], ['长凳'], ['湖面'], ['健身房']],
 'V': [['看见'], ['打'], ['洗脸'], ['起床'], ['跑向']],
 'P': [['在']],
 'Direction': [['上'], ['下'], ['里'], ['外']]}

In [6]:
import random

In [7]:
def generate(target, grammar):
    # base case
    if target not in grammar: return target
    expanded = [generate(p, grammar) for p in random.choice(grammar[target])]
    return ''.join([e for e in expanded if e != 'null'])

In [8]:
generate('mission', grammar1)

'Alice，弹射去地心吧！'

In [9]:
generate('mission', grammar1)

'Alice，骑马去火星吧！'

In [10]:
generate('sentence', grammar2)

'这些美丽的男孩打一个美丽的湖面'

In [11]:
generate('sentence', grammar2)

'那些女孩打这个湖面在一个昏暗的搞笑的男孩上'

In [12]:
def generate_n(n, grammar):
    sentences = []
    if grammar == grammar1:
        target = 'mission'
    elif grammar == grammar2:
        target = 'sentence'
    for i in range(n):
        sen = generate(target, grammar)
        sentences.append(sen)
    return sentences

In [13]:
generate_n(10, grammar1)

['Ben，坐车去市中心吧！',
 'Jeremy，坐车去地心吧！',
 'Alice，游泳去月球吗？',
 'Jeremy，弹射去火星吧！',
 'Alice，骑马去地心吗？',
 'Alice，坐车去市中心吗？',
 'Kitty，骑马去月球吧！',
 'Kitty，游泳去地心吧！',
 'Kitty，弹射去月球吧！',
 'Jeremy，坐车去火星吧！']

In [14]:
generate_n(20, grammar2)

['那个健身房打这个男孩在一个长凳上',
 '这些湖面起床这些湖南的女孩',
 '这个湖南的美丽的搞笑的昏暗的昏暗的美丽的公司跑向这个胖胖的搞笑的胖胖的男孩在那个湖南的男孩上',
 '这个湖面洗脸这些长凳在那个湖面外',
 '这个美丽的美丽的搞笑的健身房跑向那个长凳',
 '一个女孩洗脸这些女孩在那个公司里',
 '那个女孩打那些湖面在一个女孩上',
 '这个长凳看见一个湖面在这个昏暗的搞笑的长凳里',
 '那个女孩打一个搞笑的昏暗的搞笑的健身房',
 '那个湖南的昏暗的昏暗的健身房起床这个搞笑的胖胖的胖胖的昏暗的搞笑的美丽的男孩在那些长凳上',
 '那些胖胖的搞笑的湖面看见一个公司在那些湖南的男孩里',
 '那些胖胖的湖南的美丽的男孩看见一个湖面',
 '那个湖南的女孩打这些搞笑的湖南的女孩',
 '这些昏暗的美丽的长凳跑向那个健身房在这个胖胖的女孩里',
 '这个昏暗的搞笑的女孩打那个胖胖的湖面在那些搞笑的湖南的男孩外',
 '那些胖胖的健身房打一个昏暗的胖胖的男孩',
 '一个昏暗的昏暗的胖胖的男孩看见那个搞笑的长凳',
 '那个昏暗的女孩跑向一个公司在这个公司里',
 '那个男孩打一个公司在一个搞笑的搞笑的湖面下',
 '这个女孩洗脸一个女孩']

#### 2. 基于概率的语言模型

选用数据集：豆瓣评论数据集：https://github.com/Computing-Intelligence/datasource/raw/master/movie_comments.csv

In [15]:
import pandas as pd

In [16]:
filename = './movie_comments.csv'

In [17]:
content = pd.read_csv(filename, dtype={"id":"str", "link":"str", "name":"str", "comment":"str", "star":"str"})

In [18]:
content.head()

Unnamed: 0,id,link,name,comment,star
0,1,https://movie.douban.com/subject/26363254/,战狼2,吴京意淫到了脑残的地步，看了恶心想吐,1
1,2,https://movie.douban.com/subject/26363254/,战狼2,首映礼看的。太恐怖了这个电影，不讲道理的，完全就是吴京在实现他这个小粉红的英雄梦。各种装备轮...,2
2,3,https://movie.douban.com/subject/26363254/,战狼2,吴京的炒作水平不输冯小刚，但小刚至少不会用主旋律来炒作…吴京让人看了不舒服，为了主旋律而主旋...,2
3,4,https://movie.douban.com/subject/26363254/,战狼2,凭良心说，好看到不像《战狼1》的续集，完虐《湄公河行动》。,4
4,5,https://movie.douban.com/subject/26363254/,战狼2,中二得很,1


In [19]:
comments = content['comment'].tolist()
comments[99]

'有一场坦克戏，简直令人浮想连连啊，吴京真的不是故意的嘛。又是压人压成肉泥的镜头，又是吴京站在坦克正前面，“稍有常识的人都会看出，如果敌方的铁骑继续前进”，然而吴京这个螳臂当车的歹徒真的阻挡住了。'

In [20]:
len(comments)

261497

In [21]:
import re

In [22]:
import jieba

In [23]:
def token(string):
    return re.findall('\w+', string)

In [24]:
from collections import Counter

In [25]:
with_jieba_cut = Counter(jieba.cut(comments[99]))

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/3k/8sn49nld4l1681x984tl8fx40000gn/T/jieba.cache
Loading model cost 0.561 seconds.
Prefix dict has been built successfully.


In [26]:
with_jieba_cut.most_common()[:10]

[('，', 6),
 ('的', 5),
 ('有', 2),
 ('坦克', 2),
 ('吴京', 2),
 ('真的', 2),
 ('。', 2),
 ('又', 2),
 ('是', 2),
 ('一场', 1)]

In [27]:
''.join(token(comments[99]))

'有一场坦克戏简直令人浮想连连啊吴京真的不是故意的嘛又是压人压成肉泥的镜头又是吴京站在坦克正前面稍有常识的人都会看出如果敌方的铁骑继续前进然而吴京这个螳臂当车的歹徒真的阻挡住了'

In [28]:
comments_clean = [''.join(token(str(c)))for c in comments]

In [29]:
len(comments_clean)

261497

In [30]:
TOKEN = []

In [31]:
def cut(s): return list(jieba.cut(s))

In [33]:
for i, line in enumerate(comments_clean):
    if i % 10000 == 0: print(i)
    if i > 1000000: break    
    TOKEN += cut(line)

0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
110000
120000
130000
140000
150000
160000
170000
180000
190000
200000
210000
220000
230000
240000
250000
260000


In [34]:
words_count = Counter(TOKEN)
words_count.most_common(10)

[('的', 656524),
 ('了', 204840),
 ('是', 146212),
 ('我', 100676),
 ('都', 72510),
 ('很', 69424),
 ('看', 68044),
 ('电影', 67350),
 ('也', 64130),
 ('和', 62580)]

In [35]:
def prob_1(word):
    return words_count[word] / len(TOKEN)

In [36]:
prob_1('电影')

0.0074994772079362846

In [37]:
prob_1('吴京')

6.191105163493057e-05

In [38]:
prob_1('好看')

0.0018005426347784664

In [39]:
TOKEN = [str(t) for t in TOKEN]

In [40]:
TOKEN_2_GRAM = [''.join(TOKEN[i:i+2]) for i in range(len(TOKEN[:-2]))]

In [41]:
words_count_2 = Counter(TOKEN_2_GRAM)

In [42]:
def prob_2(word1, word2):
    if word1 + word2 in words_count_2:
        return words_count_2[word1+word2] / len(TOKEN_2_GRAM)
    else:
        return 1 / len(TOKEN_2_GRAM)

In [43]:
prob_2('这个','电影')

0.00011691837894560556

In [44]:
prob_2('很','好看')

0.00021446171223736793

In [45]:
prob_2('上升','很多')

1.1135083709105291e-07

In [46]:
# 2-gram language model
def get_probability(sentence):
    words = cut(sentence)
    sentence_pro = 1
    for i, word in enumerate(words[:-1]):
        next_ = words[i+1]
        prob = prob_2(word, next_)
        sentence_pro *= prob
    return sentence_pro

In [47]:
get_probability('这部电影的剧情非常有逻辑')

1.0670683975356854e-25

In [48]:
get_probability('剧情非常狗血')

5.157987711085333e-12

In [49]:
get_probability('国产动漫的水平已经提升了')

1.0063916949932695e-33

In [50]:
get_probability('非常好看的一部电影')

1.3014172348295621e-15

#### 3. 获得最优质的的语言

当我们能够生成随机的语言并且能判断之后，我们就可以生成更加合理的语言了。

In [51]:
def generate_best(grammar, language_model, n): # you code here
    sentences = []
    for sentence in generate_n(n, grammar):
        sen_prob = language_model(sentence)
        sentences.append((sentence, sen_prob))
        print('sentence: {} with Prb: {}'.format(sentence, sen_prob))
    best = sorted(sentences, key=lambda x: x[1], reverse=True)[0]
    print('bset sentence: {} with Prb: {}'.format(best[0], best[1]))

In [52]:
generate_best(grammar1, get_probability, 20)

sentence: Kitty，骑马去月球吧！ with Prb: 7.624667486243888e-42
sentence: Ben，坐车去月球吧！ with Prb: 1.7118567954745383e-35
sentence: Ben，坐车去市中心吧！ with Prb: 1.7118567954745383e-35
sentence: Alice，骑马去市中心吗？ with Prb: 3.812333743121944e-42
sentence: Ben，骑马去市中心吗？ with Prb: 3.812333743121944e-42
sentence: Alice，弹射去火星吧！ with Prb: 2.2874002458731664e-41
sentence: Ben，坐车去火星吗？ with Prb: 1.7118567954745383e-35
sentence: Alice，游泳去火星吧！ with Prb: 2.2874002458731664e-41
sentence: Ben，游泳去月球吗？ with Prb: 3.812333743121944e-42
sentence: Ben，坐车去火星吧！ with Prb: 1.027114077284723e-34
sentence: Alice，游泳去火星吧！ with Prb: 2.2874002458731664e-41
sentence: Alice，骑马去火星吗？ with Prb: 7.624667486243888e-42
sentence: Kitty，弹射去地心吗？ with Prb: 1.906166871560972e-42
sentence: Jeremy，弹射去地心吗？ with Prb: 1.906166871560972e-42
sentence: Ben，弹射去市中心吧！ with Prb: 1.906166871560972e-42
sentence: Kitty，骑马去市中心吧！ with Prb: 3.812333743121944e-42
sentence: Kitty，骑马去火星吧！ with Prb: 4.5748004917463327e-41
sentence: Kitty，弹射去火星吗？ with Prb: 3.8123337431219

In [53]:
generate_best(grammar2, get_probability, 20)

sentence: 那些湖南的健身房跑向那个胖胖的胖胖的昏暗的湖面在这些湖面上 with Prb: 7.70537020414425e-100
sentence: 一个湖面跑向这些健身房 with Prb: 3.4237135909490766e-34
sentence: 这些湖面看见这些美丽的美丽的湖南的湖南的美丽的湖南的长凳在这个昏暗的公司上 with Prb: 1.5942864441492488e-132
sentence: 这些搞笑的湖面洗脸一个美丽的搞笑的湖面 with Prb: 7.181839749952818e-57
sentence: 这些公司洗脸这个男孩在这个公司上 with Prb: 2.5714423089141687e-51
sentence: 一个健身房洗脸一个公司 with Prb: 9.22412533320104e-28
sentence: 那些昏暗的公司跑向那个男孩在这些胖胖的胖胖的公司里 with Prb: 4.772739784724373e-82
sentence: 这个湖面看见这个女孩在那些搞笑的美丽的湖南的湖南的胖胖的公司外 with Prb: 2.015823035800488e-104
sentence: 那个女孩打这个男孩在一个男孩下 with Prb: 9.508946799902942e-45
sentence: 那些美丽的女孩洗脸那些长凳 with Prb: 4.420019741775582e-37
sentence: 一个公司洗脸那些搞笑的搞笑的女孩在一个公司上 with Prb: 3.1216140956088545e-67
sentence: 这个长凳看见那些湖南的胖胖的公司在这个长凳上 with Prb: 1.420094466832168e-73
sentence: 那些女孩打这些昏暗的胖胖的胖胖的长凳在那个搞笑的女孩上 with Prb: 2.677493948119926e-88
sentence: 那些搞笑的健身房洗脸那些男孩 with Prb: 7.27393278187667e-39
sentence: 一个男孩看见一个公司 with Prb: 1.1597376188489458e-19
sentence: 那个健身房跑向这些湖面在那些长凳下 with Prb: 9.47422898

Q: 这个模型有什么问题？ 你准备如何提升？ 

Ans: We need a large corpus to calculate probability and ususally the probability will depend on the source of the corpus. Also, long sentences will yeild to small probability because each probability is less than one and we only calculate 2-gram.
We can use neural network to learn syntax and semantics to improve the model.