In [1]:
from sentence import Sentence
from twogram import TwoGrams
import pandas as pd
from time import time

def generate_best(sentence_generator, language_model, num_sentence=20, return_num=1):
    if not isinstance(sentence_generator, Sentence):
        raise TypeError()
    if not isinstance(language_model, TwoGrams):
        raise TypeError()

    stn = sentence_generator
    lm = language_model
    score = []
    dict_stn = {}
    for i in range(num_sentence):
        sent = stn.generate('sentence')
        p, ppl = lm.prob_sentence(sent)
        score.append(ppl)
        dict_stn[ppl] = sent
    score.sort(reverse=True)
    return '\n'.join(dict_stn[item] for item in score[:return_num])

In [28]:
# 句子生成器
gram = '''
    sentence = evaluate | describe
    evaluate = article* object adv* adj
    article* = article | null
    adv* = null | adv adv* | adv
    describe = article* object adv* verb object*
    object* = null | object
    '''

corpus = '''
    article = 这 这个 这部
    object = 男配角 女配角 观众 导演 冯小刚 成龙 吴京 斯坦森 李达康 徐晓冬 吴刚 甄子丹 张翰 彭于晏 电影 影片 片子 片儿 男主 男主角 男主角儿 女主 女主角 女主角儿  
    adv = 太 十分 相当 相当的 真是 真的是 很 非常 非常非常 特别地 相当地 令人 让人 竟然 居然
    adj = 精彩 吸引人 绝了 值得一看 好看 引人入胜 感人 动容  可怜 愤怒 气人 可恶 垃圾 难看 不真实 不现实 帅 崇拜 美丽 漂亮 可恨 惋惜 牛 厉害 脑残 恐怖 辛苦  水了 差 不咋地 刮目相看 赞 赞了
    verb = 出场 上场 出现 消失 牺牲 杀了 打败了 击败 击败了 爱上了 喜欢上 看上了 相中了 憎恨 不喜欢 仇恨 复仇 
    '''

In [24]:
# 随机生成句子
snt_grt = Sentence()
snt_grt.set_corpus(corpus)
snt_grt.set_grammar(gram)
sentece_eg = snt_grt.generate('sentence')
print(sentece_eg)

这部徐晓冬打败了彭于晏


In [11]:
import time


In [13]:
 # 2元语法模型
t1 = time.process_time()
data_df = pd.read_csv('input/movie_comments.csv')
model = TwoGrams()
model.train(data_df.loc[:, 'comment'])
t2 = time.process_time()
print('训练用时：{}秒'.format(t2-t1))
stn = '导演太让人喜欢了'
print('(p,ppl){}={}'.format(stn, model.prob_sentence(stn)))
stn1 = '高晓松是土肥圆？'
print('(p,ppl){}={}'.format(stn1, model.prob_sentence(stn1)))

训练用时：74.4375秒
(p,ppl)导演太让人喜欢了=(2.373891818762578e-29, 12280.607978468459)
(p,ppl)高晓松是土肥圆？=(1.8131766599278842e-37, 1329209.122843161)


In [29]:
print(generate_best(snt_grt, model, 10000, 100))

徐晓冬令人牛
李达康复仇女主
李达康帅
李达康帅
李达康帅
李达康帅
李达康帅
这个李达康复仇男主
李达康复仇
这徐晓冬令人帅
这李达康复仇女主
徐晓冬令人绝了
这部李达康赞
徐晓冬憎恨吴刚
李达康气人
徐晓冬特别地差
李达康复仇男主角
这李达康帅
吴刚上场李达康
徐晓冬令人愤怒
徐晓冬上场男配角
这女主牛
这斯坦森崇拜
吴刚气人
这斯坦森赞了
这斯坦森赞了
这斯坦森赞了
这斯坦森十分让人真是惋惜
这斯坦森憎恨女主角
这部徐晓冬令人击败
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
斯坦森帅
这女主相当地相中了徐晓冬
徐晓冬令人精彩
徐晓冬上场
徐晓冬上场
徐晓冬憎恨
李达康仇恨李达康
片儿击败徐晓冬
彭于晏牛
彭于晏牛
这斯坦森让人帅
这女主太惋惜
这斯坦森真是消失吴刚
徐晓冬击败
徐晓冬击败
徐晓冬击败
徐晓冬击败
男配角太爱上了吴刚
这部李达康复仇观众
这部徐晓冬特别地差
徐晓冬可恶
徐晓冬可恶
吴刚喜欢上斯坦森
这部徐晓冬牺牲徐晓冬
这李达康复仇女主角
徐晓冬出现吴刚
张翰真是太憎恨吴刚
徐晓冬令人太相当地不真实
这吴刚上场徐晓冬
吴刚相当相当地牛
吴刚相当地赞
这女主十分上场张翰
女配角上场张翰
徐晓冬可恨
徐晓冬可恨
徐晓冬刮目相看
徐晓冬刮目相看
这斯坦森太仇恨男配角
这个张翰憎恨徐晓冬
徐晓冬相中了吴刚
徐晓冬崇拜
这部徐晓冬居然相当地差
这斯坦森太憎恨
