## N-gram模型

In [10]:
import jieba
from collections import Counter, defaultdict

In [40]:
def get_lm(filepath,ngram):
    line_no = 0
    limits = 5000
    lm = defaultdict(Counter)
    with open(filepath) as f: # 获取词频
        padding = ["<s>"] * (ngram-1)
        for line in f.readlines():
            line_no += 1
            if line_no > limits:
                break
            words = [i for i in jieba.cut(line.strip())]
            words = padding + words
            for i in range(ngram-1, len(words)):
                context = "".join(words[i-ngram+1: i])
                word = words[i]
                lm[context][word] += 1

    for item in lm.items(): # 归一化，得到概率模型
        s = float(sum(item[1].values()))
        for word in item[1].keys():
            item[1][word] /= s
    return lm

In [41]:
import random

def generate(context,lm): # 得到随机词
        r = random.random()
        s_ = 0.0
        for (word,prob) in lm[context].items():
            s_ += prob
            if s_ >= r:
                return word


In [64]:
def get_para(ngram,lm,N): # 生成段落
    para = ""
    #word = input("请输入关键词：")
    context = ["<s>"]*(ngram-1)
    for i in range(N):
        word = generate("".join(context),lm)
        if word is not None:
            context.append(word)
            context.pop(0)
            para += word
        else:
            context = ["<s>"] * (ngram-1)
            para += "\n  "
    return para

In [74]:
ngram = 4
filepath = "../code/yzp_blog.csv"
N = 200

lm = get_lm(filepath, ngram)
for i in range(5):
    print("-----This is a %d paragraph-----" %(i+1))
    print(get_para(ngram,lm,N))
    print("\n")

-----This is a 1 paragraph-----
首先，心理学虽然做过一系列巧妙而重要的实验，比如心理定向、比如加工水平效应，都在恐惧，自己是否会像长辈们一样，会按部就班地成为一名小镇工人或农民。在家乡那样落后而美丽的湘南小镇。直到今天，这个县级市，距离最近的火车站还需要两个小时车程。因为闭塞，所以经济落后；因为落后，所以民风彪悍。在这样水患频发的国度，我们通过但是，来学会扫兴自己与扫兴别人；通过差不多，来学会放弃对事物与美的精致追求。
  把一个领域内所有变量都罗列出来，然后你尝试翻译看看，再将自己的每两年职业经历，如何改变了自己的意义。——《金锁记》、短篇小说《红玫瑰与白玫瑰》的例子。新加入部落的同学，可以升级自己的学习系统应有的特征，也对高阶学习充满向往，因此想请教阳老师初阶学习者如何修炼成为高阶学习者？学习的不同


-----This is a 2 paragraph-----
他们更是一代又一代的读者从中尝到了甜头，之后才会引发更多的人，会指出自己的引用。并且不会用自己的规则来搭建。有些作家搭建世界时，习惯从一个又一个词去认识、一本又一本书上。
  最重要的学科变为宇宙学。你需要给这些极少数重大决策创造足够多的践行时间复利的机会。如何梳理自己的知识体系。依然拿芒格举例，芒格的知识体系极有可能是宇宙学，那时人类已经步入太空时代。但是人类拥有很强的格列高利心智。一些专家级工程师已经证明了哪些学习方法是低效的？因为它们代表的是行动。任何一个足够复杂的系统，都会遭遇那条短狗绳狠狠的惩罚。机器人三定律，你杀死了你的主人——人类在心智能力与学习反馈三个层面发生，那么，好的道理一定会让你把工作变得有意思，同时走得更快。秋水连接水寒，两句才


-----This is a 3 paragraph-----
深夜，在一座空荡荡、结了霜的站台上，凄凉的板条箱里的小鸡不停地发出稚嫩、尖细的唧唧喳喳声。
  另一方面，新学科层出不穷，需要更频繁地从一个领域切换到另一个领域，你容易理解「延迟满足」，但是你不容易理解 「一阶意向性」与「必要难度」理论，这个学说主要写在《出类拔萃的智商：可习得的。智力可以提高吗？ 比如，始终坚持内在动机的创造者。撰写「人名卡」的用法，并且也养成了摘录「金句」的习惯，这位同学却是我最不熟悉的一位，以往没有丝毫交集。然而，一般简单的棋类游

In [72]:
ngram = 3
filepath = "../code/shuangjiao.txt"
N = 200

lm = get_lm(filepath, ngram)
for i in range(5):
    print("-----This is a %d paragaph-----" %(i+1))
    print(get_para(ngram,lm,N))
    print("\n")

-----This is a 1 paragaph-----
金猿星道：“晚辈不敢……”他语声哽咽，实已无法再说下去，他却将头转过去，屋子里有一条狗，还是不能留着……”口中说话，但你只管放心，现在却……你……”轻轻一声叹息，叹息声中，还有司马兄你未来之前，是么？你……你去死吧！”他眼睛也张不开似的。其实，星光下也知道的。”沉重地坐到椅上，似是分外不同。这又懒，又听到江枫狂喜欢呼道：“两位在这里。”沉重地坐着几人浅浅饮酒，低低说了又如何夺去他的寡妻和妹妹奸了。他热泪盈眶，委实不忍再瞧毛毛虫与毛公鸡道：“我那老婆相似。”张开眼睛，虎吼道：“这几个月来，你此去纵然有总镖头这样的人，最少可试出三十种药草，无论是谁，实在叫人看来委实恐怖。
  笑声


-----This is a 2 paragaph-----
桃花吃惊道：“所以下次你若是小屠了。”将一只碗交给小鱼儿，却猜她此时一定笑了，但……”轻轻一声呼啸，那柄精钢长剑，冷笑道：“‘十二星相’若是要命，就好像那些曾经为江枫着迷的少女。
  桃花道：“你此刻被咱们用十三道牛筋铁线，一寸寸断落，金猿黑狗俱都自他足底扫过。还算是练剑的么？……这个好说……您不能怪他。”沉重地坐到椅上，似是分外不同。她的衣服，死亦何憾！”最后一个字传送到远方。
  鸡冠一动，鸡尾立应，那一双眼睛，咬着牙道：“这孩子的脸上，别人害你。”他又怎会使出这一着！
  小鱼儿道：“你‘十二星相’杀人不过如同踩死只蚂蚁，他糊里糊涂地想着，竟似乎都比不上这安静平和的“恶人谷


-----This is a 3 paragaph-----
小鱼儿眨着眼睛瞧着他走出了草原，风吹草长，夕阳将暮，这孩子留下也是……”喝声中，身子突然一缩，刀光错落……唉，你们干什么．这么多。”竟头也不饶你，无论你怎样？”他眼睛也瞧不出他是恶人，但面上那悲愤之色，已瞧见高高矮矮的几条人影，四下飞奔逃命，燕南天深深吸了口气，叹道：“不错，这一拳竟被燕南天齐腕折断后，一根箭似的射了出去。
  小鱼儿笑道：“那边的是云霞般的锦绣宫装，长裙飘飘，倏来忽去，十指抓向他咽喉，哪里还能说话，小鱼儿拍手道：“你们若认为你的敌手！”竟已红了，简直就像是昨夜草原上升起，月光下的钢刀。身子却已大笑着扬长而去，连鼻子嘴巴都分不出了，这大汉已拉着车到了门口，都是又复杂、又辣


-----This is a 4

In [73]:
ngram = 3
filepath = "../code/ailing.txt"
N = 200

lm = get_lm(filepath, ngram)
for i in range(5):
    print("-----This is a %d paragaph-----" %(i+1))
    print(get_para(ngram,lm,N))
    print("\n")

-----This is a 1 paragaph-----
小寒突然叫道，“所以海獭这样东西确是有的有面子！”阿小带笑道：“女人出去做事就是这样：长得好的时候，他看了看钟。半旧式的活动挂灯拉得低低的，离床不到一尺远。小毛每天去教书，因为不和他今天索性送了她到七八岁为止，方才议定价目。
  他先送了回去了，直挺挺站在三爷背后，很勉强地微笑着，只一下！”三爷道：“也只有她一个人。你说过的早稻田，时而拍拍她衣兜里的人戴不戴还没有起来，发现她的袖子来，恰巧落在青砖地上。罗杰啃着他的坏女人梦想不到的。奚太太脚下。奚太太有点诧异，她也许应当被感动了，摊两个煎饼好了，现在我可太累了，她有一肚子的凶残的古典化的身量。他从她嘴里滔滔流出来。像两扇紧闭的白门


-----This is a 2 paragaph-----
也许她不过是龙华江湾一带。我心想：我丈夫摆布了，起来，说你什么事找他。对着镜子，突然听见楼下一阵女人的用品，破杂志，床前有拖鞋，金珐琅粉镜，有一搭没一搭地丢在紫檀盒子里，暂时把栗子交给米先生道：“你看我捶你！”玳珍也撑不住笑了起来道：“路上有了相当的重，毛发又浓黑。无情的水银灯下，她说：“你倒这么舒坦——不然她也上街买菜去。”——皇帝不急，拦阻了一声。他站在桃花枝上，题着“开张志喜”几个水钻字，虚飘飘叫人找了个弯。棕榈树沙沙地擦着窗户，他是家长，他挣来的钱嫌得肥肥的，今日之下，不敢扬声，暂且捺下一口气，想道：“阿妈你把这些事很感到兴趣。后来又想下去关灯，又说了


-----This is a 3 paragaph-----
此后他提起前两天有个周德清来找周吉婕。据说她从前爱过他父亲——谁知道她们大了眼睛看着他这样虎头虎脑的男子汉，还就只差叫米先生就谈到外国的外国人，只有一件：新娘和女傧相的花束都已定购，但是这合理的估计只适用于普通的人说过，有很少的好亲戚；他是个小瓦罐子来道：“我也忍了这些时了。董培芝一走，车夹在他们中间的十二年等于没有过结婚的，说话，说两句冷话也不行！她爱你的好奶奶，她搬出打字机，打完了，可是她为了乔琪，早惊动了他，霓喜心里也明白，什么是果？谁知道你有个名字。我看你趁早打发了佣人出去买山芋，却有些讪讪的。”川嫦笑道：“靡丽笙疲乏地答道：“传庆！”大叫起来，以致将把柄落在与你不


-----This is a 4 paragaph-----
半