In [1]:
# -*-coding:utf-8 -*-
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article => 一个 | 这个
noun => 女人 | 篮球 | 桌子 | 小猫
verb => 看着 | 听着 | 看见
Adj => 蓝色的 | 好看的 | 小小的 | 年轻的
"""

In [2]:
import random
import pandas as pd
import re
import jieba

In [3]:
def adj():
    return random.choice("蓝色的 | 好看的 | 小小的 | 年轻的".split(" | "))

In [4]:
adj()

'好看的'

In [5]:
def adj_star():
    return  random.choice([None,adj()+adj()])

In [6]:
adj_star()

'年轻的年轻的'

In [7]:
adj_grammer = """
 Adj* => null | Adj Adj*
 Adj => 蓝色的 | 好看的 | 小小的 | 年轻的"""
def create_grammar(grammar_str,split = "=>"):
    grammar = {}
    for line in grammar_str.split('\n'):
        if not line.strip():
            continue
        exp,stmt = line.split(split)
        grammar[exp.strip()] = [s.split() for s in stmt.split("|")]
    return grammar

In [8]:
example_grammar = create_grammar(simple_grammar)

In [9]:
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的'], ['年轻的']]}

In [10]:
def generate(gram,target):
    if target in gram :
        new_expanded = random.choice(gram[target])
        expanded = [generate(gram,t) for t in new_expanded]
        return "".join(e for e in expanded if e != "null")
    else :
        return target

In [11]:
generate(example_grammar,"sentence")

'这个篮球听着这个桌子'

In [12]:
human = """
human = 自己 寻找 活动
自己 = 我 | 俺 | 我们 
寻找 = 看看 | 找找 | 想找点
活动 = 乐子 | 玩的
"""

host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称 ,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 玩玩 具体业务
玩玩 = 耍一耍 | 玩一玩 | null
具体业务 = 喝酒 | 打牌 | 打猎 | 赌博
结尾 = 吗？"""

In [13]:
for i in range(5):
  print(generate(gram =create_grammar(host,split= "=") ,target="host"))

小朋友,您好我是98号,请问你要玩一玩喝酒吗？
您好我是878号,您需要打牌吗？
小朋友,您好我是1号,您需要喝酒吗？
您好我是7号,您需要玩一玩打猎吗？
小朋友,您好我是93号,请问你要耍一耍打牌吗？


In [14]:
with open("../pyt/article_9k.txt",encoding='utf-8') as f:
    articles = list(map(lambda m: m.strip('\n'), f.readlines()))

In [15]:
articles[:5]

['此外自本周6月12日起除小米手机6等15款机型外其余机型已暂停更新发布含开发版体验版内测稳定版暂不受影响以确保工程师可以集中全部精力进行系统优化工作有人猜测这也是将精力主要用到MIUI9的研发之中MIUI8去年5月发布距今已有一年有余也是时候更新换代了当然关于MIUI9的确切信息我们还是等待官方消息',
 '骁龙835作为唯一通过Windows10桌面平台认证的ARM处理器高通强调不会因为只考虑性能而去屏蔽掉小核心相反他们正联手微软找到一种适合桌面平台的兼顾性能和功耗的完美方案报道称微软已经拿到了一些新的源码以便Windows10更好地理解biglittle架构资料显示骁龙835作为一款集成了CPUGPU基带蓝牙WiFi的SoC比传统的Wintel方案可以节省至少30的PCB空间按计划今年Q4华硕惠普联想将首发骁龙835Win10电脑预计均是二合一形态的产品当然高通骁龙只是个开始未来也许还能见到三星Exynos联发科华为麒麟小米澎湃等进入Windows10桌面平台',
 '此前的一加3T搭载的是3400mAh电池DashCharge快充规格为5V4A至于电池缩水可能与刘作虎所说一加手机5要做市面最轻薄大屏旗舰的设定有关按照目前掌握的资料一加手机5拥有55寸1080P三星AMOLED显示屏6G8GBRAM64GB128GBROM双1600万摄像头备货量惊喜根据京东泄露的信息一加5起售价是xx99元应该是在279928992999中的某个',
 '这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车新华社记者张立云摄',
 '原标题44岁女子跑深圳约会网友被拒暴雨中裸身奔走深圳交警微博称昨日清晨交警发现有一女子赤裸上身行走在南坪快速上期间还起了轻生年头一辅警发现后赶紧为其披上黄衣并一路劝说她那么事发时到底都发生了些什么呢南都记者带您一起还原现场南都记者在龙岗大队坂田中队见到了辅警刘青发现女生的辅警一位外表高大帅气说话略带些腼腆的90后青年刘青介绍6月16日早上7时36分他正在环城南路附近值勤接到中队关于一位女子裸身进入机动车可能有危险的警情随后骑着小铁骑开始沿路寻找大概花了十多分钟在南坪大道坂田出口往龙岗方向的逆行辅道上发现该女子女子身上一丝不挂地逆车流而行时走时停时坐时躺险象环生刘青停好小铁骑和另外一名巡防员追了上去发现女子的情绪很低落话不多刘青尝试

In [16]:
from collections import Counter

In [17]:
len(articles)

89611

In [18]:
def token(string):
    return re.findall("\w+",string)

In [19]:
with_jieba_cut = Counter(jieba.cut(articles[110]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\wu\AppData\Local\Temp\jieba.cache
Loading model cost 0.811 seconds.
Prefix dict has been built succesfully.


In [20]:
with_jieba_cut

Counter({'在': 10,
         '外国名著': 1,
         '麦田': 8,
         '里': 5,
         '的': 73,
         '守望者': 2,
         '中': 4,
         '作者': 2,
         '想要': 1,
         '守护': 1,
         '如': 1,
         '自己': 5,
         '内心': 1,
         '一般': 1,
         '纯真': 1,
         '孩子': 1,
         '们': 18,
         '而': 1,
         '驻': 5,
         '村干部': 2,
         '也': 5,
         '这个': 2,
         '炎热': 2,
         '夏天': 1,
         '撸': 1,
         '袖子': 1,
         '上阵': 1,
         '真正': 2,
         '做起': 1,
         '了': 20,
         '村民': 15,
         '三夏': 1,
         '时节': 2,
         '不': 3,
         '等': 2,
         '人': 5,
         '你': 1,
         '看到': 3,
         '吗': 1,
         '不停': 1,
         '翻涌': 1,
         '起伏': 1,
         '仿若': 1,
         '铺陈': 1,
         '至': 1,
         '天边': 1,
         '金黄': 3,
         '麦浪': 1,
         '那': 1,
         '若隐若现': 1,
         '人影': 1,
         '是': 6,
         '自治区': 9,
         '新闻出版': 2,
         '广电局': 2,
         '和田市'

In [21]:
print(with_jieba_cut.most_common()[:10])

[('的', 73), ('了', 20), ('们', 18), ('工作队', 16), ('村民', 15), ('收割', 14), ('在', 10), ('自治区', 9), ('麦田', 8), ('队员', 8)]


In [22]:
def cut(string): return list(jieba.cut(string))

In [23]:
TOKEN = []

In [24]:
for line in articles[:30000]:
    TOKEN += cut(line)

In [25]:
words_count = Counter(TOKEN)

In [26]:
words_count.most_common(50)

[('的', 302317),
 ('在', 97947),
 ('n', 89995),
 ('月', 59747),
 ('了', 55915),
 ('和', 54503),
 ('日', 50152),
 ('是', 46767),
 ('年', 40874),
 ('新华社', 34039),
 ('中', 26516),
 ('将', 25136),
 ('为', 24426),
 ('等', 24322),
 ('中国', 23550),
 ('也', 23403),
 ('１', 23199),
 ('与', 22734),
 ('4', 22722),
 ('对', 22262),
 ('有', 22192),
 ('０', 21187),
 ('外代', 20812),
 ('记者', 18916),
 ('上', 18873),
 ('2017', 18264),
 ('２', 15976),
 ('他', 15756),
 ('二线', 15647),
 ('发展', 15293),
 ('不', 14553),
 ('说', 14356),
 ('都', 13657),
 ('6', 13623),
 ('以', 13272),
 ('到', 13244),
 ('照片', 12976),
 ('就', 12864),
 ('人', 12682),
 ('企业', 12388),
 ('从', 12314),
 ('被', 12076),
 ('并', 12034),
 ('后', 11915),
 ('但', 11600),
 ('这', 11598),
 ('3', 11463),
 ('市场', 10761),
 ('３', 10324),
 ('表示', 10312)]

In [27]:
def prob_1(word):
    return words_count[word] / len(TOKEN)

In [28]:
prob_1("我们")

0.001304507141255499

In [29]:
prob_1("新华社")

0.004898953947616497

In [30]:
TOKEN[:10]

['此外', '自', '本周', '6', '月', '12', '日起', '除', '小米', '手机']

In [31]:
TOKEN = [str(t) for t in TOKEN]

In [32]:
TOKEN_2gram = ["".join(TOKEN[i:i+2]) for i in range(len(TOKEN)-2)]

In [33]:
TOKEN_2gram[:10]

['此外自', '自本周', '本周6', '6月', '月12', '12日起', '日起除', '除小米', '小米手机', '手机6']

In [34]:
def prob_2(word1, word2,language_model = TOKEN_2gram):
    words_count_2 = Counter(language_model)
    if word1 + word2 in words_count_2: return words_count_2[word1+word2] / len(language_model)
    else:
        return 1 / len(language_model)

In [35]:
prob_2("我们","吃")

7.196091773773297e-07

In [36]:
prob_2("在","吃饭")

1.4392183547546592e-07

In [42]:
def get_probablity(sentence,language_model = TOKEN_2gram):
    words = cut(sentence)
    
    sentence_pro = 1
    
    for i, word in enumerate(words[:-1]):
        next_word = words[i+1]
        
        probability = prob_2(word, next_word,language_model)
        
        sentence_pro *= probability
    
    return sentence_pro

In [43]:
get_probablity("小明今天中了一台苹果手机")

8.926204623641021e-38

In [44]:
get_probablity("小明今天中了一台电视机")

2.000683799524404e-32

In [45]:
get_probablity("小明今天中了一架播音飞机")

9.118166013396742e-39

In [46]:
for sentence_ in [generate(gram =create_grammar(host,split= "=") ,target="host") for i in range(5)]:
    print("sentence:{} witn prb:{}".format(sentence_,get_probablity(sentence_)) )

sentence:先生,您好我是7号,请问你要喝酒吗？ witn prb:4.457213843527173e-82
sentence:您好我是4243号,您需要打牌吗？ witn prb:1.0638272088139709e-66
sentence:女士,您好我是4号,您需要耍一耍赌博吗？ witn prb:1.4605883366736955e-91
sentence:小朋友,你好我是95号,请问你要玩一玩打牌吗？ witn prb:2.8851398576046665e-97
sentence:您好我是21号,您需要耍一耍喝酒吗？ witn prb:7.492096955135603e-79


In [47]:
need_compared = [
    "今天晚上请你吃大餐，我们一起吃日料 明天晚上请你吃大餐，我们一起吃苹果",
    "真事一只好看的小猫 真是一只好看的小猫",
    "今晚我去吃火锅 今晚火锅去吃我",
    "洋葱奶昔来一杯 养乐多绿来一杯"
]

for s in need_compared:
    s1, s2 = s.split()
    p1, p2 = get_probablity(s1), get_probablity(s2)
    
    better = s1 if p1 > p2 else s2
    
    print('{} is more possible'.format(better))
    print('-'*4 + ' {} with probility {}'.format(s1, p1))
    print('-'*4 + ' {} with probility {}'.format(s2, p2))

今天晚上请你吃大餐，我们一起吃日料 is more possible
---- 今天晚上请你吃大餐，我们一起吃日料 with probility 2.5367131379202825e-64
---- 明天晚上请你吃大餐，我们一起吃苹果 with probility 1.902534853440212e-64
真是一只好看的小猫 is more possible
---- 真事一只好看的小猫 with probility 8.027434998091744e-34
---- 真是一只好看的小猫 with probility 5.5776352292701035e-27
今晚我去吃火锅 is more possible
---- 今晚我去吃火锅 with probility 3.3388590817876607e-19
---- 今晚火锅去吃我 with probility 1.5445759096440286e-26
养乐多绿来一杯 is more possible
---- 洋葱奶昔来一杯 with probility 2.9811241801675538e-21
---- 养乐多绿来一杯 with probility 2.071349472662708e-14


基础理论部分
0. Can you come up out 3 sceneraies which use AI methods?
Ans: 无人驾驶，自动应答机器人，语音搜索和输入。

1. How do we use Github; Why do we use Jupyter and Pycharm;
Ans: 注册GitHub账号，新建仓库，安装git，git add,git commit -m,it remote add origin+自己的地址，最后git push -u origin master上传
Jupyter 可以随时检查代码运行的情况，以及哪里语法出了问题，十分方便。
Pycharm功能非常多，并且开发的时候十分稳定。

2. What's the Probability Model?
Ans:概率模型指的是用来描述不同的随机变量之间关系的数学模型，通常是描述了多个随机变量之间的概率关系。

3. Can you came up with some sceneraies at which we could use Probability Model?
Ans:玩扑克牌相关游戏的时候，会使用概率模型计算牌的可能性。

4. Why do we use probability and what's the difficult points for programming based on parsing and pattern match?
Ans:概率可以直观的用数据去体现几个词之间搭配的合理性，如果用基于解析和模式匹配的模型的话，
每次都可能需要重新规划语法，十分麻烦。

5. What's the Language Model;
Ans:语言模型就是通过计算句子存在的概率，来判定这句话是否合理的模型。

6. Can you came up with some sceneraies at which we could use Language Model?
Ans:自动应答机器人，语音识别。

7. What's the 1-gram language model;
Ans:就是假设sentence中的每个单词w1,w2...wn，都只与自己相关，则该句子的可能性就是P(w1,w2,...wn)=P(w1)*P(w2)*...*P(wn)

8. What's the disadvantages and advantages of 1-gram language model;
Ans:因为每个词都只与自己相关，所以它的模型容易建造，缺点是这么计算的话，与大多数情况都不符，因为句子中的词大多都会或多或少
相互关联，这样计算的偏差会很大。

9. What't the 2-gram models;
Ans:就是将sentence中的每相邻的两个词作为一组，从而去计算每组词出现的概率，通过词组计算句子的可能性。


### 编程实践部分
1. 设计你自己的句子生成器

In [48]:
student = """
student = 寒暄 介绍 来自 专业 程度副词 爱好 结尾 
寒暄 = 称谓 打招呼 | 打招呼
打招呼 = 大家早上好, | 大家下午好, 
称谓 = 人称 ,
人称 = 老师们 | 同学们
介绍 = 我是 人名  ,
人名 = aab | abb | xxx | xx
专业 = 应用数学专业, | 城乡规划专业 ,|建筑学专业,
程度副词 = null | 非常 | 有点 
爱好 = 喜欢 具体爱好 ,
具体爱好 = 喝酒 | 打牌 | 打游戏 | 运动
结尾 = 可以认识一下大家吗？ | 现在我要加入这个大家庭。"""

In [49]:
for i in range(5):
  print(generate(gram = create_grammar(student,split = "=") ,target = "student"))

老师们,大家下午好,我是xxx,来自应用数学专业,非常喜欢喝酒,可以认识一下大家吗？
同学们,大家下午好,我是aab,来自应用数学专业,有点喜欢喝酒,现在我要加入这个大家庭。
大家下午好,我是aab,来自应用数学专业,非常喜欢打牌,可以认识一下大家吗？
老师们,大家早上好,我是abb,来自城乡规划专业,非常喜欢喝酒,可以认识一下大家吗？
同学们,大家下午好,我是aab,来自建筑学专业,非常喜欢打游戏,现在我要加入这个大家庭。


In [50]:
def generate_n(gram,target,n):
    TOKEN_1=[]
    for i in range(n):
      TOKEN_1.append(generate(gram,target))
    return TOKEN_1

In [51]:
generate_n(gram = create_grammar(student,split = "=") ,target = "student",n=5)

['老师们,大家下午好,我是xxx,来自建筑学专业,喜欢运动,可以认识一下大家吗？',
 '大家早上好,我是aab,来自城乡规划专业,喜欢运动,可以认识一下大家吗？',
 '大家下午好,我是aab,来自应用数学专业,喜欢喝酒,可以认识一下大家吗？',
 '大家下午好,我是xxx,来自建筑学专业,喜欢喝酒,可以认识一下大家吗？',
 '同学们,大家早上好,我是xx,来自建筑学专业,非常喜欢运动,可以认识一下大家吗？']

2.2.2 使用新数据源完成语言模型的训练

In [52]:
with open("../pyt/train.txt",encoding='utf-8') as f:
    new = list(map(lambda m: m.strip('\n'), f.readlines()))

In [53]:
def is_chinese(uchar):
    if uchar >= u'\u4e00' and uchar <= u'\u9fa5':
        return True
    else:
        return False #判断是否为汉字

In [54]:
def format_str(content):
    content_str = ''
    for i in content:
        if is_chinese(i):
            content_str = content_str+i
    return content_str

In [55]:
t = format_str(str(new))

In [56]:
len(t)

145084

In [57]:
new_cut = Counter(jieba.cut("".join(t)))

In [58]:
new_cut.most_common(10)

[('保险', 5005),
 ('的', 3220),
 ('人寿保险', 2962),
 ('什么', 2675),
 ('吗', 2479),
 ('是', 2344),
 ('我', 2053),
 ('是否', 1862),
 ('可以', 1704),
 ('健康', 1513)]

In [59]:
print(new_cut.most_common()[:10])

[('保险', 5005), ('的', 3220), ('人寿保险', 2962), ('什么', 2675), ('吗', 2479), ('是', 2344), ('我', 2053), ('是否', 1862), ('可以', 1704), ('健康', 1513)]


In [60]:
T = [str(i) for i in new_cut]
T_2_gram = ["".join(T[i:i+2])for i in range(len(t)-2)]   

In [61]:
T_2_gram[:10]

['法律要求', '要求残疾', '残疾保险', '保险吗', '吗债权人', '债权人可以', '可以在', '在死', '死后', '后人寿保险']

In [62]:
prob_2("可以","在",T_2_gram)

6.892653809569761e-06

In [63]:
def generate_best(gram,target,n,language_model=TOKEN_2gram):
    sentence = generate_n(gram,target,n)
    list = []
    for line in sentence :
        list.append((line,get_probablity(line)))
    sorted(list,key = lambda x:x[1],reverse = True)
    print(list)
    return list[0]
    
    

In [64]:
generate_best(gram = create_grammar(student,split = "=") ,target = "student",n=5)

[('老师们,大家下午好,我是aab,来自建筑学专业,喜欢喝酒,可以认识一下大家吗？', 1.512390245150961e-146), ('老师们,大家早上好,我是xxx,来自应用数学专业,非常喜欢打游戏,现在我要加入这个大家庭。', 6.891915220858062e-159), ('大家早上好,我是aab,来自城乡规划专业,有点喜欢运动,可以认识一下大家吗？', 5.636912467124533e-128), ('大家下午好,我是abb,来自城乡规划专业,有点喜欢运动,现在我要加入这个大家庭。', 3.1525242298805473e-140), ('大家下午好,我是abb,来自应用数学专业,非常喜欢打游戏,可以认识一下大家吗？', 3.4677766528686006e-139)]


('老师们,大家下午好,我是aab,来自建筑学专业,喜欢喝酒,可以认识一下大家吗？', 1.512390245150961e-146)

Q: 这个模型有什么问题？ 你准备如何提升？

Ans:语法编写的不好，生成句子单一，在generate_best中没有数据处理的环节，如果不是提供已经处理好的数据，会算不出来。计算概率的函数后面为了加入语言模型，多了一个自变量后，运行速度明显下降了很多。编写的也不熟练。打算增加语法的多样性，和学习如何修改可以提高效率。