# 基于Rule生成语句

In [11]:
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [12]:
def create_grammar(grammar_str, split='=>', line_split='\n'):
    grammar = {}
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        exp, stmt = line.split(split)
        grammar[exp.strip()] = [s.split() for s in stmt.split('|')]
    return grammar

In [13]:
import random

In [14]:
choice = random.choice

In [15]:
def generate(gram, target):
    if target not in gram: return target # means target is a terminal expression
    expaned = [generate(gram, t) for t in choice(gram[target])]
    return ''.join([e if e != '/n' else '\n' for e in expaned if e != 'null'])

## example

In [16]:
example_grammar = create_grammar(simple_grammar)

In [17]:
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [18]:
generate(gram=example_grammar, target='sentence')

'这个女人看着一个好看的好看的桌子'

In [19]:
#在西部世界里，一个”人类“的语言可以定义为：

human = """
human = 自己 寻找 活动
自己 = 我 | 俺 | 我们 
寻找 = 找找 | 想找点 
活动 = 乐子 | 玩的
"""


#一个“接待员”的语言可以定义为

host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称 ,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 玩玩 具体业务
玩玩 = null
具体业务 = 喝酒 | 打牌 | 打猎 | 赌博
结尾 = 吗？
"""

In [20]:
for i in range(20):
    print(generate(gram=create_grammar(host, split='='), target='host'))

您好我是7号,请问你要赌博吗？
您好我是21号,请问你要打猎吗？
你好我是2791号,您需要喝酒吗？
女士,您好我是2号,请问你要喝酒吗？
小朋友,您好我是713276号,您需要打牌吗？
您好我是698号,您需要打猎吗？
你好我是5号,您需要喝酒吗？
先生,你好我是142号,请问你要赌博吗？
先生,你好我是3号,请问你要喝酒吗？
你好我是5号,请问你要赌博吗？
您好我是97号,请问你要赌博吗？
先生,你好我是4127号,您需要喝酒吗？
女士,您好我是62号,您需要打猎吗？
您好我是17号,您需要打牌吗？
小朋友,你好我是7号,您需要赌博吗？
先生,你好我是622号,请问你要赌博吗？
小朋友,你好我是29号,请问你要喝酒吗？
小朋友,您好我是51号,请问你要喝酒吗？
女士,您好我是73号,您需要赌博吗？
女士,您好我是8号,您需要赌博吗？


# Language Model

$$ language\_model(String) = Probability(String) \in (0,1) $$

$$ Pr(w1,w2,w3,w4) = Pr(w1|w2,w3,w4)Pr(w2|w3,w4)Pr(w3|w4)Pr(w4)$$

$$ Pr(w1|w2,w3,w4) = Count(w1,w2,w3,w4)/Count(w2,w3,w3) $$

$$ Pr(w1,w2,w3,w4) \sim Pr(w1|w2)Pr(w2|w3)Pr(w3|w4)Pr(w4)$$