In [76]:
grammar = """
句子 => 名词短语 动词短语 
名词短语 => 冠词 形容词* 名词
形容词* => null | 形容词 形容词*
动词短语 => 动词 名词短语
冠词 =>  一个 | 这个
名词 =>   男人 | 女人 |  篮球 | 桌子 | 小猫 
动词 => 看着 | 听见 | 看见
形容词 =>   蓝色的 |  好看的 | 小小的 |  年轻的 
"""

In [6]:
import random

concat = ''.join  # concat is the abbreviation of concatenate

def sentence(): return concat([noun_phrase(), verb_phrase()])
def noun_phrase(): return concat([article(), adj_star(), noun()])
def adj_star(): return concat([adj() for _ in range(random.randrange(5))]) 
# 5 is the maximum number of adj
def verb_phrase(): return concat([verb(), noun_phrase()])
def article(): return random.choice(['一个', '这个'])
def noun(): return random.choice(['男人', '女人', '篮球', '桌子', '小猫'])
def verb(): return random.choice(['看见', '听见', '看着'])
def adj(): return random.choice(['蓝色的', '好看的', '小小的', '年轻的'])

In [7]:
sentence()

'这个好看的好看的小小的桌子看着一个小小的好看的蓝色的篮球'

In [120]:
bank_host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称 ,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 行为 具体业务
行为 = 办理 | 进行
具体业务 = 开户 | 存款 | 基金理财 | 密码
结尾 = 服务吗？"""

In [None]:
X = [(W, Y), (Z)]

In [None]:
def generate(X): return concat(random.choice(X)) 

In [38]:
def parser(string_rule, gen='->', split='|'): 
    """e.g @param is X -> W Y | Z
    the parser will generate {X: [(W, Y), (Z)]}
    """
    expression, statement = string_rule.split(gen)
    statement = [s.split() for s in statement.split(split)]
    return {expression.strip(): statement}

In [39]:
parser('X -> W Y | Z')

{'X': [['W', 'Y'], ['Z']]}

In [51]:
parser('二进制 = 0 || 1 || 二进制 二进制', gen='=', split='||')

{'二进制': [['0'], ['1'], ['二进制', '二进制']]}

In [41]:
def generate(rule, gene):
    return ''.join(random.choice(rule[gene]))

In [65]:
generate(parser('X -> W Y | Z'), 'X')

'WY'

In [60]:
generate(parser('二进制 = 0 || 1 || 二进制 二进制', gen='=', split='||'), '二进制')

'二进制二进制'

In [70]:
generate(parser('形容词 =>   蓝色的 |  好看的 | 小小的 |  年轻的', gen='=>'), '形容词')

'好看的'

In [71]:
def build_grammar(grammar_str,split="="):
    grammar_dict = {}
    l = []
    for line in grammar.split("\n"):
        if not line: continue
        stmt,expr = line.split(split)
        stmt = stmt.strip()
        expr = [e.split() for e in expr.split('|')]
        grammar_dict[stmt] = expr
    return grammar_dict

In [78]:
build_grammar(grammar, split='=>')

{'句子': [['名词短语', '动词短语']],
 '名词短语': [['冠词', '形容词*', '名词']],
 '形容词*': [['null'], ['形容词', '形容词*']],
 '动词短语': [['动词', '名词短语']],
 '冠词': [['一个'], ['这个']],
 '名词': [['男人'], ['女人'], ['篮球'], ['桌子'], ['小猫']],
 '动词': [['看着'], ['听见'], ['看见']],
 '形容词': [['蓝色的'], ['好看的'], ['小小的'], ['年轻的']]}

In [None]:
def generate(string):
    return ''.join(generate(s) for s in random.choice(string))

In [79]:
def generate(target, grammar_dict):
    if target == 'null': # null 应该返回空字符串，而不是'null'
        return ''
    if target not in grammar_dict: return target
    expr = random.choice(grammar_dict[targetStmt])
    return ''.join([generate(e,grammar_dict) for e in expr])

In [88]:
def generate(target, grammar_dict):
    if target not in grammar_dict: return target
    # target 不在 grammar 的字典的键中，说明该 target 不能被继续扩展，我们之间返回它
    
    expr = random.choice(grammar_dict[target])  # 获得随机的表达式
    return ''.join([generate(e,grammar_dict) for e in expr if e != 'null'])

In [95]:
grammar_dict = {'句子': [['名词短语', '动词短语']],
 '名词短语': [['冠词', '形容词*', '名词']],
 '形容词*': [['null'], ['形容词', '形容词*']],
 '动词短语': [['动词', '名词短语']],
 '冠词': [['一个'], ['这个']],
 '名词': [['男人'], ['女人'], ['篮球'], ['桌子'], ['小猫']],
 '动词': [['看着'], ['听见'], ['看见']],
 '形容词': [['蓝色的'], ['好看的'], ['小小的'], ['年轻的']]}


In [102]:
generate('句子', grammar_dict)

'这个篮球看着这个好看的蓝色的桌子'

In [109]:
def parser(string_rule, gen='->', split='|'): 
    grammar_dict = {}
    l = []
    for line in string_rule.split("\n"):
        if not line: continue
        stmt,expr = line.split(gen)
        stmt = stmt.strip()
        expr = [e.split() for e in expr.split(split)]
        grammar_dict[stmt] = expr
    return grammar_dict

In [112]:
parser(bank_host, gen='=')

{'host': [['寒暄', '报数', '询问', '业务相关', '结尾']],
 '报数': [['我是', '数字', '号', ',']],
 '数字': [['单个数字'], ['数字', '单个数字']],
 '单个数字': [['1'], ['2'], ['3'], ['4'], ['5'], ['6'], ['7'], ['8'], ['9']],
 '寒暄': [['称谓', '打招呼'], ['打招呼']],
 '称谓': [['人称', ',']],
 '人称': [['先生'], ['女士'], ['小朋友']],
 '打招呼': [['你好'], ['您好']],
 '询问': [['请问你要'], ['您需要']],
 '业务相关': [['行为']],
 '行为': [['办理'], ['进行']],
 '具体业务': [['开户'], ['存款'], ['基金理财'], ['密码']],
 '结尾': [['服务吗？']]}

In [115]:
def generate_from_grammar(grammar, target, gen='=>', split='|'):
    return generate(target, parser(grammar, gen=gen, split=split))

In [145]:
generate_from_grammar(grammar, '句子', gen='=>')

'这个男人看见这个小小的年轻的小猫'