In [1]:
grammar = """
sentence => noun_phrase verb_phrase 
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 |  篮球 | 桌子 | 小猫
verb => 看着   |  坐在 |  听着 | 看见
Adj =>   蓝色的 |  好看的 | 小小的
"""

#### 解析数据，生成程序中的可表达结构

In [10]:
def parse_grammar(grammar_str, seq='=>'):
    grammar = {}
    for line in grammar_str.split('\n'):
        line = line.strip()
        if not line: continue
            
        target, rules = line.split(seq)
        
        grammar[target.strip()] = [r.split() for r in rules.split('|')]
        
    return grammar

#### 定义适用尽量广的 generate 规则

In [15]:
import random

In [17]:
def generate(grammar_parsed, target='sentence'):
    if target not in grammar_parsed: return target # 重要之处在于，区分数据类型：规则还是数据？
    
    rule = random.choice(grammar_parsed[target])
    return ''.join(generate(grammar_parsed, target=r) for r in rule if r != 'null') # 递归 generate  

In [28]:
parsed = parse_grammar(grammar)

In [13]:
print(parsed)

{'sentence': [['noun_phrase', 'verb_phrase']], 'noun_phrase': [['Article', 'Adj*', 'noun']], 'Adj*': [['null'], ['Adj', 'Adj*']], 'verb_phrase': [['verb', 'noun_phrase']], 'Article': [['一个'], ['这个']], 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']], 'verb': [['看着'], ['坐在'], ['听着'], ['看见']], 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}


In [18]:
generate(parsed, 'sentence')

'这个小猫坐在一个桌子'

In [29]:
for i in range(0, 10):
    print(generate(parsed, 'sentence'))

一个蓝色的蓝色的小小的好看的女人听着这个女人
这个女人坐在一个篮球
一个篮球看着这个女人
一个好看的蓝色的小猫听着这个蓝色的好看的好看的好看的桌子
一个蓝色的好看的小小的女人看着这个桌子
一个小小的蓝色的桌子看见一个好看的女人
这个好看的好看的桌子听着一个桌子
一个女人看着这个蓝色的蓝色的篮球
一个女人坐在一个篮球
这个小小的小猫听着一个蓝色的篮球


#### 扩展范围

基于此，可以定义更多的 grmmar，规则已经制定，只要符合规则即可。

In [20]:
decimal_grammar = """
expression = operator op operator
operator = num op num
num = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | num num
op = + | - | * | /
"""

In [30]:
dg_parsed = parse_grammar(decimal_grammar, seq='=')

In [31]:
print(dg_parsed)

{'expression': [['operator', 'op', 'operator']], 'operator': [['num', 'op', 'num']], 'num': [['0'], ['1'], ['2'], ['3'], ['4'], ['5'], ['6'], ['7'], ['8'], ['9'], ['num', 'num']], 'op': [['+'], ['-'], ['*'], ['/']]}


In [32]:
generate(dg_parsed, 'expression')

'2/8+3*4'

In [34]:
for i in range(0, 20):
    print(generate(dg_parsed, 'expression'))

1*742+5+7
6/6*4/4
1/1*1-2
8-5+6-4
3/3*1/61
1/4*3+2
0-1-8/3
2-6*0*7
4*56*6*4499
1/944+9+1
2-7/3+2
0*4+9+0
3/6*6/2
5/7-6-0
3/3*5-5
0*2/8-5
3-06*3/4
2/3+17*4
9-0/2/0
5-7*0/6
