In [119]:
import numpy as np
import random
import pandas as pd
import re

In [66]:
simple_grammar = """
sentence => noun_phrase verb_phrase
noun_phrase => Article Adj* noun
Adj* => null | Adj Adj*
verb_phrase => verb noun_phrase
Article =>  一个 | 这个
noun =>   女人 | 篮球 | 桌子 | 小猫
verb => 看着 | 坐在 | 听着 | 看见
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [67]:
def adj(): return random.choice('蓝色的 | 好看的 | 小小的'.split('|')).split()[0]

In [68]:
adj()

'小小的'

In [69]:
def adj_star():
    return random.choice([lambda : '', lambda : adj() + adj_star()])()

In [70]:
adj_star()

'小小的蓝色的蓝色的蓝色的'

In [71]:
adj_grammar = """
Adj* => null | Adj Adj*
Adj =>  蓝色的 | 好看的 | 小小的
"""

In [84]:
def create_grammar(grammar_str, split='=>', line_split='\n'):
    grammar = {}
    for line in grammar_str.split(line_split):
        if not line.strip(): continue
        exp, stmt = line.split(split)
        grammar[exp.strip()] = [s.split() for s in stmt.split('|')]
    return grammar

In [85]:
example_grammar = create_grammar(simple_grammar)

In [86]:
example_grammar

{'sentence': [['noun_phrase', 'verb_phrase']],
 'noun_phrase': [['Article', 'Adj*', 'noun']],
 'Adj*': [['null'], ['Adj', 'Adj*']],
 'verb_phrase': [['verb', 'noun_phrase']],
 'Article': [['一个'], ['这个']],
 'noun': [['女人'], ['篮球'], ['桌子'], ['小猫']],
 'verb': [['看着'], ['坐在'], ['听着'], ['看见']],
 'Adj': [['蓝色的'], ['好看的'], ['小小的']]}

In [102]:
choice = random.choice

def generate(gram, target):
    if target not in gram: return target
    expanded = [generate(gram, t) for t in choice(gram[target])]
    return ''.join([e if e!= '/n' else '\n' for e in expanded if e != 'null'])

In [87]:
generate(example_grammar, target='sentence')

'这个小猫坐在这个好看的好看的小小的篮球'

In [88]:
#在西部世界里，一个”人类“的语言可以定义为：
human = """
human = 自己 寻找 活动
自己 = 我 | 俺 | 我们 
寻找 = 找找 | 想找点 
活动 = 乐子 | 玩的
"""

#一个“接待员”的语言可以定义为
host = """
host = 寒暄 报数 询问 业务相关 结尾 
报数 = 我是 数字 号 ,
数字 = 单个数字 | 数字 单个数字 
单个数字 = 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 
寒暄 = 称谓 打招呼 | 打招呼
称谓 = 人称,
人称 = 先生 | 女士 | 小朋友
打招呼 = 你好 | 您好 
询问 = 请问你要 | 您需要
业务相关 = 玩玩 具体业务
玩玩 = null
具体业务 = 喝酒 | 打牌 | 打猎 | 赌博
结尾 = 吗？
"""

In [89]:
for i in range(20):
    print(generate(gram=create_grammar(host, split='='), target='host'))

你好我是1号,请问你要喝酒吗？
人称,你好我是28号,您需要打牌吗？
人称,你好我是1669号,您需要赌博吗？
您好我是79号,请问你要赌博吗？
人称,您好我是76号,您需要打牌吗？
人称,您好我是82号,您需要喝酒吗？
您好我是5号,请问你要打猎吗？
您好我是473号,请问你要喝酒吗？
您好我是8号,您需要打猎吗？
人称,你好我是5372号,您需要打猎吗？
你好我是26号,您需要打牌吗？
人称,您好我是1号,您需要打猎吗？
您好我是37551号,请问你要打猎吗？
您好我是42号,请问你要打牌吗？
你好我是6号,请问你要打牌吗？
您好我是6号,您需要打猎吗？
人称,您好我是6号,请问你要喝酒吗？
人称,您好我是16号,您需要打牌吗？
人称,你好我是5号,请问你要喝酒吗？
人称,您好我是331号,您需要喝酒吗？


## data driven

In [92]:
programming = """
stmt => if_exp | while_exp | assignment 
assignment => var = var
if_exp => if ( var ) { /n .... stmt }
while_exp => while ( var ) { /n .... stmt }
var => chars number
chars => char | char char
char => student | name | info  | database | course
number => 1 | 2 | 3
"""

In [103]:
print(generate(gram=create_grammar(programming, split='=>'), target='stmt'))

if(infoname1){
....if(studentdatabase2){
....database1=name1}}


In [112]:
filename = 'D:\Github\\article_9k.txt'

In [117]:
with open(filename, encoding='utf-8') as f:
    articles = f.read()
    print(len(articles))

33425826


In [120]:
#mark
def token(string):
    return re.findall('\w+', string)