In [59]:
# 算法设计：递归

In [64]:
# 例1：假设我们有n个词，计算出它们结合在一起有多少不同的方式能组成 一个词序列 。
# 分析：
#    如果我们只有一个词（n=1),只是一种方式组成一个序列。
#    如果我们有2个词，就有2种方式将它们组成一个序列。
#    n=3, 就有6种可能性。
#    ...
#    n=N,result =1*2*3*...*N,即N的阶乘。

In [65]:
def factoriall(n):
    '''
    迭代的方式计算阶乘
    '''
    result = 1
    for i in range(n):
        result *= (i+1)
    return result

In [63]:
factoriall(3)

6

In [66]:
# 用递归算法来解决
# 假设我们有办法为n-1个不同的词构建所有的排列。
# 然后对于每个这样的排列，有n个地方我们可以插入一个新词：
# 开始、结束或任意两个词之间的n-2个空隙。
# 因此，我们简单的将n-1个词的解决方案乘以n的值。

In [67]:
def factorial2(n):
    '''
    递归的方式实现
    '''
    if n==1:
        return 1
    else:
        return n*factorial2(n-1)

In [72]:
factorial2(3)

6

In [73]:
# ==============例1结束=============

In [74]:
# 例2：WordNet的上位词层次

In [76]:
from nltk.corpus import wordnet as wn

In [77]:
def size1(s):
    '''
    计数给定同义词集s为根的上位词层次的大小，
    找到s的每个下位词的大小，然后将它们加到一起（我们也将加1表示同义词集本身）。
    '''
    return 1+sum(size1(child) for child in s.hyponyms())

In [78]:
def size2(s):
    '''
    层次化这个问题的迭代解决方案。
    第一层是同义词集本身，然后是同义词集所有的下位词，之后是所有下位词的下位词。
    每次循环通过查找上一层的所有下位词计算下一层。
    它也保存了到目前为止遇到的同义词集的总数。
    '''
    layer = [s]
    total = 0
    while layer:
        total += len(layer)
        layer = [h for c in layer for h in c.hyponyms()]
    return total

In [88]:
# 等价
[j for i in a for j in i]

['a', 'b', 'c', 'd', 'f', 'g']

In [89]:
# 补充注意：
a = ['abc','dfg']
s = []
for i in a:
    for j in i:
        s.append(j)
s

['a', 'b', 'c', 'd', 'f', 'g']

In [None]:
# 所以函数中的 [h for c in layer for h in c.hyponyms()]
# 等价
# layer =[]
# for c in layer:
#     for h in c.hyponyms():
#         layer.append(h)

In [90]:
dog = wn.synset('dog.n.01')

In [91]:
size1(dog)

190

In [92]:
size2(dog)

190

In [93]:
# ===============例2结束===============

In [94]:
# 例3：构建一个深嵌套的对象。
# 字母查找树 letter trie 一种可以用来索引词汇的数据结构，一次一个字母。
# 根据词检索word retrieval而得名。

In [106]:
def insert(trie, key, value):
    '''
    自定义深嵌套对象
    '''
    if key:
        first, rest = key[0],key[1:]
        if first not in trie:
            trie[first] = {}
        insert(trie[first], rest, value)
    else:
        trie['value'] = value
        

In [107]:
trie = nltk.defaultdict(dict)

In [108]:
trie

defaultdict(dict, {})

In [109]:
insert(trie,'chat','cat')

In [110]:
trie

defaultdict(dict, {'c': {'h': {'a': {'t': {'value': 'cat'}}}}})

In [111]:
insert(trie,'chien','dog')

In [112]:
insert(trie,'chair','flesh')
insert(trie,'chic','stylish')

In [113]:
trie

defaultdict(dict,
            {'c': {'h': {'a': {'i': {'r': {'value': 'flesh'}},
                't': {'value': 'cat'}},
               'i': {'c': {'value': 'stylish'},
                'e': {'n': {'value': 'dog'}}}}}})

In [114]:
trie = dict(trie)

In [115]:
trie

{'c': {'h': {'a': {'i': {'r': {'value': 'flesh'}}, 't': {'value': 'cat'}},
   'i': {'c': {'value': 'stylish'}, 'e': {'n': {'value': 'dog'}}}}}}

In [116]:
trie['c']['h']['a']['t']['value']

'cat'

In [117]:
# 尽管递归编程结构简单，但它是有代价的。
# 每次函数调用时，一些状态信息需要推入堆栈，这样一旦函数执行完成可以从离开的地方继续执行。
# 出于这个原因，迭代的解决方案往往比递归解决方案的更高效。