##  字典树

给定两个串a=a<sub>0</sub>a<sub>1</sub>···a<sub>p</sub>和b=b<sub>0</sub>b<sub>1</sub>···b<sub>q</sub>，这里每个a<sub>i</sub>和b<sub>j</sub>是以字符集的某种次序出现的，如果下面两种规则之一成立，就称串a**按字典序小于(lexicographically)**串b：

1. 存在一个整数j，其中0 ≤ j ≤ min(p,q)，使得对所有的i=0,1,···,j-1，a<sub>i</sub> = b<sub>i</sub>成立，且a<sub>j</sub> < b<sub>j</sub>。
2. p < q，且对所有的i=0,1,···,p,a<sub>i</sub> = b<sub>i</sub>。

例如，如果a和b是位串，那么10100<10110，10100<101000，类似于字符串排序。

**基数树(Radix Tree)**数据结构如下图所示，这个树存储了位串1011、10、011、100和0。当对一个关键字a=a<sub>0</sub>a<sub>1</sub>···a<sub>p</sub>进行查找时，在深度为i的一个结点处，如果a<sub>i</sub> = 0则走左侧；如果a<sub>i</sub> = 1则走右侧。

<img src="41EAAEDF-BEDC-4B6F-B101-BDF23BEED262.png" width="600px" />

In [21]:
class Node:
    def __init__(self):
        self.data = {}
        self.is_word = False

class Trie:
    def __init__(self):
        self.root = Node()
    
    def insert(self, s):
        p = self.root
        for c in s:
            if not p.data.has_key(c):
                p.data[c] = Node()
            p = p.data[c]
        p.is_word = True
    
    def search(self, s):
        p = self.root
        for c in s:
            p = p.data.get(c)
            if not p:
                return False
        return p.is_word

    def get_start_with(self, prefix):
        p = self.root
        for c in prefix:
            p = p.data.get(c)
            if not p:
                return []
        return self._get_common_prefix_keys(prefix, p)
    
    def _get_common_prefix_keys(self, prefix, p):
        words = []
        if p.is_word:
            words.append(prefix)
        for next_c in p.data.keys():
            words += self._get_common_prefix_keys(prefix + next_c, p.data[next_c])
        return words

    def dict_sort(self, p, prefix):
        if p:
            if p.is_word:
                print prefix,
            for c in sorted(p.data.keys()):
                self.dict_sort(p.data.get(c), prefix+c)

In [28]:
# Example 1
trie = Trie()
trie.insert('1011')
trie.insert('10')
trie.insert('011')
trie.insert('100')
trie.insert('0')
print 'Search[10]:', trie.search('10')
print 'Find string starts with[10]: ', trie.get_start_with('10')
print 'Dict sort:', 
trie.dict_sort(trie.root, '')

Search[10]: True
Find string starts with[10]:  ['10', '1011', '100']
Dict sort: 0 011 10 100 1011


In [29]:
# Example 2
trie = Trie()
trie.insert('some')
trie.insert('sometimes')
trie.insert('something')
trie.insert('thanks')
trie.insert('nothing')
trie.insert('a')
trie.insert('abnormal')
trie.insert('absolute')
trie.insert('australia')
print 'Search[abnormal]:', trie.search('abnormal')
print 'Find string starts with[some]:', trie.get_start_with('some')
print 'Dict sort:',
trie.dict_sort(trie.root, '')

Search[abnormal]: True
Find string starts with[some]: ['some', 'sometimes', 'something']
Dict sort: a abnormal absolute australia nothing some something sometimes thanks


**优点**

利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

与哈希表相比有如下优点：

1. 最坏情况下时间复杂度比hash好。
2. 没有冲突，除非一个key对应多个卫星数据。
3. 使用前序遍历可在O(n)得到字典排序。

**缺点**

1. Trie是一个以空间换时间的算法，每个结点可能有字符集数量个子树。
2. 以查找操作为例，如果数据存储于外部存储器等IO较慢位置，Trie相比hash速度慢，hash访问O(1)次外存，Trie访问O(lgn)次外存。
3. 长字符串会让树高很大。