### <center>2018 Winter CS101.10</center>

# <center>树</center>

##### <center>by tanzhuxiaqiu@huawei.com</center>

## 实践项目

- 分组
- 课题
- 开源

## 回顾

- 时间和空间复杂度
- 线性数据结构

## 今日议程

1. 树
2. 二叉树
3. 二叉搜索树
4. 平衡二叉搜索树
5. 不严格平衡二叉搜索树

## 树的基本概念

非线性的数据结构

![](img/10-2.jpg)

### 树的定义和属性

**树T**是将元素存储在一系列有限**节点**的集合，其中每个节点间保持有parent-children的关系，并满足以下的条件：

- 如果树T不为空，则它一定具有一个称为**跟节点（Root）**的特殊节点，并且该节点没有父节点；
- 每个非根节点v都有唯一的一个**父节点（Parent）**w，每个具有父节点w的节点都是节点w的一个孩子；
- 同一个父节点之间是节点是**兄弟（Siblings）**关系；
- 一个没有任何**子节点（Child）**的节点称为**叶子节点（Leaf Nodes）**；
- 假定p是树T中的一个节点，那么p的**深度（Depth）**就是节点p的祖先（Ancestor）个数（不包括p本身），或者说是根节点到p的边的个数；
- 树T中节点p的**高度（Height）**等于p到最远的叶子节点的最长路径（边数），如果p是叶子节点，则高度为0。


![](img/10-1.jpg)

In [1]:
class TreeNode:
    def __init__(self, data):
        self._data = data
        self._children = []

    def __repr__(self, level=0):
        res = "\t" * level + repr(self._data) + "\n"
        for child in self._children:
            res += child.__repr__(level+1)
        return res

In [2]:
a = TreeNode('A')
b = TreeNode('B')
c = TreeNode('C')
d = TreeNode('D')
e = TreeNode('E')
f = TreeNode('F')
g = TreeNode('G')
h = TreeNode('H')
i = TreeNode('I')
j = TreeNode('J')
a._children.append(b)
a._children.append(c)
a._children.append(d)
b._children.extend([e, f])
d._children.extend([g, h])
h._children.extend([i, j])
print(a)

'A'
	'B'
		'E'
		'F'
	'C'
	'D'
		'G'
		'H'
			'I'
			'J'



## 二叉树

每个节点最多只有两个子节点（即左子节点和右子节点）的树。

### 二叉树的种类

- 满二叉树(Full Binary Tree): 所有的节点包含二个或零个子节点（不会只有一个子节点）
- 完全二叉树(Complete Binary Tree)：除了最后一层外所有层都是满节点的状态
- 完美二叉树(Perfect Binary Tree)：所有层的都是满节点的状态

![](img/10-3.jpg)

### 二叉树的存储

- 顺序存储
    - 根节点存储在数组下标i=1的位置；
    - 如果节点存储在小标i的位置，则其左子节点存储在下标为2i的位置上，右子节点存储在下标为2i+1的位置上；
    - 顺序存储更节省空间，但如果不是完全二叉树内存空间利用不紧凑。

![](img/10-4.png)

- 链式储存
    - 把值、左右子树等相关信息存储到节点数据结构中；
    - 节点的结构非常容易进行扩展；
    - 更通用，空间利用更灵活，可以简单地存储层数较大的数。
    
![](img/10-5.png)

### 二叉树的遍历

![](img/8-6.jpg)

- 前序遍历：对于二叉树中任意节点来说，先获取此节点的值，再遍历其左子树，最后遍历其右子树
```
Algorithm preorder(p):
    if p is None then
        return
    print p
    preorder(p->left)
    preorder(p->right)
```

- 中序遍历：对于二叉树中任意节点来说，先遍历其左子树，再获取此节点的值，最后遍历其右子树
```
Algorithm inorder(p):
    if p is None then
        return
    inorder(p->left)
    print p
    inorder(p->right)
```

- 后序遍历：对于二叉树中任意节点来说，先遍历其左子树，再遍历其右子树，最后获取此节点的值
```
Algorithm postorder(p):
    if p is None then
        return
    postorder(p->left)
    postorder(p->right)
    print p
```

## 二叉搜索树(Binary Search Tree)

- 一种特殊的二叉树形式，支持数据快速的插入、查找和删除
- 任意节点的左子树的值小于这个节点的值
- 任意节点的右子树的值大于这个节点的值

思考：如果有重复的值BST怎么处理？

![](img/10-6.png)

### 二叉搜索树的插入

![](img/10-8.gif "BST-insertion")

### 二叉搜索树的查找

![](img/10-9.gif)

In [3]:
class Node:
    def __init__(self, data):
        self._data = data
        self._left = None
        self._right = None

    def __iter__(self):
        if self._left:
            yield from self._left
        yield self._data
        if self._right:
            yield from self._right

    def display(self):
        lines, _, _, _ = self._display_aux()
        for line in lines:
            print(line)

    def _display_aux(self):
        """Returns list of strings, width, height, and horizontal coordinate of the root."""
        # No child.
        if self._right is None and self._left is None:
            line = '%s' % self._data
            width = len(line)
            height = 1
            middle = width // 2
            return [line], width, height, middle

        # Only left child.
        if self._right is None:
            lines, n, p, x = self._left._display_aux()
            s = '%s' % self._data
            u = len(s)
            first_line = (x + 1) * ' ' + (n - x - 1) * '_' + s
            second_line = x * ' ' + '/' + (n - x - 1 + u) * ' '
            shifted_lines = [line + u * ' ' for line in lines]
            return [first_line, second_line] + shifted_lines, n + u, p + 2, n + u // 2

        # Only right child.
        if self._left is None:
            lines, n, p, x = self._right._display_aux()
            s = '%s' % self._data
            u = len(s)
            first_line = s + x * '_' + (n - x) * ' '
            second_line = (u + x) * ' ' + '\\' + (n - x - 1) * ' '
            shifted_lines = [u * ' ' + line for line in lines]
            return [first_line, second_line] + shifted_lines, n + u, p + 2, u // 2

        # Two children.
        left, n, p, x = self._left._display_aux()
        right, m, q, y = self._right._display_aux()
        s = '%s' % self._data
        u = len(s)
        first_line = (x + 1) * ' ' + (n - x - 1) * '_' + s + y * '_' + (m - y) * ' '
        second_line = x * ' ' + '/' + (n - x - 1 + u + y) * ' ' + '\\' + (m - y - 1) * ' '
        if p < q:
            left += [n * ' '] * (q - p)
        elif q < p:
            right += [m * ' '] * (p - q)
        zipped_lines = zip(left, right)
        lines = [first_line, second_line] + [a + u * ' ' + b for a, b in zipped_lines]
        return lines, n + m + u, max(p, q) + 2, n + u // 2

In [4]:
class BinarySearchTree:
    def __init__(self, iterable=None):
        self._root = None
        if iterable:
            for v in iterable:
                self.insert(v)

    def __len__(self):
        return self._size(self._root)

    def __repr__(self):
        return ' '.join(map(str, self.get_root()))

    def _size(self, node):
        if node is None:
            return 0
        return 1 + self._size(node._left) + self._size(node._right)

    def get_root(self):
        return self._root

    def insert(self, data):
        if self._root is None:
            self._root = Node(data)
        else:
            self._recur_insert(self._root, data)

    def _recur_insert(self, node, data):
        if data == node._data:
            return
        elif data < node._data:
            if node._left:
                self._recur_insert(node._left, data)
            else:
                node._left = Node(data)
        else:
            if node._right:
                self._recur_insert(node._right, data)
            else:
                node._right = Node(data)

    def search(self, data):
        return self._recur_search(self._root, data)

    def _recur_search(self, node, data):
        if node is None:
            return False
        if data == node._data:
            return True
        elif data < node._data:
            return self._recur_search(node._left, data)
        else:
            return self._recur_search(node._right, data)


In [5]:
bst = BinarySearchTree()
bst.insert(21)
bst.insert(28)
bst.insert(14)
bst.insert(32)
bst.insert(25)
bst.insert(18)
bst.insert(11)
bst.insert(30)
bst.insert(19)
bst.insert(27)
bst

11 14 18 19 21 25 27 28 30 32

In [6]:
bst.get_root().display()

    ____21_____     
   /           \    
  14_       __28___ 
 /   \     /       \
11  18_   25_     32
       \     \   /  
      19    27  30  


In [7]:
 bst.search(27)

True

### 二叉搜索树的删除

删除操作相比插入和查找复杂，主要考虑以下三种情况：

- 如果删除的节点是叶子节点，直接将此节点删除；
- 如果删除节点只有一个子节点，用其子节点来替代它的位置；
- 如果删除节点有两个子节点，找到这个节点右子树中最小的左子节点，用找到到的最小子节点来替换删除节点。

![](img/10-10.png)

![](img/10-11.png)

![](img/10-12.png)

二叉搜索树删除操作的具体实现

```python
def delete(self, data):
    node = self.get_root()
    parent = None
    # 遍历定位到待删除节点和其父节点
    while node and node._data != data:
        parent = node
        if data < node._data:
            node = node._left
        else:
            node = node._right
    if node is None:
        return

    # 如果待删除节点有左右子树
    if node._left and node._right:
        rightMinNode = node._right
        rightMinNodeParent = node
        while rightMinNode._left:
            rightMinNodeParent = rightMinNode
            rightMinNode = rightMinNode._left
        node._data = rightMinNode._data
        node = rightMinNode
        parent = rightMinNodeParent

    # 待删除节点只有一个子节点或者没有子节点
    child = None
    if node._left is not None:
        child = node._left
    elif node._right is not None:
        child = node._right

    if parent is None: # 如果删除跟节点
        self._root = child
    elif parent._left == node:
        parent._left = child
    else:
        parent._right = child
```

### 二叉搜索树的遍历

In [8]:
def preorder(node):
    if node:
        yield node._data
        yield from preorder(node._left)
        yield from preorder(node._right)

[i for i in preorder(bst.get_root())]

[21, 14, 11, 18, 19, 28, 25, 27, 32, 30]

In [9]:
def inorder(node):
    if node: 
        yield from inorder(node._left)
        yield node._data
        yield from inorder(node._right)

[i for i in inorder(bst.get_root())]

[11, 14, 18, 19, 21, 25, 27, 28, 30, 32]

In [10]:
def postorder(node):
    if node: 
        yield from postorder(node._left)
        yield from postorder(node._right)
        yield node._data

[i for i in postorder(bst.get_root())]

[11, 19, 18, 14, 27, 25, 30, 32, 28, 21]

注：二叉搜索树的中序遍历可以按照升序的方式输出所有节点的值。

### 二叉搜索树的时间复杂度分析

- 从上一节的代码实现来看，无论是查找还是插入和删除操作都需要从根节点沿着一条路径遍历到目标节点，所以时间复杂度应该和树高相关，O(Height)
- 但是二次搜索树的形态不固定，可能出现极端的情况：
    - 不平衡二叉搜索树 O(n)
    - 平衡二叉搜索树 O(logn)

![](img/8-13.jpg)

![](img/10-13.jpg)

In [11]:
data = [x for x in range(10)]
bst1 = BinarySearchTree(data)
bst1.get_root().display()

0         
 \        
 1        
  \       
  2       
   \      
   3      
    \     
    4     
     \    
     5    
      \   
      6   
       \  
       7  
        \ 
        8 
         \
         9


In [12]:
import random
random.shuffle(data)
bst2 = BinarySearchTree(data)
bst2.get_root().display()

  _3__    
 /    \   
 1   _6   
/ \ /  \  
0 2 4  7  
     \  \ 
     5  8 
         \
         9


### 二叉搜索树的复杂度总结

|Algorithm|Average|Worst case|
|---|---|---|
|Space|O(n)|O(n)|
|Search|$O(log n)$|O(n)|
|Insert|$O(log n)$|O(n)|
|Delete|$O(log n)$|O(n)|

#### 二分搜索树 v.s. 散列表

>思考：散列表的插入、删除和查找的时间复杂度是O(1)，为什么还需要二分搜索树？

- 散列表中的元素时无序的，而二分搜索树只要通过一次中序遍历就可以在$O(n)$内输出一个有序序列
- 散列表扩容时性能消耗大，非常不稳定，而二分搜索树性能稳定在$O(log n)$
- 同样散列表因为散列冲突，查找性能也没有二分搜索树稳定
- 散列表构造复杂，需要考虑散列函数设计，冲突解决办法，扩容缩容策略等，而二分搜索树只需要考虑一个平衡性的问题

## AVL树（平衡二叉搜索树）

- 用发明人G.M. Adelson-Velskii 和E.M.Landis和名字命名
- 初衷是想解决普通二叉查找树在频繁的插入、删除等动态更新的情况下，出现时间复杂度退化的问题
- 每个节点通过左右子树(最高子树)的高可以计算出一个平衡因子：**balanceFactor = height(leftSubTree) - height(rightSubTree)**
- AVL树就要保证任意一个节点的左右子树的高度相差不能大于1，即每个节点的平衡因子只能是1,0或-1。

![](img/8-14.png)

![](img/10-14.png)

### AVL树的操作

- 插入、删除元素都类似于二叉搜索树的操作
- 但是要进行预先或随后做一次或多次"AVL旋转"的动作(最终达到平衡)

![](img/10-15.png)

### AVL树的代码实现

- [Python实现](https://github.com/shaqsnake/Data-Structures-and-Algorithms-in-Python/blob/master/src/ch10/avl_tree.py)

### AVL树的复杂度

|Algorithm|Average|Worst case|
|---|---|---|
|Space|O(n)|O(n)|
|Search|$O(log n)$|$O(log n)$|
|Insert|$O(log n)$|$O(log n)$|
|Delete|$O(log n)$|$O(log n)$|

## 红黑树(Red-Black Tree)

- 一种不严格的平衡二叉搜索树：左右子树比较“对称”，比较“平衡”，不会出现左右子树高度差过大的情况
- 工业中最常用的平衡二叉搜索树

### 红黑树的定义

- 节点是红色或黑色
- 根是黑色
- 所有叶子都是黑色（叶子是NIL节点，即不能存储数据）
- 每个红色节点必须有两个黑色的子节点（从每个叶子到根的所有路径上不能有两个连续的红色节点，即红色节点被黑色节点隔离开）
- 从任一节点到其每个叶子的所有简单路径都包含相同数目的黑色节点

![](img/10-16.png)

### 红黑树的操作和实现

- [Wikipedia](https://en.wikipedia.org/wiki/Red%E2%80%93black_tree)
- [Python实现](https://github.com/shaqsnake/Data-Structures-and-Algorithms-in-Python/blob/master/src/ch10/red_black_tree.py)

### 红黑树的复杂度

|Algorithm|Average|Worst case|
|---|---|---|
|Space|O(n)|O(n)|
|Search|$O(log n)$|$O(log n)$|
|Insert|$O(log n)$|$O(log n)$|
|Delete|$O(log n)$|$O(log n)$|

### 红黑树 v.s. AVL树

- AVL树严格保持平衡，所以查找效率上优于近似平衡的红黑树
- 但是AVL树在插入、删除动作后都要维持平衡，代价较高；红黑树维护平衡的成本更低
- 因为红黑树的查找、插入和删除各种操作更稳定，所以工业级的应用中更多选择红黑树


## 多讲一点


[台大Floorplanning讲义](http://cc.ee.ntu.edu.tw/~ywchang/Courses/PD_Source/EDA_floorplanning.pdf)

[VLSI Physical Design](https://www.youtube.com/channel/UCTSQnoUHhScO2ceUfqRHaKw/videos)


### 最后一次课

- 堆
- B+树
- 跳表
- ...

# Any Questions?

## 课后作业 Assignment-07

1) 反转一个二叉树，例如：

输入: 

                    4
                 /      \
               2         7
              / \       /   \
            1     3    6     9

输出:  

                    4
                 /      \
               7         2
              / \       /   \
            9     6    3     1

2）计算二叉树的高度。
注：空节点的二叉树高度为0， 一个节点的二叉树高度为1，一个有根节点且包含至少一个子节点的二叉树高度为2，以此类推...
例如下面这颗叉树的高度为4。


                    9
                 /      \
               6         12
              / \       /   \
            3     8   10      15
                 /              \
                7                18