# 树



# 学习目标

* 理解树的定义及其使用方法

* 使用树来实现映射

* 使用列表来实现树

* 使用类和引用实现树

* 用递归实现树

* 用堆实现优先队列


# 树的例子



树在计算机科学中应用广泛，如

* 操作系统
* 图形学
* 数据库系统
* 网络

都要用到树。

树和自然界中的树非常相似，也有根、有分枝、有叶子。不同之处是，数据结构的树，根在顶上，而叶子在底部。

### 例1 生物学上的分级树

<img src='images/biology.jpg' width=400> <img>





由这个例子中可以看到树的一些性质：
* 树是分级的。 

    * 通过分级，形成层级结构，越接近上层的越是一般的共性，底部则是一些具体的东西。
    * 顶级的是“界”，第二级是“门”，然后是“纲”，如此等等。
    * 不管到分级树的多少层，所有的生物体都是动物界。

你查以从顶部开始，沿着圆圈和箭头组成的路径一直下到底部。在树的每层上，我们都可以问自己一个问题，而且沿着同意的答案走。例如你可以问：“这个动物是脊索动物还是节足动物？”，如果答案是“脊索动物”，那么就沿着脊索动物向下，“这个脊索动物是哺乳动物吗？”如果不是，我们就被困住了（当然，仅限于图中的资料才会困住），如果是在哺乳动物层次上问，“这个哺乳动物是灵长类还是食肉类？”，这种问题可以一直问下去，直到最底层找到动物的名字。

* 一个节点的所有孩子独立于另一个节点的孩子。
  
   * 猫属有两个孩子，家猫种和狮子种
   
   * 蝇属有一个孩子叫家蝇种
   
   * 但是它的节点不同，与猫属的孩子完全独立。
   
   这意味着，我们改变蝇属的孩子不会影响到猫属的孩子。

* 每个叶子节点是唯一的。

  我们可以从动物“界”开始，从根到叶沿着规定的路线唯一地定义每一个物种。例如
  
    动物界→脊索动物门→哺乳动物纲→食肉目→猫科→猫属→猫种→家猫

### 例2、文件系统。

文件系统里中的每个目录或文件夹都是是树形结构。

<img src='images/directory.png'> <img>

文件系统与生物层级系统很相似，也可以沿着一条路径从根到任何目录，路径可以唯一地确定一个子目标和他下面的所有文件。

### 网页



In [None]:
<html xmlns="http://www.w3.org/1999/xhtml"  
      xml:lang="en" lang="en">  
        
<head>  
    <meta http-equiv="Content-Type"  
          content="text/html; charset=utf-8" />  
    <title>simple</title>  
</head>  

<body>  

<h1>A simple web page</h1>  
<ul>  
    <li>List item one</li>  
    <li>List item two</li>  
</ul>  

<h2><a href="http://www.cs.luther.edu">Luther CS </a><h2>  

</body>  

</html>

<img src='images/htmltree.png'> <img>

# 树的定义和基本概念 

## 节点

节点是树的基本元素。

* 它可以有个名字，叫做“键值”。

* 节点也许有更多的附加信息，称为“负载”。

* 在树的算法中，负载不是核心问题，但在实际问题中用到树的时候，负载经常成为关键元素。

## 边

边是树的另一个基本元素。

* 一条边把两个节点连起来表示他们之间的关系。

* 每个节点（除根节点外）都有一条从其他节点伸过来的入边连着，而且每个节点可能伸出去好几条出边。


## 根

根是树结构中，唯一没有入边的节点。 

## 路径

路径就是边连接而成的有序列表，元素是节点。

例如：哺乳纲→ 肉食目 → 猫科 → 猫属 → 家猫种 就是一条路径。


## 孩子

**入边来自同一个节点**的节点集合，叫做那个节点的孩子。 


## 父母

一个节点的出边指向其他节点，它就是这些节点的父母。 


## 兄弟

同一父母的节点叫做兄弟。 


## 子树

子树是指一个父母节点和其子孙节点和边组成的集合。


## 叶子节点

叶子节点指没有孩子的节点。 


## 层次

节点的层次，是指从根到这个节点经过的边的数量。 


## 高度

树的高度是指它所有节点层次的最大值。 

## 树的定义(I)

树包括节点的集合以及连接节点的边的集合。树有以下性质：

* 一个节点的树称为根节点;

* 对于任意节点 n，除了根节点，都要被另外的唯一节点 p 所连接，此时 p 是 n 的父母;

* 从根到任意节点有一条唯一的路径。

如果每个节点最多有两个孩子，我们把这种树称为**二叉树**。

<img src='images/treedef1.png'> <img>

## 树的定义(II)

树或者是一个空集，或者是包括一个根节点和0个或多个子树，每个子树也是树。每个子树的根连到父母树的根。

<img src='images/TreeDefRecursive.png'> <img>

# 树的实现



在树的定义的基础上，用以下函数创建并操作二叉树：

* <code> BinaryTree() </code> 创建一个二叉树实例
* <code> getLeftChild() </code> 返回节点的左孩子
* <code> getRightChild() </code> 返回节点的右孩子
* <code> setRootVal(val) </code> 把val变量值赋给当前节点
* <code> getRootVal() </code> 返回当前节点对象。
* <code> insertLeft(val) </code> 创建一个新二叉树作为当前节点的左孩子
* <code> insertRight(val) </code> 创建一个新二叉树作为当前节点的右孩子。


实现树的关键点是合适的存储技术。

Python提供两种可用方法：

* 列表的列表

* 节点与引用

# 列表的列表表示法


该方法中，我们使用列表来实现上面的函数，虽然这种方式与之前的抽象数据结构不一样，但它是一个简单的递归结构，可以直接查看和检查。

在列表的列表树中，

* 根节点的数值是列表的第一个元素，
* 第二个元素是它的左子树，
* 第三个元素就是它的右子树。 

<img src='images/smalltree.png'> <img>

In [12]:
myTree = ['a',            #root  
          ['b',           #left subtree
           ['d', [], []],
           ['e', [], []] ], 
          ['c',           #right subtree
           ['f', [], []], 
           [] ]
         ]  


* 直接用列表的索引来访问子树。

   * 树根是<code>myTree[0]</code>
   * 左子树是<code>myTree[1]</code>
   * 右子树是<code>myTree[2]</code>。
  
 

In [13]:
print(myTree)  
print('left subtree = ', myTree[1])  
print('root = ', myTree[0])  
print('right subtree = ', myTree[2]) 

['a', ['b', ['d', [], []], ['e', [], []]], ['c', ['f', [], []], []]]
('left subtree = ', ['b', ['d', [], []], ['e', [], []]])
('root = ', 'a')
('right subtree = ', ['c', ['f', [], []], []])


 下面的代码就是用列表创建了一棵树，完成之后，就可以访问它的根和子树，它的好处在于列表中的“元素列表”就代表了子树，与树有相同的结构，所以它的结构是递归的。如果一个子树有根节点，但是左右子树都是空列表，那么它就是叶子。另一个好处是这种方法产生的树可以推广到“多叉树”而不仅是二叉树，因为另一个子树也不过是一个列表而已。

现在来为这种**树型结构**定义一些函数以方便使用。

注意：我们没有定义一个二叉树类，这些函数只是帮助操作一个列表，即使工作对象是一个树。

In [14]:
def BinaryTree(r):
    return [r, [], []]

<code>BinaryTree</code>函数简单地创建了一个列表，其中有一个根节点和两个孩子（为空列表）。

要增加左子树的话，就要插入一个新列表到根列表的第1号位置上。

注意：如果第1号位置上已经保存了数据，需要跟踪这个数据，并把它下压一级，作为新插入列表的左孩子。

In [18]:
def insertLeft(root, newBranch):
    t= root.pop(1)
    if len(t) > 1:
       root.insert(1, [newBranch, t, []])
    else:
       root.insert(1, [newBranch, [], []])
    return root

注意，要插入左孩子，先得到原来左孩子位置的列表（可能是空的），当加入新左孩子的时候，把原来的左孩子作为新节点的孩子。这样，我们可以把新节点放在树中任何位置。

插入右孩子的代码也很相似

In [19]:
def insertRight(root,newBranch):
    t= root.pop(2)
    if len(t) > 1:
       root.insert(2, [newBranch, [], t])
    else:
       root.insert(2, [newBranch, [], []])
    return root

以下为取值函数和赋值函数，针对根节点和左、右子树。

In [22]:
def getRootVal(root):
    return root[0]
 
def setRootVal(root, newVal):
    root[0] = newVal

def getLeftChild(root):
    return root[1]
 
def getRightChild(root):
    return root[2]

## 完整代码 

In [29]:
def BinaryTree(r):  
    return [r, [], []]  
  
def insertLeft(root,newBranch):  
    t = root.pop(1)  
    if len(t) > 1:  
        root.insert(1,[newBranch,t,[]])  
    else:  
        root.insert(1,[newBranch, [], []])  
    return root  
  
def insertRight(root,newBranch):  
    t = root.pop(2)  
    if len(t) > 1:  
        root.insert(2,[newBranch,[],t])  
    else:  
        root.insert(2,[newBranch,[],[]])  
    return root  


In [30]:
def getRootVal(root):  
    return root[0]  
  
def setRootVal(root,newVal):  
    root[0] = newVal  
  
def getLeftChild(root):  
    return root[1]  
  
def getRightChild(root):  
    return root[2]  


In [31]:
r = BinaryTree(3)  
insertLeft(r,4)  
insertLeft(r,5)  
insertRight(r,6)  
insertRight(r,7)  
l = getLeftChild(r)  
print(l)  
  
setRootVal(l,9)  
print(r)  
insertLeft(l,11)  
print(r)  
print(getRightChild(getRightChild(r)))

[5, [4, [], []], []]
[3, [9, [4, [], []], []], [7, [], [6, [], []]]]
[3, [9, [11, [4, [], []], []], []], [7, [], [6, [], []]]]
[6, [], []]


# 节点与引用方法


第二种表示方法使用节点和引用。

我们将定义一个类，其属性包括根和左右子树。因该方法更加面向对象，后面会着重介绍。

使用节点和引用，树形结构形如下图：

<img src='images/treerecs.png'> <img>

## 初始化二叉树

* 开始时，只有一个节点的定义和两个子树的引用。

* 左右子树的引用的，也是这个类的实例。

   例如，若要插入一个新的左子树，应该先创建一个新的树对象，并且修改根节点的<code>self.leftChild<code>以指向新树。

In [32]:
class BinaryTree:
    def __init__(self, rootObj):
        self.key = rootObj
        self.leftChild = None
        self.rightChild = None

注意上面代码中，构造函数需要一个对象来保存在根节点。既然列表可以保存任意对象，那么树的根可以是任意对象。在前面的例子中，我们在根节点中保存节点的名字。在图2中那样的树，我们要创建6个BinaryTree的对象。

## 增加左孩子



需要新建一个二叉树对象，并把这个对象赋值给leftChild。 

In [33]:
def insertLeft(self, newNode):
    if self.leftChild == None:
        self.leftChild = BinaryTree(newNode)
    else:
        t = BinaryTree(newNode)
        t.leftChild = self.leftChild
        self.leftChild = t

上面代码中考虑了两种情况：

1. 没有左孩子，只需把节点加到树上。

2. 此节点已经有左孩子，这时要把现存的左孩子下移一级作为插入节点的左孩子。


## 增加右孩子

插入右孩子也是一样，要么没有右孩子，否则把节点插入到根与现存右孩子之间。

In [None]:

def insertRight(self,newNode):
    if self.rightChild == None:
        self.rightChild = BinaryTree(newNode)
    else:
        t = BinaryTree(newNode)
        t.rightChild = self.rightChild
        self.rightChild = t

## 获取左、右孩子，设置和获取根结点的值


In [None]:
def getRightChild(self):
    return self.rightChild

def getLeftChild(self):
    return self.leftChild

def setRootVal(self,obj):
    self.key = obj

def getRootVal(self):
    return self.key

## 测试程序

In [35]:
class BinaryTree:
    def __init__(self,rootObj):
        self.key = rootObj
        self.leftChild = None
        self.rightChild = None

    def insertLeft(self,newNode):
        if self.leftChild == None:
            self.leftChild = BinaryTree(newNode)
        else:
            t = BinaryTree(newNode)
            t.leftChild = self.leftChild
            self.leftChild = t

    def insertRight(self,newNode):
        if self.rightChild == None:
            self.rightChild = BinaryTree(newNode)
        else:
            t = BinaryTree(newNode)
            t.rightChild = self.rightChild
            self.rightChild = t

    def getRightChild(self):
        return self.rightChild

    def getLeftChild(self):
        return self.leftChild

    def setRootVal(self,obj):
        self.key = obj

    def getRootVal(self):
        return self.key


我们先创建一个简单的树包含一个根和两个节点<code>b, c<code>。下面的代码就是创建树，并为键，左孩子和右孩子赋值。注意左孩子和右孩子和根都是同一个类BinaryTree的不同对象，如同前面我们的递归定义一样，这使得我们可以象处理二叉树一样处理它的子树。

In [36]:
r = BinaryTree('a')
print(r.getRootVal())
print(r.getLeftChild())
r.insertLeft('b')
print(r.getLeftChild())
print(r.getLeftChild().getRootVal())
r.insertRight('c')
print(r.getRightChild())
print(r.getRightChild().getRootVal())
r.getRightChild().setRootVal('hello')
print(r.getRightChild().getRootVal())


a
None
<__main__.BinaryTree instance at 0x7eff2afae1b8>
b
<__main__.BinaryTree instance at 0x7eff2a742878>
c
hello


# 解析树


我们已经知道了树的定义及其操作，现在我们来利用树去解决一些实际问题。


首先我们来研究解析树，它常用于真实世界的结构表示，例如句子或数学表达式。

<img src='images/nlParse.png' width=300> <img>

该图显示了一个简单句子的层级结构。

将一个句子表示为一个树，我们就可以利用子树来处理句子中每个独立的结构。

<img src='images/meParse.png'> <img>

该图将一个<code>((7+3) * (5−2))<code>的数学表达式表示成一棵解析树。

树的层级结构可以帮助我们理解整个表达式的运算顺序。

* 在计算最顶上的乘法运算前，我们先要计算子树中的加法和减法运算。
* 左子树的加法运算结果为 10，右子树的减法运算结果为 3。

利用树的层级结构，一旦我们计算出了子节点中表达式的结果，我们能够将整个子树用一个节点来替换。

运用这个替换步骤，我们得到一个简单的树：

<img src='images/meSimple.png'> <img>

接下来我们将更加详细地研究解析树。尤其是：

* 怎样根据一个全括号数学表达式来建立其对应的解析树
* 怎样计算解析树中数学表达式的值
* 怎样根据一个解析树还原数学表达式


## 建立解析树的步骤

1. 将表达式字符串分解成符号保存在列表里。这里有四种符号需要我们考虑：

    * 左括号
    * 操作符
    * 操作数

2. 依次读入每个字符，

  * 当读到一个左括号时，将开始一个新的表达式，故要创建一个子树来对应这个新的表达式。

  * 当读到一个右括号时，就得结束这个表达式。

  * 当读到操作数时，它将成为叶子节点，或其所属操作符的子节点。
  
3. 每个操作符都应该有一个左子节点和一个右子节点。



## 四条规则：


1. 如果当前读入的字符是<code> '(' <code>，添加一个新的节点作为当前节点的左子节点，并下降到左子节点处。
2. 如果当前读入的字符在列表<code> ['+', '-', '/', '*'] <code>中，将当前节点的根值设置为当前读入的字符。添加一个新的节点作为当前节点的右子节点，并下降到右子节点处。
3. 如果当前读入的字符是一个数字，将当前节点的根值设置为该数字，并返回到它的父节点。
4. 如果当前读入的字符是<code> ')' <code>，返回当前节点的父节点。

考虑表达式 <code> (3 + (4 * 5)) <code>

将其分解为字符列表：

<code> ['(', '3', '+', '(', '4', '*', '5' ,')', ')'] <code>


一开始，我们从一个仅包括一个空的根节点的解析树开始。下面的图说明了随着每个新的字符被读入后该解析树的内容和结构。

<img src='images/buildExp1.png'> <img>

<img src='images/buildExp2.png'> <img>

<img src='images/buildExp3.png'> <img>

<img src='images/buildExp4.png'> <img>

<img src='images/buildExp5.png'> <img>

<img src='images/buildExp6.png'> <img>

<img src='images/buildExp7.png'> <img>

<img src='images/buildExp8.png'> <img>

## 解析树的生成过程

1. 创建一个空的树。
2. 读如<code> '(' <code>作为第一个字符，根据规则 1，创建一个新的节点作为当前节点的左子结点，并将当前节点变为这个新的子节点。
3. 读入<code> '3' <code>作为下一个字符。根据规则 3，将当前节点的根值赋值为<code> '3' <code>然后返回当前节点的父节点。
4. 读入<code> '+' <code>作为下一个字符。根据规则 2，将当前节点的根值赋值为+，然后添加一个新的节点作为其右子节点，并且将当前节点变为这个新的子节点。
5. 读入<code> '(' <code>作为下一个字符。根据规则 1，创建一个新的节点作为当前节点的左子结点，并将当前节点变为这个新的子节点。
6. 读入<code> '4' <code>作为下一个字符。根据规则 3，将当前节点的根值赋值为<code> '4' <code>然后返回当前节点的父节点
7. 读入<code> '\*' <code>作为下一个字符。根据规则 2，将当前节点的根值赋值为<code> '*' <code>，然后添加一个新的节点作为其右子节点，并且将当前节点变为这个新的子节点。
8. 读入<code> '5' <code>作为下一个字符。根据规则 3，将当前节点的根值赋值为<code> '5' <code>然后返回当前节点的父节点
9. 读入<code> ')' <code>作为下一个字符。根据规则 4，我们将当前节点变为当前节点<code> '*' <code>的父节点。
10. 读入<code> ')' <code>作为下一个字符。根据规则 4，我们将当前节点变为当前节点<code> '+' <code>的父节点，因为当前节点没有父节点，所以我们已经完成解析树的构建。

通过上面给出的例子，很明显我们需要跟踪当前节点和当前节点的父节点。

* 树提供给我们一个获得子节点的方法——通过<code> getLeftChild <code>和<code> getRightChild <code>方法
* 但是我们怎么样来跟踪一个节点的父节点呢？


一个简单的方法就是：在我们遍历整个树的过程中利用栈跟踪父节点。


当我们想要下降到当前节点的子节点时，我们先将当前节点压入栈。当我们想要返回当前节点的父节点时，我们从栈中弹出该父节点。

通过上述的规则，使用栈和二叉树来操作，我们现在编写函数来创建解析树。 

In [28]:
from pythonds.basic.stack import Stack
from pythonds.trees.binaryTree import BinaryTree

def buildParseTree(fpexp):
    fplist = fpexp.split()
    pStack = Stack()
    eTree = BinaryTree('')
    pStack.push(eTree)
    currentTree = eTree
    for i in fplist:
        if i == '(':
            currentTree.insertLeft('')
            pStack.push(currentTree)
            currentTree = currentTree.getLeftChild()
        elif i not in ['+', '-', '*', '/', ')']:
            currentTree.setRootVal(int(i))
            parent = pStack.pop()
            currentTree = parent
        elif i in ['+', '-', '*', '/']:
            currentTree.setRootVal(i)
            currentTree.insertRight('')
            pStack.push(currentTree)
            currentTree = currentTree.getRightChild()
        elif i == ')':
            currentTree = pStack.pop()
        else:
            raise ValueError
    return eTree

pt = buildParseTree("( ( 10 + 5 ) * 3 )")
pt.postorder()  #defined and explained in the next section


ImportError: No module named trees.binaryTree