# 查找

分类：静态查找（只查询信息）和 动态查找（查询并增删）


## 1. 顺序查找

无序查找，遍历数据元素查找，时间复杂度**O(n)**

In [2]:
def Sequential_search(list, key):
    for i in range(len(list)):
        if list[i] == key:
            return i
    return False

### 测试

In [4]:
if __name__ == '__main__':
    list = [1,2,5,1231,53,63]
    key = 5
    print(Sequential_search(list,key))

2


## 2.二分查找
**有序**查找，查找过程可绘制为二叉树，时间复杂度**O(logn)**  
<font color = red>注意</font>：只能查找有序表，适用于一次排序后不再变化的静态表，不适用于不断变化的动态表

In [38]:
def Binary_search(list, key):
    low, high = 0, len(list) - 1
    while low <= high:
        mid = (low + high)// 2  # 折半公式
        if key > list[mid]:    # 若key大于中值
            low = mid + 1      # low为mid右移1位
        if key < list[mid]:    # 若key小于中值
            high = mid - 1     # high为mid左移1位
        if key == list[mid]:   # 若key等于中值则查找成功
            return mid
    return False

### 测试

In [25]:
if __name__ == '__main__':
    list = [1,2,5,53,63,1231]
    key = 1231
    print(Binary_search(list,key))

5


## 3. 插值排序
二分（折半）查找的改进版，将每次排除一半数据的mid公式改进为每次排除更大量数据的mid公式，时间复杂度**O(logn)**  
```mid = (low + high)//2 ```改进为 ``` mid = int(low + (key - list[low])/(list(high) - list(low))*(high - low))```  
<font color = red>注意</font>：对于表长较长，分布均匀的数组，效果优于二分查找，对于分布不均的数组则不利

In [36]:
def Insert_search(list, key):  # 整体代码和二分查找相同
    low, high = 0, len(list) - 1
    while low <= high:
        mid = int(low + (key - list[low])/(list[high] - list[low])*(high - low))  # 仅变化折半公式
        if key > list[mid]:    
            low = mid + 1      
        if key < list[mid]:    
            high = mid - 1     
        if key == list[mid]:   
            return mid
    return False

### 测试

In [37]:
if __name__ == '__main__':
    list = [1,2,5,53,63,1231]
    key = 63
    print(Insert_search(list,key))

4


## 4. 斐波那契查找
**有序**查找，利用斐波那契数列对数组实现黄金分割,采用最接近查找长度的斐波那契数列值来确定拆分点，时间复杂度**O(logn)**  
<font color = red>注意</font>：平均性能优于二分查找，斐波那契查找算法不涉及除法运算，效率可能略高（二分和插值查找也可以用位运算```>2```代替除2）
#### 算法思想：
引理：斐波那契数列F的前后项比值无线接近黄金分割比例：F(k+1)/F(k)→0.618  
思想：  
1.将数列扩充为长度为F(k)的数列，用数列最大值补全空缺  
2.按长度比为F(k-1):F(k-2)分割数列，进行查找

In [46]:
    def Fibonacci(lis):  # 定义一个斐波那契数列，要求数列最大元素大于list中元素个数
        Fib = [0,1]
        i = 2
        while i <= len(lis):
            Fib.append(Fib[i - 2] + Fib[i - 1])
            i += 1
        return Fib

In [51]:
def Fibonacci_search(list, key):
    Fib = Fibonacci(list) # 生成斐波那契数列
    k = 0
    while len(list) >  Fib[k]: # 找到恰好大于数组长度的最接近的斐波那契数列值 
        k += 1
    n = len(list)
    while n <= k - 1: # 填充数组，使得长度等于该值k 
        list.append(a[len(list) - 1])
        n += 1
    ################################上述为斐波那契分割数列构造过程，下面为查找过程
    low, high = 0, len(list) - 1
    while low <= high:
        mid = low + Fib[k - 1] - 1 #长度为F(k)的数列的黄金分割点即为F(k-1)，作为下标再-1
        if key > list[mid]:    #如果key在分割点右边
            low = mid + 1
            k = k - 2          #此时分隔点右边数组长度为F(k)-F(k-1)=F(k-2),因此k自减2
        if key < list[mid]:    #如果key在分割点左边
            high = mid - 1
            k = k - 1          #此时分隔点左边数组长度为F(k-1)，因此k自减1
        if key == list[mid]:   
            return mid
    return False

<font color = red>疑问：为什么《大话数据结构》中``` while len(list) >=  Fib[k]```中是“>=”？</font>

### 测试

In [53]:
if __name__ == '__main__':
    list = [0,1,16,24,35,47,59,62,73,88,99]
    key = 59
    print(Fibonacci_search(list,key))

6


## 5. 线性索引查找
对于海量数据，通过构造**索引表**加快查找速度  
索引结构可以分为线性索引、树形索引、多级索引三类  
线性索引包括稠密索引、分块索引、倒排索引  
### 5.1 稠密索引
将数据集中的每个记录对应一个索引项，索引项按关键码（主键）排序，*意味着可以通过二分、插值、斐波那契等有序手段查找，提速*  
<font color = red>注意</font>：索引表和数据集规模相同，不适用于庞大数据集
### 5.2 分块索引
将数据集分为若干块，每块内的记录无序，但各块之间有序，*意味着可以通过二分、插值、斐波那契等有序手段查找到块，再在块间用顺序查找*  
<font color = red>注意</font>：分块索引时间复杂度为O(sqrt(n))，处于顺序和二分之间，普遍用于数据库
### 5.3 倒排索引
索引表包含属性（非主键值）和具有该属性的记录的编号，且属性有序，*意味着可以通过二分、插值、斐波那契等有序手段查找，提速*  
<font color = red>注意</font>：是搜索引擎通过关键字(即上行提到的属性)查找信息（记录）的基础技术。

## 6. 二叉搜索（排序、查找）树
是一棵空树或具有如下性质：1.若左子树非空，则所有节点值均小于等于根节点；2.若右子树非空，则所有节点值均大于等于根节点  
对其中序遍历，则可得到一个有序数列  
<font color = red>注意</font>：二叉树并不是为了排序，而是为了提高查找和删插速度（通过链式存储实现）  
   BST的查找性能取决于其树的形状，对给定的元素集，可用构造不同的二叉树，如下图:  
![图1](http://static.zybuluo.com/feixuelove1009/9fczsbvg5vpc1n5sjf5zlt9s/image_1b2kcsdqk12m1fd1vsjdmf1fbt9.png)
   当它的深度和完全二叉树相同时，查找的时间复杂度则为O(logn)    
   当它出现极端的斜树时，则为O(n)


### 树节点的建立

In [4]:
class TreeNode:
    def __init__(self, data, left = None, right = None):
        self.data = data # 节点存储的数据
        self.left = left # 左子树
        self.right = right # 右子树

### BST的相关操作
***
**6.1 插入（可用于生成BST）**  
比较根结点data和key，key < data递归左子树，key > data递归右子树，结点为None时插入，**函数返回完整的BST**
***
**6.2 查询**  
比较根结点data和key，key < data递归左子树，key > data递归右子树，值相等或结点为None时返回，**函数返回布尔型（是否查到）**
***
**6.3 删除（复杂操作!!)**  
首先查询欲删除值key，未查询到该值返回员原树，否则删除改结点，**函数返回删除后的BST**  
当查询到key时，分三种情况删除:  
1.只含左子树：用该节点的左孩替代该节点  
2.只含右子树：用该节点的右孩替代该节点  
3.同时包含左右子树：找到左子树的最右结点（利用新定义函数findMax），记作mid，将mid值赋予待删除结点，再删除mid结点。（由于mid为最右结点，因此只含左子树，可按情况1删除）  
  *同理，也可找到右子树的最左结点，进行类似操作*  
<font color = red>注意</font>：  
1.为了返回完整的BST，递归时需写成`root.left = self.insert(root.left, key)`的形式  
2.query()函数返回值是Boolean型，递归需要被`return`

In [56]:
class Operation:
    
    '''
    BST的插入操作
    '''
    def insert(self, root, key):
        if root == None:
            root = TreeNode(key)
        elif key < root.data:
            root.left = self.insert(root.left, key) # 为了保证返回值是一颗完整树，这里需加root.left
        elif key > root.data:
            root.right = self.insert(root.right, key) # 为了保证返回值是一颗完整树，这里需加root.right
        return root 
    
    '''
    BST的查询操作
    '''
    def query(self, root, key):
        if root == None:
            return False
        elif root.data == key:
            return True
        elif root.data < key: # 如果key大于根节点，则查询右子树  
            return self.query(root.right, key) # 注意！！ 这里需要return，因为query函数返回值是布尔型
        elif root.data > key: # 如果key小于根节点，则查询左子树
            return self.query(root.left, key)  # 注意！！ 这里需要return，因为query函数返回值是布尔型
        
    '''
    查询BST的最小值点
    '''   
    def findMin(self, root):
        if root == None:
            return False
        elif root.left == None:
            return root
        else:
            return self.findMin(root.left)
    
    '''
    查询BST的最大值
    '''
    def findMax(self, root):
        if root == None:
            return False
        elif root.right == None:
            return root
        else:
            return self.findMax(root.right)
    
    '''
    查找并删除BST中值为key的节点
    '''
    def delete(self, root, key):
        if root == None: # 空树或未找到key，返回False
            return
        elif root.data > key: # 寻找左子树
            root.left = self.delete(root.left, key)
        elif root.data < key: # 寻找右子树
            root.right = self.delete(root.right, key)
        elif root.data == key: # 寻找到符合条件的数，开始删除该结点
            # 该根结点只含左子树#
            if root.right == None: 
                root = root.left   # 用左孩替换该节点即可
            # 该根结点只含右子树#
            elif root.left == None:
                root = root.right  # 用右孩替换该节点即可
            #既有左子树又有右子树#
            elif root.left and root.right:
                mid = self.findMax(root.left) #找到左子树中的最右边结点（中序遍历中位于该结点左边的值）
                root.data = mid.data # 将该节点值赋予待删除结点
                mid = mid.left #  删除该节点 ** 由于mid为最右结点，因此可视为只有左子树的树！！！！ **
         ### 上述代码也可写成对称的右子树形式 ###
         # elif root.left and root.right:
          #     mid = self.findMin(root.right) #找到右子树中的最左边结点（中序遍历中位于该结点左边的值）
          #     root.data = mid.data # 将该节点值赋予待删除结点
          #     mid = mid.right #  删除该节点 ** 由于mid为最左结点，因此可视为只有右子树的树！！！！ **
        return root
    
    '''
    BST的中序遍历打印，用于测试
    '''
    def printTree(self, root):
        if root == None:
            return
        self.printTree(root.left)
        print(root.data, end = ' ')
        self.printTree(root.right)

### 测试

In [55]:
if __name__ == '__main__':
    List = [17,1,35,2,11,22,12,3,16,5]
    root = None
    # 利用插入操作生成一棵BST并打印查看结果
    for val in List: 
        root = Operation().insert(root, val)
    Operation().printTree(root)
    # 查询key值并打印查看结果
    print('')
    print('Is 3 in List?', Operation().query(root, 3))
    # 删除key值并生成删除后的BST，并打印删除后的BST
    newTree = Operation().delete(root, 5)
    Operation().printTree(newTree)

1 2 3 5 11 12 16 17 22 35 
Is 3 in List? True
1 2 3 11 12 16 17 22 35 

## 7. 平衡二叉树（AVL树）
AVL树并不是平衡二叉树的英文缩写（Self-Balancing Binary Search Tree），而是以发明该算法的两位数学家命名的（G.M.Adelson-Velskii和E.M.Landis）  
**定义**：首先，一定是一棵BST！！并且满足左右子树的深度相差至多为1  
**平衡因子(BF)**：左子树深度减去右子树深度  
**最小不平衡树**：距离插入节点最近的，且abs(BF) > 1的节点为根的子树  
查询和插入删除的时间复杂度均为O(logn)

### 实现原理
每当插入一个新节点时，判断是否破坏了平衡性，如有，找出**最小不平衡树**；  
在保持BST特性的前提下，调整最小不平衡树的连接关系，进行相应的旋转，成为新平衡树。    
**最小不平衡树BF > 1**:右旋   
**最小不平衡树BF < -1**:左旋  
**最小不平衡树BF和子树BF同号**:先对子树旋转再左/右旋  

### LeetCode 110: 判断一棵树是否为平衡二叉树
思路：定义一个求树深的函数maxHeight()，通过AVL定义左右子树深度绝对值 <= 1判断

**解法1**:两次递归，有很多重复遍历，时间复杂度为O(nlogn)  

In [1]:
# Definition for a binary tree node.
class TreeNode:
    def __init__(self, x):
        self.val = x
        self.left = None
        self.right = None

class Solution:
    def maxHeight(self,root: TreeNode):
        if root == None: #空树高度为0
            return 0
        else:
            return max(self.maxHeight(root.left), self.maxHeight(root.right)) + 1
    def isBalanced(self, root: TreeNode) -> bool:
        if root == None:
            return True
        return abs(self.maxHeight(root.left) - self.maxHeight(root.right)) <= 1 and self.isBalanced(root.left) and self.isBalanced(root.right)

**解法2**：一次递归，在求书深的函数maxHeight()中加入判断，如果不满足平衡树条件则令当前节点树深为-1，从而只需判断给定树深度是否为-1即可   
           时间复杂度为O(n)

In [2]:
class TreeNode:
    def __init__(self, x):
        self.val = x
        self.left = None
        self.right = None

class Solution:
    def isBalanced(self, root: TreeNode) -> bool:
        def maxHeight(root: TreeNode):
            if root == None:
                return 0
            ### 该代码段为解法1中的maxHeight函数增加的部分 ###
            left = maxHeight(root.left) # 使用left 和 right 代替递归函数可以大幅降低运行时间
            right = maxHeight(root.right) 
            if left == -1 or right == -1 or abs(left - right) > 1: #在计算深度时加入判断是否为AVL树，可以减少一次递归
                return -1 #不满足AVL定义的数的深度标记为-1
            ### 该代码段为解法1中的maxHeight函数增加的部分 ###
            return max(left, right) + 1
        return maxHeight(root) != -1 

## 8. 多路查找树
**背景**：内存一般由硅基础制作，该技术的每一个存储代价要比磁盘存储昂贵2个数量级。当数据非常大，内存无法处理时，就要不断从硬盘等存储设备中调入或调出内存页面。一旦涉及外部存储设备，时间复杂度就要考虑对外部存储设备的访问时间和将要访问多少次该设备。使用BST时就会产生非常高的树，并且要多次访问外部设备，成为时间效率的瓶颈，为此，引入**多路查找树**  
****
**定义**：多路查找树每个结点的孩子树可以多于两个，且每个结点可以存储多个元素；每个元素存在特定的排序关系；叶子结点必须在同一层次    
常用形式：2-3树、2-3-4树、B树、B+树
### a. 2-3树
每个结点有2个孩子（称为2结点）or 3个孩子(称为3结点) or 没有孩子  
属性：
- 2结点包含1个元素和2个孩子（或者没有孩子，**不能只有一个孩子**），左子树元素均小于该结点，右子树元素均大于该结点
- 3结点包含2个元素和3个孩子（或者没有孩子，**不能只有一个或两个孩子**），左子树元素均小于该结点，右子树元素均大于该结点，中间树元素处于2个元素之间  
- 2-3树所有的叶子节点必须在同一层次上
- 插入和删除通过对2结点合并为3结点和对3结点分裂为2结点实现
### b. 2-3-4树
对2-3树的扩展，增加4结点，同理
### c. B树
2-3树和2-3-4树是B树的特例，结点最大的孩子数目称为B树的阶，如2-3树即为3阶B树。  
m阶B树具有如下属性属性：
- 如果根节点不是叶子结点，则其至少有2棵子树
- 每个非根节点都有k-1个元素和k个孩子，每个叶子结点都有k-1个元素，其中`[m/2] <= k <= m`
- 所有叶子结点必须在同一层次
- 所有分支结点包含关键字信息、子树地址指针信息和关键字个数信息(即k结点实际存储1个关键字个数和k-1个关键字)
B树的查找：  
首先通过各节点元素范围查找key值所在结点，再在结点中顺序查找  
B树的应用：
处理硬盘数据量很大，无法一次性装入内存中，调整B树的阶数，使得其与硬盘存储的页面大小相匹配（硬盘会将信息分割成等大小的页面，每次读取一个或多个页面）；每次查找先找到对应的页面，再在其中查找，大大减小了内存与外存数据交换的次数，节约了时间。  
B树的查找效率:  
对于存储n个关键字的m阶B树，从根节点到关键字结点的路径涉及结点数不超过$\log _{l o g} \begin{array}{c}{\left(\frac{n+1}{2}\right)+1} \\ {\qquad\left\lceil\frac{m}{2}\right\rceil}\end{array}$  
### d. B+树
**B树存在的缺陷**：对于有3个以上孩子的结点，为了中序遍历所有元素，会重复遍历某些该节点，降低了效率。  
为此，提出B+树，满足：
- 有n棵子树的结点包含有n个关键词
- 所有叶子结点包含全部的关键词信息，及指向含关键词记录的指针
- 叶子结点本身依关键字的大小自小而大顺序链接
- 所有分支节点均可看成索引，节点中含有其子树中最大（或最小）的关键字
![图](http://static.zybuluo.com/feixuelove1009/8jjv5kgax9n5kc4sn1vdmb4a/image_1b3fav2fa7661pl21usc1g331vq8bl.png)
**B+树的优点**：  
- 如果需要从最小关键字按从小到大查找，可以只遍历叶子结点而不经过分支
- B+树适合带有范围的查找。可以按根结点出发找到第一个满足要求的，再利用叶子结点顺序查找