# 查找

分类：静态查找（只查询信息）和 动态查找（查询并增删）

## 1. 顺序查找

无序查找，遍历数据元素查找，时间复杂度**O(n)**

In [2]:
def Sequential_search(list, key):
    for i in range(len(list)):
        if list[i] == key:
            return i
    return False

### 测试

In [4]:
if __name__ == '__main__':
    list = [1,2,5,1231,53,63]
    key = 5
    print(Sequential_search(list,key))

2


## 2.二分查找
**有序**查找，查找过程可绘制为二叉树，时间复杂度**O(logn)**  
<font color = red>注意</font>：只能查找有序表，适用于一次排序后不再变化的静态表，不适用于不断变化的动态表

In [38]:
def Binary_search(list, key):
    low, high = 0, len(list) - 1
    while low <= high:
        mid = (low + high)// 2  # 折半公式
        if key > list[mid]:    # 若key大于中值
            low = mid + 1      # low为mid右移1位
        if key < list[mid]:    # 若key小于中值
            high = mid - 1     # high为mid左移1位
        if key == list[mid]:   # 若key等于中值则查找成功
            return mid
    return False

### 测试

In [25]:
if __name__ == '__main__':
    list = [1,2,5,53,63,1231]
    key = 1231
    print(Binary_search(list,key))

5


## 3. 插值排序
二分（折半）查找的改进版，将每次排除一半数据的mid公式改进为每次排除更大量数据的mid公式，时间复杂度**O(logn)**  
```mid = (low + high)//2 ```改进为 ``` mid = int(low + (key - list[low])/(list(high) - list(low))*(high - low))```  
<font color = red>注意</font>：对于表长较长，分布均匀的数组，效果优于二分查找，对于分布不均的数组则不利

In [36]:
def Insert_search(list, key):  # 整体代码和二分查找相同
    low, high = 0, len(list) - 1
    while low <= high:
        mid = int(low + (key - list[low])/(list[high] - list[low])*(high - low))  # 仅变化折半公式
        if key > list[mid]:    
            low = mid + 1      
        if key < list[mid]:    
            high = mid - 1     
        if key == list[mid]:   
            return mid
    return False

### 测试

In [37]:
if __name__ == '__main__':
    list = [1,2,5,53,63,1231]
    key = 63
    print(Insert_search(list,key))

4


## 4. 斐波那契查找
**有序**查找，利用斐波那契数列对数组实现黄金分割,采用最接近查找长度的斐波那契数列值来确定拆分点，时间复杂度**O(logn)**  
<font color = red>注意</font>：平均性能优于二分查找，斐波那契查找算法不涉及除法运算，效率可能略高（二分和插值查找也可以用位运算```>2```代替除2）
#### 算法思想：
引理：斐波那契数列F的前后项比值无线接近黄金分割比例：F(k+1)/F(k)→0.618  
思想：  
1.将数列扩充为长度为F(k)的数列，用数列最大值补全空缺  
2.按长度比为F(k-1):F(k-2)分割数列，进行查找

In [46]:
    def Fibonacci(lis):  # 定义一个斐波那契数列，要求数列最大元素大于list中元素个数
        Fib = [0,1]
        i = 2
        while i <= len(lis):
            Fib.append(Fib[i - 2] + Fib[i - 1])
            i += 1
        return Fib

In [51]:
def Fibonacci_search(list, key):
    Fib = Fibonacci(list) # 生成斐波那契数列
    k = 0
    while len(list) >  Fib[k]: # 找到恰好大于数组长度的最接近的斐波那契数列值 
        k += 1
    n = len(list)
    while n <= k - 1: # 填充数组，使得长度等于该值k 
        list.append(a[len(list) - 1])
        n += 1
    ################################上述为斐波那契分割数列构造过程，下面为查找过程
    low, high = 0, len(list) - 1
    while low <= high:
        mid = low + Fib[k - 1] - 1 #长度为F(k)的数列的黄金分割点即为F(k-1)，作为下标再-1
        if key > list[mid]:    #如果key在分割点右边
            low = mid + 1
            k = k - 2          #此时分隔点右边数组长度为F(k)-F(k-1)=F(k-2),因此k自减2
        if key < list[mid]:    #如果key在分割点左边
            high = mid - 1
            k = k - 1          #此时分隔点左边数组长度为F(k-1)，因此k自减1
        if key == list[mid]:   
            return mid
    return False

<font color = red>疑问：为什么《大话数据结构》中``` while len(list) >=  Fib[k]```中是“>=”？</font>

### 测试

In [53]:
if __name__ == '__main__':
    list = [0,1,16,24,35,47,59,62,73,88,99]
    key = 59
    print(Fibonacci_search(list,key))

6


## 5. 线性索引查找
对于海量数据，通过构造**索引表**加快查找速度  
索引结构可以分为线性索引、树形索引、多级索引三类  
线性索引包括稠密索引、分块索引、倒排索引  
### 5.1 稠密索引
将数据集中的每个记录对应一个索引项，索引项按关键码（主键）排序，*意味着可以通过二分、插值、斐波那契等有序手段查找，提速*  
<font color = red>注意</font>：索引表和数据集规模相同，不适用于庞大数据集
### 5.2 分块索引
将数据集分为若干块，每块内的记录无序，但各块之间有序，*意味着可以通过二分、插值、斐波那契等有序手段查找到块，再在块间用顺序查找*  
<font color = red>注意</font>：分块索引时间复杂度为O(sqrt(n))，处于顺序和二分之间，普遍用于数据库
### 5.3 倒排索引
索引表包含属性（非主键值）和具有该属性的记录的编号，且属性有序，*意味着可以通过二分、插值、斐波那契等有序手段查找，提速*  
    <font color = red>注意</font>：是搜索引擎通过关键字(即上行提到的属性)查找信息（记录）的基础技术。