## 搜索算法
搜索算法是在一个项集中查找一个项或者具有指定性质的一组项的方法。

- 这里的集可以是隐式的，比如找一个数的平方根就是一个搜索问题，可以使用穷尽枚举法、二分搜索法、Newton-Raphson法。
- 这里的集也可以是显式的，比如一个学生记录是否在一个被保存的数据集中等

## 搜索算法
- 线性查找
  - 暴力查找；
  - 列表不一定是排好序的；
- 二分查找
  - 列表必须排好序才能找到准确答案；
  - 看两种不同的二分查找实现；

## 对无序列表进行线性查找
- 必须遍历所有的元素来判断它不在那里；
- 整体的复杂度是循环的时间复杂度`O(len(L))*O(1)=O(n)`，其中`n`是`len(L)`，`O(1)`是测试`e==L[i]`的复杂度；

In [3]:
def linear_search(L, e):
    found = False
    for i in range(len(L)):
        if L[i] == e:
            found = True
            break
    return found

L = [5,4,9,8,7]

print(linear_search(L, 6))

print(linear_search(L, 7))

False
True


## 对有序列表进行线性查找

- 必须查看元素直到找到一个比e大的元素。
- 整体的复杂度是循环的时间复杂度`O(len(L))*O(1)=O(n)`，其中`n`是`len(L)`，`O(1)`是测试`e==L[i]`的复杂度。

In [7]:
def search(L, e):
    for i in range(len(L)):
        if L[i] == e:
            return True
        if L[i] > e:
            return False
        
    return False

L = [1,2,3,6]

print(search(L, 5))

print(search(L, 3))

False
True


## 使用二分搜索
1. 选择一个将列表分成两半的索引`i`
2. 测试`L[i]==e`
3. 如果不等，则测试`L[i]`是大于还是小于`e`
4. 取决于第3步测试的结果，在列表的左边一半还是右边一半里查找元素`e`

这是一个新版本的分而治之算法：
- 将原问题分解为更小版本的问题，加上一些简单的操作
- 更小版本的解是原问题的解

In [12]:
def bisect_search2(L, e):
    def bisect_search2_helper(L, e, low, high):
        if high == low:
            return L[low] == e
        
        mid = (low + high)//2
        if L[mid] == e:
            return True
        elif L[mid]>e:
            if low == mid:
                return False
            else:
                return bisect_search2_helper(L,e, 0, mid-1)
        else:
            return bisect_search2_helper(L,e, mid+1, high)
        
    if len(L) == 0:
        return False
    else:
        return bisect_search2_helper(L, e, 0, len(L)-1)
        
L = [1,2,3,6]
print(bisect_search2(L,4))
print(bisect_search2(L,3))

False
True


## 二分查找的复杂度

- 二分查找和它的辅助函数

  `O(log n)`次二分搜索调用，每一步将原问题的大小减少1/2
- 列表和索引作为参数
- 永远不拷贝列表，只是重新作为指针再传递
- 在函数内部的工作量是常数量级

整体的复杂度为`O(log n)`

## 对一个有序列表进行搜索，其中n是`len(n)`。
- 使用线性查找，搜索一个元素的时间复杂度是O(n)
- 使用二分搜索，搜索一个元素的时间复杂度是O(log n)，注意要假设列表是排好序的

问题：什么时候先排序再搜索是有意义的？
答：当排序的复杂度小于O(n)时，因为先排序再搜索的复杂度为SORT+O(log n)，只有它<O(n)才有意义。变形为：SORT<O(n)-O(log n)。

但是这永远不可能为真，因为为了给n个元素排序，必须要查看每个元素至少一次。

## 分摊成本，其中n是`len(L)`
问题：为什么要不厌其烦地先排序呢？

答：因为在某些情况下，可能会先做一次排序，然后做多次查询，这样会将排序的成本分摊到多次查询上。

先排序后做多次查询的复杂度为`SORT+K*O(log n)<K*O(n)`。当K充分大时，如果排序的成本足够小，那么排序时间就变得不相关了。

## 排序算法
- 对一个条目列表进行高效地排序；
- 看一系列的方法，包括一个非常高效的；

## bogo排序
假设要对一叠卡片排序，

思路：
- 将它们扔到空中
- 将它们捡起来
- 测试它们排好序了吗？
- 如果没排好序，则重复之前的步骤

## bogo排序的复杂度
最好情形：也就是判断L是否排好序的复杂度O(n)，其中n是len(L)。

最坏情形：无界

In [15]:
def bogo_sort(L):
    while not is_sorted(L):
        random.shuffle(L)


## 冒泡排序
思路：
- 比较连续的元素对
- 交换对中的元素使得较小的在前
- 当到达列表的末尾时，重新再开始
- 当不再做交换时结束

分析：因为每次通关后，最大的无序元素会出现在末尾，所以冒泡排序最多有n次通关

In [19]:
def bubble_sort(L):
    swap = False
    while not swap:
        swap = True
        for j in range(1,len(L)):
            if L[j-1]>L[j]:
                swap = False
                temp = L[j]
                L[j] = L[j-1]
                L[j-1] = temp
                
L = [1,3,2]
bubble_sort(L)
print(L)

[1, 2, 3]


分析：内部循环用来做比较，外部循环用来做多次通关直到不再有交换。

bubble排序的复杂度为$O(n^2)$，因为要做len(L)-1次比较，和len(L)-1次通关。

## 选择排序
思路：

第一步：
- 抽取最小元素
- 把它交换到索引0处

接下来：
- 从剩余列表中，抽取最小元素；
- 把它交换到索引1处；

保证列表的左边部分有序，
- 在第i步，前i个元素都是有序的；
- 所有其他的元素都比前i个元素大；