# 排序与查找


## 目标

* 理解并实现顺序查找和二分查找

*  理解并实现选择排序，冒泡排序，合并排序，快速排序，插入排序和shell排序
*  理解哈希表用于查找的技术
*  介绍映射的抽象数据类型
*  用哈希表实现映射的抽象数据类型

## 查找
 

在python里，可使用in操作符查询某数据是否在列表里：

In [2]:
15 in [3, 5, 2, 4, 1]

False

In [3]:
3 in [3,5,2,4,1]

True

虽然这样写很简单，不过这个算法后面的处理过程我们还是要学习，查找有很多种方法，我们感兴趣的是算法以及算法之间的比较。

### 顺序查找

从列表的第一个元素开始，逐个检查，直到找到或全部找完。如果找完了全部项，则意味着该项在列表中不存在。

<img src='images/seqsearch.png'><img>

In [5]:
def sequentialSearch(alist, item):
    pos = 0
    found = False
    
    while pos < len(alist) and not found:
        if alist[pos] == item:
            return True
        else:
            pos += 1
    return found

In [8]:
testlist = [1, 2, 32, 8, 9, 12, 4]
print(sequentialSearch(testlist, 32))
print(sequentialSearch(testlist, 21))


True
False


### 顺序查找的性能分析  

对长度为$n$的无序列表进行查找时，可能有三种情形：
* 最好的情况：第一个项就是我们要找的，此时只需1次比较；
* 最坏的情况：需要经过$n$次比较才知道找不到；
* 平均情况： 定义平均查找长度（Averaged Search Length, ASL）为
$$
ASL = \sum_{i=1}^n p_i c_i
$$
其中

* $p_i$表示查找表中第$i$个元素的概率
* $c_i$表示找到第$i$个元素时已经比较过的次数

假设每个元素被查找的概率相等，则列表的平均查找长度为
$$
    ASL = \frac1n(1+2+\cdots+n)=\frac{n+1}2
$$

对有序列表（设列表元素是升序排列的）进行顺序查找时，

* 若元素在列表中，我们将仍然比较相同的次数来找到它。
* 若元素不在列表中，在性能上会稍有提高。

下图展示了查找50的过程。

 <img src='images/seqsearch2.png'> <img>
    
当数据项50与列表元素逐个比较直到54，我们会发现，不但54不是我们要找的，而且54后面的元素也不是我们要找的，因为元素是有序的！


这时算法就不必继续遍历所有元素后才报告找不到，它可以在找到54后立即终止查找。


In [13]:
def orderedSequentialSearch(alist, item):
    pos = 0
    found = False
    stop = False
    while pos < len(alist) and not found and not stop:
        if alist[pos] == item:
            found = True
        else:
            if alist[pos] > item:
                stop = True
            else:
                pos += 1
    return found

In [14]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42,]
print(orderedSequentialSearch(testlist, 3))
print(orderedSequentialSearch(testlist, 13))

False
True


### 折半查找

* 前提：有序列表（如升序）

* 基本思想： 从中间元素开始比较，若给定值与中间元素相等，则查找成功；若给定值小于中间元素，则在前半部分继续查找；否则，在后半部分查找。不断重复，知道查找成功或者查找失败为止。


下图展示了折半查找54的过程：
<img src='images/binsearch.png'> <img>

In [21]:
def binarySearch(alist, item):
    first = 0
    last = len(alist)-1
    found = False
    
    while first <= last and not found:
        mid = (first + last)//2
        if alist[mid] == item:
            found = True
        else:
            if item < alist[mid]:
                last = mid-1
            else:
                first = mid+1
    return found

In [22]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, 50]
print(binarySearch(testlist, 3))
print(binarySearch(testlist, 13))

False
True


在分析性能之前，我们应该注意到这种算法是"分而治之"策略的一个很好实例。

"分而治之"是把问题分解成小片，想法解决小问题然后把整个问题解决。在列表中查找时，先检查中间元素，如果小于中间元素，就在左半表中继续查找；类似地，如果大于中间元素，就在右边查找。

这也是一个递归的方法，如下面的代码就用了递归法：

In [24]:
def binarySearch(alist, item):
    if len(alist) == 0:
        return False
    else:
        mid = len(alist)b//2
        if alist[mid] == item:
            return True
        else:
            if item < alist[mid]:
                return binarySearch(alist[:mid], item)
            else:
                return binarySearch(alist[mid+1:], item)

In [26]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, 50]
print(binarySearch(testlist, 3))
print(binarySearch(testlist, 13))

False
True
