# 排序与查找


# 目标

* 理解并实现顺序查找和二分查找；
*  理解哈希表用于查找的技术；
*  介绍映射的抽象数据类型；
*  用哈希表实现映射的抽象数据类型；
*  理解并实现选择排序，冒泡排序，合并排序，快速排序，插入排序和shell排序。


# 查找
 

在python里，可使用in操作符查询某数据是否在列表里：

In [3]:
15 in [3, 5, 2, 4, 1] 

False

In [3]:
3 in [3,5,2,4,1]

True

虽然这样写很简单，不过这个算法后面的处理过程我们还是要学习，查找有很多种方法，我们感兴趣的是算法以及算法之间的比较。

### 顺序查找

从列表的第一个元素开始，逐个检查，直到找到或全部找完。如果找完了全部项，则意味着该项在列表中不存在。

<img src='images/seqsearch.png'><img>

In [5]:
def sequentialSearch(alist, item):
    pos = 0
    found = False
    
    while pos < len(alist) and not found:
        if alist[pos] == item:
            return True
        else:
            pos += 1
    return found

In [8]:
testlist = [1, 2, 32, 8, 9, 12, 4]
print(sequentialSearch(testlist, 32))
print(sequentialSearch(testlist, 21))


True
False


# 顺序查找的性能分析  

对长度为$n$的无序列表进行查找时，可能有三种情形：
* 最好的情况：第一个项就是我们要找的，此时只需1次比较；
* 最坏的情况：需要经过$n$次比较才知道找不到；
* 平均情况： 定义平均查找长度（Averaged Search Length, ASL）为
$$
ASL = \sum_{i=1}^n p_i c_i
$$
其中

* $p_i$表示查找表中第$i$个元素的概率
* $c_i$表示找到第$i$个元素时已经比较过的次数

假设每个元素被查找的概率相等，则列表的平均查找长度为
$$
    ASL = \frac1n(1+2+\cdots+n)=\frac{n+1}2
$$

对有序列表（设列表元素是升序排列的）进行顺序查找时，

* 若元素在列表中，我们将仍然比较相同的次数来找到它。
* 若元素不在列表中，在性能上会稍有提高。

下图展示了查找50的过程。

 <img src='images/seqsearch2.png'> <img>
    
当数据项50与列表元素逐个比较直到54，我们会发现，不但54不是我们要找的，而且54后面的元素也不是我们要找的，因为元素是有序的！


这时算法就不必继续遍历所有元素后才报告找不到，它可以在找到54后立即终止查找。


In [13]:
def orderedSequentialSearch(alist, item):
    pos = 0
    found = False
    stop = False
    while pos < len(alist) and not found and not stop:
        if alist[pos] == item:
            found = True
        else:
            if alist[pos] > item:
                stop = True
            else:
                pos += 1
    return found

In [14]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42,]
print(orderedSequentialSearch(testlist, 3))
print(orderedSequentialSearch(testlist, 13))

False
True


# 折半查找

* 前提：有序列表（如升序）

* 基本思想： 从中间元素开始比较，若给定值与中间元素相等，则查找成功；若给定值小于中间元素，则在前半部分继续查找；否则，在后半部分查找。不断重复，知道查找成功或者查找失败为止。


下图展示了折半查找54的过程：
<img src='images/binsearch.png'> <img>

In [21]:
def binarySearch(alist, item):
    first = 0
    last = len(alist)-1
    found = False
    
    while first <= last and not found:
        mid = (first + last)//2
        if alist[mid] == item:
            found = True
        else:
            if item < alist[mid]:
                last = mid-1
            else:
                first = mid+1
    return found

In [22]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, 50]
print(binarySearch(testlist, 3))
print(binarySearch(testlist, 13))

False
True


在分析性能之前，我们应该注意到这种算法是"分而治之"策略的一个很好实例。

"分而治之"是把问题分解成小片，想法解决小问题然后把整个问题解决。在列表中查找时，先检查中间元素，如果小于中间元素，就在左半表中继续查找；类似地，如果大于中间元素，就在右边查找。

这也是一个递归的方法，如下面的代码就用了递归法：

In [24]:
def binarySearch(alist, item):
    if len(alist) == 0:
        return False
    else:
        mid = len(alist)b//2
        if alist[mid] == item:
            return True
        else:
            if item < alist[mid]:
                return binarySearch(alist[:mid], item)
            else:
                return binarySearch(alist[mid+1:], item)

In [26]:
testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, 50]
print(binarySearch(testlist, 3))
print(binarySearch(testlist, 13))

False
True


# 哈希查找

前面我们利用了数据集中元素的相对位置信息来提高查找算法的性能。比如知道列表是有序的，可以使用二分查找。

本节我们将创建一个数据结构，使得查找性能提高到$O(1)$，称为哈希查找。

In [None]:
要做到这样的性能，我们要知道元素的可能位置，如果每个元素就在他应该在的位置上，那么要查找的时候只需要一次比较得到有没有的答案，但下面将会看到，不是这么回事。

哈希表是一种数据集合，元素保存时就放在容易找到的位置上。

哈希表中的每一个位置称为“槽位”，每个槽位都能保存一个数据元素并以一个整数命名(从0开始)。这样我们就有0号槽位，1号槽位等等。

起始时，哈希表里没有数据，槽位是空的。

构建哈希表时，可以把槽位值都初始化为None。下图显示一个大小为11的哈希表，或者是说有11个槽位的哈希表。

<img src='images/hashtable.png'> <img>

元素和其槽位之间的映射关系，称为哈希函数。

哈希函数接受一个元素作为参数，返回一个$0$到$m-1$的整数作为槽位名。

假如我们有一个整数集
$$
54，26，93，17，77, 31
$$
第一个哈希函数可用“余数法”构造：简单地将元素除以表的大小（11），所得余数作为哈希值。

下表是上述整数集的哈希值。

| Item        | Hash value |
| ------------- |:-------------:|  
|54 |   10 |
|26 |   4  |
|93 |   5  |
|17 |   6  |
|77 |   0  |
|31 |   9  |

注意：余数法一般以某种形式存于所有哈希函数中，因为它的结果一定在槽位范围内。

一旦哈希值计算出来，就要把元素插入到哈希表中指定的位置。

<img src='images/hashtable2.png'> <img>

由上图可知，11个槽位中有6个已经填满。可引入满载因子的概念，一般表述为
$$
\lambda  = \frac{\mbox{number of items}}{\mbox{table size}}
$$
在该例中，
$$
\lambda  = \frac{6}{11}.
$$

查找时，先用哈希函数计算出槽位值，然后到表中检查是否存在就可以了。

该查找操作的时间复杂度是$O(1)$，因为计算哈希值，以及到表中查找的时间是个常数。

如果每个元素都各守其位，我们就发现了一个常数级的查找算法。


也许你已经注意到，这个技术仅在每个元素对应一个位置时有效。

例如，如果在数据集中增加一个44，则其哈希值是0，而77的哈希值也是0。这就出现了2个值对应同一个槽位的情况，被称为“冲突”。很明显，collision给哈希技术造成了困难，我们随后详细讨论。

# 哈希函数


对给定的数据集，哈希函数将每个元素映射为单个的槽位，称为“完美哈希函数”。

如果我们知道元素和集合固定不变，那么构造一个完美哈希函数也许是可能的。

坏消息是，对一个任意数据集合，没有一个系统的方法来构造完美哈希函数；

好消息是，哈希函数不完美也能提供不错的性能。


如果一定要完美的哈希函数，一种方法是做大哈希表，以保证每个元素都有自己的索引。虽然在数据不多的情况下可行，但是如果数据很大就不可行。

比如，如果数据项是8位数，这就需要十亿个槽位，如果仅仅用来保存25个学生的学号，就太浪费了。

我们的目标是：冲突最少，计算简单，分布均匀。

有几种扩展余数法的方案，下面讨论其中几个。

## 折叠法

把元素分成相等的几块（最后一块可能不相等），然后再把这些块加起来求哈希值。

假设哈希表有11个槽位，数据项是一个电话号码 436-555-4601。折叠法的处理过程如下：

1. 按2个一组分块，然后加起来，即 $43+65+55+46+01$，得到 $210$ 。
2. 用11除210来得到槽位，即$210\%11=1$，故 436-555-4601 的哈希值是 $1$。


有些折叠法多了一步，在相加之前，把数据位顺序反转。

即 43+56+55+64+01=219 计算219 % 11=10。

## 平方取中法

先计算元素的平方值，再从中提取几位数字。

例如，对元素44，先计算$44^2=1936$，提取中间两位 $93$，然后再取余数法，得到$5 ~~(93\%11=5)$。


| Item        | Hash value | Mid-Square |
| ------------- |:-------------:|   ------------- |
|54 |   10 | 3 |
|26 |   4  | 7 |
|93 |   5  | 9 |
|17 |   6  | 8 |
|77 |   0  | 4 |
|31 |   9  | 6 |

## 字符类元素的哈希函数

对于字符类元素也能创建哈希函数，如单词cat可以看成一个数字串。

In [7]:
ord('c')

99

In [11]:
ord('a')

97

In [10]:
ord('t')

116

将这三个数字相加，再用余数法来计算哈希值。


<img src='images/stringhash.png'> <img>

In [13]:
def hash(astring, tablesize):
    sum = 0
    for pos in range(len(astring)):
        sum = sum + ord(astring[pos])
 
    return sum%tablesize

有意思的是，该算法中，相同字母不同顺序的单词得到的哈希值相等，解决办法是加上字母的位置作为权重。下图中，使用了位置作为权重因子：

<img src='images/stringhash2.png'> <img>

 你也可以思考几种计算哈希值的方法，但必须要记住，哈希函数必须要简单高效，不能成为计算的主要负担。
 
 如果哈希函数太复杂，计算槽位名的时间超过了简单的顺序查找或二分查找的时间，那么哈希函数还有什么意义呢？

# 冲突解决

现在回到前面提到的冲突问题。

当两个元素的哈希值指向同一个槽位，就应该有办法把第二个元素放进表中，这个过程叫做“冲突解决”。

我们前面说过的，如果哈希函数是完美的，不会发生冲突。但完美无缺的事很少，所以冲突解决就成为哈希算法中的重要部分。

## 处理冲突的方法一

为引起冲突的元素找到另一个位置。

简单的做法就是从原来的位置开始，顺序向前查找，直到遇到一个空闲的槽位为止。

注意的是我们可能需要循环地从第一个槽位开始以便覆盖整个哈希表。这种方法叫做开放地址法，因为它就是在哈希表中找下一个空闲槽位。通过系统地访问每个槽位，我们的开放地址技术叫做线性探测。

以(54, 26, 93, 17, 77, 31, 44, 55, 20)为例

| Item        | Hash value |
| ------------- |:-------------:|  
|54 |   10 |
|26 |   4  |
|93 |   5  |
|17 |   6  |
|77 |   0  |
|31 |   9  |

<img src='images/hashtable2.png'> <img>

* 当我们试图放置 44 到 0 位的时候，冲突发生了。使用线性探测技术，我们按顺序一个槽位一个槽位地找，最终找到一个空闲槽位，即 1 位。
* 55 也应该在 0 位上，但不得不放在 2 位上，因为这是第二个空闲位置。
* 20 的哈希值是 9，但 9 已经被占了，不得不再作探测，我们查找了 10，0，1，和 2 位，最后在 3 位上发现一个空位。


<img src='images/linearprobing1.png'> <img>


一旦我们用开放地址和线性探测法建立了一个哈希表，那就有必要用同样的方法实现查找。

* 假设我们要找 93，计算哈希值，得到 5，查找 5 号槽，果然发现 93，这时可以返回 True 值。

* 如果要找 20 呢？ 哈希值是 9，但 9 位上坐着 31，这就不能简单地返回False。因为我们知道可能存在冲突，这时就要进行一下顺序查找，从 10 位开始，逐个查找直到找到 20 或发现空槽位。

线性探测一个不好的地方就是可能引起聚类现象，元素在表里成群出现。

这是因为如果在同一槽位上发生很多冲突的话，周边的槽位就会被线性探测找到并填满，这会影响到其他插入的元素。

就象前面我们看到插入20的情况，20不得不跨过0后面好几个元素才找到开放地址，如下图所示。

<img src='images/clustering.png'> <img>

一种解决办法是延伸线性探测，改变就近查找空槽的方法，而是跳过几个槽位，这样冲突的元素可以分散开来，从而潜在减少了聚类现象的可能性。

下图显示的是线性+3探测，即冲突发生时，我们每隔3个位置探测一下是否空槽。

<img src='images/linearprobing2.png'> <img>

在发生冲突后查找另一个空槽的方法称为“再哈希”，再哈希函数的一般定义为
$$ NewHashValue = rehash(OldHashValue)$$ 

* 用线性探测法时，
 $$ rehash(pos) ~~=~~ (pos+1)~~ \% ~~sizeoftable$$
* 用+3探测法时， 
 $$ rehash(pos) ~~=~~ (pos+3)~~\% ~~sizeoftable$$
* 一般情况下：
 $$ rehash(pos) ~~=~~ (pos+skip) ~~\%~~ sizeoftable$$

变量$skip$的选择必须保证表中所有的槽位都能访问到，否则，表中有些位置就会一直空闲。

因此，为保证$skip$取值合适，一般建议哈希表的大小是个质数，这也是为什么前面的例子中我们使用了$11$。

线性探测思想的一个变种称为二次探测。它不再使用一个常数的“跳步”，而是用再哈希函数来逐次提高哈希值如1，3，5，7，9等。

这就是说，如果第一次计算得到的哈希值是$h$,那么后续的值就是$h+1, h+4, h+9, h+16$等。

换句话说，二次探测使用了完全平方数作为跳步。下图使用了这个技术。

<img src='images/quadratic.png'> <img>

## 处理冲突的方法二

让槽位上保存一个指向链地址的引用，这个方法可以在一个槽位上存在很多元素。这样当发生冲突时，元素仍然可以放在这个槽位上。但是如果越来越多的元素放置在同一槽位上，查找的难度也要增加。

下图使用了链地址方法解决冲突。

<img src='images/chaining.png'> <img>

当查找一个元素时，使用哈希函数计算出一个元素“应该”在的槽位值，既然每个槽位挂了一个集合，也要使用查找技术来判断是否存在。这样的好处是每个槽位上的元素数量要少很多，所以查找的效率更高。 

# 实现map抽象数据类型

字曲是python里最有用的数据集合之一，字典是 key-value 的组合，key-value 用来查找相应的数据，我们把这种思想称为“map”。

## map的抽象数据类型

map是一个无序的键值对的集合，键总是唯一的，以便建立与数据值的一一对应关系。

map的操作方法如下：
* Map( ): 创建一个空 map，返回一个空集合。
* put(key, val): 在 map 中增加新的键值对，如果键已经存在，则用新值代替旧值。
* get(key):  根据给定的键，返回对应的值，找不到时返回 None。
* del: 从 map 中删除键值对，其形式为 del map[key]。
* len(): 返回 map 中键值对的数量。
* in: 如果键在 map 中，则语句key in map返回 True，否则返回 False。

字典的好处之一，是给一个键可以很快返回相关的数据。为了提供这样快速查询的能力，我们需要引入一个高效的查找功能。

可以对列表使用顺序或二分查找，但最好是用哈希表，因为它能提供接近$O(1)$的性能。


以下代码中我们使用两个列表来创建 HashTable 类，以实现 map 的抽象数据类型。

* 一个名为 slots 的列表，用来保存键；
* 一个名为 data 的列表，用来保存数据。

查询键时，data列表相应的位置上就保存有数据。

我们将slots处理成哈希表。注意哈希表的初始大小为是11，虽然这个大小是随意的，但是选择为质数特别重要，因为这样一来后面处理冲突的效率就比较高。

In [34]:
class HashTable():
    def __init__(self):
        self.size  = 11
        self.slots = [None] * self.size
        self.data  = [None] * self.size

#### Hashfunction()：哈希函数

简单地采用余数法。

In [36]:
def hashfunction(self, key, size):
     return key%size

#### rehash()：再哈希函数，用于解决冲突

采用+1线性探测。

In [37]:
def rehash(self, oldhash, size):
    return (oldhash + 1)%size

#### put 函数

除非 self.slots 中包括键 key，否则这个槽位就认为是空的。它计算出的哈希值如果非空，就迭代rehash函数，直到找到一个空槽位。如果一个非空的槽位上已经有键值，就用新数据代替原数据。

In [49]:
def put(self, key, data):
    hashvalue = self.hashfunction(key, self.size)
 
    if self.slots[hashvalue] == None:
        self.slots[hashvalue] = key
        self.data[hashvalue] = data
    else:
        if self.slots[hashvalue] == key:
            self.data[hashvalue] = data  #replace
        else:
            nextslot = self.rehash(hashvalue, self.size)
            while self.slots[nextslot] != None and \
                      self.slots[nextslot] != key:
                nextslot = self.rehash(nextslot, self.size)
 
            if self.slots[nextslot] == None:
                self.slots[nextslot] = key
                self.data[nextslot] = data
            else:
                self.data[nextslot] = data #replace

#### get()

从计算哈希值开始，如果这个值不是一个起始的槽位，rehash就去查找另一个可能的位置。

注意第15行检查有没有返回最早的槽位，如果是，查找将停止，因为那表明已经找过所有的槽位，元素不存在。

In [50]:
def get(self, key):
    startslot = self.hashfunction(key, self.size)
    data = None
    stop = False
    found = False
    position = startslot
    while self.slots[position] != None and  \
                       not found and not stop:
        if self.slots[position]== key:
            found = True
            data = self.data[position]
        else:
           position = self.rehash(position,self.size)
           if position == startslot:
               stop = True
    return data

#### 附加的字典函数。

我们重载了\_\_getitem\_\_和 \_\_setitem\_\_方法来实现“[ ]”符号的使用。这也意味着，一旦HashTable对象创建，熟悉的索引方法就可用了。

In [40]:
def __getitem__(self, key):
    returnself.get(key)
 
def __setitem__(self, key, data):
    self.put(key, data)

## 完整代码

In [44]:
class HashTable:
    def __init__(self):
        self.size = 11
        self.slots = [None] * self.size
        self.data = [None] * self.size

    def put(self, key, data):
      hashvalue = self.hashfunction(key, self.size)

      if self.slots[hashvalue] == None:
        self.slots[hashvalue] = key
        self.data[hashvalue] = data
      else:
        if self.slots[hashvalue] == key:
          self.data[hashvalue] = data  #replace
        else:
          nextslot = self.rehash(hashvalue, self.size)
          while self.slots[nextslot] != None and \
                          self.slots[nextslot] != key:
            nextslot = self.rehash(nextslot, self.size)

          if self.slots[nextslot] == None:
            self.slots[nextslot] = key
            self.data[nextslot] = data
          else:
            self.data[nextslot] = data #replace

    def hashfunction(self, key, size):
         return key % size

    def rehash(self, oldhash, size):
        return (oldhash+1) % size

    def get(self, key):
      startslot = self.hashfunction(key, self.size)

      data = None
      stop = False
      found = False
      position = startslot
      while self.slots[position] != None and  \
                           not found and not stop:
         if self.slots[position] == key:
           found = True
           data = self.data[position]
         else:
           position=self.rehash(position,len(self.slots))
           if position == startslot:
               stop = True
      return data

    def __getitem__(self,key):
        return self.get(key)

    def __setitem__(self,key,data):
        self.put(key,data)

H=HashTable()
H[54]="cat"
H[26]="dog"
H[93]="lion"
H[17]="tiger"
H[77]="bird"
H[31]="cow"
H[44]="goat"
H[55]="pig"
H[20]="chicken"
print(H.slots)
print(H.data)

print(H[20])

print(H[17])
H[20]='duck'
print(H[20])
print(H[99])

[77, 44, 55, 20, 26, 93, 17, None, None, 31, 54]
['bird', 'goat', 'pig', 'chicken', 'dog', 'lion', 'tiger', None, None, 'cow', 'cat']
chicken
tiger
duck
None


# Analysis of Hashing

We stated earlier that in the best case hashing would provide a $O(1)$, constant time search technique. However, due to collisions, the number of comparisons is typically not so simple. Even though a complete analysis of hashing is beyond the scope of this text, we can state some well-known results that approximate the number of comparisons necessary to search for an item.

The most important piece of information we need to analyze the use of a hash table is the load factor, λλ. Conceptually, if λλ is small, then there is a lower chance of collisions, meaning that items are more likely to be in the slots where they belong. If λλ is large, meaning that the table is filling up, then there are more and more collisions. This means that collision resolution is more difficult, requiring more comparisons to find an empty slot. With chaining, increased collisions means an increased number of items on each chain.

As before, we will have a result for both a successful and an unsuccessful search. For a successful search using open addressing with linear probing, the average number of comparisons is approximately $\frac12\left(1+\frac1{1-\lambda}\right)$  and an unsuccessful search gives  $\frac12\left(1+\left(\frac1{1-\lambda}\right)^2\right)$ If we are using chaining, the average number of comparisons is $1+\frac\lambda2$ for the successful case, and simply $\lambda$ comparisons if the search is unsuccessful.


# 排序

排序是将集合中的元素以某种规律放置的过程。例如，

* 一个单词的列表，可以按字母顺序排列；
* 一个城市的列表，可以按人口、面积、邮政编码来排序。

关于有序列表的好处，在折半查找中有过体现。

很多的排序算法被开发和分析，这也说明排序在计算机科学中的重要性。

大数据量的排序要占用海量的计算资源。同查找一样，排序的算法效率与元素的数量有关。

* 对小的数据集来说，复杂的排序算法没有必要，其代价太高。

* 对大的数据集来说，应尽可能地采用高效率的算法。

本节中，我们将讨论几种排序算法，并比较它们的运行时间。

在讲具体的算法之前，先考虑一下在算法过程中要用到的操作。

1. 比较
   
   为了排序，需要一个系统化的方法比较元素的大小以判断他们是否在正确的位置上。总的比较次数是评估排序过程的通用方法。
   
2. 交换
  
   如果数值不在正确的位置上，交换次数也是评估算法效率的重要方法。

# 冒泡排序

冒泡排序算法需要多次访问列表，它比较相邻的两个元素，如果次序不对，就交换位置。每次遍历都把最大元素放到合适的位置上，这就象气泡上浮到合适的位置。

下图是冒泡排序的第一次遍历。阴影部分是正在比较元素位置是否合适。如果有 $n$ 个元素，那么就要有 $n-1$ 次比较。注意：如果最大元素在参与比较，它就被一直推动着向上直到最顶。

<img src='images/bubblepass.png'> <img>

第二次遍历开始时，最大元素已经就位。此时只剩下 $n-1$ 个元素要排序，意味着要进行 $n-2$ 次比较。

经过 $n-1$ 次比较、交换之后，最小元素也一定就位，不再需要交换。

对于交换操作，交换两个元素时，需要一个临时变量(需要额外的地址空间)：

In [None]:
temp = alist[i]
alist[i] = alist[j]
alist[j] = temp

* 如果不用临时变量，其中一个值会被覆盖。

* 在 python 中，允许进行同时赋值。
  
  赋值语句 a, b = b, a 能够一次完成两次赋值命令（见下图）。使用同时赋值语句，交换操作也可以一次完成。

<img src='images/swap.png'> <img>

In [4]:
def bubbleSort(alist):  
   for passnum in range(len(alist)-1,0,-1):  
       for i in range(passnum):  
           if alist[i] > alist[i+1]:  
                temp = alist[i]  
                alist[i] = alist[i+1]  
                alist[i+1] = temp  
   
alist = [54,26,93,17,77,31,44,55,20]  
bubbleSort(alist)  
print(alist)  

[17, 20, 26, 31, 44, 54, 55, 77, 93]


## 冒泡排序算法的分析

不管列表元素原来如何排列，必须进行 $n-1$ 次遍历。下表显示了每次遍历所要进行的比较次数。

| Pass        | Comparisons |
| ------------- |:-------------:|  
|1 |   n-1 |
|2 |   n-2  |
|3 |   n-3  |
|... |   ...  |
|n-1 |   1  |
 
总的比较次数是
$$
1+2+\cdots+(n-1) = \frac{n(n-1)}2 = O(n^2).
$$ 



关于交换：

* 最好情况：如果列表是有序的，一次交换也没有。

* 最坏情况：每次比较都引起一次交换；

* 平均情况：有一半的交换。 

一般认为冒泡排序是效率最差的排序算法，因为它在元素最终确定位置之前反复交换。这些浪费的交换操作很费资源。

不过，因为冒泡排序对整个未排序部分遍历，它也能做到一些其他算法做不到的事情。

在特殊情况下，如果一次遍历也没有发生交换，就可以确定该列表一定是有序的，冒泡排序就可以提前停止。这意味着列表只需要一次遍历就知道自身是有序的，从而提高效率。

利用了这个特点的冒泡算法，通常称为”短冒泡算法“。

In [5]:
def shortBubbleSort(alist):  
   exchanges = True  
   passnum = len(alist)-1  
   while passnum > 0 and exchanges:  
      exchanges = False  
      for i in range(passnum):  
          if alist[i]>alist[i+1]:  
               exchanges = True  
               temp = alist[i]  
               alist[i] = alist[i+1]  
               alist[i+1] = temp  
      passnum = passnum-1  
   
alist=[20,30,40,90,50,60,70,80,100,110]  
shortBubbleSort(alist)  
print(alist)  

[20, 30, 40, 50, 60, 70, 80, 90, 100, 110]


# 选择排序

选择排序是冒泡排序的改进，每一次遍历只做一次交换。它在一次遍历中找到最大的元素，结束时放到合适的位置，正如冒泡排序一样，一次遍历后最大的元素就位。第二次遍历后，第二大的元素就位，这样持续进行，需要 $n-1$ 个遍历来为 $n$ 个元素排序。

下图展示了一个完整的排序过程：每一次遍历，剩余最大的元素被选中并正确就位，所以第一次选择了93、第二次选择77、第三次选择55、等等。 

<img src='images/selectionsortnew.png' width="400" height="400"> <img>

In [52]:
def selectionSort(alist):
   for fillslot in range(len(alist)-1, 0, -1):
       positionOfMax = 0
       for location in range(1, fillslot+1):
           if alist[location] > alist[positionOfMax]:
               positionOfMax = location

       temp = alist[fillslot]
       alist[fillslot] = alist[positionOfMax]
       alist[positionOfMax] = temp

alist = [54, 26, 93, 17, 77, 31, 44, 55, 20]
selectionSort(alist)
print(alist)

[17, 20, 26, 31, 44, 54, 55, 77, 93]


### 选择排序算法的分析

* 比较次数
  
  和冒泡排序一样多，所以它的性能依然是 $O(n^2)$。

* 交换次数

  比冒泡排序要少，所以选择排序一般运行得比冒泡要快。

# 插入排序 

插入排序的性能仍然是$O(n^2)$，但工作模式稍有不同。它总是在列表的低端保持一个有序的子列表，后面的元素被逐个“插入”到前面的有序子表，这样有序的子表就逐渐变大。

下图是插入排序的过程，阴影部分是排好序的子列表。

<img src='images/insertionsort.png'>

开始时假设一个只有一个元素（在 $0$ 位上）的列表而且是有序的。

在进行第 $i(i=1,2,\cdots,n-1)$ 次遍历时，将位于第 $i$ 位的元素（称为”当前元素“）与有序的子列表进行比较。若子列表中的元素比当前元素大，往前移动；当遇到一个比它小的元素或到达子列表的终点时，当前元素就插在这个位置上。

下图展示了第5次遍历的细节。

这时已经生成一个有序的子表，包含17，26，54，77和93五个元素。下面要把31插入到这个子表中。先与93比较，93向右移动一个位置，然后是77和54也移动了，当遇到26时，停止移动，31放在空白位置上，这时就有序子表有6个元素了。

<img src='images/insertionpass.png'>

插入排序仍然需要 $n-1$ 次遍历来移动 $n$ 个元素。迭代过程从 $1$ 开始到 $n-1$，因为这些位置上的元素是需要向后插入到有序子表中的。

第8行执行将元素向后移动的操作。记住这个操作与前面的算法相比，不是一个完整的交换过程。

In [56]:
def insertionSort(alist):
   for index in range(1, len(alist)):
     currentvalue = alist[index]
     position = index
     while position > 0 and alist[position-1] > currentvalue:
         alist[position] = alist[position-1]
         position = position-1
     alist[position] = currentvalue

alist = [54,26,93,17,77,31,44,55,20]
insertionSort(alist)
print(alist)

[17, 20, 26, 31, 44, 54, 55, 77, 93]


### 插入排序算法的分析

* 比较次数
  
  * 最坏情况为$1+2+\cdots+(n-1)=\frac{n(n-1)}2=O(n^2)$次。
  * 最好情况，即有序列表的情形，只需一次遍历。

* 关于交换
   
  不涉及交换，但需要移动元素的位置。 一般情况下，移动操作大概需要交换操作三分之一资源，因为移动只需要一次赋值操作。在性能测试中，插入排序显示了很好的性能。

# 希尔排序(shell sort) 

希尔排序，有时也称”递减增量排序“，是在插入排序的基础上，把列表拆成几个较小的子表，然后对每个子表使用插入排序的方法。

选出子表的方法是希尔排序的关键，它并不是把列表的中相近的元素取出来组成子表，而是使用了一个增量值 $i$，有时也叫做“间隙”，然后每隔一个间隙选中一个元素来组成子表。

如下图，列表中有9个元素，若使用增量3，就有3个子表，每个子表单独做插入排序。

<img src='images/shellsortA.png'>

完成后的列表如下图，这个表没有完全排序。但可以发现，对子表排序后，元素已经很接近它们的最终位置。

<img src='images/shellsortB.png'>

最后使用一个增量为1的插入排序，亦即标准的插入排序。得益于前面的子表排序过程，现在需要移动操作要少得多。在这个例子中，只需要移动4次就完成了排序。

<img src='images/shellsortC.png'>

希尔排序的独特性就是增量的选取，以下函数使用了一个不同增量的集合，从 n/2 个子表开始，下一步就是 n/4 个子表要排序，最终是 1 个子表进行插入排序。

下图是这种增量的第一批4个子表。

<img src='images/shellsortD.png'>

In [66]:
def shellSort(alist):
    sublistcount = len(alist) // 2
    while sublistcount > 0:

      for startposition in range(sublistcount):
        gapInsertionSort(alist, startposition, sublistcount)

      print("After increments of size", sublistcount,
                                   "The list is", alist)

      sublistcount = sublistcount // 2

In [67]:
def gapInsertionSort(alist, start, gap):
    for i in range(start+gap, len(alist), gap):

        currentvalue = alist[i]
        position = i

        while position >= gap and alist[position-gap] > currentvalue:
            alist[position] = alist[position-gap]
            position = position-gap

        alist[position] = currentvalue

In [68]:
alist = [54, 26, 93, 17, 77, 31, 44, 55, 20]
shellSort(alist)
print(alist)

After increments of size 4 The list is [20, 26, 44, 17, 54, 31, 93, 55, 77]
After increments of size 2 The list is [20, 17, 44, 26, 54, 31, 77, 55, 93]
After increments of size 1 The list is [17, 20, 26, 31, 44, 54, 55, 77, 93]
[17, 20, 26, 31, 44, 54, 55, 77, 93]


乍看起来，希尔排序不见得比插入排序更好，因为最后一步就完全是一个插入排序。但是，最后一步的插入排序，不需要很多步骤来完成比较和移动，因为通过前面的增量插入排序，列表已经做了“预排序”，也就是说，这个列表已经比普通列表“更有序”，所以在效率上有很大的不同。
对希尔排序的详细分析超出本书的范围，不过我们可以说，它趋向于O(n) 和 O(n2) 之间。对listing5中的增量，性能是O(n2)，变更增量，例如使用 2k−1 (1, 3, 7,15, 31, 等)，性能可达到O(n3/2).
