## 堆排序

- 利用堆的性质进行的一种选择排序

### 堆
- 完全二叉树
- 任意一非叶子节点的值不大于或者不小于其左右孩子节点的值。key[i]<=(>=) key[2i+1] && key[i]<= (>=) key[2i+2]
- 大（小）顶堆：堆顶纪录的是最大（小）关键字

### 堆排序
- 利用大（小）顶堆堆顶纪录的是最大（小）关键字，使得每次从无序中选择最大（小）记录变的简单
- 基本思想（以大顶堆为例）：
    - 将初始待排序序列构建成大顶堆
    - 将堆顶元素key[0]与最后一个元素key[n-1]交换，此时得到新的无序区
    - 对当前无序区调整为新堆，再次将key[0]和最后一个元素交换，得到无序区（key0,key1, ..., keyn-3）和有序区(keyn-2, keyn-1)
- 最重要的两个操作是**构造初始堆和调整堆**
    - 构造初始堆事实上也是调整堆的过程，只不过构造初始堆是对所有的非叶子节点进行调整
    - 每次调整都是从父节点、左孩子节点、右孩子节点中选择最大者与父结点进行交换。交换之后可能造成被交换的孩子节点不满足堆的性质，因此每次交换之后要重新堆被交换的孩子节点进行调整
    

In [18]:
# 调整堆
def adjust_heap_max(lists, i, size):
    lchild = 2 * i + 1
    rchild = 2 * i + 2
    maxIndex = i
    
    if i < size / 2:
        if lchild < size and lists[lchild] > lists[maxIndex]:
            maxIndex = lchild
        if rchild < size and lists[rchild] > lists[maxIndex]:
            maxIndex = rchild
        if maxIndex != i:
            lists[maxIndex], lists[i] = lists[i], lists[maxIndex]
            adjust_heap_max(lists, maxIndex, size)

# 创建堆
def build_heap_max(lists, size):
    for i in range(size/2-1, -1, -1):
        adjust_heap_max(lists, i, size)
        
# 堆排序
def heap_sort(lists):
    size = len(lists)
    build_heap_max(lists, size)
    for i in range(size-1, -1, -1):
        lists[0], lists[i] = lists[i], lists[0]
        adjust_heap_max(lists, 0, i)
    return lists


In [19]:
import random

def get_randomNum(num):
    lists = []
    i = 0
    while i < num:
        lists.append(random.randint(0, 100))
        i += 1
    return lists

In [20]:
a = get_randomNum(10)
print a

[59, 81, 78, 16, 79, 49, 51, 47, 90, 69]


In [21]:
b = heap_sort(a)
print b

[16, 47, 49, 51, 59, 69, 78, 79, 81, 90]


### 算法分析

- 选择排序，树形选择排序
- 树形选择排序恰好利用树形的特点保存了部分前面的结果，因此可以减少比较次数
- 对于n个关键字序列，最坏情况下每个节点需比较log2(n)次，因此其最坏情况下时间复杂度为nlogn
- 堆排序为不稳定排序，不适合记录较少的排序

### 最小的k个数
- 构建最小堆
- 循环k次，取最后的k个结果

In [26]:
def adjust_heap_min(tinput, i, size):
    left = 2 * i + 1
    right = 2 * i + 2
    minIndex = i
            
    if i < size/2:
        if left < size and tinput[left] < tinput[minIndex]:
            minIndex =  left
        if right < size and tinput[right] < tinput[minIndex]:
            minIndex = right
        if minIndex != i:
            tinput[i], tinput[minIndex] = tinput[minIndex], tinput[i]
                    
            adjust_heap_min(tinput, minIndex, size)
        
def build_heap_min(tinput, size):
    for i in range(size/2-1, -1, -1):
        adjust_heap_min(tinput, i, size)
        
def find_k_smallest(tinput, k):
    if k <= 0 or len(tinput) < k:
        return 
    
    else:
        size = len(tinput)
        build_heap_min(tinput, size)
        for i in range(size-1, size-1-k, -1):
            tinput[0], tinput[i] = tinput[i], tinput[0]
            adjust_heap_min(tinput, 0, i)             
        return tinput[size-1: size-1-k: -1]

In [27]:
a = get_randomNum(10)
print a

[38, 90, 5, 18, 99, 58, 71, 5, 7, 61]


In [28]:
# 利用大顶堆对全部数据小大排序
print heap_sort(a)

[5, 5, 7, 18, 38, 58, 61, 71, 90, 99]


In [29]:
# 利用小顶堆找出前k大的数
print find_k_smallest(a, 4)

[5, 5, 7, 18]


### 利用最大堆，结果未排序

In [30]:
def find_k_smallest_2(tinput, k):
    if k <= 0 or len(tinput) < k:
        return 
    else:
        tinput_k = tinput[:k]
        tinput_left = tinput[k:]
        build_heap_max(tinput_k, k)
        for item in tinput_left:
            if tinput_k[0] > item:
                tinput_k[0] = item
                adjust_heap_max(tinput_k, 0, k)
        return tinput_k
                

In [31]:
print find_k_smallest_2(a, 4)

[18, 5, 7, 5]
