# 堆排序

## 堆是用树的形式来表示

# 最大堆：

## （1）任何一个节点不大于其父节点
## （2）从上到下，除了最后一层，其他每层的节点数量都是最多的
## （3）如果最后一层的节点数量不是达到最多，那么，最后一层的数据都必须集中在左侧。

## 首先，用数组来实现最大堆

### （1）树的根结点标记索引为1，而不是0开始。
### （2） 从上到下逐层，从左至右逐个节点，进行索引标记
### （3）元素的索引对应数组的索引
### （4）这些索引存在如下关系：索引为i的元素，其父元素索引是i/2；其左子节点元素索引是2*i；右子节点元素索引是2*i+1

In [1]:
class MaxHeap:
    def __init__(self, capacity=None, arr=None):
        """
        最大堆的类
        传入堆的容量
        或者
        使用数组来构造、存储堆
        存储的堆的数组，第0个元素是None，有效数值是从索引1开始的
        """
        assert (capacity!=None or arr!=None)
        
        if arr==None:
            self.__data=[None]*(capacity+1)
            self.__capacity=capacity
            # 实际存储的元素个数
            self.__count=0
        else:
            # 根据数组，来构建堆
            self.__capacity=len(arr)+1
            self.__count=len(arr)
            self.__data=[None]
            for a in arr:
                self.__data.append(a)
                
            # 将传入的数组，整理成堆的表示
            # 从下往上，整理堆
            # 如果数组有count个，则从count/2索引位置开始，进行堆整理
            i=int(self.__count/2)
            while i>=1:
                self.__shiftDown(i)
                i-=1
    
    def size(self):
        return self.__count
    
    def isEmpty(self):
        return self.__count==0
    
    def show(self):
        print(self.__data[1:self.__count+1])
    
    def insert(self, item):
        """
        将新的数字，加入到最大堆中，使得新的堆仍然是最大堆
        思路是：
        （1）将num加入到数组最后
        （2）根据新元素的索引i，找到其父元素的索引i/2，如果父元素大于新的元素，则不需要任何操作
        （3）如果父元素小于该新元素，则将父元素和新元素交换位置，并重新设置索引i
        （4）以此类推，继续查询新的索引i的父元素，是否满足最大堆的定义
        """
        # 注意：这里的索引是从 1 开始的
        assert self.__capacity>=(self.__count+1)
        
        self.__data[self.__count + 1]=item        
        self.__count +=1
        
        self.__shiftUp()
    
    def __shiftUp(self):
        k=self.__count
        #判断元素是否小于其父节点
        while k>1 and self.__data[int(k/2)]<self.__data[k]:
            # 如果节点的值  大于 其父节点，则交换位置
            t=self.__data[int(k/2)]
            self.__data[int(k/2)]=self.__data[k]
            self.__data[k]=t
            
            k=int(k/2)
    
    def extractMax(self):
        """
        取出最大堆的根节点
        将数组最后的元素移动到根节点
        然后,比较新跟节点的左右两个子节点，将新的根节点与较大的子节点交换位置
        以此类推，直到保证新的树仍然是最大堆
        """
        # 返回根节点的值
        assert self.__count>0
        
        res=self.__data[1]
        # 将数组最后的元素 交换到根节点
        self.__data[1]=self.__data[self.__count]
        self.__data[self.__count]=None
        self.__count -=1
        
        # 从上到下，检查是否满足最大堆的要求
        self.__shiftDown()
        
        return res
    
    def __shiftDown(self, idx=None):
        """
        从上到下检查是否满足最大堆
        如果不满足，则将父节点，与左/右子节点进行交换
        如果传入idx，表示从索引idx开始往下检查、并满足堆的要求
        """
        k=1
        if idx!=None:
            k=idx
            
        while 2*k<=self.__count:
            # （1）有左子节点；（2）父节点，必须比子节点大
            maxIdx=2*k
            if 2*k+1<=self.__count:
                if self.__data[2*k+1]>self.__data[2*k]:
                    maxIdx=2*k+1
            # 如果父元素比子节点都大，则退出循环
            if self.__data[k]>self.__data[maxIdx]:
                break
                
            # 如果父节点不是最大的，则交换位置
            t=self.__data[k]
            self.__data[k]=self.__data[maxIdx]
            self.__data[maxIdx]=t
            
            k=maxIdx

In [2]:
import numpy as np

In [3]:
mh1=MaxHeap(100)
for i in np.random.randint(0, 100, 15):
    mh1.insert(i)

mh1.show()

res=[]
while mh1.isEmpty()==False:
    res.append(mh1.extractMax())
print(res)

[99, 96, 97, 69, 84, 53, 79, 32, 57, 57, 70, 3, 33, 17, 42]
[99, 97, 96, 84, 79, 70, 69, 57, 57, 53, 42, 33, 32, 17, 3]


# 按照最大堆表示后，每次取根节点出来，最后的输出，就是：所有数字从大到下排序了.

# 使用最大堆，进行排序

In [4]:
def heap_sort(arr):
    mh1=MaxHeap(len(arr)+1)
    
    for a in arr:
        mh1.insert(a)
    
    for i in range(len(arr)-1,-1,-1):
        arr[i]=mh1.extractMax()

In [5]:
def test_sort(sort_method, n, top_k=10):
    import numpy as np
    arr=np.random.randint(0,100,n)
    print("before sort:", arr[:top_k])
    %%time
    sort_method(arr)
    print("after sort:",arr[:top_k])

In [6]:
test_sort(heap_sort,100000)

before sort: [17 96 56 94 60 83  3 92 57 57]
Wall time: 0 ns
after sort: [0 0 0 0 0 0 0 0 0 0]


# 比较不同排序算法，在下列数组中的性能：

## （1）随机数组
## （2）近乎有序的数组
## （3）含有大量重复键值的数组

# 根据数组，构建堆的过程

In [14]:
import numpy as np
arr=np.random.randint(0, 100, 10)
arr=arr.tolist()
print(arr)
mh2=MaxHeap(arr=arr)

for i in range(len(arr)-1, -1, -1):
    arr[i]=mh2.extractMax()
print(arr)

[72, 19, 44, 35, 30, 28, 82, 33, 96, 38]
[19, 28, 30, 33, 35, 38, 44, 72, 82, 96]


# 构建堆的过程比较

## （1）元素逐个插入到空堆中，复杂度O(NlogN)

## （2）按照传入数组，先从前到后构建一个二叉树，然后，从count/2索引处，开始从下网上，shiftDown整理堆，从而生成最大堆，算法复杂度O(N)

# 原地堆排序

## 不需要额外的空间，原地对数组进行排序

In [36]:
class MaxHeap2:
    def __init__(self, arr):
        """
        根据数组，先构建完全二叉树，在此基础上创建最大堆
        数组索引从0开始
        堆中，最后一个非叶子节点索引为(count-1)/2
        对于索引为i的节点
        （1）其父节点索引：（i-1）/2
        （2）其左子节点索引：2*i+1
        （3）其右子节点索引：2*i+2
        """
        
        # 从最后的非叶子节点开始，向下整理成最大堆
        i=int((len(arr)-1)/2)
        while i>=0:
            self.__shiftDown(arr, len(arr), i)
            i-=1
        # 经过上述步骤，数组已经整理成最大堆了
        
        # 在最大堆上，进行原地排序
        # 最大堆的特性是：第0个元素是最大值。
        # 因此，思路是：先将第0个元素，与数组最后的元素，交换。
        # 这样，最大值就到末尾（最大值本来就应该在末尾，很好）
        # 在对剩下的数组，整理成最大堆。这样，第二大的数出现在第0个元素位置。再与剩余数组的最后元素交换位置。以此类推。
        
        i=len(arr)-1
        while i>0:
            # 第0个元素与第i个元素交换
            # 最大的元素移动到了最后的位置
            t=arr[0]
            arr[0]=arr[i]
            arr[i]=t
            
            self.__shiftDown(arr, i, 0)
            i-=1
    
    def __shiftDown(self, arr, n, k):
        """
        arr：数组
        n：数组arr的前n个元素（不包含索引为n的元素）
        k：从索引k开始，逐层往下整理
        针对二叉树的节点k，将数组的前n个元素，向下整理为最大堆
        注意，这里传递了参数n，表示，只是对数组的前n个元素，进行整理为堆。n后续的元素不做考虑。
        """
        while 2*k+1<n:
            maxIdx=2*k+1
            if 2*k+2<n:
                if arr[2*k+2]>arr[maxIdx]:
                    maxIdx=2*k+2
            if arr[k]<arr[maxIdx]:
                t=arr[k]
                arr[k]=arr[maxIdx]
                arr[maxIdx]=t
                
                k=maxIdx
            else:
                break

In [41]:
import numpy as np
arr=np.random.randint(0, 100, 1000000)
arr=arr.tolist()
print("before sort:", arr[:10])

%time
mh1=MaxHeap2(arr)

print("after sort:", arr[:10])

before sort: [14, 36, 94, 9, 71, 19, 13, 12, 82, 32]
Wall time: 0 ns
after sort: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
