# 剑指 Offer 40	最小的k个数  

思路：
- 排序
    - 先对数组排序，然后输出前k个数即为答案
    - 时间复杂度 $O(N \log N)$：排序算法的时间复杂度
    - 空间复杂度 $O(\log N)$：排序需要的额外空间
- 堆
    - 用一个大根堆来维护最小的前k个数
    - 时间复杂度 $O(N \log k)$：其中 N 是数组 arr 的长度。由于大根堆实时维护前 k 小值，所以插入删除都是 $O(\log k)$ 的时间复杂度，最坏情况下数组里 N 个数都会插入，所以一共需要 $O(N \log k)$ 的时间复杂度
    - 空间复杂度 $O(k)$：大根堆里最多k个数
- 快排思想
    - 我们可以借鉴快速排序的思想。我们知道快排的划分函数每次执行完后都能将数组分成两个部分，小于等于分界值 pivot 的元素的都会被放到数组的左边，大于的都会被放到数组的右边，然后返回分界值的下标。与快速排序不同的是，快速排序会根据分界值的下标递归处理划分的两侧，而这里我们只处理划分的一边
    - 如果返回的位置个数比k大，则在分界值pivot左侧
    - 如果返回的位置个数比k小，则在分界值pivot右侧
    - 如果相同，则直接返回
    - 时间复杂度 $O(N)$：期望时间复杂度$O(N)$。证明过程很复杂
    - 空间复杂度 $O(\log N)$：期望为 $O(\log N)$，递归调用的期望深度为 $O(\log N)$，每层需要的空间为 $O(1)$，只有常数个变量。最坏情况下的空间复杂度为 $O(N)$。最坏情况下需要划分 n 次，即 quick_select 函数递归调用最深 n−1 层，而每层由于需要 $O(1)$ 的空间，所以一共需要 $O(N)$ 的空间复杂度

注意：

在面试中，另一个常常问的问题就是这两种方法有何优劣。看起来分治法的快速选择算法的时间、空间复杂度都优于使用堆的方法，但是要注意到快速选择算法的几点局限性：

第一，算法需要修改原数组，如果原数组不能修改的话，还需要拷贝一份数组，空间复杂度就上去了。

第二，算法需要保存所有的数据。如果把数据看成输入流的话，使用堆的方法是来一个处理一个，不需要保存数据，只需要保存 k 个元素的最大堆。而快速选择的方法需要先保存下来所有的数据，再运行算法。当数据量非常大的时候，甚至内存都放不下的时候，就麻烦了。所以当数据量大的时候还是用基于堆的方法比较好。


In [1]:
class Solution:
    def getLeastNumbers(self, arr: [int], k: int) -> [int]:
        arr.sort()
        return arr[:k]


s = Solution()
print(s.getLeastNumbers(arr=[3, 2, 1], k=2))

[1, 2]


# 答案

## 排序

In [2]:
class Solution:
    def getLeastNumbers(self, arr: [int], k: int) -> [int]:
        arr.sort()
        return arr[:k]

## 堆

In [3]:
class Solution:
    def getLeastNumbers(self, arr: [int], k: int) -> [int]:
        import heapq
        if k == 0:
            return []

        hq = [-x for x in arr[:k]]
        heapq.heapify(hq)
        for i in range(k, len(arr)):
            if -hq[0] > arr[i]:
                heapq.heappop(hq)
                heapq.heappush(hq, -arr[i])
        ans = [-x for x in hq]
        return ans

## 快排思想

In [4]:
class Solution:
    def getLeastNumbers(self, arr: [int], k: int) -> [int]:
        if k == 0:
            return []
        # len(arr) - 1 因为要用最后一个作为标记量
        self.quick_select(arr, 0, len(arr) - 1, k)
        return arr[:k]

    def partition(self, arr, l, r):
        pivot = arr[r]
        i = l - 1
        for j in range(l, r):
            if arr[j] <= pivot:
                i += 1
                arr[i], arr[j] = arr[j], arr[i]
        arr[i + 1], arr[r] = arr[r], arr[i + 1]
        return i + 1

    def quick_select(self, arr, l, r, k):
        pos = self.partition(arr, l, r)
        num = pos - l + 1
        if num > k:
            self.quick_select(arr, l, pos - 1, k)
        elif num < k:
            self.quick_select(arr, pos + 1, r, k - num)

加入随机选择，能优化时间复杂度

In [5]:
class Solution:
    def getLeastNumbers(self, arr: [int], k: int) -> [int]:
        if k == 0:
            return []
        self.quick_select(arr, 0, len(arr) - 1, k)
        return arr[:k]

    def partition(self, arr, l, r):
        pivot = arr[r]
        i = l - 1
        for j in range(l, r):
            if arr[j] <= pivot:
                i += 1
                arr[i], arr[j] = arr[j], arr[i]
        arr[i + 1], arr[r] = arr[r], arr[i + 1]
        return i + 1

    def quick_select(self, arr, l, r, k):
        pos = self.randomized_partition(arr, l, r)
        num = pos - l + 1
        if num > k:
            self.quick_select(arr, l, pos - 1, k)
        elif num < k:
            self.quick_select(arr, pos + 1, r, k - num)

    def randomized_partition(self, arr, l, r):
        import random
        i = random.randint(l, r)
        arr[r], arr[i] = arr[i], arr[r]
        return self.partition(arr, l, r)