# 排序是避不开的

https://github.com/TheAlgorithms/Python

这个网站我 star 了，但是从来没看过. 今天读下里面的排序算法.

- 选泡插：选择排序、冒泡排序、插入排序
- 快归希堆：快速排序、归并排序、希尔排序、堆排序
- 桶计基：桶排序、计数排序、基数排序

# 冒泡排序

大致的思想是，双重遍历. 第一层的长度是数组的长度 `for i in reversed(range(length))`, 第二层的长度是 `for j in range(i)`.

每次比较相邻的两个元素，如果前一个比后一个大，则交换位置，这样一次遍历之后，最大的元素就在最后面了，然后再对前面的元素进行同样的操作，直到没有元素需要比较。

每次第二层的遍历完, 就能将最后一个元素放到正确的位置上. 第一层的长度是一点点再缩小.

In [None]:
from typing import Any


def bubble_sort(collection: list[Any]) -> list[Any]:
    """Pure implementation of bubble sort algorithm in Python

    :param collection: some mutable ordered collection with heterogeneous
    comparable items inside
    :return: the same collection ordered by ascending

    Examples:
    >>> bubble_sort([0, 5, 2, 3, 2])
    [0, 2, 2, 3, 5]
    >>> bubble_sort([0, 5, 2, 3, 2]) == sorted([0, 5, 2, 3, 2])
    True
    >>> bubble_sort([]) == sorted([])
    True
    >>> bubble_sort([-2, -45, -5]) == sorted([-2, -45, -5])
    True
    >>> bubble_sort([-23, 0, 6, -4, 34]) == sorted([-23, 0, 6, -4, 34])
    True
    >>> bubble_sort(['d', 'a', 'b', 'e', 'c']) == sorted(['d', 'a', 'b', 'e', 'c'])
    True
    >>> import random
    >>> collection = random.sample(range(-50, 50), 100)
    >>> bubble_sort(collection) == sorted(collection)
    True
    >>> import string
    >>> collection = random.choices(string.ascii_letters + string.digits, k=100)
    >>> bubble_sort(collection) == sorted(collection)
    True
    """
    length = len(collection)
    # 从后往前遍历, 每一轮遍历完, 就是将最大的数放在最后
    for i in reversed(range(length)):
        swapped = False
        # 从前往后遍历, 每次都把更大的值放到后面
        for j in range(i):
            # 左边的值小于右边的值, 交换位置, 同时设置标记位
            if collection[j] > collection[j + 1]:
                swapped = True
                collection[j], collection[j + 1] = collection[j + 1], collection[j]
        # 如果最后标记位没有改变, 说明已经排序完成, 直接返回
        if not swapped:
            break  # Stop iteration if the collection is sorted.
    return collection


if __name__ == "__main__":
    import doctest
    import time

    doctest.testmod()

    user_input = input("Enter numbers separated by a comma:").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    start = time.process_time()
    print(*bubble_sort(unsorted), sep=",")
    print(f"Processing time: {(time.process_time() - start)%1e9 + 7}")

# 选择排序

大致的思想是, 也是双重遍历. 每次一个取第一个数, 然后将它和剩余的数比较, 如果比它小, 就交换位置. 这样一轮下来, 最小的数就在第一个位置了. 然后再从第二个数开始, 重复上面的操作, 直到最后一个数.

和冒泡排序的差别在于, 这个是固定第一个数和其他数比较, 冒泡排序是两两比较.

冒泡排序是稳定的, 选择排序是不稳定的.
比如 [2, 2, 1], 选择排序时第一次选最小的数字时, 2 和 1 交换了, 两个 2 之间的顺序就变了.
对于冒泡排序, 第一次是 [2, 1, 2], 第二次是 [1, 2, 2], 两个 2 的相对顺序没有改变.

In [None]:
"""
This is a pure Python implementation of the selection sort algorithm

For doctests run following command:
python -m doctest -v selection_sort.py
or
python3 -m doctest -v selection_sort.py

For manual testing run:
python selection_sort.py
"""


def selection_sort(collection):
    """Pure implementation of the selection sort algorithm in Python
    :param collection: some mutable ordered collection with heterogeneous
    comparable items inside
    :return: the same collection ordered by ascending


    Examples:
    >>> selection_sort([0, 5, 3, 2, 2])
    [0, 2, 2, 3, 5]

    >>> selection_sort([])
    []

    >>> selection_sort([-2, -5, -45])
    [-45, -5, -2]
    """

    length = len(collection)
    # 从前往后遍历, 每次找出最小的数放在最左边
    for i in range(length - 1):
        least = i
        for k in range(i + 1, length):
            if collection[k] < collection[least]:
                least = k
        # 索引改变了, 所以 i 要和更小的数交换位置
        if least != i:
            collection[least], collection[i] = (collection[i], collection[least])
    return collection


if __name__ == "__main__":
    user_input = input("Enter numbers separated by a comma:\n").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    print(selection_sort(unsorted))

# 插入排序

大致的思想是, 也是双重遍历, 每次选择一个数, 将这个数插入到合适的位置中. 前面部分已经是有序的了.

这个也是稳定的排序算法.

In [None]:
"""
A pure Python implementation of the insertion sort algorithm

This algorithm sorts a collection by comparing adjacent elements.
When it finds that order is not respected, it moves the element compared
backward until the order is correct.  It then goes back directly to the
element's initial position resuming forward comparison.

For doctests run following command:
python3 -m doctest -v insertion_sort.py

For manual testing run:
python3 insertion_sort.py
"""

from collections.abc import MutableSequence
from typing import Any, Protocol, TypeVar


class Comparable(Protocol):
    def __lt__(self, other: Any, /) -> bool:
        ...


T = TypeVar("T", bound=Comparable)


def insertion_sort(collection: MutableSequence[T]) -> MutableSequence[T]:
    """A pure Python implementation of the insertion sort algorithm

    :param collection: some mutable ordered collection with heterogeneous
    comparable items inside
    :return: the same collection ordered by ascending

    Examples:
    >>> insertion_sort([0, 5, 3, 2, 2])
    [0, 2, 2, 3, 5]
    >>> insertion_sort([]) == sorted([])
    True
    >>> insertion_sort([-2, -5, -45]) == sorted([-2, -5, -45])
    True
    >>> insertion_sort(['d', 'a', 'b', 'e', 'c']) == sorted(['d', 'a', 'b', 'e', 'c'])
    True
    >>> import random
    >>> collection = random.sample(range(-50, 50), 100)
    >>> insertion_sort(collection) == sorted(collection)
    True
    >>> import string
    >>> collection = random.choices(string.ascii_letters + string.digits, k=100)
    >>> insertion_sort(collection) == sorted(collection)
    True
    """

    # 从 1 开始, 因为第一个元素默认是有序的
    for insert_index in range(1, len(collection)):
        # 当前值
        insert_value = collection[insert_index]
        while insert_index > 0 and insert_value < collection[insert_index - 1]:
            # 这个是将更大的数往后移动, 空出位置给更小的数
            collection[insert_index] = collection[insert_index - 1]
            # 索引减一, 就是从最大的开始, 一点点减少, 直到找到合适的位置. 前面部分已经是有序的
            insert_index -= 1
        # 上面遍历结束了, 找到了合适的位置, 将当前值插入
        collection[insert_index] = insert_value
    return collection


if __name__ == "__main__":
    from doctest import testmod

    testmod()

    user_input = input("Enter numbers separated by a comma:\n").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    print(f"{insertion_sort(unsorted) = }")

# 希尔排序

- 将待排序数组按照一定的间隔分为多个子数组，每组分别进行插入排序。这里按照间隔分组指的不是取连续的一段数组，而是每跳跃一定间隔取一个值组成一组
- 逐渐缩小间隔进行下一轮排序
- 最后一轮时，取间隔为 1，也就相当于直接使用插入排序。但这时经过前面的「宏观调控」，数组已经基本有序了，所以此时的插入排序只需进行少量交换便可完成

据说间隔非常重要, 互质会比较好.

空间复杂度是 O(1), 普遍认为最好的时间复杂度是 O(n^1.3).
希尔排序也是不稳定的排序算法.

# 堆排序

堆有两种情况, 最大堆或者最小堆. 分别是根节点的值大于等于或者小于等于左右子节点的值.

构建大顶堆有两种方式：

- 方案一：从 0 开始，将每个数字依次插入堆中，一边插入，一边调整堆的结构，使其满足大顶堆的要求；
- 方案二：将整个数列的初始状态视作一棵完全二叉树，自底向上调整树的结构，使其满足大顶堆的要求。

完全二叉树的几个性质。将根节点的下标视为 0，则完全二叉树有如下性质：

- 对于完全二叉树中的第 i 个数，它的左子节点下标：left = 2i + 1
- 对于完全二叉树中的第 i 个数，它的右子节点下标：right = left + 1
- 对于有 n 个元素的完全二叉树(n≥2)，它的最后一个非叶子结点的下标：n/2 - 1

看图上, i 是从上往下一行一行加的, 比如, 括号里是索引顺序

     4(0)
   /     \
  6(1)   5(2)
 /     \
8(3)  9(4)


时间复杂度: O(n logn)
空间复杂度: O(1)
堆排序是不稳定的排序算法.

In [None]:
"""
This is a pure Python implementation of the heap sort algorithm.

For doctests run following command:
python -m doctest -v heap_sort.py
or
python3 -m doctest -v heap_sort.py

For manual testing run:
python heap_sort.py
"""


def heapify(unsorted, index, heap_size):
    """
    unsorted: 待排序数组
    index: 当前节点索引
    heap_size: 堆大小, 第三个参数表示剩余未排序的数字的数量，也就是剩余堆的大小
    """
    largest = index
    # 左子节点的索引
    left_index = 2 * index + 1
    # 右子节点的索引
    right_index = 2 * index + 2

    # 和左子节点比较, 找到最大的节点的索引
    # 和 heap_size 比较是因为，后面的已经是排好序的，不需要再比较了
    if left_index < heap_size and unsorted[left_index] > unsorted[largest]:
        largest = left_index

    if right_index < heap_size and unsorted[right_index] > unsorted[largest]:
        largest = right_index

    # 如果最大节点不是 index, 需要交换位置, 并重新建堆
    if largest != index:
        unsorted[largest], unsorted[index] = unsorted[index], unsorted[largest]
        heapify(unsorted, largest, heap_size)


def heap_sort(unsorted):
    """
    Pure implementation of the heap sort algorithm in Python
    :param collection: some mutable ordered collection with heterogeneous
    comparable items inside
    :return: the same collection ordered by ascending

    Examples:
    >>> heap_sort([0, 5, 3, 2, 2])
    [0, 2, 2, 3, 5]

    >>> heap_sort([])
    []

    >>> heap_sort([-2, -5, -45])
    [-45, -5, -2]
    """
    # 数组长度
    n = len(unsorted)
    # 从最后一个非叶子节点开始建堆
    for i in range(n // 2 - 1, -1, -1):
        # 构建一个最大堆
        heapify(unsorted, i, n)
    
    # 每次将最大值放到最后，然后重新建堆
    for i in range(n - 1, 0, -1):
        # 每次都是和顶点的交换位置, 当前顶点是最大的值
        unsorted[0], unsorted[i] = unsorted[i], unsorted[0]
        # 每次减少一个位置, 就是 i 后面的已经排好序了
        heapify(unsorted, 0, i)
    return unsorted


if __name__ == "__main__":
    user_input = input("Enter numbers separated by a comma:\n").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    print(heap_sort(unsorted))

# 快速排序

快速排序算法的基本思想是：

从数组中取出一个数，称之为基数（pivot）
遍历数组，将比基数大的数字放到它的右边，比基数小的数字放到它的左边。遍历完成后，数组被分成了左右两个区域
将左右两个区域视为两个数组，重复前两个步骤，直到排序完成

时间复杂度：O(nlogn)
空间复杂度：O(nlogn)

快速排序是不稳定的排序算法.

In [None]:
"""
A pure Python implementation of the quick sort algorithm

For doctests run following command:
python3 -m doctest -v quick_sort.py

For manual testing run:
python3 quick_sort.py
"""
from __future__ import annotations

from random import randrange


def quick_sort(collection: list) -> list:
    """A pure Python implementation of quick sort algorithm

    :param collection: a mutable collection of comparable items
    :return: the same collection ordered by ascending

    Examples:
    >>> quick_sort([0, 5, 3, 2, 2])
    [0, 2, 2, 3, 5]
    >>> quick_sort([])
    []
    >>> quick_sort([-2, 5, 0, -45])
    [-45, -2, 0, 5]
    """
    # 小于两个数, 就不用比较了. 也是递归的终止条件
    if len(collection) < 2:
        return collection
    # 随机选一个数作为基准
    pivot_index = randrange(len(collection))  # Use random element as pivot
    pivot = collection[pivot_index]
    greater: list[int] = []  # All elements greater than pivot
    lesser: list[int] = []  # All elements less than or equal to pivot

    # 对于左边的值, 如果比基准值大, 就放到greater里面, 否则放到lesser里面
    for element in collection[:pivot_index]:
        (greater if element > pivot else lesser).append(element)

    # 对于右边的值, 如果比基准值大, 就放到greater里面, 否则放到lesser里面
    # 其实是一样的操作
    for element in collection[pivot_index + 1 :]:
        (greater if element > pivot else lesser).append(element)

    # 递归调用, 构建新的数组
    return [*quick_sort(lesser), pivot, *quick_sort(greater)]


if __name__ == "__main__":
    user_input = input("Enter numbers separated by a comma:\n").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    print(quick_sort(unsorted))

# 归并排序

归并排序基于这样的思想:

1. 如何合并两个有序的列表
2. 不断拆分列表, 直到列表只有一个元素, 然后合并

体现了分治的思想.

时间复杂度: O(nlogn)
空间复杂度: O(n)
稳定性: 稳定

In [None]:
"""
This is a pure Python implementation of the merge sort algorithm.

For doctests run following command:
python -m doctest -v merge_sort.py
or
python3 -m doctest -v merge_sort.py
For manual testing run:
python merge_sort.py
"""


def merge_sort(collection: list) -> list:
    """
    :param collection: some mutable ordered collection with heterogeneous
    comparable items inside
    :return: the same collection ordered by ascending
    Examples:
    >>> merge_sort([0, 5, 3, 2, 2])
    [0, 2, 2, 3, 5]
    >>> merge_sort([])
    []
    >>> merge_sort([-2, -5, -45])
    [-45, -5, -2]
    """

    def merge(left: list, right: list) -> list:
        """
        Merge left and right.

        :param left: left collection
        :param right: right collection
        :return: merge result
        """

        def _merge():
            # 左右有值的时候
            while left and right:
                # 哪个小就取出来, 直到有一个为空
                yield (left if left[0] <= right[0] else right).pop(0)
            # yield from 会把 left 和 right 剩下的元素一个个 yield 出来
            yield from left
            yield from right

        # 高级, 还省空间
        return list(_merge())

    # 小于等于 1 个元素就不用排序了
    if len(collection) <= 1:
        return collection

    # 二分分解
    mid = len(collection) // 2

    # 分别对左边和右边进行排序, 然后合并
    return merge(merge_sort(collection[:mid]), merge_sort(collection[mid:]))


if __name__ == "__main__":
    import doctest

    doctest.testmod()
    user_input = input("Enter numbers separated by a comma:\n").strip()
    unsorted = [int(item) for item in user_input.split(",")]
    print(*merge_sort(unsorted), sep=",")