数据结构和算法是一门很重要的内容, 只要是一个技术深耕者, 这项内容是逃不了的。只不过笔者刚开始接触编程的时候，连最基本的代码都不会写，更别提要去写数据结构和算法的代码了。但是笔者现在从事开发已经一年半了，在工作的过程中开始体会到数据结构和算法的重要性，所以打算认真地学习一下这部分内容。当然，数据结构和算法是一门永无止境的知识体系，需要我们去不断地在日常工作中去学习和总结，这里笔者讲述的内容只是基础。虽说是基础，but很重要，基础是迈向进阶的必经之路，所以基础必须牢牢掌握。

# 算法特征

一个算法应该具有以下五个重要的特征：
1. 有穷性： 算法的有穷性是指算法必须能在执行有限个步骤之后终止；
2. 确切性：算法的每一步骤必须有确切的定义；
3. 输入项：一个算法有0个或多个输入，以刻画运算对象的初始情况，所谓0个输入是指算法本身定出了初始条件；
4. 输出项：一个算法有一个或多个输出，以反映对输入数据加工后的结果。没有输出的算法是毫无意义的；
5. 可行性：算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步，即每个计算步都可以在有限时间内完成（也称之为有效性）。

笔者更关注的是算法的输入和输出，因为在平常的工作过程中，无论是面向函数编程去编写函数，还是面向对象编程去编写对象的方法，头脑应该保持清醒：输入是什么，想要的输出是什么。

# 时间复杂度

时间复杂度用来<font color="red">大致</font>描述一段代码的执行时间的。这里只能说是大致去估计一个算法的执行时间，比如在我们的日常生活中描述一件事，眨眼几秒钟，烧一壶水几分钟，睡一觉几小时，都是用"几"来描述时间的。在算法的领域，一般不会去比较两个眨眼谁快谁慢，比较的是两种不同的算法，比如眨眼和烧一壶水的时间长短。所以在算法中O(3)和O(1)都用O(1)表示。

看下面三段代码：






In [None]:
print('Hello World')
print('Hello Python')
print("Hello Algorithm")

In [None]:
for i in range(n):
    print('Hello World’)
    for j in range(n):
        print('Hello World')

In [None]:
for i in range(n):
    for j in range(i):
        print('Hello World')

对于第一段代码O(3), 第二段代码O(n*(n+1))

第三段代码: 当 n = 0, 内部执行 0 次， n = 1, 内部执行 1 次， n = 2, 内部执行 2 次， ... n = n，内部执行 n 次。因为第一层循环的是n从0一直取到n-1，所以是 0 + 1 + 2 + ... + n = (n + 1) * n / 2, 也就是说时间复杂度是O((n^2+n)/2)。

我们在算法研究的领域, 一般是假设n很大, 另外我们研究的算法复杂度是用来估算大概时间的, 所以一般去除常数项和低次幂。

所以上述三段代码的时间复杂度分别是O(1)、O(n^2)和O(n^2).

再来看一段代码：



In [None]:
while n > 1:
    print(n)
    n = n // 2


n=64输出：

64
32
16
8
4
2



总共需要6次, n=128多加一次为7次, n=256 再在128的基础上再多加一次为8次.
$$ 2^6=64 $$
$\log64= 6$
所以说这段代码的时间复杂度是 O(log2N)或O(logN)(log2在这里简写为log, 因为计算机中一般是2进制).

如果我们发现，一个算法，随着规模的减少，每次减少运算的步骤是原来的一半(不是固定的常数1, 2, 3等), 那么这种算法的时间复杂度就是O(logN)。像那种每次减少的运算的步骤是常数1, 2, 3，那么算法复杂度常常就是O(n).至于少的常数不同不外乎就是O(n)的常数项不同罢了，但是常数项一般被忽略。

常见的时间复杂度（按效率排序）:
O(1)<O(logn)<O(n)<O(nlogn)<O(n^2)<O(n^2logn)<O(n3)

不常见的时间复杂度（看看就好）:
O(n!) O(2n) O(nn) ...

如何一眼判断时间复杂度(不考虑递归的情形)？
* 循环减半的过程O(logn)
* 几次循环就是n的几次方的复杂度


# 空间复杂度

空间复杂度指的是一个算法占用的内存数目，直观地来看，是一个算法声明的变量的个数。

# 递归

递归的两个特点：
1. 调用自身
2. 结束条件




In [3]:
def func1(x):
    print(x)
    func1(x-1)
    
def func2(x):
    if x>0:
        print(x)
        func2(x+1)

def func3(x):
    if x>0:
        print(x)
        func3(x-1)
        
def func4(x):
    if x>0:
        func4(x-1)
        print(x)



上面四个函数，只有func3和func4满足递归。再来看一下func3和func4调用的结果

In [4]:
func3(4)

4
3
2
1


In [5]:
func4(4)

1
2
3
4


两者输出内容是相反的, 对于func4()在每次执行到func4(x-1)的时候就又再次进入到递归中, 此时下面还有一条代码print(x)被保存起来(不可能平白无故地消失), 可以想象出方框图套方框图拉帮助理解。看斐波那契数列的三种实现方式：

In [6]:
def feibonaqi(n):
    if n == 0 or n == 1:
        return 1
    return feibonaqi(n-1) + feibonaqi(n-2)

def feibonaqi2(n):
    lis = [1, 1]
    for i in range(2, n + 1):
        lis.append(lis[-2] + lis[-1])
    return lis[n]


def feibonaqi3(n):
    a = b = c = 1
    for i in range(2, n + 1):
        c = a + b
        a = b
        b = c
    return c

其中第一种采用递归方式，n每次增加1，那么时间几乎是翻倍的，也就是说递归的时间复杂度是O(2^n).为什么是2^n. 拿上面的feibonaqi举例，


我们发现feibonaqi(1)和feibonaqi(0)在递归的整个过程中被执行了两次，也就是左右分支几乎是一样的，左边分支计算的内容在右边分支又计算了一次，所以时间复杂度大致是O(2^n).

再来看一个递归的问题：

一段有n个台阶组成的楼梯，小明从楼梯的最底层向最高处前进，它可以选择一次迈一级台阶或者一次迈两级台阶。问：他有多少种不同的走法？

假设n阶层台阶，总共有f(n)种走法。想象一下，当有n个台阶时，第一次总共有2种选择，要么迈一级台阶要么迈两级台阶。所以走法是这两种选择的走法相加：当迈一级台阶，因为还剩下n-1个台阶，走法是f(n-1)。当迈两级台阶时，因为还剩下n-2个台阶，走法是f(n-2)。所以，当有n个台阶时,f(n) = f(n-1) + f(n-2)。

## 经典的汉诺塔问题

大梵天创造世界的时候做了三根金刚石柱子，在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。
大梵天命令婆罗门把圆盘从下面开始按大小顺序重新摆放在另一根柱子上。
在小圆盘上不能放大圆盘，在三根柱子之间一次只能移动一个圆盘。
64根柱子移动完毕之日，就是世界毁灭之时。

先考虑最小的情况n=2时：
1.把小圆盘从A移动到B;
2.把大圆盘从A移动到C;
3.把小圆盘从B移动到C

n个盘子时, 最终想要达到的效果是把n个盘子从A经过B移动到C：
1. 把n-1个圆盘从A经过C移动到B(把n-1个盘子看做是一个子任务, 也就是说把n-1个从A经过C移动到B, 必须是经过C才移动到B, 而不是直接移动到B，因为n-1个盘子是一个子任务，不是一个孤零零的盘子)
2. 把第n个圆盘从A移动到C(单独的一个盘子直接移动, 不需要通过谁移动到谁)
3. 把n-1个小圆盘从B经过A移动到C



In [7]:
def hanota(n, A, B, C):
    if n > 0:
        hanota(n-1, A, C, B)
        print("%s->%s"%(A, C))
        hanota(n-1, B, A, C)

从上面的伪代码可以看出, 完成大梵天的任务需要的移动的次数是f(n)=2f(n-1)+1.

In [9]:
def func(n):
    if n == 0:
        return 0
    return 2 * func(n-1) + 1
print(func(64))

18446744073709551615


假设婆罗门每秒钟搬一个盘子，则18446744073709551615秒换算成年是5800亿年！

一般思考递归问题的思路是这样的, 把一个大问题拆分成几个小问题, 如果小问题本质上和大问题是一个问题的话, 那么就可以使用递归来做(但是递归的方式可能不是最优解).比如上面的汉诺塔问题n， 拆分成n-1和1，台阶问题，拆分成n-2和n-1.

# 查找

列表查找：从列表中查找指定元素。
* 输入：列表和待查找元素
* 输出：元素下标或未查找到元素

1. 顺序查找：从列表第一个元素开始，顺序进行搜索，直到找到为止。O(n)
2. 二分查找：从有序列表的候选区data[0:n]开始，通过对待查找的值与候选区中间值的比较，可以使候选区减少一半。O(logN)


## 二分查找

![image.png](attachment:image.png)
刚开始接触编程大概2个月的时候, 我去写二分查找, 当时是有的是递归 + 列表切片。首先,递归时间复杂度是O(2^n), 其次列表切片涉及到复制, 复制就会带来空间和时间的开销(浅拷贝也得拷贝地址)。所以, 更合理的方式是就在原始列表上进行操作, 并且采用循环去替代递归。在原始列表进行操作，就需要用到2个指针去指定查找范围。

In [1]:
def bin_search(li, data):
    low = 0
    high = len(li) - 1
    while low <= high:
        mid = (high + low) // 2
        if li[mid] == data:
            return mid
        elif li[mid] > data:
            high = mid - 1
        else:
            low = mid + 1
    return -1

在上述代码中，可以把low和high看做是2个指针，这2个指针随着不同的条件去移动，移动的时候总会在某个时间点相遇。

In [3]:
# 递归版本
def bin_search(li, data, low, high):
    if low > high:
        return -1
    mid = (low + high) // 2
    if li[mid] == data:
        return mid
    elif li[mid] > data:
        return bin_search(li, data, low, mid-1)
    else:
        return bin_search(li, data, mid+1, high)

值得说明的是, 有时候递归的效率可能会有循环一样, 那就是尾递归的情况。如上代码，递归的时候就直接return了, 在这种尾递归的情况下, 联想方框套方框的递归模型, 只有进没有出(不需要保留要出去的位置), 这就和循环一样了(一股脑地进去)。所以在有些语言中会把这种尾递归内部优化成循环, 但是python貌似并没有做这件事。

# 排序

一般的公司面试排序可能会经常遇到，比如说让写一个快排，堆排序等，但是感觉出这种题目的公司大部分都不怎样(勿喷)。
排序稳定性：有如下情况，根据元组的第一个元素进行排序 (2, "B"), (3, "C"), (1, "D"), (2, "A"),如果排序之后的结果(1, "D"),(2, "B"),(2, "A"),(3, "C"),也就是说排序前(2, "B")在(2, "A")前面, 排序后也在前面, 那么这种排序就是稳定的，反之则为不稳定。

## 效率低的3种排序

1. 冒泡排序
2. 选择排序
3. 插入排序

算法关键点：
1. 有序区
2. 无序区


### 冒泡排序

![image.png](attachment:image.png)
冒泡排序关键点：
1. 趟
2. 无序区
每走一趟就会把无序区的最大的元素放到无序区的最后的位置上，所以第一层循环就是走的趟数。要通过不断地交换去把无序区的最大的元素放在最后的位置，也需要一个循环去做这件事。

In [1]:
import random

def bubble_sort(li):
    length = len(li)
    for i in range(length-1):
        for j in range(length-i-1):
            if li[j] > li[j+1]:
                li[j], li[j+1] = li[j+1], li[j]
lis = list(range(10))
random.shuffle(lis)
print(lis)
bubble_sort(lis)
print(lis)

[2, 1, 5, 9, 0, 6, 7, 3, 8, 4]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


如果冒泡排序中执行一趟而没有交换，则列表已经是有序状态，可以直接结束算法。

In [5]:
import random

# 通过加一个exchange标识来进行简单优化
def bubble_sort(li):
    length = len(li)
    for i in range(length-1):
        exchange = False
        for j in range(length-i-1):
            if li[j] > li[j+1]:
                li[j], li[j+1] = li[j+1], li[j]
                exchange = True
        if not exchange:
            break
lis = list(range(10))
random.shuffle(lis)
print(lis)
bubble_sort(lis)
print(lis)

[3, 6, 2, 9, 4, 7, 0, 5, 8, 1]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### 选择排序

选择排序关键点：
1. 无序区
2. 最小数的位置

每次从无序区挑选出最小的数放在有序区的最后一个位置。刚开始，可以假定第一个元素的位置就是最小的数，然后去和无序区的元素进行比较，如果发现有无序区的元素比第一个元素的值还要小，可以先把这个元素的位置存起来，然后用这个元素去和剩下的元素进行比较，最终得到最小元素的位置，然后和初始时假定的位置进行交换。选择排序的意义体现在"选择"两个字上，总共需要选择n-1次。每一次需要把无序区的最小的元素放到有序区的最后，要完成这一点也需要一个循环。

In [6]:
import random

def select_sort(li):
    length = len(li)
    for i in range(length-1):
        min_pos = i
        # 无序区寻找最小数的位置
        for j in range(i+1, length):
            if li[j] < li[min_pos]:
                min_pos = j
        if min_pos != i:
            li[min_pos], li[i] = li[i], li[min_pos]

lis = list(range(10))
random.shuffle(lis)
print(lis)
select_sort(lis)
print(lis)

[4, 0, 5, 7, 2, 9, 6, 3, 1, 8]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### 插入排序

* 列表被分为有序区和无序区两个部分。最初有序区只有一个元素。
* 每次从无序区选择第一个元素，插入到有序区的位置，直到无序区变空。

插入排序关键点：
* 从无序区拿到的元素
* 有序区已有的元素
* 怎么把无序区拿到的元素插入到有序区合理的位置

先假定左边已经是有序区了，从无序区(第一个点就是无序区的范围)抽出第一个元素，然后插入到左边的有序区的相对合适的位置。那么问题是怎么插入到合适的位置呢？从有序区的最后一个元素开始，移动位置指针，如果当前位置指针的元素比抽出的元素大时，元素后移，当前位置指针的元素比抽出的元素小时，则放心插入(那些大的元素已经都后移腾出地了)。还有一种情况就是位置指针移动到-1,表明抽出的元素应该插入到有序区的开头。

根据上面的思路, 第一层循环就是抽元素, 这里假定有序区已经有值了并且是列表的第一个值, 所以第一层循环的次数就是n-1.抽出元素就需要移动指针后移元素并插入抽出的元素了, 完成这个公功能也需要一个循环来做，而且因为这个循环不一定要遍历完毕所有的有序区的内容, 要根据条件退出循环, 所以采用while循环更加合适。

In [7]:
import random

def insert_sort(li):
    # i从1开始, 初始list的一个元素放在有序区
    for i in range(1, len(li)):
        temp = li[i]
        j = i - 1
        # 循环如果能进入就表明 2个条件都得满足
        while j >= 0 and li[j] > temp:
            li[j+1] = li[j]
            j -= 1
        # j位置在循环结束的时候要么是-1要么是一个比tmp小的值
        li[j+1] = temp


li = list(range(10))
random.shuffle(li)
print(li)
insert_sort(li)
print(li)

[2, 6, 1, 7, 0, 4, 8, 3, 9, 5]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


低效率排序总结：都是2层循环，所以算法复杂度都是O(n^2), 因为不涉及到列表的复制和切片等，仅仅是指针的移动，所以空间复杂度是O(1)。
排序稳定性：冒泡排序和插入排序是稳定的，选择排序是不稳定的(2 1 2 0, 选择0插入到开头会把第一个2弄到最后)，飞着换的一般都不稳定。插入排序比冒泡排序效率高一点，因为冒泡在循环的过程中可能要做很多次交换，而插入排序在循环过程中国只是保存一个最小位置，然后直接插入。


## 效率高的3种排序

### 快速排序

快排思路：
1. 取一个元素p（第一个元素），使元素p归位；
2. 列表被p分成两部分，左边都比p小，右边都比p大；
3. 递归完成排序。
![image.png](attachment:image.png)

算法思路其实很简单, 递归+第一个元素归到合适的位置。关键点其实是第一个元素怎么归位？这里采用2个指针left和right, 先循环移动right指针，当指针指向的数据比第一个元素小的时候就放到左边, 然后再循环移动left指针, 把指针指向的数据比第一个元素大的移动到上一次right停留的位置(此时这个位置的数据已经被移动到左边去了)。直到left和right一旦相遇，那么相遇的位置就是第一个元素应该在的位置.

In [1]:
import random

def quick_sort(li, left, right):
    if left < right:
        mid = partition(li, left, right)
        quick_sort(li, left, mid - 1)
        quick_sort(li, mid+1, right)


def partition(li, left, right):
    temp = li[left]
    while left < right:
        while left < right and li[right] > temp:
            right -= 1
        li[left] = li[right]
        # 这里的条件不能仅仅是li[left] < temp, 仅仅是这个条件那么left指针会移动超过right, 所以需要加一个先验条件left < right.
        while left < right and li[left] < temp:
            left += 1
        li[right] = li[left]
    li[left] = temp
    return left

li = list(range(10))
random.shuffle(li)
print(li)
quick_sort(li, 0, len(li)-1)
print(li)

[8, 9, 3, 1, 4, 0, 2, 5, 6, 7]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


考虑quick_sort的时间复杂度, partition函数看似是2层循环, 其实本质就是移动2个指针遍历list, 所以partition的时间复杂度是O(n).那么总共需要几次partition呢？以最简单的情形并且错略地去考虑，假设有16个元素，第一次mid是最中间的位置，此时分为左边8个元素和右边8个元素(算法复杂度是O(n)这里的n是16)。第二次对于左边，mid是最中间的位置，此时左边又分为左边4个元素和右边4个元素，对于右边，mid是最中间的位置，此时右边又分为左边4个元素和右边4个元素(此时算法复杂度是8+8，也是O(n)). 第三次...我们发现这是一棵树，树的每一层都是O(n)，总共有logN层，所以算法复杂度是O(NlogN).这个时间复杂度是最优时间复杂度或者说是平均算法复杂度。那么最坏时间复杂度是什么呢？还是考虑这棵树，如果每一次mid的位置都是把左右两边不是均分，而是分成n-1和0(比如6 5 4 3 2 1), 那么这棵树的深度就是n，算法复杂度就变成O(n^2). 那么，怎么在一定程度上去优化最坏情况呢？简单，我们每次不取第一个元素了，而是在partition之前把第一个元素和后面的某个随机元素进行交互，这样很大概率就不会把左右2部分拆成n-1和0了。

In [2]:
import random


def quick_sort(li, left, right):
    if left < right:
        mid = partition(li, left, right)
        quick_sort(li, left, mid - 1)
        quick_sort(li, mid + 1, right)


def partition(li, left, right):
    random_change(li, left, right)
    temp = li[left]
    while left < right:
        while left < right and li[right] > temp:
            right -= 1
        li[left] = li[right]
        while left < right and li[left] < temp:
            left += 1
        li[right] = li[left]
    li[left] = temp
    return left


def random_change(li, left, right):
    random_pos = random.randint(left, right)
    li[left], li[random_pos] = li[random_pos], li[left]


li = list(range(10))
random.shuffle(li)
print(li)
quick_sort(li, 0, len(li) - 1)
print(li)

[2, 6, 4, 7, 8, 5, 1, 0, 3, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [3]:
# 快排的另一种解法
import random


def quick_sort(li):
    if len(li) < 2:
        return li
    temp = li[0]
    left = [v for v in li if v < temp]
    right = [v for v in li if v > temp]
    return quick_sort(left) + [temp] + quick_sort(right)


li = list(range(10))
random.shuffle(li)
print(li)
print(quick_sort(li))

[6, 1, 5, 8, 9, 3, 2, 4, 7, 0]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### 堆排序

#### 树
树是一种数据结构：比如：目录结构，树是一种可以递归定义的数据结构

树是由n个节点组成的集合：
1. 如果n=0，那这是一棵空树；
2. 如果n>0，那存在1个节点作为树的根节点，其他节点可以分为m个集合，每个集合本身又是一棵树。

基本概念：
* 根节点、叶子节点：根节点就是第一个节点，叶子节点就是最后没有分叉的节点(可以把平常看到的数据结构的树倒过来看)
* 树的深度（高度）: 树有几层，多高
* 树的度：每一个节点都有度，节点的度指的是该节点有几个分叉，树的度指的是这个树的节点的最大分叉
* 孩子节点/父节点
* 子树
* 二叉树：度不超过2的树（节点最多有两个叉）

满二叉树和完全二叉树
* 满二叉树：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。
* 完全二叉树：叶节点只能出现在最下层和次下层，并且最下面一层的结点都集中在该层最左边的若干位置的二叉树。说白了，一棵树1 2 3 4 5 6 7 8，只有从后删除的树才是完全二叉树(删除了6 7 8后的1 2 3 4 5就是完全二叉树)，跳着删除的树不是完全二叉树(比如删除5 7 8 得到的1 2 3 4 6就不是完全二叉树)。

![image.png](attachment:image.png)

二叉树的存储方式：
* 链式存储方式
* 顺序存储方式（列表）

这里先仅仅关注顺序存储方式: 
父节点和左孩子节点的编号下标有什么关系(由父亲找左孩子)？
0-1 1-3 2-5 3-7 4-9  i->2i+1


父节点和右孩子节点的编号下标有什么关系(由父亲找右孩子)？
0-2 1-4 2-6 3-8 4-10  i->2i+2

由左孩子找父亲，(i-1)/2, 由右孩子找父亲(i-2)/2, 两者可以合并为一个式子(i-2)//2.

1. 树二叉->树->完全二叉树
2. 二叉树是度不超过2的树
3. 满二叉树与完全二叉树
4. (完全)二叉树可以用列表来存储，通过规律可以从父亲找到孩子或从孩子找到父亲。


#### 堆
首先堆是一颗完全二叉树

大根堆：一棵完全二叉树，满足任一节点都比其孩子节点大

小根堆：一棵完全二叉树，满足任一节点都比其孩子节点小


![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 堆的向下调整性质

假设：节点的左右子树都是堆，但自身不是堆
![image.png](attachment:image.png)

#### 堆排序过程

1. 建立堆
2. 得到堆顶元素，为最大元素
3. 去掉堆顶，将堆最后一个元素放到堆顶，此时可通过一次调整重新使堆有序。
4. 堆顶元素为第二大元素。
5. 重复步骤3，直到堆变空。


构造堆
![image.png](attachment:image.png)

挨个出数
![image.png](attachment:image.png)

堆排序利用的其实就是堆的性质来帮忙排序,首先是一个乱序的列表,这个列表我们要在脑海里把它想象为一颗树,首先我们要从最后一个有子节点的位置进行堆的构造调整, 依次循环调整直到把这个无序树调整成一个大根堆(大根堆的排序得到的结果是从小到大). 构造出一个大根堆之后, 一般把列表的最后一个元素(最后一个叶子节点)和第一个元素(根节点)进行交换，此时最大的元素跑到列表的最后的位置。此时在不考虑已经排序好的最后一个元素的基础上看这棵树，发现这棵树需要向下调整(以便拿到第二大的数)，进行向下调整之后再循环往复地交换并调整，最终得到的就是有序列表了。

In [1]:
import random

def sift(li, low, high):
    """
    堆的向下调整性质
    :param li: 用于表示树的列表数据
    :param low: 列表的开头索引
    :param high: 列表的结尾索引
    :return:
    """
    temp = li[low]
    i = low
    j = 2 * i + 1
    # i指向空位,j指向两个孩子
    while j <= high: # 循环退出的第二种情况: j>high,说明空位i是叶子节点
        # 如果右孩子存在并且比左孩子大, 指向右孩子
        if j+1 <= high and li[j] < li[j+1]:
            j += 1
        if li[j] > temp:
            # 升职
            li[i] = li[j]
            i = j
            j = 2 * j + 1
        # 循环退出的第一种情况:j位置的值比tmp小,说明两个孩子都比temp小
        else:
            break
    # 傻子归到正确位置
    li[i] = temp

def heaq_sort(li):
    # 把原有的表示树的列表构建成堆
    n = len(li)
    # 1. 构造堆
    for low in range(n // 2 - 1, -1, -1):
        # 对每颗数进行调整，low可以根据公式寻找到，但是high没不要也用公式，因为high的作用在sift函数里只是作为索引不能出列表的界限，这里用最大界限也不影响最终结果
        sift(li, low, n-1)
    # 2. 挨个出数, 构造堆，出数，构造堆...
    for high in range(n-1, -1, -1):
        li[0], li[high] = li[high], li[0]
        sift(li, 0, high-1)

li = list(range(10))
random.shuffle(li)
print(li)
heaq_sort(li)
print(li)

[5, 1, 8, 7, 9, 3, 4, 2, 6, 0]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


sift函数有 j = 2 * j + 1，并且只是一层循环，所以复杂度是O(logN).heap_sort有2次循环，每一次是n，所以总的时间复杂度是O(NlogN).

堆列表其实是一种优先队列，POP操作每次执行都会从优先队列中弹出最大(或最小, 取决于是大根堆还是小根堆)的元素。

python内置了一个模块实现了这个功能(实现的是小根堆)：heapq
* heapify(x): 构造堆
* heappush(heap, item)：插入一个元素并维持数据结构依旧是堆
* heappop(heap): 从堆中弹出一个元素，这个元素是最小的

针对heapq这个模块，要是没有堆排序的相关知识体系，一般人可能不知道这个模块到底在干啥


### 归并排序

归并排序的前提：假设现在的列表分两段有序，如何将其合成为一个有序列表？

用左右2个指针，左指针指向左边有序的列表，右指针指向右边有序的列表，然构建一个新列表，移动左右指针并进行数据的比较，小一点的拿下来放到新建的列表中。
![image.png](attachment:image.png)


In [2]:
import random

def merge(li, low, mid, high):
    temp_list = []
    i = low
    j = mid + 1
    while i <= mid and j <= high:
        if li[i] < li[j]:
            temp_list.append(li[i])
            i += 1
        else:
            temp_list.append(li[j])
            j += 1
    while i <= mid:
        temp_list.append(li[i])
        i += 1
    while j <= high:
        temp_list.append(li[j])
        j += 1
    for i in range(low, high+1):
        li[i] = temp_list[i-low]

def merge_sort(li, low, high):
    if low < high:
        mid = (low + high) // 2
        merge_sort(li, low, mid)
        merge_sort(li, mid+1, high)
        merge(li, low, mid, high)

li = list(range(10))
random.shuffle(li)
print(li)
merge_sort(li, 0, 9)
print(li)


[4, 9, 5, 6, 2, 0, 8, 3, 7, 1]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


## 特定场合的几种排序

* 希尔排序
* 计数排序
* 桶排序
* 基数排序

### 希尔排序

* 希尔排序是一种分组插入排序算法。
* 首先取一个整数d1=n/2，将元素分为d1个组，每组相邻量元素之间距离为d1，在各组内进行直接插入排序；
* 取第二个整数d2=d1/2，重复上述分组排序过程，直到di=1，即所有元素在同一组内进行直接插入排序。
* 希尔排序每趟并不使某些元素有序，而是使整体数据越来越接近有序；最后一趟排序使得所有数据有序。(它的时间复杂度比较复杂, 根据d的不同数学推导出来的时间复杂度也不一样)。




In [1]:
import random

def insert_sort(li, d):
    # 只要把原来插入排序的代码中的1替换成d即可
    for i in range(d, len(li)):
        temp = li[i]
        j = i - d
        while j >= 0 and li[j] > temp:
            li[j+d] = li[j]
            j -= d
        li[j+d] = temp

def shell_sort(li):
    d = len(li) // 2
    while d:
        # do something
        insert_sort(li, d)
        d //= 2

li = list(range(100))
random.shuffle(li)
shell_sort(li)
print(li)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


### 计数排序

计数排序是有特定的应用场景的，现在有一个列表，已知列表中的数范围都在0到10之间。设计算法在O(n)时间复杂度内将列表进行排序。
要排序的列表A最大数是10，也就是说列表是从0到10，我们可以创建长度是11的列表B，这样列表的每个索引就对应列表的每个值(默认列表的元素都是0)，然后遍历要排序的列表A，对该数对应的B列表索引加1，然后依次排开即可。


In [2]:
def count_sort(li, max_num=10):
    count = [0 for _ in range(max_num + 1)]
    for val in li:
        count[val] += 1
    li.clear()
    # 表示i这个数出现了v次
    for i, v in enumerate(count):
        for _ in range(v):
            li.append(i)

计数排序有其局限性，如果仅仅有3个数，0、1、2344，那么我们就需要开2344个列表，列表里的很多的value都是0，这样明显不合适。计数排序的时间复杂度是O(n). for val in li走了n次，下面的两层for循环，因为循环的参数不是n，另外li.append(i) 从直观上来看也应该是走了n次，所以时间复杂度就是O(n).

### 桶排序

在计数排序中，如果元素的范围比较大（比如在1到1亿之间），如何改造算法？

桶排序(Bucket Sort)：首先将元素分在不同的桶中，在对每个桶中的元素排序。

桶排序的表现取决于数据的分布。也就是需要对不同数据排序时采取不同的分桶策略。
![image.png](attachment:image.png)

桶排序需要的数据分布比较均匀这样才能更好地利用这个算法的特性。

### 基数排序

多关键字排序：加入现在有一个员工表，要求按照薪资排序，年龄相同的员工按照年龄排序。

多关键字排序其实在数据库查询中也经常可以用到：和正常的理解不同，我们应该先按照年龄进行排序，再按照薪资进行稳定的排序(因为是先按照年龄排序的，所以日后按照薪资排序后年龄也是已经排好序的了)。

对32,13,94,52,17,54,93排序，是否可以看做多关键字排序？也是可以的，可以先按照个位进行排序，然后再按照十位进行排序即可。
![image.png](attachment:image.png)
先按照个位数进行排序，这样每个位置的纵向从下往上就是从小到大，因为横向有索引大小的约束，所以横向的也是有序的。

In [3]:
import random

def radix_sort(li):
    max_num = max(li)
    i = 0
    while (10 ** i <= max_num):
        # 先个位排序，然后十位，百位，...
        buckets = [[] for _ in range(10)]
        for val in li:
            digit = val // (10 ** i) % 10
            buckets[digit].append(val)
        li.clear()
        for bucket in buckets:
            for val in bucket:
                li.append(val)
        i += 1


li = list(range(100))
random.shuffle(li)
print(li)
radix_sort(li)
print(li)

[38, 34, 44, 15, 30, 10, 85, 90, 88, 82, 24, 93, 25, 69, 51, 41, 48, 89, 63, 54, 33, 45, 42, 72, 58, 74, 46, 83, 9, 32, 56, 3, 43, 8, 60, 94, 16, 0, 4, 96, 37, 29, 50, 36, 2, 22, 86, 17, 26, 66, 81, 47, 98, 70, 11, 91, 87, 35, 18, 97, 5, 7, 76, 67, 99, 13, 79, 1, 78, 80, 20, 59, 57, 92, 68, 40, 14, 39, 73, 64, 53, 95, 12, 61, 21, 6, 52, 28, 75, 84, 31, 62, 27, 55, 77, 49, 65, 23, 71, 19]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]


# 一些小算法

In [1]:
# 获取整数的个位，十位，百位等
def get_digit(num, i):
    # i=0 个位 1 十位 2 百位...
    return num // (10 ** i) % 10

In [2]:
# 整数反转 123->321 12300->321
def reverse_int(num):
    is_neg = False
    if num < 0:
        is_neg = True
        num = -1 * num
    res = 0
    while num > 0:
        res = res * 10
        res += num % 10
        num = num // 10
    if is_neg:
        res = res * -1
    return res

In [3]:
def int2list(num):
    # 整数转换成列表
    li = []
    while num > 0:
        li.append(num % 10)
        num = num // 10
    li.reverse()
    return li

In [1]:
# [1,2,3,4,5] 0,1
# [1,2,3,4,5,6] 0,1,2
# [1,2,3,4,5,6,7] 0,1,2
# n//2-1

def reverse_list(li):
    # 列表反转
    n = len(li)
    # 6 // 2 = 3, 7 // 2 = 3
    for i in range(n // 2):
        li[i], li[n-i-1] = li[n-i-1], li[i]
    return li

# 几个算法小问题

## 二维二分查找
给定一个m*n的二维列表，查找一个数是否存在。列表有下列特性：
* 每一行的列表从左到右已经排序好。
* 每一行第一个数比上一行最后一个数大。

![image.png](attachment:image.png)

思路: 这个二维二分如果展开就是一个一维的从小到大的列表，可以使用二分法去查询，但是这样会比较浪费空间。所以寻找展开的一维列表和二维列表的索引关系，然后使用二分法才是比较合理的方法。

In [2]:
import numpy as np
arr = np.linspace(1, 20, num=20).reshape(4, 5)
# m * n 的二维数组, 一维的索引是index, 二维的索引是(i, j)
# index = i * n + j => i = index // n  j = index % n

def bin_search_arr(arr, data):
    low = 0
    high = arr.size - 1
    n = arr.shape[-1]
    while low < high:
        mid = (high + low) // 2
        i = mid // n
        j = mid % n
        if li[i, j] > data:
            high = mid - 1
        elif li[i, j] < data:
            low = mid + 1
        else:
            return mid
    else:
        return -1

print(bin_search_arr(arr, 23))

-1


## Two Sum

给定一个列表和一个整数，设计算法找到两个数的下标，使得两个数之和为给定的整数。保证肯定仅有一个结果。

例:列表[1,2,5,4]与目标整数3，1+2=3，结果为(0, 1).


In [1]:
# O(n^2)
def two_sum_one(li, num):
    for i in range(len(li)):
        for j in range(i, len(li)):
            if li[i] + li[j] == num:
                return i, j

def bin_search(li, data, low, high):
    while low < high:
        mid = (high + low) // 2
        if li[mid] > data:
            high = mid - 1
        elif li[mid] < data:
            low = mid + 1
        else:
            return mid
    else:
        return -1

# 因为涉及到二分查询,需要有序,时间复杂度是O(nlogn)
def two_sum_two(li, num):
    for i in range(len(li)):
        sub_data = num - li[i]
        mid = bin_search(li, sub_data, low=i, high=len(li)-1)
        if mid != -1:
            return i, mid

# 两个指针的移动，两边法, 要求有序 复杂度是O(n)
def two_sum_three(li, num):
    i = 0
    j = len(li) - 1
    while i < j:
        if li[i] + li[j] == num:
            return i, j
        # 说明相加的2个数有一个需要小一点, 只能是j左移才满足这个需求
        elif li[i] + li[j] > num:
            j -= 1
        else:
            i += 1

# hash表，不要有序, 时间复杂度是O(n), 唯一需要诟病的是需要额外的空间去存hash表
def two_sum_four(li, num):
    dic = {}
    for i in range(len(li)):
        sub_data = num - li[i]
        if sub_data not in dic:
            dic[li[i]] = i
        else:
            return dic[sub_data], i