## 排序算法的时间复杂度
![img2.png](img2.png)

* 输入：$n$个数的一个序列$<a_1, a_2, …, a_n>$
* 输出：输入序列的一个排列$<a_1^{'}, a_2^{'}, …, a_n^{'}>$，满足$a_1^{'} \le a_2^{'} \le … \le a_n^{'}$。

## 插入排序

插入排序，对于少量元素的排序，它是一个有效的算法。

In [25]:
# A为输入的序列;
def insertion_sort(A):
    for j in range(1, len(A)):
        key = A[j]
        i = j - 1
        while i >= 0 and A[i] > key:
            A[i+1] = A[i]
            i = i - 1
        A[i+1] = key
#         print(A)
# 降序
def insertion_sort_desc(A):
    for j in range(1, len(A)):
        key = A[j]
        i = j - 1
        while i >= 0 and A[i] < key:
            A[i+1] = A[i]
            i = i - 1
        A[i+1] = key
#         print(A)
A = [5, 2, 4, 6, 1, 3]
insertion_sort(A)
print(A)
B = [5, 2, 4, 6, 1, 3]
insertion_sort_desc(B)
print(B)

[1, 2, 3, 4, 5, 6]
[6, 5, 4, 3, 2, 1]


* 递归法

我们可以把插入表示为如下的一个递归过程。为了排序$A[1 .. n]$，我们递归地排序$[1 .. n-1]$，然后把$A[n]$插入已排序的数组$A[1 .. n-1]$。

In [1]:
def recursion_insertion_sort(A, n):
    if n >= 0:
        recursion_insertion_sort(A, n-1)
        key = A[n]
        i = n - 1
        while i>= 0 and A[i] > key:
            A[i+1] = A[i]
            i = i -1
        A[i+1] = key

In [4]:
A = [5, 2, 4, 6, 1, 3]
recursion_insertion_sort(A, len(A)-1)
A

[1, 2, 3, 4, 5, 6]

### 二分查找
__二分查找__又称__折半查找__，__优点__是比较次数少，查找速度快，平均性能好，占用系统内存较少；其__缺点__是要求__待查表为有序表__，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。

In [8]:
def binary_search(A, key):
    low = 0
    high = len(A) - 1
    while low < high:
        mid = int((low + high) / 2)
        if A[mid] > key:
            high = min - 1
        elif A[mid] < key:
            low = mid + 1
        else:
            return mid
    return -1

In [11]:
A = [1, 2, 3, 4, 5, 6]
binary_search(A, 3)

2

## 归并排序

### 分治法（divide-and-conquer）

In [37]:
# 归并函数
def merge(A, p, q, r):
    L = A[p: q+1]
    R = A[q+1: r]
    i = 0
    j = 0
    k = p
    while i < len(L) and j < len(R) and k < r:
        if L[i] <= R[j]:
            A[k] = L[i]
            i = i + 1
        else:
            A[k] = R[j]
            j = j + 1
        k = k + 1
    if i < len(L):
        A[k: r] = L[i: len(L)]
    if j < len(R):
        A[k: r]= R[j: len(R)]
# 归并排序函数
def merge_sort(A, p, r):
    if p < r-1:
        q = int((p + r - 1) / 2)
        merge_sort(A, p, q + 1)
        merge_sort(A, q + 1, r)
        merge(A, p, q, r)

A = [5, 2, 4, 7, 1, 3, 2, 6, 4]
merge_sort(A, 0, len(A))
A

[5, 2, 4, 7, 1] [3, 2, 6, 4]
[5, 2, 4] [7, 1]
[5, 2] [4]
[5] [2]
[7] [1]
[3, 2] [6, 4]
[3] [2]
[6] [4]


[1, 2, 2, 3, 4, 4, 5, 6, 7]

## 渐进记号
* $\Theta$记号，渐进紧确界（asymptotically tight bound）
* $O$记号，渐进紧确上界
* $\Omega$记号，渐进紧确下界
* $o$记号，非渐进紧确上界
* $\omega$记号，非渐进紧确下界

<img src="img01.png"/>

* $\Theta(g(n)) = \{f(n):存在正常量c_1、c_2和n_0，使得对所有n\ge n_0，有0\le c_1g(n)\le f(n)\le c_2g(n)\}$
* $O(g(n)) = \{f(n):存在正常量c和n_0，使得对所有n\ge n_0，有0\le f(n)\le cg(n)\}$
* $\Omega(g(n)) = \{f(n):存在正常量c和n_0，使得对所有n\ge n_0，有0\le cg(n)\le f(n)\}$
* $O(g(n)) = \{f(n):对任意正常量c > 0和n_0，使得对所有n\ge n_0，有0\le f(n)\le cg(n)\}$
* $\omega(g(n)) = \{f(n):对任意正常量c > 0和n_0，使得对所有n\ge n_0，有0\le cg(n)\le f(n)\}$

### 最大子数组问题

> 寻找数组$A$的的和最大的非空连续子数组。

&emsp;&emsp;只有数组中包含负数时，最大子数组问题才有意义。如何所有数组元素都是非负的，最大子数组问题没有任何难度，因为整个数组的和肯定是最大的。

In [71]:
A = [13, -3, -25, 20, -3, -16, -23, 18, 20, -7, 12, -5, -22, 15, -4, 7]

* 暴力求解法（Brute force method）

In [82]:
def find_max_subarray_brute(A):
    max_sum = A[0]
    low = 0
    high = 1
    for i in range(len(A)):
        sum = 0
        for j in range(i, len(A)):
            sum = sum + A[j]
            if sum > max_sum:
                max_sum = sum
                low = i
                high = j+1
    return low, high, max_sum

In [83]:
find_max_subarray_brute(A)

(7, 11, 43)

* 递归思路

In [84]:
def find_max_crossing_subarray(A, low, mid, high):
    sum = 0
    left_sum = A[mid]
    max_left = mid
    for i in range(mid, low-1, -1):
        sum = sum + A[i]
        if sum >  left_sum:
            left_sum = sum
            max_left = i
    sum = 0
    right_sum = A[mid+1]
    max_right = mid + 1
    for j in range(mid+1, high):
        sum = sum + A[j]
        if sum > right_sum:
            right_sum = sum
            max_right = j
    return max_left, max_right+1, (left_sum + right_sum)

def find_maximum_subarray(A, low, high):
    if(high-1 == low):
        return low, high, A[low]
    else:
        mid = int((low+high-1) / 2)
        left_low,left_high,left_sum = find_maximum_subarray(A, low, mid+1)
        right_low,right_high,right_sum = find_maximum_subarray(A, mid+1, high)
        cross_low, cross_high, cross_sum = find_max_crossing_subarray(A, low, mid, high)
        
        if left_sum >= right_sum and left_sum >= cross_sum:
            return left_low, left_high, left_sum
        elif right_sum >= left_sum and right_sum >= cross_sum:
            return right_low, right_high, right_sum
        else:
            return cross_low, cross_high, cross_sum

In [85]:
find_maximum_subarray(A, 0, len(A))

(7, 11, 43)

* 非递归思路（有些问题，只能求和，不能确定位置）

In [86]:
def find_maxsum_subarray(A):
    cur_sum = A[0]
    max_sum = A[0]
    for i in range(1, len(A)):
        if cur_sum < 0:
            cur_sum = 0
        cur_sum = cur_sum + A[i]
        if cur_sum > max_sum:
            max_sum = cur_sum
    return max_sum

In [87]:
find_maxsum_subarray(A)

43

## 分治策略
介绍三种求解递归式的方法，即得出算法“$\Theta$”或“$O$”渐近界的方法。
* __代入法__ 我们猜测一个界，然后用数学归纳法证明这个界是正确的。
* __递归树法__ 将递归式转换为一棵树，其结点表示不同层次的递归调用产生的代价。然后采用边界和技术来求解递归式。
* __主方法__ 可求解形如公式的递归式的界：$$T(n) = aT(n/b) + f(n)$$
 其中$a\ge 1，b>1，f(n)$是一个给定的函数。这种形式的递归式很常见，它刻画了这样一个分治算法：生成$a$个子问题，每个子问题的规模是原问题规模的$1/b$，分解和合并步骤总共花费时间为$f(n)$。

### 主方法求解递归式
#### 主定理
__定理（主定理）__ 令$a\ge 1$和$b > 1$是常数，$f(n)$是一个函数，$T(n)$是定义在非负整数上的递归式：
$$T(n) = aT(n/b) + f(n)$$
其中我们将$n/b$解释为$\lfloor n/b \rfloor$或者$\lceil n/b \rceil$。那么$T(n)$有如下渐近界：<br>
1. 若对某个常数$\epsilon > 0$有$f(n)=O(n^{log_b\ a-\epsilon})$，则$T(n) = \Theta(n^{log_b\ a})$
2. 若$f(n) = \Theta(n^{log_b\ a})$，则$T(n) = \Theta(n^{log_b\ a}lgn)$
3. 若对某个常数$\epsilon > 0$ 有 $f(n)=\Omega(n^{log_b\ a})$，且对某个常数$c < 1$和所有足够大的$n$有$af(n/n)\le cf(n)$，则$T(n)=\Theta(f(n))$

## 指示器随机变量
> 指示器随机变量（indicator random variable），它为概率与期望之间的转换提供了一个便利的方法。

给定一个样本空间$S$和一个时间$A$,那么时间$A$对应的__指示器随机变量$I\{A\}$__定义为：
$$I\{A\}=\Big \{_{0 \qquad 如果A不发生}^{1 \qquad 如何A发生} $$

## 堆排序

In [14]:
def exchange(x, y):
    return y, x

In [18]:
# 调整节点维护最大堆性质（递归）
def max_heapify(A, i, heap_size):
    largest = i   
    
    l = 2 * i + 1 # 左子下标
    r = 2 * (i + 1)# 右子下标
    
    if l < heap_size and A[l] > A[i]:
        largest = l
    else:
        largest = i
    if r < heap_size and A[r] > A[largest]:
        largest = r
    if largest != i:
        A[largest], A[i] = exchange(A[largest], A[i])
        max_heapify(A, largest, heap_size)

#建最大堆
def build_max_heap(A):
    heap_size = len(A)
    for i in range(int(heap_size / 2 - 1), -1, -1):
        max_heapify(A, i, heap_size)

# 堆排序
def heap_sort(A):
    heap_size = len(A)
    build_max_heap(A)
    for i in range(len(A)-1, 0, -1):
        A[0], A[i] = exchange(A[0], A[i])
        heap_size = heap_size - 1
        max_heapify(A, 0, heap_size)
    return A

In [19]:
# 数组下标从0开始
A = [4, 1, 3, 2, 16, 9, 10, 14, 8, 7]
heap_sort(A)

[1, 2, 3, 4, 7, 8, 9, 10, 14, 16]

## 快速排序

* 递归法（分治思想）

In [21]:
def partition(A, p, r):
    x = A[r-1]
    i = p - 1
    for j in range(p, r-1):
        if A[j] <= x:
            i = i + 1
            A[i],A[j] = exchange(A[i], A[j])
    A[i+1], A[r-1] = exchange(A[i+1], A[r-1])
    return i + 1
def quick_sort(A, p, r):
    if p < r-1:
        q = partition(A, p, r)
        quick_sort(A, p, q)
        quick_sort(A, q+1, r)
    return A

In [25]:
A = [4, 1, 3, 2, 16, 9, 10, 14, 8, 7]
quick_sort(A, 0, len(A))

[1, 2, 3, 4, 7, 8, 9, 10, 14, 16]

* 快速排序的随机化版本

In [22]:
import random
def randomized_partition(A, p, r):
    i = random.randint(p, r-1)  # 随机抽样（random sampling）
    A[i], A[r-1] = exchange(A[i], A[r-1])
    return partition(A, p, r)

def randomized_quick_sort(A, p, r):
    if p < r-1:
        q = randomized_partition(A, p, r)
        randomized_quick_sort(A, p, q)
        randomized_quick_sort(A, q+1, r)
    return A

In [23]:
A = [4, 1, 3, 2, 16, 9, 10, 14, 8, 7]
randomized_quick_sort(A, 0, len(A))

[1, 2, 3, 4, 7, 8, 9, 10, 14, 16]

* 非递归

## 计数排序

In [55]:
def counting_sort(A, k):
    B = [0] * len(A)
    C = [0] * (k+1) # let C[0..k] be a new array
    for Aj in A:
        C[Aj] = C[Aj] + 1
    for i in range(1, len(C)):
        C[i] = C[i] + C[i-1]
    for j in range(len(A)-1, -1, -1):
        B[C[A[j]]-1] = A[j]
        C[A[j]] = C[A[j]] -1
    return B

In [56]:
A = [2, 5, 3, 0, 2, 3, 0, 3]
counting_sort(A, 5)

[0, 0, 2, 2, 3, 3, 3, 5]

## 基数排序

In [None]:
def radix_sort(A):
    pass

## 桶排序

In [34]:
def bucket_sort(A):
    n = len(A)
    B = []
    for i in range(n):
        B.append([])
    for i in range(n):
        B[int(n*A[i])].append(A[i])
    A = []
    for i in range(n):
        insertion_sort(B[i])
        if len(B[i]) > 1:
            for bi in B[i]:
                A.append(bi)
    return A

In [35]:
A = [0.78, 0.17, 0.39, 0.26, .72, .94, .21, .12, .23, .68]
bucket_sort(A)

[0.12, 0.17, 0.21, 0.23, 0.26, 0.72, 0.78]

## 散列表

* 通过链接法（chaining）解决冲突<br>
  在链接法中，把散列到同一槽中的所有元素都发在一个链表中,如下图所示：

<img src="%E9%93%BE%E6%8E%A5%E6%B3%95.png" width="60%"/>

* 给定一个能存放$n$个元素的、具有$m$个槽位的散列表$T$，定义$T$的__装填因子（load factor）__$\alpha$为$n/m$，即一个链的平均存储数。
<br><br>
* 假设任何一个给定元素等可能散列到$m$个槽中的任何一个位置，且与其他元素被散列到什么位置上无关，我们称在这个假设为__简单均匀散列（simple uniform hashing）__。<br>
&emsp;&emsp;对于$j = 0, 1, …, m-1,$列表$T[j]$的长度用$n_j$表示，于是有$$n = n_0 + n_1 + … + n_{m-1}$$并且$n_j$的期望为$E[n_j] = \alpha = n/m$

### 散列函数

* 除法散列法
* 乘法散列法
* 直接地址法
* 平方取中法
* 随机数法

### 处理冲突的方法
* 链接法
* 开放寻址法
  * 线性探查（探测）法
  * 二次探查法
  * 双重散列

## 二叉搜索树

In [58]:
class TreeNode(object):
    def __init__(self, data = -1, parents = None, lchild = None, rchild = None):
        self.data = data
        self.parents = parents
        self.lchild = lchild
        self.rchild = rchild
class BST(object):
    def __init__(self, root = None):
        self.root = root
        
# 插入节点
def tree_insert(T, z):
    y = None
    x = T.root
    while x != None:
        y = x
        if z.data < x.data:
            x = x.lchild
        else:
            x = x.rchild
    z.parents = y
    if y == None:
        T.root = z
    elif z.data < y.data:
        y.lchild = z
    else:
        y.rchild = z

def inorder_tree_walk(node):
    if node != None:
        inorder_tree_walk(node.lchild)
        print(node.data, end=' ')
        inorder_tree_walk(node.rchild)
        
def tree_search(x, k):
    if x == None or k == x.data:
        return x
    if k < x.data:
        return tree_search(x.lchild, k)
    else:
        return tree_search(x.rchild, k)
    
# 非递归查找（采用while循环展开递归）
def iterative_tree_search(x, k):
    while x!= None and k!= x.data:
        if k < x.data:
            x = x.lchild
        else:
            x = x.rchild
    return x

# 最小关键字元素
def tree_minimum(x):
    while x.lchild != None:
        x = x.lchild
    return x

# 最大关键之元素
def tree_maximum(x):
    while x.rchild != None:
        x = x.rchild
    return x

# 移动子树（为删除节点做准备）    
def transplant(T, u, v):
    if u.parents == None:
        T.root = v
    elif u == u.parents.lchild:
        u.parents.lchild = v
    else:
        u.parents.rchild = v
    if v != None:
        v.parents = u.parents

# 删除节点
def tree_delete(T, z):
    if z.lchild == None:
        transplant(T, z, z.rchild)
    elif z.rchild == None:
        transplant(T, z, z.lchild)
    else:
        y = tree_minimun(z.rchild)
        if y.parents != z:
            transplant(T, y, y.rchild)
            y.rchild = z.rchild
            y.rchild.parents = y
        transplant(T, z, y)
        y.lchild = z.lchild
        y.lchild.parents = y

In [78]:
A = [3, 5, 2, 9, 1, 8, 4, 7, 6]
T = BST()
for Ai in A:
    tree_insert(T, TreeNode(Ai))
inorder_tree_walk(T.root)

1 2 3 4 5 6 7 8 9 

In [79]:
node = tree_maximum(T.root)
node.data

9

In [80]:
node = tree_minimum(T.root)
node.data

1

In [81]:
# 递归最小关键字元素
def tree_minimum_recurtion(x):
    if x.lchild != None:
         x = tree_minimum_recurtion(x.lchild)
    return x
    
# 递归最大关键字元素
def tree_maximum_recurtion(x):
    if x.rchild != None:
        x = tree_maximum_recurtion(x.rchild)
    return x

In [82]:
node = tree_minimum_recurtion(T.root)
node.data

1

In [83]:
node = tree_maximum_recurtion(T.root)
node.data

9

In [89]:
tree_insert(T, TreeNode(3))
inorder_tree_walk(T.root)
z = tree_search(T.root, 3)
tree_delete(T, z)
print()
inorder_tree_walk(T.root)

1 2 3 4 5 6 7 8 9 
1 2 4 5 6 7 8 9 

 ## 红黑树

### 什么是红黑树

&emsp;&emsp;红黑树是一棵二叉搜索树，它在每个节点上增加了存储位来表示结点的__颜色__，可以使__RED__或__BLACK__。通过对任何一条从根到叶子的简单路劲上各个结点的颜色进行约束，红黑树确保没有一条路径会比其他路径长出2倍，因此是近似于__平衡__。<br>
&emsp;&emsp;树中每个结点包换5个属性：$color、key、left、right和p$。<br>
* 一个红黑树是满足下面红黑性质的二叉搜索树：
    1. 每个结点或是红色的，或是黑色的。
    2. 根结点是黑色的。
    3. 每个叶结点（NIL）是黑色的。
    4. 如果一个结点是红色的，则它的子结点都是黑色的。
    5. 对于每个结点，从该结点到其所有后代叶结点的简单路径上，均包含相同数目的黑色结点。

### 旋转

&emsp;&emsp;在对红黑树进行插入或者删除结点时，很可能会破坏红黑树的性质。为了维护这些性质，必须要改变树中某些结点的颜色以及指针结构。<br>
&emsp;&emsp;指针的结构修改是通过__旋转（ratation）__来完成的。这是一种能保持二叉搜索树性质的搜索树局部操作。下图所示左旋和右旋：

<img src="旋转01.png" width="60%">

In [90]:
# 二叉搜索树的左旋
def left_rotate(T, x):
    pass

# 二叉搜索树的右旋
def right_rotate(T, x):
    pass

### 定义红黑树的数据结构

In [91]:
class RBNode(object):
    def __init__(self, color = 'red', key = -1, left = None, right = None, p = None):
        self.color = color
        self.key = key
        self.left  = left
        self.right = right
        self.p = p
class RBTree(object):
    def __init__(self, root = None):
        self.root = root
        self.nil = None

### 红黑树的插入操作

1. __$z$的叔结点$y$是红色的__
2. __$z$的叔结点$y$是黑色的且$z$是一个右孩子__
3. __$z$的叔结点$y$是黑色的且$z$是一个左孩子__

In [None]:
# 插入时进行调整（旋转调整）
def rb_insert_fixup(T, z):
    pass


In [None]:
# 红黑树结点插入函数
# def rb_insert(T, z):
#     y = T.nil
#     x = T.root
#     while x != T.nil:
#         y = x
#         if z.key < x.key:
#             x = x.left
#         else:
#             x = x.right
#     z.p = y
#     if y == T.nil:
#         T.root = z
#     elif z.key < y.key:
#         y.left = z
#     else:
#         y.right = z
#     z.left = T.nil
#     z.right = T.nil
#     z.color = 'red'
    

### 红黑树删除操作

1. __$x$的兄弟结点$w$是红色的__
2. __$x$的兄弟结点$w$是黑色的，而且$w$的两个子结点都是黑色的__
3. __$x$的兄弟结点$w$是黑色的，$w$的左孩子是红色的，$w$的右孩子是黑色的__
4. __$x$的兄弟结点$w$是黑色的，且$w$的右孩子是红色的__

## 最长公共子序列