# 常用算法小结

## 简介
常用算法，比如：
- 分治算法  
将大问题规模变小，分解成相同的子问题，一般递归解决
- 动态规划
多步判断求解，子问题重叠，如果没有重复子问题，和蛮力算法差不多
- 贪心算法
- 回溯算法
搜索、优化问题，多步判断求解，满足多米诺性质
- 分支界定  
和回溯算法类似，利用约束条件，最优化的界，剪枝

### 观察问题
- 感觉能否分解成小问题
- 是否能分解成规模小的，但是问题相同；如果是，就具有最优子结构
- 子问题合并之后，能否得到原来的问题。可以得到，就采用分治算法，不能考虑动态规划、贪心算法
- 子问题分解出来是否相互独立，问题间的答案有没有可以相互利用的；有，就不独立。不独立可以采用动态规划，比分治算法节约时间

## 分治法

分解到最小规模，解决后return，然后合并子问题

### 算法复杂度：
1. 常见的分治算法主定理：$T(n) = kT(n/m) + f(n)$，k个规模为n/m的子问题，加上合并函数规模f(n)  
2. 其他的，比如：  
汉诺塔问题，$T(n) = 2T(n-1)+1$，时间复杂度$T(n) = O(2^{n})$  
形如：$T(n) = 4T(n-1)+1$，时间复杂度$T(n) = O(4^{n})$  
$T(n) = T(n-1)+O(n)$，时间复杂度$T(n) = O(n^{2})$

$T(n) = kT(n/m) + f(n)$,  其中：  
- $T(n) = kT(n/m)+ O(1)$:  
$k=1$, $T(n) = O(logn)$, 比如：二分搜索$T(n)=T(n/2)+1$    
$k\neq1$, $T(n) = O(n^{\log_{m}{k}})$    
- $T(n) = kT(n/m)+cn$:  
$k<m$, $T(n) = O(n)$， 比如：$T(n) = T(n/2) + O(n)$  
$k=m$, $T(n) = O(nlogn)$， 比如：归并排序$T(n)=2(n/2)+n-1$  
$k>m$, $T(n) = O(n^{\log_{m}{k}})$

### 二分搜索
在递增数列 $L[1,2,3,4,5,6,7,8,9,10]$中,查找$key=6$，$T(n) = O(logn)$

**tips：**  
1. left<right,和left<=right的区别，主要在于$left<right$,表示最少有2个元素，终止条件为$left=right$，只剩下一个元素。后者表示最少有1个元素，终止条件为$left>right$,已经没有元素了。  
2. right = len(L)-1，和right = len(L)的区别，前者可以表示范围$[0, right]$，包含边界；后者表示$[0, right）$，不包含边界。具体的差异会在求mid上面体现。$mid = (left + right)//2$，求得的mid会靠右边1位，也就是right=mid时候，不能写成right=mid+1，这样会出界

In [11]:
def b_search(L, key):
    left, right = 0, len(L)-1
    while left <= right:
        mid = (left+right)//2  # left + (right-left)//2
        if L[mid] == key:
            return mid
        elif L[mid] < key:
            left = mid + 1
        else:
            right = mid -1
    else:
        return -1

In [12]:
L = [1,2,3,4,5,6,7,8,9]
key = [1,2,3,4,5,6,7,8,9]
[b_search(L,i) for i in key]

[0, 1, 2, 3, 4, 5, 6, 7, 8]

In [43]:
b_search(L, 10)

-1

**注意事项**：  
1. 可以有2种参数  
① right = len(L) -1,  while条件是 left <= right， left = mid +1, right = mid - 1 ；并且，如果right = len(L), 当搜索key值>max(L)，会越界报错   
② right = len(L) ,  while条件是 left < right， left = mid +1, right = mid  
2. mid值多种写法，注意越界  
mid = (left + right)//2，或者 mid = left + (right-left)//2, 防止left+right超出int边界

### 归并排序
对数列$L[3,4,7,9,8,5,2,1]$归并排序,$T(n) = O(nlogn)$

In [72]:
def mearge_sort(L):
    if len(L) < 2:
        return L
    mid = len(L)//2
    left = mearge_sort(L[:mid])
    right = mearge_sort(L[mid:])
    return mearge(left,right)

def mearge(left,right):
    a = b = 0
    l,r = len(left), len(right)
    tmp = []
    while a < l and b < r:
        if left[a] > right[b]:
            tmp.append(right[b])
            b += 1
        else:
            tmp.append(left[a])
            a += 1
    while a < l:
        tmp.append(left[a])
        a += 1 
    while b < r:
        tmp.append(right[b])
        b += 1
    return tmp

In [73]:
L = [9,8,7,6,6,5,4,4,3,2,2,1,0,10]
mearge_sort(L)

[0, 1, 2, 2, 3, 4, 4, 5, 6, 6, 7, 8, 9, 10]

**分析**：  
1. 递归终止条件：子问题得到解决  
当len(L)<2时候，只剩下一个数，对他排序直接返回就行
2. 子问题解决后，不断的使用同一个mearge函数不断合并，得到最终结果

### 快速排序
对数列L使用快速排序，平均$T(n) = O(nlogn)$

In [9]:
def quick_sort(L):
    if len(L)<2:
        return L
    mid = L[0]
    left ,right =[],[]
    for i in range(1,len(L)):
        if L[i] < L[0]:
            left.append(L[i])
        else:
            right.append(L[i])
    return quick_sort(left) + [mid] + quick_sort(right)   

In [10]:
L = [9,9,8,7,6,6,5,9,4,3,2,9,1,0,10]
quick_sort(L)

[8, 9]

**改进quick_sort,原地排序，不加额外空间**

In [28]:
def q_sort(L, left, right):
    if left<right:
        #mid = partition1(L, left, right)
        mid = partition2(L, left, right)
        #mid = partition3(L, left, right)
        #mid = part3(L, left, right)
        #mid = part4(L, left, right)
        q_sort(L, left, mid-1)
        q_sort(L, mid+1, right)
    
def partition1(L, left, right):
    mid = left
    #print(left, right)
    left = mid + 1
    while True:
        # 判断条件left<=right，包含=，否则漏判中间数
        #print(left,right)
        while left<=right and L[right]>=L[mid]:  # 不设置=，会死循环
            right -= 1
        while left<=right and L[left]<=L[mid]:
            left += 1
        if left>right:
            break
        else:
            L[left], L[right] = L[right], L[left]
    L[mid], L[right] = L[right], L[mid]
    return right

def partition2(L, left, right):
    pivot = L[left]
    while left < right:
        # 其中L[right]>=pivot，中的=，在L[right]、L[left]与pivot比较时随便设置一个=都行，若2者都不考虑=，会死循环
        while left<right and L[right]>=pivot:  # =号，任取一个
            right -= 1
        L[left] = L[right]
        while left<right and L[left]<=pivot:
            left += 1
        L[right] = L[left]
    #L[right] = pivot
    L[left] = pivot
    return left

def partition3(L, left, right):
    pivot = L[right]
    index = left
    for i in range(left,right):
        if L[i] < pivot:
            L[index],L[i] = L[i],L[index]
            index += 1
    L[index],L[right] = L[right], L[index]
    return index
#简化partition3
def part3(L, left ,right):
    for i in range(left, right):  # 一般不这么写，当left处于循环range里面，一般用while不用for，应用新变量代替left++
        if L[i] < L[right]:       # 不过这里虽然left值改变，range(left,right)不再变，若left换成len(L),那么range范围会一直变动
            L[i],L[left] = L[left], L[i]
            left += 1
    L[left], L[right] = L[right], L[left]
    return left
def part4(L, l, r):
    p = L[r]
    idx = l
    for i in range(l, r):
        if L[i]<p:
            L[i], L[idx] = L[idx], L[i]
            idx += 1
    L[idx], L[r] = L[r], L[idx]
    return idx

In [29]:
L = [6,6,5,4,4,3,2,2,1,0,10,9,8,7,6]

q_sort(L, 0, len(L)-1)

In [30]:
#原地排序，原有L已经改变
L

[0, 1, 2, 2, 3, 4, 4, 5, 6, 6, 6, 7, 8, 9, 10]

## 动态规划
可以分解规模，但是子问题的结果依赖于上一个子问题

划分阶段、确定状态、寻找边界条件，一般就分析最优子结构，根据得到的结果构造最优解


**核心：找递推关系式，表进行记录**

### 最长公共子序列
2个字符串，$x = x1,x2,...xM; y = y1,y2,y3,...yN$，找出最长的公共的子序列

In [216]:
x = 'aedwefdgkjzmbbqsdg'
y = 'caewfdsgsdgsf'

**分析**：  
2个字符串，m、n长，先都看最后一个字符，如果$xM = xN$，那么最长公共子序列L(i)=L(i-1)+1,也就是最后一个公共字符是$xM$ or $xN$；但如果最后的2个字符不相等，那么L(i) = max(Xm+Yn-1, Xm-1+Yn) 中找最长 。用表$c[i][j]$进行记录  
1. 如果$x[i]=y[i]$,  $c[i][j]=c[i-1][j-1]+1$  
2. 如果$x[i]\neq y[i]$,$max(c[i][j-1],c[i-1][j])$   
3. 边界，i or j =0，$c[i][j] = 0$

- 递归描述

In [217]:
def rec_LCS(x, y, i, j):
    if i==0 or j==0:
        return 0
    if x[i] == y[j]:
        return rec_LCS(x, y, i-1, j-1) + 1
    else:
        return max(rec_LCS(x, y, i, j-1), rec_LCS(x, y, i-1, j))
    

In [218]:
i, j = len(x)-1, len(y)-1
rec_LCS(x, y, i, j)

8

In [219]:
def rec_lcs(x, y, i, j):
    if i==0 or j==0:
        return ''
    if x[i] == y[j]:
        return rec_lcs(x, y, i-1, j-1) + x[i]
    else:
        return max(rec_lcs(x, y, i, j-1), rec_lcs(x, y, i-1, j))
    
rec_lcs(x, y, i, j)

'ewfdgsdg'

- 迭代，动态规划

In [229]:
def dp_LCS(x, y):
    L = [[0]*len(y) for k in range(len(x))]  # i行 j列
    for i in range(1, len(x)):
        for j in range(1, len(y)):
            if x[i] == y[j]:
                L[i][j] = L[i-1][j-1] + 1
            else:
                L[i][j] = max(L[i][j-1], L[i-1][j])
    return L[len(x)-1][len(y)-1]

In [230]:
def dp_lcs(x, y):
    L = [['']*len(y) for k in range(len(x))]  # i行 j列
    for i in range(1, len(x)):
        for j in range(1, len(y)):
            if x[i] == y[j]:
                L[i][j] = L[i-1][j-1] + x[i]
            else:
                L[i][j] = max(L[i][j-1], L[i-1][j])
    return L[len(x)-1][len(y)-1]

In [231]:
dp_LCS(x, y)
dp_lcs(x, y)

'ewfdgsdg'

## 贪心算法
**算法描述**：  
1. 某个状态以后的过程不会影响以前的状态，只与当前状态有关  
2. 前提是：**局部最优策略能导致产生全局最优解**  
3. 一旦一个问题可以通过贪心法来解决，那么贪心法一般是解决这个问题的最好办法
4. 适用于组合优化问题，多步判断，贪心选择需要证明其正确性

- 贪心法的证明 

 **活动安排**：  
最优策略：最大相容活动子集合  
设E={1,2,...n}是活动结束时间递增排序后的集合，活动1具有最早的完成时间。  
1. 首先证明，活动中有1个最优解是且包含贪心选择活动1。
假设这样的1个最优解A,且A中的活动也是按照结束时间递增排列，A的第一个活动是k。  
如果k>1，因为活动1的结束时间比k还小，那么A活动加上活动1也应该是最优解，所以其实k==1的  
也就是最优解A以贪心选择活动1开始的

## 回溯算法
枚举搜索，寻找问题的解，适合复杂规模大的问题

1. 确定解空间，解空间应至少包含问题的一个（最优）解
2. 确定易于搜索的解空间结构
3. 深度优先搜索，查找解

**特点：**  
解是向量，搜索空间：树，n叉树，子集树，排列树；搜索方法：深度优先，宽度优先，跳跃式遍历搜索树，找到解

**适用条件** 多米诺性质

### 正则匹配
目标字符串：s，用来匹配的字符串p。  
s中包含a-z，p中除了a-z之外，还包含'\.'  、  '\*'，其中  '.'  代表任意一个字符， '\*'，代表前面的一个字符有0个或者多个

In [None]:
def find_match(s, p, ls, lp):
    if not s and not p:
        return True
    if not s:
    

def isMatch(s, p):
    return find_match(s, p, len(s)-1, len(p)-1)

## 分支限界
和回溯算法类似，不过在剪枝时，停止搜索的条件不同，适合组合优化问题：  
1. 不满足约束条件停止
2. 对于极大化问题，代价函数小于界，也就是搜索下面的子树也达不比当前节点好  
3. 常用广度优先搜索