# 算法导论 - Introduction to Algorithms

阅读记录以及课后练习题和思考题；

## 第一章 算法在计算中的作用

### 1.1 算法 练习
- 1.1-1 给出现实生活中需要排序或者计算凸壳的例子；
    - 排序：对学生的成绩进行降序排序后打印出来；
    - 凸壳：计算多个居民点的凸壳来建造整体覆盖的信号站；
- 1.1-2 除速度外，真实环境中还可能使用哪些其他有关效率的度量；
    - 内存空间占用、稳定性、适用性、最好最坏情况；
- 1.1-3 选择一种已知的数据结构，并讨论其优势和局限；
    - 数组：已知最简单的数据结构，大部分语言内置，特点是使用连续内存空间以最大化提升索引速度，且不需要空间存储额外的元数据，只需要一个数据头指针即可，局限是对空间利用不够充分，增删数据时需要大量的移动原来的元素位置，有角标越界等风险；
- 1.1-4 最短路径与旅行商问题有哪些相同和不同；
    - 相同：
    - 不同：
- 1.1-5 提供一个现实问题，其中只有最佳解才行，再提供一个现实问题，其中近似最佳解也足够好；
    - 最佳解：用户银行卡剩余金额计算；
    - 近似最佳解：用户偿还能力估计；

### 1.2 作为一种技术的算法 练习
- 1.2-1 给出在应用层需要算法内容的一个例子，并讨论算法功能；
    - 对爬虫爬取结果进行相关性排序中使用了排序算法、相似度计算算法，相似度算法比如最短编辑距离可以用于计算两个字符串之间的差异，这可以用于评估爬取内容与搜索内容的相似度；
- 1.2-2 假设我们正在比较插入排序和归并排序，插入排序复杂度为8n^2，归并排序为64nlgn，对于哪些n值，插入优于归并；
    - 1 < n < 44内，插入优于归并；
- 1.2-3 n最小为多少时，运行时间为100n^2的算法在相同机器上优于2^n；
    - n最小为15时，100n^2更优；

### 1-1思考题
- 1-1 运行时间比较，假设求解问题的算法需要f(n)毫秒，对于下表中所有f(n)和时间t，求t时间内能解决的最大规模n；


复杂度时间|1second|1min|1hour|1day|1month|1year|1century
-|-|-|-|-|-|-|-
lgn|2^1000|2^60000|2^3600000|2^86400000|2^2592000000|2^31104000000|2^3110400000000|
sqrt(n)|1000^2|60000^2|3600000^2|86400000^2|2592000000^2|31104000000^2|3110400000000^2|
n|1000|60000|3600000|86400000|2592000000|31104000000|3110400000000|
nlgn|(2^1000)/1000|(2^60000)/60000|(2^3600000)/3600000|(2^86400000)/86400000|(2^2592000000)/2592000000|(2^31104000000)/31104000000|(2^3110400000000)/3110400000000|
n^2|1000^(1/2)|60000^(1/2)|3600000^(1/2)|86400000^(1/2)|2592000000^(1/2)|31104000000^(1/2)|3110400000000^(1/2)|
n^3|1000^(1/3)|60000^(1/3)|3600000^(1/3)|86400000^(1/3)|2592000000^(1/3)|31104000000^(1/3)|3110400000000^(1/3)|
2^n|lg1000|lg60000|lg3600000|lg86400000|lg2592000000|lg31104000000|lg3110400000000|
n!|6|8|9|11|12|13|15|

## 第二章 算法基础

### 2.1 插入排序 练习
- 2.1-1 说明插入排序在数组A={31,41,59,26,41,58}上的工作流程；
    ```python
    从下标位2位置元素开始：
    41 - 在{31}中从右到左找自己的位置，得到{31,41}
    59 - 在{31,41}中从右到左找自己的位置，得到{31,41,59}
    26 - 在{31,41,59}中从右到左找自己的位置，得到{26,31,41,59}
    41 - 在{26,31,41,59}中从右到左找自己的位置，得到{26,31,41,41,59}
    58 - 在{26,31,41,41,59}中从右到左找自己的位置，得到{26,31,41,41,58,59}
    排序完毕；
    ```
- 2.1-2 重写插入排序伪代码，实现非升序排序；
    ```python
    for j=2 to A.len:
        key = A[j]
        i = j-1
        while i>0 and A[i]<key:
            A[i+1] = A[i]
            i -= 1
        A[i+1] = key
    ```
- 2.1-3 输入为数组A，数值v，输出下标i，使得A[i]==v，或者NIL表示v不存在于数组A，写出线性伪代码，并通过循环不等式证明其满足三条必要条件；
    ```python
    for i=1 to A.len:
        if A[i] == v:
            return i
    return NIL
    
    循环不等式：
        初始化：在循环开始之前，没有找到v对应的下标，也没有return；
        保持：在任意迭代时，如果找到了v，那么直接return下标，否则继续迭代，下一次迭代继续向后找；
        终止：当循环终止时，要么是找到了v，提前return了下标，要么是没有找到，此时会return NIL；
    综上，满足循环不等式，算法正确；
    ```
- 2.1-4 写出存储与数组A,B的两个n位二进制相加，结果由n+1长度数组C表示，给出形式化描述，并写出伪代码；
    ```python
    形式化描述：循环同时遍历数组A和B，记录相加后的当前位置的数值以及是否由进位，进位需要一个单独变量维护；
    
    add1 = 0
    for i=1 to A.len:
        c = A[i] + B[i] + add1
        C[i] = c if c<2 else 0
        add1 = 0 if c<2 else 1
    C[C.len] = add1
    ```

### 2.2 分析算法 练习
- 2.2-1 用复杂度表示：(n^3)/1000-100n^2-100n+3；
    ```python
    O(n^3)：去掉低阶项100n^2，100n以及3，去掉高阶项中的常数项1/1000；
    ```
- 2.2-2 写出选择排序的伪代码，描述其循环不等式，为什么它只需要对前n-1个数进行排序而不需要处理第n个数，用复杂度描述其最好和最坏情况的运行时间；
    ```python
    for i=1 to A.len-1:
        min_ = A[i]
        idx = i
        for j=i+1 to A.len:
            if A[j] < min_:
                min_ = A[j]
                idx = j
        A[i] = A[idx]
    
    循环不等式：
        初始化：i=1迭代之前，此时数组A保持原样，或者说此时有序数组为{}，没有元素，自然可以认为是有序的；
        保持：任意迭代i，前i-1个元素是有序的，因为迭代找的都是当前最小，而不是全局，因此迭代i完成时，依然是有序的；
        终止：当i=A.len时迭代结束，也就是没有处理位置n的元素，原因在于在次之前的n-1个值是数组中最小的n-1个值，那么n元素自然就是最大的那个值，也理应放在最后位置，也就不需要再处理；
    
    最好情况：已经是排好序的，依然是O(n^2)，内循环依然要继续执行，这里与最坏情况还是一样的；
    最坏情况：于排序要求完全相反的，复杂度为O(n^2)；
    ```
- 2.2-3 线性查找问题：平均和最坏需要检查多少元素，给出对应复杂度；
    ```python
    平均情况：要检查n/2个元素，复杂度为O(n/2)，即O(n)；
    最坏情况：要检查n个元素，复杂度为O(n)，即O(n)；
    ```
- 2.2-4 如何修改任意算法使其具有良好的最好情况运行时间；
    ```python
    ```

### 2.3 设计算法 练习
- 2.3-1 说明归并排序在数组A={3,41,52,26,38,57,9,49}上的操作；
    ```python
    A分为L={3,41,52,26}和R={38,57,9,49}；
    L分为LL={3,41}和LR={52，26}，以此类推；
    LL分为LLL={3}和LLR={41}，以此类推；
    对LLL和LLR进行MERGE处理，得到LL={3,41}，同理LR={26,52}；
    对LL和LR进行MERGE处理，得到L={3,26,41,52}，同理R={9,38,49,57}；
    对L和R进行MERGE处理，得到A={3,9,26,38,41,49,52,57}；
    算法结束；
    ```
- 2.3-2 重写MERGE部分，不使用哨兵机制，而是在数组L或者R中的一个所有元素都被复制到A后停止循环，再把另一个数组的剩余元素统一copy到A里；
    ```python
    L = [1,A.len/2]
    R = [1,A.len/2]
    for i=1 to A.len/2:
        L[i] = A[i]
    for i=A.len/2+1 to A.len:
        R[i] = A[i]
    li=ri=ai=1
    while li <= A.len/2 and ri <= A.len/2:
        if L[li] <= R[ri]:
            A[ai] = L[li]
            li += 1
        else:
            A[ai] = R[ri]
            ri += 1
        ai += 1
    if li > A.len/2:
        for i=ri to A.len/2:
            A[ai] = R[i]
            ai += 1
    else:
        for i=li to A.len/2:
            A[ai] = L[i]
            ai += 1
    ```
- 2.3-3 使用数学归纳法证明，当n刚好是2的幂时，以下递归式的解为T(n) = nlgn；
- 2.3-4 将插入排序看作是一个递归过程，为这个过程的最坏情况写递归式；
    ```python
    INSERTION_SORT(A,len):
        INSERTION_SORT(A,A.len-1)
        key = A[len]
        i = len-1
        while i>0 and A[i]<key:
            A[i+1] = A[i]
            i -= 1
        A[i+1] = key

    分解：将A[1,j]排序可以分解为两部分，一部分将A[1,j-1]排序，另一部分将A[j]插入到有序的A[1,j-1]中；
    解决：递归的求解规模更小的问题(len-1)；
    合并：while循环，需要O(n)的时间；
    ```
- 2.3-5 为二分查找写递归或者迭代的伪代码，并证明其最坏情况为O(lgn)；
    ```python
    BINARY_SEARCH(A,v):
        if A[A.len/2]==v:
            return A.len/2
        elif A[A.len/2] > v:
            return BINARY_SEARCH(A[1,(A.len/2)-1],v)
        else:
            return BINARY_SEARCH(A[(A.len/2)+1,A.len],v)
        return NIL
    
    最坏情况：v不存在于数组A中，假设v小于A中的最小值，也就是i=1位置的元素，根据算法逻辑，程序会一直从left子数组查找，这个过程会执行lgn次，例如n=8时，分别分为4个，2个，1个，1个仍然没有找到，返回NIL，因此最坏情况为lgn；
    ```
- 2.3-6 是否可以通过对插入排序的内循环改为二分查找，将最坏情况的运行时间降低到O(nlgn)；
    ```python
    感觉是不可以的，因为插入排序的while循环不仅仅是在检查位置，同时也在做元素的移动，假设用二分查找通过lgn定位了位置，但是依然需要n的运行时间来移动元素，两者相加还是O(n)；
    ```
- 2.3-7 给定包含n个整数的数组S和另一个整数x，在S中找到两个值其和等于x，要求最坏运行时间为O(nlgn)；
    ```python
    使用两层嵌套循环，最坏情况下运行时间为O(n*n)；
    ```

The end.