# 算法

## 定义
- 对特定问题`求解方法和步骤`的一种描述
- 是`一串有限序列的指令`
- 每个指令标识一个或多个操作


In [None]:
"""
解决问题的方法和步骤
step1:...
step2:...
step3:...
...
"""
PI = 3.14
class Solution:
    def area(self, r:float)->float:
        res = PI * r * r
        return res

## 算法描述
- 自然语言：中文，英文
  - 求一元一次方程解，面积，周长等
- 流程图：
  - ![传统流程图和 NS 流程图.png](attachment:image-3.png)
- 伪代码：类语言，如类 C 语言
- 程序代码：python 语言，C 语言程序 ...

## 算法与程序
- `算法`是解决问题的方法或过程，考虑如何将输入转换成输出，一个问题可以有多种算法
- `程序`是用特定程序设计语言对算法的具体实现
  - 程序 = 数据结构 + 算法
  - 数据结构通过算法实现操作
  - 算法根据数据结构设计程序

## 算法特性
- `有穷性`，执行有限步骤或有限时间后完成
- `确定性`，无二义性，即对于相同的输入只能得到相同的输出
- `可行性`，可执行的
- `输入`，零个或多个输入
- `输出`，一个或多个输出

## 算法设计的要求
- `正确性`，满足问题要求，能正确解决问题，算法转化为程序后要注意：
  1. 程序中`不含语法错误`
  2. 程序对于`几组输入数据（测试用例）`能够得出满足要求的结果
  3. 程序对于`精心选择的，典型、苛刻且带有刁难性`的几组测试用例能够得到满足要求的结构
  4. 程序对于`一切合法的输入数据`都能得出满足要求的结果
  - PS: 通常以`第 3 条意义上的正确性`作为衡量一个算法是否合格的标准
- `可读性`，通俗易懂
  1. 算法主要是为了人的阅读和交流，其次才是为计算机执行
  2. 另一方面来说，晦涩难读的算法易于隐藏错误而难以调试和优化
- `健壮性`，预支错误路径
  1. 当`输入非法数据`时，算法恰当的作出反应或进行相应处理，而不是产生莫名其妙的输出结果
  2. 处理出错的时候，不应是中断程序的执行，而是返回错误的值便于上层处理
- `高效性`，尽可能少时间和低的存储

## 算法分析
- 同一个问题，可以有许多不同的算法。那么如何来评价这些算法的优劣程度呢？
`算法分析`，目的是看算法实际是否可行，并在一题多解的场景下进行性能上的比较，以便从中挑选出较优算法。
- 一个好的算法，首先要具备正确性，健壮性，可读性的前提下，然后就是考虑`算法的效率`
- 算法效率以两个维度来考虑：
  - `时间效率`，算法执行过程消耗的`时间`
  - `空间效率`，算法执行过程耗费的`存储空间`
  - PS: 注意的是，`时间效率和空间效率有时是矛盾的`，即牺牲空间来缩短时间的消耗

## 算法时间效率的度量
- 算法时间效率可以用依据该算法编写的程序在计算机上执行所消耗的`时间`来度量
- 两种度量方法
  - 事后统计：
    - 将算法实现，测算其时间和空间开销
    - `缺点`：编写程序实现算法花费较多的时间和精力，所得的实验结果依赖于计算机的软硬件环境因素，无法精准判断算法本身的优劣
  - 事前分析：
    - 对算法所消耗的资源的一种估算方法
    - `推荐使用`

## 算法事前分析方法
- 一个算法的运行时间是指一个算法在计算机上运行所耗费的时间大致可以等于计算机执行`一种简单的操作的时间`（如赋值，移动，比较等）与算法中进行的简单操作的`次数`的`乘积`。
  - `算法运行时间 = 一个简单操作所需的时间 x 简单操作次数`
- 也即算法中每条语句的执行时间之和 (Σ: 累加和)
  - `算法运行时间 = Σ 每条语句的执行次数 x 该语句执行一次所需要的时间`
  - 其中，每条语句的执行次数也称为`语句频度`，所以也有如下转化：
  - `算法运行时间 = Σ 每条语句频度 x 该语句执行一次所需要的时间`
  - 每条语句执行一次所需的时间，一般都是随机器环境而异。取决于机器的指令性能、速度以及编译的代码质量。是由机器本身软硬件环境决定的，与算法无关。
  - 因此，可以`假设执行每条语句所需的时间均为单位时间`。这就可以独立于不同机器的环境来分析算法的时间性能。此时上述表达式可进一步转化为：
  - `算法运行时间 = Σ 每条语句频度`

## 算法时间复杂度定义
- 算法中`基本语句重复执行的次数`是`问题规模n`的某个函数f(n)，算法的时间度量记作： `T(n)=O(f(n))`
- 它表示随着 n 增大，算法的执行时间增长率和 f(n) 的增长率相同，称`渐近时间复杂度`
- `基本语句重复执行的次数`剖析：
  - 算法中重复执行次数和算法的执行时间成正比的语句
  - 对算法运行时间贡献最大
  - 执行次数最多
- `问题规模`示例：
  - 排序: n 为记录数
  - 矩阵: n 为矩阵的阶数
  - 多项式: n 为多项式的项数
  - 集合: n 为元素的个数
  - 数: n 为树的节点个数
  - 图: n 为图的顶点数或变数


## 算法分析-比较数量级
- 为了比较不同算法的时间效率，仅比较它们的数量级
- 例如： T1(n) = 10n^2 与 T2(n) = 5n^3 , 哪个更优？
- 若有某个`辅助函数 f(n)`，使得当 n 趋于近无穷大时，T(n)/f(n)的极限值为`不等于零的常数`，则称f(n)是T(n)的同数量级函数。记作`T(n)=O(f(n))`,称O(f(n))为`算法的渐进时间复杂度（O 是数量级的符号,Order）`，简称`时间复杂度`。

In [None]:
n = int(input("假使此场景下输入的 n 的值为正无穷 >>>:"))

假使此场景下输入的 n 的值为正无穷 >>>: 1000000


### 指数级

In [None]:
for i in range(n):              # n 次
    for j in range(n):          # n * n 次
        for k in range(n):      # n * n * n 次
            x += 1              # n * n * n 次

# 根据多项式推算出语句频度
# T(n) = 2n^3 + n^2 + n
# ||
# ||
# T(n) = n^3

![image.png](attachment:e1b2490b-aec7-4842-9cac-78e5463490d9.png)

### 对数级

In [None]:
i = 1
while i <= n:
    i *= 2

"""
循环执行 1 次： i = 1 * 2 = 2
循环执行 2 次： i = 2 * 2 = 2^2
循环执行 3 次： i = 2^2 * 2 = 2^3
循环执行 4 次： i = 2^3 * 2 = 2^4

...
循环执行 x 次： i = 2^x
设语句 'i *= 2' 执行次数为 x 次，则 i <= n ∴2^x <= n ∴ x <= lgn
"""

# T(n) = O(lgn)

### 算法时间复杂度计算
有的情况下，算法中基本操作重复执行的次数还随问题的输入数据集不同而不同
- ✅最坏时间复杂度：指在最坏情况下，算法的执行时间
- ✅平均时间复杂度：指在所有可能输入示例在等概率出现的情况下，算法期望执行时间
- 最好时间复杂度：指在最好情况（如最优输入数据集），算法的执行时间

In [None]:
def func():
    for i in range(n):  # (start=0, end(不包含), step=1(步长)）
        if i == num:
            return i  # 找到目标 num 则返回第 i 个元素，即共执行了 i 次
    return 0

func()

"""
- 最好情况： 1 次
- 最坏情况： n
- 平均时间复杂度为： O(n)
"""

### 算法时间复杂度计算估算方法
- 对于复杂的算法，可以将它分成几个容易估算的部分，然后利用加法、乘法等基本运算法则去计算算法的时间复杂度

In [None]:
# 加法
T(n) = T1(n) + T2(n) = O(f(n)) + O(g(n)) = O(max(f(n), g(n)))

# 乘法
T(n) = T1(n) * T2(n) = O(f(n)) * O(g(n)) = O(f(n) * g(n))

# 算法时间效率的比较
当 n 取得值很大时，指数时间算法和多项式时间算法在所需时间上非常悬殊：

复杂度低 -> 复杂度高
- 常数阶 < 对数阶 < 线性阶 < 线性对数阶 < 平方阶 < 立方阶 < ... < k 方阶 < 指数阶
- O(1)  <  O(lgn) < O(n)   <   O(nlgn) <  O(n^2) < O(n^3) < ... < O(n^k) <   O(2^n)

- 示例图![image.png](attachment:image.png)


# 渐进空间复杂度
- 空间复杂度，即算法所需存储空间的度量
  - 记作  S(n) = O(f(n))
  - 其中 n 为问题的规模或大小

- 算法要占据的空间
  - 算法本身要占据的空间，输入/输出，指令，常数，变量等
  - 算法要使用的辅助空间

## 算法空间复杂度分析，示例


In [None]:
n = 1000
a = [i for i in range(n)]

def func():
    for i in range(n // 2):
        a[i], a[n - i - 1] = a[n - i - 1], a[i] # 原地工作，不需要额外空间，S(n) = O(1)
    return a

res = func()

In [None]:
n = 1000 # 1
b = 12 # 1
a = [i for i in range(n)] # n

def func():
    b = a[::-1]  # S(n) = T(n)
    return b

res = func()

# 变位词判断
- 问题描述: 指两个词之间存在组成字母的重新排列关系，简单起见，假设参与判断的两个词仅由小写字母构成而且长度相等。如"listen"和"silent", "python"和"typhon"
- 解题目标: 写一个 bool 函数，以两个词作为参数，返回这两个词是否为变位词
- 说明: 可以很好展示同一个问题的不同数量级算法


## 解法1: 逐字比较


### 解法思路
- 将词 1 中的字符逐个提取去到词 2 中检查是否存在，存在就标记 True（放置重复检查）:
    - 如果每个字符都能找到，则两个词是变位词
    - 如果发生有一个字符没有找到，则两个词不是变位词
- ![image.png](attachment:image.png)

### 程序技巧
- 实现标记：将词 2 对应字符设为 None，由于字符串是不可变类型，需要先复制到列表中
- ![image.png](attachment:image.png)

![image.png](attachment:6bb581ce-3282-4fe0-bd6e-6f8811f64fae.png)

In [6]:
def solution_from_harry(w1, w2):
    for i in w1:
        found = False
        for j in w2:
            if i == j:
                found = True
                break
        if not found:
            return False
    return True
                
print(solution_from_harry('dog', 'god'))

True


In [None]:
def anagramSolution1(word1, word2):
    word2_list = list(word2) # 复制 word2 为列表从而转为可修改的值
    pos1 = 0
    is_anagram = True
    while pos1 < len(word1) and is_anagram: # 循环 word1 的每个字符 word1[pos1]
        pos2 = 0
        found = False
        while pos2 < len(word2_list) and not found:
            if word1[pos1] == word2_list[pos2]:
                found = True # 在 word2_list 中逐个对比 word1 的字符 word1[pos1]
            else:
                pos2 = pos2 + 1
        if found:
            word2_list[pos2] = None # 找到了则标记
        else:
            is_anagram = False # 有一个字符出现了没找到的情况，则宣布结果 False
        pos1 = pos1 + 1
    return is_anagram

## testcase
print(anagramSolution1('heart', 'earth'))

False


### 算法分析
- 问题规模: 词中包含的`字符个数` n
- 主要部分在于`两重`循环
    - 外层循环遍历 word1 每个字符，内层循环执行次数（频度）为 n
    - 内层循环遍历 word2 每个字符，每个字符的对比次数，分别可能是 1, 2, ... n 中的某个数，而且各不相同，最坏情况角度考量，频度也是 n
- 所以总执行次数是 `O(n^2)`

## 解法2: 排序比较

### 解题思路

- 将两个字符串都按照字母顺序排好序
- 逐个字符对比是否相同，如果对比到最后都相同，则是变位词
- 如果在对比过程中发现不相同的字符，则不是变位词
![image.png](attachment:image.png)

### 程序实现

In [None]:
def anagramSolution2(word1, word2):
    # 将两个字符串分别转换成列表
    word1_list, word2_list = list(word1), list(word2)

    # 分别排序
    word1_list.sort()
    word2_list.sort()
    
    pos = 0
    is_anagram = True
    
    while pos < len(word1_list) and is_anagram:
        if word1_list[pos] == word2_list[pos]: # 逐个对比
            pos = pos + 1
        else:
            is_anagram = False
    
    return is_anagram

print(anagramSolution2('silent', 'listen'))

True


In [26]:
# 链式赋值
str1, str2 = 'harry', 'susan'
str1, str2 = list(str1), list(str2)

print(str1, type(str1), len(str1))
print(str2, type(str2))


5


### 算法分析

- 粗看上去，本算法只有一个训话，最坏情况执行次数（频度）为 n，时间复杂度为 O(n)
- 但循环前面的两个 sort 操作，时间复杂度为 O(nlogn)，它是大于前面分析的循环 O(n) 的，所以本算法时间主导的步骤是`排序`步骤
- 因此，本算法时间复杂度为 `O(nlogn)`

## 解法3: 穷举暴力法

### 解法思路

- 穷尽所有可能组合
- 将 word1 中出现的字符进行全排列，再查看 word2 是否出现在全排列列表中
- 这里最困难的是如何穷举 word1 所有可能组合
- 根据组合数学的结论，如果 n 个字符进行全排列，其所有可能得字符串个数为 `n!（n 的阶乘）`
![image.png](attachment:image.png)

### 算法分析

- n! 的时间复杂度增长速度非常快，甚至超过 2^n
- 如：对于 20 个字符
    - 全排列的时间复杂度为 20!，即 20！= 2,432,902,008,176,640,000 个候选词
    - 如果每微秒处理 1 个候选词的话，即 2,432,902,008,176,640,000 / 1,000 = 2,432,902,008,176,640 秒
    - 即 2,432,902,008,176,640 / (60 * 60 * 24 * 365) = 79,000 年
- 结论: 穷举暴力法`在此场景`不能算是个好算法，时间复杂度太高，所以不考虑去实现

## 解法4: 计数比较


### 思路

- 对比两个词中每个字母出现的次数，如果 `26` 个字母出现的`次数`都`相同`，则两个词是变位词
- 为每个词设置一个 26 位的计数器，先检查每个词，在计数器中设定好每个字母出现的次数
- 计数完成后，进入比较阶段，依据检查的两个计数器是否相同结果来输出变位词的结论

### 代码实现

In [None]:
def anagramSolution4(word1, word2):
    counter1 = [0] * 26
    counter2 = [0] * 26
    
    # 1. 分别计数
    for i in range(len(word1)):
        pos = ord(word1[i]) - ord('a') ## 延伸知识：ord('a') = 97 ，其中 ord 是返回字符的 ASCII 码， ASCII 码理解为是字符的数字表示
        counter1[pos] += 1
    
    for i in range(len(word2)):
        pos = ord(word2[i]) - ord('a')
        counter2[pos] += 1
    
    j = 0
    is_anagram = True
    
    # 2. 计数器比较
    while j < 26 and is_anagram:
        if counter1[j] == counter2[j]:
            j += 1
        else:
            is_anagram = False
    
    return is_anagram

print(anagramSolution4('apple', 'pleap'))

True


### 算法分析

- 计数比较算法中有 3 个独立循环，但不像解法 1 那样存在嵌套循环
    - 前 2 个循环用于对字符串进行计数统计，频度为 n
    - 第 3 个循环用于计数器比较，频度为 26
- 所以可得出总操作次数 2n + 26，其数量级为 `O(n)`
    - 这是一个线性数量级的算法，4个解法中性能最优
- 更多的思考
    - 本算法依赖于两个长度为 26 的计数器列表，来保存字符计数，者相比前 3 个算法需要更多的`存储空间`
    - 牺牲存储空间来换取运行时间，或者相反，这种在`时间与空间之间的取舍和权衡`，在未来选择问题解法的过程中经常会出现。