# 时间复杂度

时间复杂度分析统计的不是算法运行时间，而是**算法运行时间随着数据量变大时的增长趋势**

## 关于循环结构的时间复杂度分析

控制结构的开销与循环体一致


for 循环的控制结构（初始化、判断、步进），在大 O 表示法中，这些开销通常被合并到循环次数的总复杂度中 ，并不会单独体现为一个独立的复杂度项

In [None]:
n = input("input an integer:")
for i in range(5*n+1):
    print(0)

for 循环部分具体执行过程：

- 初始化 i=0        整个过程只执行 1 次     O(1)
- 判断 i<5n+1       每次循环都执行 1 次     (5n+1)*O(1)
- 步进 i+=1         每次循环都执行 1 次     (5n+1)*O(1)
- 循环体 print(0)   每次循环都执行 1 次     (5n+1)*O(1)

以上求和即为：O(n)


| 特性| for 循环| while 循环|
|--|--|--|
|初始化|内置于循环结构中|手动编写|
|迭代|内置|手动|
|条件判断|内置|内置|
|时间复杂度|合并到循环体的复杂度|合并到循环体的复杂度|

## 时间复杂度常见类型

### 常数阶

操作数量和输入数据 n 无关

In [None]:
def constant(n:int)->int:
    count = 0
    for i in range(100):
        count += 1
    return count

### 线性阶

线性阶的操作数量相对于输入数据大小 n 以线性级别增长，常见于**单层循环**中

In [None]:
def array_traversal(nums: list[int]) -> int:
    count = 0
    for i in range(nums):
        count += i
    return count

### 平方阶

平方阶的操作数量相对于输入数据大小 n 以平方级别增长。平方阶通常出现在嵌套循环中

冒泡排序的核心是相邻元素两两比较并交换 ，通过多轮遍历将最大值逐步“冒泡”到数组末尾

In [3]:
# 冒泡排序,最大元素交换至该区间的最右端
def bubble_sort(nums: list[int]) -> int:
    count = 0  # 计数器
    for i in range(len(nums)-1, 0, -1):  # 5 4 3 2 1
        for j in range(i):  # 未排序区间 [0, i], range(0) 不会执行
            # 思路：相邻两两元素比较
            if nums[j] > nums[j+1]:
                tmp = nums[j]
                nums[j] = nums[j+1]
                nums[j+1] = tmp
                
    return count, nums

bubble_sort([1, 3, 5, 2, 4, 6])

(0, [1, 2, 3, 4, 5, 6])

In [None]:
# 非标准的选择排序：固定 i 位置的元素 ，与后面的元素逐一比较并交换
def bubble_sort(nums: list[int]) -> int:
    count = 0  # 计数器
    for i in range(0, len(nums)):  # 0 1 2 3 4 5
        # 思路：固定 nums[i]，依次和后面每个元素做比较
        for j in range(i+1, len(nums)):  # 未排序区间 [ i+1, len(nums) )  
            if nums[i] > nums[j]:
                tmp = nums[i]
                nums[i] = nums[j]
                nums[j] = tmp

    return count, nums

bubble_sort([1, 3, 5, 2, 4, 6])

(0, [1, 2, 3, 4, 5, 6])

### 指数阶

生物学的「细胞分裂」是指数阶增长的典型例子，具体来说：初始1个细胞，分裂一次后变成两个，分裂第二次编程4个

使用变量记录分裂次数 count 和分裂后的细胞数 base

In [1]:
def exponential(n: int) -> int:
    count = 0
    base = 1
    for _ in range(n):
        for _ in range(base):
            count += 1
        base *= 2
    return count

在实际算法中，指数阶常出现于递归函数中。例如在以下代码中，其递归地一分为二，经过 n 次分裂后停止

In [None]:
def exp_recur(n: int) -> int:
    if n == 1:
        return 1
    return exp_recur(n-1) + exp_recur(n-1) + 1

### 对数阶

与指数阶相反，对数阶反映了“每轮缩减到一半”的情况。设输入数据大小为 n ，由于每轮缩减到一半，因此循环次数是 $log_2^⁡n$，即 $2^n$ 的反函数。

In [None]:
def logarithmic(n:int)->int:
    """返回值为操作次数"""
    count = 0
    while n > 1:
        n = n / 2
        count += 1
    return count

与指数阶类似，对数阶也常出现于递归函数中

In [None]:
def log_recur(n:int) -> int:
    """返回值为操作次数"""
    if n <= 1:
        return 0
    return log_recur(n / 2) + 1

对数阶常出现于基于分治策略的算法中，体现了“一分为多”和“化繁为简”的算法思想。它增长缓慢，是仅次于常数阶的理想的时间复杂度。

准确来说，“一分为 $m$”对应的时间复杂度是 $O(\log_m n)$。而通过对数换底公式，我们可以得到具有不同底数、相等的时间复杂度：

$$
O(\log_m n) = O\left(\frac{\log_k n}{\log_k m}\right) = O(\log_k n)
$$

也就是说，底数 $m$ 可以在不影响复杂度的前提下转换。因此我们通常会省略底数 $m$，将对数阶直接记为 $O(\log n)$。

注：一分为多指的是将一个任务、问题或数据分成多个子任务、子问题或子部分来处理

### 线性对数阶

线性对数阶常出现于嵌套循环中，两层循环的时间复杂度分别为 $O(logn)$ 和 $O(n)$。例如快速排序、归并排序、堆排序等。

### 阶乘阶

阶乘阶对应数学上的“全排列”问题。给定 n 个互不重复的元素，求其所有可能的排列方案

## 最差、最佳、平均时间复杂度

寻找一个含 1 元素的乱序数组中的 1。
如果从头开始找，那么当第一个元素为1，这时时间复杂度最小，当最后一个元素为1，那么时间复杂度最大。

In [4]:
import random
def random_numbers(n:int) -> list[int]:
    nums = [i for i in range(1, n+1)]
    random.shuffle(nums)
    return nums

def find_one(nums: list) -> list[int]:
    for i in range(len(nums)):
        if nums[i] == 1:
            return i+1
nums = random_numbers(5)
print("生成的 nums 列表：", nums)
find_one(nums)

生成的 nums 列表： [2, 1, 5, 4, 3]


2

一般来说，因为只有小概率会达到最佳和最差，所以很少使用时间最佳和最差时间复杂度，而是使用平均时间复杂度。

平均时间复杂度一般用符号 $\Theta(n)$ 表示，但是因为 $O$ 朗朗上口，所以平均时间复杂度还是多用 $O$ 表示。

一般来说，可以推算随机数据分布下的平均时间复杂度，但是有些算法难以分析数据分布下的整体数据期望，所以通常使用最差时间复杂度来评估算法效果。