In [4]:
#设定计时器以直观化性能
import time
count=True
perf_start=0
perf_end=0
def timer():
    global count,perf_start,perf_end
    if count:
        perf_start = time.perf_counter()
        count=False
    else:
        perf_end = time.perf_counter()
        count=True
        print(f"总花费 {perf_end - perf_start:.6f}s")

# 数据结构及算法
## 基本的数据结构

### 数组(Array)

**数组**可以理解成数据与编号之间一一对应的结构，所有数据通过一个有规律的编号集合组合在一起
- ✅ 随机访问快
- ❌ 插入删除慢

In [5]:
array=['datum1','datum2','datum3','4','5',6,7,8,9,10,2,4,6,7,4,4,2,2,3,4,6,6]
timer()
array[8]
timer()
timer()
array.insert(2,3)
timer()

总花费 0.000040s
总花费 0.000052s


### 链表(Linked List)
**链表**是数据本身与另外两个（或一个）数据连接，多个数据勾连而成的
- ✅ 插入删除快
- ❌ 访问慢:必须从头开始访问

In [60]:
class LinkedList():
    def __init__(self,item,next=None):
        self.item=item
        self.next=next

a=LinkedList('a')
b=LinkedList('b')
c=LinkedList('e')
d=LinkedList('c')

a.next=b
b.next=c
c.next=d

In [65]:
#删除/添加
#删除c
b.next=d
#访问第三项
n=2
current=a
while n:
    current=current.next
    n-=1
print(current.item)


c


## 时间复杂度(Time Complexity)
表示的是耗时随数据增长的(最坏)趋势
```python
a=array[1]
```
>时间复杂度为$O(1)$,耗时恒定

```python
for i in range(len(data)):
```

>$O(n)$，随数据量线性增长

```python
for i in range(len(data)):#O(n)
    for j in range(len(j)):#On)
```
>$O(n^2)$，二次型增长

```python
while n > 0:
    n = n // 2#二分查找
```
>$O(log_{}{n})$
>>证明：
假设需要重复k次
1. n个元素
2. $n/2$
3. $n/(2^2)$

    k. $n/(2^k)$
    $$n/(2^k)=1$$
    $$k=log_{2}{n}$$


### 降低时间复杂度与代价
#### 空间换时间 (Space-Time Tradeoff)
计算文本中出现最多的单词：
```python
count=0,let=a,tot=0
for i in text:
    for j in text :
        if i ==j:
            count+=1
    if count>tot:
        tot=count
        let=i
```
>时间复杂度为$O(n^2)$

如果是知道了一共有哪些单词
```python
dic={'abandon':0,'...':0}
for i in text:
    dic[i]+=1
    max(dic)
```
>时间复杂度为$O(n)$

然而这种方法消耗了更多的储存空间
>$O(1)$ -> $O(n)$
#### 预处理代价 (Preprocessing Cost)
譬如说二分法，其要求一个完整有序的数列，这就要求操作前先对数据进行需处理
#### 代码复杂度增加 (Code Complexity)
```python
# 简单但慢的冒泡排序：O(n²)
def bubble_sort(arr):
    n = len(arr)
    for i in range(n):           # O(n)
        for j in range(0, n-i-1): # O(n) × O(n) = O(n²)
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
    return arr

# 快速但复杂的快速排序：O(n log n)
def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]      # O(n)
    middle = [x for x in arr if x == pivot]   # O(n)
    right = [x for x in arr if x > pivot]     # O(n)
    # 递归：O(log n) 层，每层 O(n)
    return quick_sort(left) + middle + quick_sort(right)
```
#### 维护成本增加 (Maintenance Overhead)



## 数据结构
### 栈 (Stack)  

- push 入栈
- pop  出栈
- peek 查看栈顶

### 队列 (Queue)
- enqueue - 入队
- dequeue - 出队
- front - 查看队首
***
**省流：** 这两种结构殊途同归，就像是薯片筒，只能对开口操作。 `栈` 的开口是最后一项，`队列`的开口是第一项

#### 应用
`栈`:匹配，递归，回溯

`队列`：调度，缓冲，广度优先搜索（BFS）

### 哈希表(Hash Table)
python的字典就是一种哈希表
- 核心：赋予不可变的object一个特定的数值，从而简化检索的过程
- 时间复杂度：$O(1)$

## 树
**有层次的结构！** 
- ✅ 层次清晰：直观反映数据关系

- ✅ 搜索快速：二叉搜索树平均O(log n)

- ✅ 灵活扩展：容易添加删除节点

- ✅ 多种遍历：满足不同业务需求
- ❌ 可能不平衡：退化成链表时性能下降

- ❌ 实现复杂：比数组链表难理解

- ❌ 内存开销：需要存储指针/引用

```text
       开始答题
       /      \
  选A？       选B？
   /  \        /  \
选A1 选A2   选B1 选B2
```

实际上，在我的accounts.json里就使用了树型结构

## 堆（Heap）
堆是一种特殊的`完全二元树`，在子类中并没有明确的排序关系，但是在子类和父类之间存在统一的关系：**大于或小于**
```text
            A(0)
            /  \
        B(1)    C(3)
        /  \    /   \
    D(7) E(5) F(6)  G(4)
    最小堆（字母代表位置，数字表示示例）
```
>堆的形状是固定的
>>因此，堆不需要像树一样保存，堆可以用数组表示
```text
父支：(索引 - 1) // 2

左支：我的索引 × 2 + 1

右支：我的索引 × 2 + 2
```
> [A,B,C,D,E,F,G]
>
> 找D的父：$(3-1)//2 = 1$ -> B


## 堆的优势
在各种情况下，堆都体现均衡
|操作 | 时间复杂度 |实现方式|
|-----|-----------|-------|
|插入|O(log n) | 只需要沿着一条路径向上比较|
|删除|O(log n) | 只需要沿着一条路径向下比较|
|最值|O(1)    | 直接看数组第一个元素|

In [1]:
#python 中有内置的堆,但是默认为最小堆。如果要实现最大堆，可以取负值
import heapq

heap = []
heapq.heappush(heap, 5)    # 插入
heapq.heappush(heap, 2)
heapq.heappush(heap, 8)

print(heapq.heappop(heap))  # 输出2（最小的先出）
print(heapq.heappop(heap))  # 输出5

2
5


In [2]:
#也可以引入元组作为堆中的元素。tuple[0]是排序参数，tuple[1]是输出值
import heapq

tasks = []
heapq.heappush(tasks, (3, "普通任务"))  # (优先级, 任务)
heapq.heappush(tasks, (1, "紧急任务"))  
heapq.heappush(tasks, (2, "重要任务"))

while tasks:
    priority, task = heapq.heappop(tasks)
    print(f"执行: {task}")  # 按优先级顺序执行

执行: 紧急任务
执行: 重要任务
执行: 普通任务
