# python 数据结构与算法

- 参考资料:[B站python数据结构与算法课程](https://www.bilibili.com/video/BV18W411T7Vv?p=2&vd_source=48098ebd2ffb78af787f4c0b33527d74)时长15小时
- 参考书籍: 《数据结构与算法python语言描述》(裘宗燕著)；Data_Structure_with_Python
- 课程目录
    - 算法引入
        - 算法的提出
        - 算法效率衡量
        - python内置类型性能分析
    - 顺序表
        - 顺序表的形式
        - 顺序表的结构与实现
        - 顺序表的操作
        - python中的顺序表
    - 链表
        - 单项链表
        - 单项循环链表

## 1、算法引入

**什么是数据结构和算法--兵法**

- 数据结构:**计算机存储和组织数据的方式**，涵盖数组、栈、列队、链表、树和图，并提供一些常用的操作方法，例如插入、删除、搜索、排序和遍历等。通过选择适当的数据结构可以有效地管理和操作数据
- 算法：**解决问题的一系列步骤或者规则**。他们基于特定问题的需求，使用输入数据来产出输出结果，算法可以被看做是执行特定任务或者操作的指令集合。算法通常用于优化程序性能，提高可伸缩性和减少资源消耗，常见算法: 排序（快速排序、归并排序），查找算法（二分查找），图算法（最短路径）


### 1.1 算法的提出
#### 例题引入
如果 a+b+c = 1000，且a^2+b^2 = c^2(a,b,c为自然数)，如果求出所有a,b,c的组合<br>**枚举法**
<br>**思路**：a=0,b=0,c=0,是否满足a+b+c=1000条件，从c开始变1-1000，再改b=1,c从1-1000,以此类推

In [None]:

import time
start_time = time.time()
for a in range(0,1001):
    for b in range(0,1001):
        for c in range(0,1001):
            if a+b+c == 1000 and a**2+b**2 ==c**2:
                print(f"{a},{b},{c}")
                print("a,b,c: %d, %d, %d"%(a,b,c))
end_time = time.time()
print("time:%d"%(end_time-start_time))
print("finished")

#### 算法的概念
独立存在的一种解决问题的方法和思想：对算法而言，实现的语言不重要，重要的思想
#### 算法的五大特征
- 输入:算法有0个或多个输入
- 输出: 至少有1个或多个输出
- 有穷性: 有限步骤、可接受的时间内解决问题
- 确切性:算法中的每一步有确定含义 (无歧义)
- 可行性:每一步都可行

### 1.2 算法效率衡量

#### 例题引入
上述程序如何改进，减少运行时间

In [5]:
#程序改进
start_time = time.time()
for a in range(0,1001):
    for b in range(0,1001):
        c = 1000-a-b
        if a**2+b**2==c**2:
            print("a,b,c:%d,%d,%d"%(a,b,c))
end_time = time.time()
print("finish time:%d"%(end_time-start_time))

a,b,c:0,500,500
a,b,c:200,375,425
a,b,c:375,200,425
a,b,c:500,0,500
finish time:1


#### 执行时间反应算法效率
- 执行环境不同会导致时间不同
- 计算及执行基本运算的步骤数量相同
- 执行时间与执行基本运算步骤的关系

#### 时间复杂度与“大O记法”
$T= 1000*1000*1000*2$<br>条件改变为$a+b+c=n$,时间复杂度$T = N*N*N*2 $
<br>外推$T(n)=n^3*2 = O(n^3)$
<br>时间复杂度: 假设存在函数$g$，使得算法A处理规模为$n$的问题示例所用时间为$T(n)=O(g(n))$，则称$O(g(n))$为算法A的渐进时间复杂度，简称时间复杂度$T(n)$

#### 最坏时间复杂度
[3,5,4,3,6]排序时，元素的顺序如[1,2,3,4,5,6]对排序算法有影响，判断算法在处理数据时最理想和最坏的情况

- 最优时间复杂度：算法完成工作最少需要多少基本操作
- **最坏时间复杂度**：算法完成工作最多需要多少基本操作（最有用的信息）
- 平均时间复杂度：算法完成工作平均需要多少基本操作

#### 时间复杂度的几条基本计算规则

- 基本操作：只有常数项，认为其时间复杂度为O(1)
- 顺序结构：时间复杂度加法计算
- 循环：时间复杂度乘法计算
- 条件：时间复杂度的最大值
- 判断一个算法的效率是，只保留最高次项，没有特殊说明时，时间复杂度即最坏时间复杂度

### 1.3 python内置类型性能分析
python 中函数的时间复杂度
#### timeit模块
<br>**API**：https://docs.python.org/3/library/timeit.html
<br>timeit模块用于测试一段python代码执行速度
<br>**class timeit.Timer(stmt = 'pass',setup='pass',timer=<timer function)**
- Timer测量小段代码执行速度的类
- stmt statment测试代码语句
- setup运行代码时需要的设置
- timer定时器函数

<br> **timeit.Timer.timeit(number=100000)**
Timer类中测试语句执行速度的对象方法，number参数为测试代码时的测试参数，默认1000000次，方法返回执行代码的平均耗时

In [15]:
from timeit import Timer


def t1():
    #尾部添加元素
    li = []
    for i in range(1000):
        li.append(i)

def t2():
    #列表加法
    li = []
    for i in range(1000):
        li +=[i]
        
def t3():
    #列表生成式
    li = [i for i in range(1000)]
    
def t4():
    #列表定义式
    li = list(range(1000))
    
def t5():
    #尾部添加列表
    li = []
    for i in range(1000):
        li.extend([i])
        
def t6():
    #头部添加元素
    li = []
    for i in range(1000):
        li.insert(0,i)
        
timer1 = Timer("t1()","from __main__ import t1")
print("append:",timer1.timeit(1000))

timer2 = Timer("t2()","from __main__ import t2")
print("+:",timer2.timeit(1000))

timer3 = Timer("t3()","from __main__ import t3")
print("[i for i in range]:",timer3.timeit(1000))

timer4 = Timer("t4()","from __main__ import t4")
print("list(range):",timer4.timeit(1000))

timer5 = Timer("t5()","from __main__ import t5")
print("extend:",timer5.timeit(1000))

timer6 = Timer("t6()","from __main__ import t6")
print("insert:",timer6.timeit(1000))

append: 0.10709470000028887
+: 0.117060400000355
[i for i in range]: 0.04664890000003652
list(range): 0.012088800000128685
extend: 0.14431659999991098
insert: 0.3103943999999501


注：在Python 2.0中，range函数返回一个**列表**。例如，range(5)将返回一个包含数字0到4的列表。这种方法在需要生成具体数值范围的列表（如[1,2,3,4,5]）时非常有用。

但在Python 3中，range函数变得更加灵活和高效。它不再返回一个列表，而是返回一个**range对象**，该对象按需生成其包含的数字序列。这个改变使得range函数可以处理更大的数字范围，并且可以在使用大型数据集时更加有效。

另外，在Python 3中，如果您确实需要一个包含数字的列表，您可以使用新的“list”函数来转换一个“range对象”为一个列表。例如，list(range(5))将返回一个包含数字0到4的列表

In [22]:
x = list(range(100000))
pop_zero = Timer("x.pop(0)","from __main__ import x")#头部取元素
print("pop_zero",pop_zero.timeit(1000),"seconds")
x = list(range(100000))
pop_end = Timer("x.pop()","from __main__ import x")#尾部取元素
print("pop_end",pop_end.timeit(1000),"seconds")

pop_zero 0.04435940000030314 seconds
pop_end 0.00012710000009974465 seconds


**通过pop操作：结果显示，pop最后一个元素的效率远远高于pop第一个元素**
<br>python常见操作时间复杂度计算参见https://www.ics.uci.edu/~pattis/ICS-33/lectures/complexitypython.txt

**<center>Lists: Complexity</center>**

|Operation     | Example      | Class         | Notes|
|--------------|--------------|---------------|-------------------------------
|Index         | l[i]         | O(1)	     ||
|Store         | l[i] = 0     | O(1)	     ||
|Length        | len(l)       | O(1)	     ||
|Append        | l.append(5)  | O(1)	     | mostly: ICS-46 covers details|
|Pop	      | l.pop()      | O(1)	     | same as l.pop(-1), popping at end|
|Clear         | l.clear()    | O(1)	     | similar to l = []|
|Slice         | l[a:b]       | O(b-a)	     | l[1:5]:O(l)/l[:]:O(len(l)-0)=O(N)|
|Extend        | l.extend(...)| O(len(...))   | depends only on len of extension|
|Construction  | list(...)    | O(len(...))   | depends on length of ... iterable|
|check ==, !=  | l1 == l2     | O(N)          ||
|Insert        | l[a:b] = ... | O(N)	     | |
|Delete        | del l[i]     | O(N)	     | depends on i; O(N) in worst case|
|Containment   | x in/not in l| O(N)	     | linearly searches list |
|Copy          | l.copy()     | O(N)	     | Same as l[:] which is O(N)|
|Remove        | l.remove(...)| O(N)	     | |
|Pop	      | l.pop(i)     | O(N)	     | O(N-i): l.pop(0):O(N) (see above)|
|Extreme value | min(l)/max(l)| O(N)	     | linearly searches list for value|
|Reverse	      | l.reverse()  | O(N)	     |　|
|Iteration     | for v in l:  | O(N)          | Worst: no return/break in loop|
|Sort          | l.sort()     | O(N Log N)    | key/reverse mostly doesn't change|
|Multiply      | k*l          | O(k N)       | 5*l is O(N): len(l)*l is O(N**2)|

### 1.4 数据结构

数据是抽象的概念，将其进行分类后得到程序设计语言中的基本类型，如int,float,char等，**数据元素之间不独立**，有特定的关系，这些关系就是结构，数据结构指**数据元素之间的关系**，python提供的现成数据类型（内置数据结构，封装好的）：列表、元组、字典，而python系统里面没有直接定义，需要自己定义实现数据的组织方式，称之为拓展数据结构如：栈、队列等

#### 算法与数据结构的区别
数据结构——静态描述数据元素之间的关系  
高效的程序需要在数据结构的基础上设计和选择算法  
程序 = 数据结构+算法

In [None]:
#学生信息存储
#列表存储
[
    ("zhangsan",24,"beijing"),
    ("lisi",20,"shanghai"),
    ("wangwu",22,"shenzhen")
]
#查询:时间复杂度O(n)
for stu in stus:
    if stu(0) == "zhangsan"
    print(stu)
    
#字典存储:键无重复值
{
    {"name":"zhangsan",
    "age":25,
    "hometown":"beijing"},
    {"name":"lisi",
     "age":20,
     "hometown":"shanghai"}
}
#字典存储
{
    {"zhangsan":{
        "age":24,
        "hometown":"beijing"
    }},
    {"lisi":{
        "age":20,
        "hometown":"shanghai"
    }}
}
#查询:时间复杂度:O(1)
stus["zhangsan"]

#### 抽象数据类型(abstract data type)
一个数据模型以及定义在此数学模型上的一组操作，把**数据类型**和**数据类型上的运算**捆在一起，进行封装，常用的数据运算: 插入、删除、修改、查找、排序  
引入抽象数据类型的目的：把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开，使他们相互独立。