# 数据结构与算法(Python 语言描述)

## 1. 算法引入

算法是计算机处理信息的本质

五大特性：输入，输出，有穷性，确定性，可行性

如果 a+b+c=1000，且 a^2+b^=c^2（a,b,c 为自然数），如何求出所有a、b、c可能的组合?

In [1]:
# 枚举法
# 思路  a = 0 b = 0 c = 0~1000

import time
start_time = time.time()
 
# 注意是三重循环
for a in range(0, 1001):
    for b in range(0, 1001):
        for c in range(0, 1001):
            if a+b+c == 1000 and a**2 + b**2 == c**2: 
                print("a, b, c: %d, %d, %d" % (a, b, c))
 
end_time = time.time()
print("time: %f s" % (end_time - start_time))
print("complete!")

# T = 1000 * 1000 * 1000 * 2

a, b, c: 0, 500, 500
a, b, c: 200, 375, 425
a, b, c: 375, 200, 425
a, b, c: 500, 0, 500
time: 120.369356 s
complete!


In [3]:
import time
start_time = time.time()
 
# 注意是三重循环
for a in range(0, 1001):
    for b in range(0, 1001):
        c = 1000 - a -b
        if a**2 + b**2 == c**2: 
                print("a, b, c: %d, %d, %d" % (a, b, c))
 
end_time = time.time()
print("time: %f s" % (end_time - start_time))
print("complete!")


a, b, c: 0, 500, 500
a, b, c: 200, 375, 425
a, b, c: 375, 200, 425
a, b, c: 500, 0, 500
time: 0.912694 s
complete!


### 算法效率衡量

实现算法程序的执行时间反映出算法的效率，即算法的优劣

假定计算机执行每一个基本操作的时间是固定的，那么有多少个基本操作就代表会花费多少时间单位。
不同的机器环境确切的时间单位不同，但是对于算法进行多少个基本操作在规模数量级上是相同的。
时间复杂度，执行的基本运算数量。

对于算法的时间效率，可以用大O记法表示。

T(n) = n^3 * 2
T(n) = n^3 * 10
二者在同一数量级上，均是n^3 量级


“大O记法”：对于单调的整数函数f，如果存在一个整数函数g和实常数c>0，使得对于充分大的n总有f(n)<=c * g(n)，就说函数g是f的一个渐近函数（忽略常数），记为f(n)=O(g(n))。也就是说，在趋向无穷的极限意义下，函数f的增长速度受到函数g的约束，亦即函数f与函数g的特征相似。

时间复杂度：假设存在函数g，使得算法A处理规模为n的问题示例，所用时间为T(n)=O(g(n))，则称O(g(n))为算法A的渐近时间复杂度，简称时间复杂度，记为T(n)


对于算法进行特别具体的细致分析虽然很好，但在实践中的实际价值有限。对于算法的时间性质和空间性质，最重要的是其数量级和趋势，这些是分析算法效率的主要部分。而计量算法基本操作数量的规模函数中那些常量因子可以忽略不计。例如，可以认为3n^2和100n^2属于同一个量级，如果两个算法处理同样规模实例的代价分别为这两个函数，就认为它们的效率“差不多”，都为n^2级。

分析算法时，存在几种可能的考虑：

算法完成工作最少需要多少基本操作，即**最优时间复杂度**  
算法完成工作最多需要多少基本操作，即**最坏时间复杂度**  
算法完成工作平均需要多少基本操作，即**平均时间复杂度**

对于最优时间复杂度，其价值不大，因为它没有提供什么有用信息，其反映的只是最乐观最理想的情况，没有参考价值。

对于最坏时间复杂度，提供了一种保证，表明算法在此种程度的基本操作中一定能完成工作。

对于平均时间复杂度，是对算法的一个全面评价，因此它完整全面的反映了这个算法的性质。但另一方面，这种衡量并没有保证，不是每个计算都能在这个基本操作内完成。而且，对于平均情况的计算，也会因为应用算法的实例分布可能并不均匀而难以计算。

因此，我们主要**关注算法的最坏情况，亦即最坏时间复杂度**。

时间复杂度的几条基本计算规则:

1、基本操作，即只有常数项，认为其时间复杂度为O(1)  
2、顺序结构，时间复杂度按加法进行计算  
3、循环结构，时间复杂度按乘法进行计算  
4、分支结构，时间复杂度取最大值  
5、判断一个算法的效率时，往往只需要关注操作数量的最高次项，其它次要项和常数项可以忽略  
6、在没有特殊说明时，我们所分析的算法的时间复杂度都是指最坏时间复杂度

常见时间复杂度：  

| 执行次数函数举例 | 阶 | 非正式术语 |  
| :------ | :------: | :------ |
| 12 | O(1) | 常数阶 |
| 2n + 3 | O(n) | 线性阶 |
| $ 3n^2+2n+1 $ | O($n^2$) | 平方阶 |
| $ 5\log_2n+20 $ | O(logn) | 对数阶 |
| $ 2n+3n\log_2n+19 $| O(nlogn) | nlogn阶 |
| $ 6n^3+2n^2+3n+4 $ | O($n^3$) | 立方阶 |
| $ 2^n $ | O($2^n$) | 指数阶 |

![2020-04-06%2011-27-05%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2011-27-05%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

### Python内置类型性能分析

函数是对基本步骤的封装，不能看成一步。
引入timeit模块可以用来测试一小段Python代码的执行速度。
timeit里的Timer计时器类，需要传递3个参数。  

class timeit.Timer(stmt='pass', setup='pass', timer=<timer function>)  
Timer是测量小段代码执行速度的类。  
stmt参数是要测试的代码语句（statment）  
setup参数是运行代码时需要的设置  
timer参数是一个定时器函数，与平台有关。
    
timeit.Timer.timeit(number=1000000)
Timer类中测试语句执行速度的对象方法。number参数是测试代码时的测试次数，默认为1000000次。方法返回执行代码的平均耗时，一个float类型的秒数。
    
注意，文件名不能与导入包重名。

In [15]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : Henry

# python内置类型性能分析模块
import timeit
from timeit import Timer

### list的操作测试

In [8]:
# Python2 range() 函数返回的是列表。 xrange() 创建迭代对象
# Python3 range() 函数返回的是一个可迭代对象（类型是对象），
# 而不是列表类型， 所以打印的时候不会打印列表。

# 加操作
li1 = [1, 2]
li2 = [23, 5]
li = li1 + li2

# 列表生成器
li = [i for i in range(1000)]

# 可迭代对象直接转换为列表
li = list(range(10000))

# 空列表追加
li = []
for i in range(10000):
    li.append(i)

In [10]:
def test1():
    li = []
    for i in range(10000):
        li.append(i)

In [43]:
def test2():
    li = []
    for i in range(10000):
        li = li + [i]
# 在List对象上操作

In [45]:
def test2_1():
    li = []
    for i in range(10000):
        li += [i]
# += 魔法方法内部调用extend

In [12]:
def test3():
    li = [i for i in range(10000)]

In [13]:
def test4():
    li = list(range(10000))

In [29]:
def test5():
    li = []
    for i in range(10000):
        li.extend([i])

In [33]:
def test6():
    li = []
    for i in range(1000):
        li.insert(0, i)

In [35]:
timer1 = Timer("test1()","from __main__ import test1")
print("append: ",timer1.timeit(number=1000), "seconds")

append:  0.830163819999143 seconds


In [44]:
timer2 = Timer("test2()","from __main__ import test2")
print("+: ",timer2.timeit(number=1000), "seconds")

+:  148.88851439499922 seconds


In [46]:
timer2_1 = Timer("test2_1()","from __main__ import test2_1")
print("+: ",timer2_1.timeit(number=1000), "seconds")

+:  0.619049566998001 seconds


In [37]:
timer3 = Timer("test3()","from __main__ import test3")
print("[]: ",timer3.timeit(number=1000), "seconds")

[]:  0.35209578899957705 seconds


In [38]:
timer4 = Timer("test4()","from __main__ import test4")
print("list function: ",timer4.timeit(number=1000), "seconds")

list function:  0.19331942600183538 seconds


In [39]:
timer5 = Timer("test5()","from __main__ import test5")
print("extend function: ",timer5.timeit(number=1000), "seconds")

extend function:  1.2148926010013383 seconds


In [40]:
timer6 = Timer("test6()","from __main__ import test6")
print("insert function: ",timer6.timeit(number=1000), "seconds")

insert function:  0.36234356700151693 seconds


### pop操作测试

In [42]:
x = list(range(2000000))
pop_zero = Timer("x.pop(0)","from __main__ import x")
print("pop_zero ",pop_zero.timeit(number=1000), "seconds")
x = list(range(2000000))
pop_end = Timer("x.pop()","from __main__ import x")
print("pop_end ",pop_end.timeit(number=1000), "seconds")

pop_zero  2.8895222739993187 seconds
pop_end  8.407700079260394e-05 seconds


测试pop操作：从结果可以看出，pop最后一个元素的效率远远高于pop第一个元素

![2020-04-06%2015-00-45%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2015-00-45%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

![2020-04-06%2015-03-21%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2015-03-21%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

## 2. 数据结构

我们为了解决问题，需要将数据保存下来，然后根据数据的存储方式来设计算法实现进行处理，那么数据的存储方式不同就会导致需要不同的算法进行处理。我们希望算法解决问题的效率越快越好，于是我们就需要考虑数据究竟如何保存的问题，这就是数据结构。

数据是一个抽象的概念，将其进行分类后得到程序设计语言中的基本类型。如：int，float，char等。数据元素之间不是独立的，存在特定的关系，这些关系便是结构。数据结构指数据对象中数据元素之间的关系。

内置数据结构，比如列表、元组、字典。  
Python系统里面没有直接定义，需要我们自己去定义实现这些数据的组织方式，这些数据组织方式称之为Python的扩展数据结构，比如栈，队列等。

数据结构只是静态的描述了数据元素之间的关系。高效的程序需要在数据结构的基础上设计和选择算法。  
程序 = 数据结构 + 算法  
总结：算法是为了解决实际问题而设计的，数据结构是算法需要处理的问题载体

抽象数据类型(Abstract Data Type)  
抽象数据类型(ADT)的含义是指一个数学模型以及定义在此数学模型上的一组操作。即把数据类型和数据类型上的运算捆在一起，进行封装。引入抽象数据类型的目的是把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开，使它们相互独立。

最常用的数据运算有五种：  
插入  
删除  
修改  
查找  
排序


## 3. 顺序表

![2020-04-06%2022-03-52%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2022-03-52%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

顺序表的基本形式。数据元素是连续存储，每个元素所占的存储单元大小固定相同。元素下标是逻辑地址，物理地址是通过存储区的起始地址加上逻辑地址与存储单元大小乘积计算而来。

![2020-04-06%2022-10-33%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2022-10-33%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

## 4. 链表

链表结构可以充分利用计算机内存空间，实现灵活的内存动态管理。

链表的定义，在每一个节点（数据存储单元）存放下一个节点的位置信息（即地址）。

顺序表和链表是线性表的两种实现模型。

![2020-04-06%2022-38-01%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2022-38-01%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

### 单向链表

![2020-04-06%2022-39-47%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-06%2022-39-47%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

In [49]:
a = 10
b = 20
a, b = b, a
print("a %d b %d" %(a, b))

a 20 b 10


![2020-04-07%2000-16-01%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png](attachment:2020-04-07%2000-16-01%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)

python 变量只是一个名字，代表一块内存，保存的是一个地址，地址指向代表了a的含义