# 渐进记法

渐进上界 $f\in O(g)$：$ \exists\ n_0 \in N,\ c>0,\ \forall\ n >= n_0,\ f(n) <= cg(n)$，一般确保是最低上限

渐进下界 $f\in \Omega(g)$：$ \exists\ n_0 \in N,\ c>0,\ \forall\ n >= n_0,\ f(n) >= cg(n)$，一般确保是最高上限

两者交集 $f\in \Theta(g)$：$ \exists\ n_0 \in N,\ c_1>0,\ c_2>0,\ \forall\ n >= n_0,\ c_1g(n)<=f(n) <= c_2g(n)$

即是：$ \Theta(g) = O(g)\cap\Omega(g)$

可以发现，$\Omega$ 和 $O$ 是相互可逆的，即若 $f\in \Omega(g)$， 则  $g\in\Omega(f)$。

常见渐进运行时间排序：

$\Theta(1)$（常数级）< $\Theta(lgn)$（对数级）< $\Theta(n)$（线性级）< $\Theta(nlgn)$（线性对数级）< $\Theta(n^2)$（平方级）< $\Theta(n^3)$（立方级）

< $\Theta(n^k)$（**多项式级**，在此级别及之前的问题属于易处理问题（“有解”））

< $\Theta(k^n)$（**指数级**，在此级别及之后的问题属于难处理问题（“无解”））

< $\Theta(n!)$（阶乘级）

# 复杂度分析实例

```python
s = 0
for i in range(n):
    s += i
```

这个例子可以说是sum函数的粗暴实现，很容易可以得出这里的渐进运行时间为$\Theta(n)$。

在这里，i是一般的整形数，因此这里的每个+=操作运行时间都属于常数级。

但是需要注意，**python也支持大整型和长整型，它们可以在我们所用的整数大到一定程度时自动调整为相关类型**。

这意味着一旦我们使用的数字真正够大时，先前关于该操作是常数运行时间的假设就会被打破。

# 三种重要情况

在分析复杂度的时候，我们一般会讨论以下三种重要情况的一种。

- 最好情况：当算法遇到最理想输入时的运行时间。

- 最坏情况：当算法遇到最理想输入时的运行时间，这也是最有用最值得分析的一种情况。

- 平均情况：对于按照一定的概率分布的随机输入的平均运行时间值，这个最为复杂，我们在大部分时间内都会回避这种情况。

# 实证式算法评估

## 没有把握时

当没有把握时，就用蛮力试试。只要工作了就是有用的。

## 利用timeit计时

timeit模块会通过多次运行被选中的命令来计算运行时间，这样可以提高计时的精度。但是这里也有需要注意的地方：

**避免一些因重复执行带来的副作用——比如早先执行的操作会影响后面的运行**。

jupyter notebook中也有```%%timeit```命令实现相同的功能。

In [9]:
import timeit
timeit.timeit("x=sum(range(10))") #单位为 微秒(us)

0.7564067574256796

In [11]:
%%timeit
x=sum(range(10))

1000000 loops, best of 3: 663 ns per loop


## 利用profiler找出瓶颈

python中自带少量的profiler变体，这里建议使用cProfile，其可给出关于执行时间都花在哪里的更为详细的信息。

其可以打印出程序中各函数的计时结果，这为我们优化算法来说是一个很不错的工具。其打印出来的信息是相当细节的。

In [12]:
def f(n=10):
    t = 0
    for i in range(n):
        if i%2 == 0:
            print('even')
        else:
            t += i

In [13]:
import cProfile
cProfile.run('f()')

even
even
even
even
even
         74 function calls in 0.000 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 <ipython-input-12-62e7736945f7>:1(f)
        1    0.000    0.000    0.000    0.000 <string>:1(<module>)
        1    0.000    0.000    0.000    0.000 ioloop.py:932(add_callback)
       10    0.000    0.000    0.000    0.000 iostream.py:228(_is_master_process)
       10    0.000    0.000    0.000    0.000 iostream.py:241(_schedule_flush)
       10    0.000    0.000    0.000    0.000 iostream.py:309(write)
        1    0.000    0.000    0.000    0.000 stack_context.py:253(wrap)
        1    0.000    0.000    0.000    0.000 {built-in method _thread.get_ident}
        1    0.000    0.000    0.000    0.000 {built-in method builtins.exec}
        1    0.000    0.000    0.000    0.000 {built-in method builtins.hasattr}
       10    0.000    0.000    0.000    0.000 {built-in meth

## 利用trace得到语句执行次数

python内置的trace模块可以对程序中各语句的执行次数进行统计操作。

In [21]:
# todo

## 其他工具

[python call graph][1]这个工具可以可视化地看到代码的调用情况。

[1]:http://pycallgraph.slowchop.com

## 绘制结果

在性能图形化方面，有如下两种常见的绘图方式：

- 反映问题规模与运行时间关系的图表
- 相关运行时间的详细分布的盒形图

绘制包参考：matplotlib

# 图与树的实现

一个重要的思想：一个图的最佳表示方法取决于我们想用它来干什么。

## 邻接列表及其相似结构

以下图为例：

![示例图像](./images/graph.png)

### 邻接集

- 优点：$O(1)$的时间判断 a -> b 这条有向边是否存在于 图中


- 缺点：不易于遍历

In [22]:
a, b, c, d, e, f, g, h = range(8)
N = [
    {b, c, d, e, f}, # a
    {c, e},          # b
    {d},             # c
    {e},             # d
    {f},             # e
    {c, g, h},       # f
    {f, h},          # g
    {f, g}           # h
]

In [25]:
N
b in N[a] # 判断 a -> b 这条有向边是否存在于 图中
len(N[f]) # 结点 f 的度数

[{1, 2, 3, 4, 5}, {2, 4}, {3}, {4}, {5}, {2, 6, 7}, {5, 7}, {5, 6}]

True

3

### 邻接列表

- 优点：易于对图中的所有节点v进行遍历


- 缺点：$O(N(a))$的时间判断 a -> b 这条有向边是否存在于 图中

     - 可考虑的解决方案：使邻接成员保持有序排列，使用二分法进行元素查询

In [26]:
a, b, c, d, e, f, g, h = range(8)
N = [
    [b, c, d, e, f], # a
    [c, e],          # b
    [d],             # c
    [e],             # d
    [f],             # e
    [c, g, h],       # f
    [f, h],          # g
    [f, g]           # h
]

In [27]:
N
b in N[a] # 判断 a -> b 这条有向边是否存在于 图中
len(N[f]) # 结点 f 的度数

[[1, 2, 3, 4, 5], [2, 4], [3], [4], [5], [2, 6, 7], [5, 7], [5, 6]]

True

3

### 加权邻接字典

邻接列表的加权版

In [28]:
a, b, c, d, e, f, g, h = range(8)
N = [
    {b:2, c:1, d:3, e:9, f:4}, # a
    {c:4, e:3},                # b
    {d:8},                     # c
    {e:7},                     # d
    {f:5},              # e
    {c:1, g:2, h:3},    # f
    {f:1, h:8},         # g
    {f:2, g:6}          # h
]

In [29]:
N
b in N[a] # 判断 a -> b 这条有向边是否存在于 图中
len(N[f]) # 结点 f 的度数
N[a][b]   # a->b的权重

[{1: 2, 2: 1, 3: 3, 4: 9, 5: 4},
 {2: 4, 4: 3},
 {3: 8},
 {4: 7},
 {5: 5},
 {2: 1, 6: 2, 7: 3},
 {5: 1, 7: 8},
 {5: 2, 6: 6}]

True

3

2

### 邻接集的字典表示法

优点：灵活性高，不需要像上面的那样将a-h转换成数字0-7，允许使用任意可散列的对象来充当节点标签

缺点：不易于遍历（同邻接表一样）

In [30]:
N = {
    'a':set('bcdef'),
    'b':set('ce'),
    'c':set('d'),
    'd':set('e'),
    'e':set('f'),
    'f':set('cgh'),
    'g':set('fh'),
    'h':set('fg')
}

In [31]:
N
'b' in N['a'] # 判断 a -> b 这条有向边是否存在于 图中
len(N['f']) # 结点 f 的度数

{'a': {'b', 'c', 'd', 'e', 'f'},
 'b': {'c', 'e'},
 'c': {'d'},
 'd': {'e'},
 'e': {'f'},
 'f': {'c', 'g', 'h'},
 'g': {'f', 'h'},
 'h': {'f', 'g'}}

True

3

## 邻接矩阵

使用邻接矩阵必定会涉及到一种情况：表示稀疏的图的内存优化。可参考scipy.sparse模块

In [37]:
import numpy as np
N = np.ones((10,10))
N

array([[ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.]])

## 树的实现

### 二维列表

以下图为例，[+]表示树的内部节点
```
      [+]
   /   |    \
 [+]  [+]   [+]
 / \   |    /  \
a   b  c   d   [+]
               / \
              e   f
```

二维列表这种实现方法**只关注树的叶子节点**。

In [38]:
T1 = [["a", "b"], ["c"], ["d", ["e", "f"]]]
T1[0][1]
T1[2][1][0]

'b'

'e'

### 二叉树类

其他可实现知道内部节点下所能拥有的最大节点数的数也可用类似的方法实现。

In [40]:
class BiTree:
    def __init__(self, left, right):
        self.left = left
        self.right = right
        
T2 = BiTree(BiTree("a", "b"), BiTree("c", "d"))
T2.right.left

'c'

### 多路搜索树类

多路搜索树实现采用：**先子节点后兄弟节点**的表示方法。与二叉树有些类似，但是这里第一个引用指向的是当前节点的第一个子节点，而第二个引用指向的是下一个兄弟节点。

以下图为例：

```
    [+]
 /  |  |  \
a   b  c   d  
```

In [43]:
class MWTree:
    def __init__(self, kids, next=None):
        self.kids = kids
        self.next = next
        self.val = kids #用于输出的，随意设定的

T3 = MWTree(MWTree("a", MWTree("b", MWTree("c", MWTree("d")))))
T3.kids.next.next.val

'c'

### Bunch设计模式

该设计模式介绍与于《python cookbook》。

**当树这样的数据结构被原型化（或者乃至于被顶型）时，它往往会是一个非常有用而灵活的类型，允许我们在其构造器中设置任何属性**，此时Bunch设计模式就派上用场了。

该模式不仅可用于树结构的构建，当希望有一个灵活的对象，其**属性可以从构造器中被动态设置**时也可以用该设计模式。

In [47]:
class Bunch(dict): # 继承于字典 dict
    def __init__(self, *args, **kwds):
        super(Bunch, self).__init__(*args, **kwds)
        self.__dict__ = self

# 优点1：可以命令行参数形式创建相关对象，并设置任何属性
x = Bunch(name="linzch3", position="gz")
x.name

'-------------------------'

# 优点2：继承于dict，可获得大量相关内容，比如 键值/属性值 的遍历，查询属性是否存在
T = Bunch
t = T(left=T(left="a", right="b"), right=T(left="c"))

t.left
'-------------------------'
t.left.right
t['left']['right']
'-------------------------'
t.right
"left" in t.right
"right" in t.right

'linzch3'

'-------------------------'

{'left': 'a', 'right': 'b'}

'-------------------------'

'b'

'b'

'-------------------------'

{'left': 'c'}

True

False

### 图结构思想

**多数的问题都有一个内在的图结构——乃至某种树结构**——并且我们可以在没有明确为其构建表示法的情况下应用相应的图或树的算法。

#### 子问题图

**绝大部分问题应该都可以被分成若干个子问题，这些子问题在结构上都往往都非常相似。因此，这些结构可以被看作相关子问题图中的节点，而它们之间的依赖关系就是图的边。**

我们很少在子问题图上运用相关的图算法，更多的时候这只是一种概念或者思考工具。

### 图结构库

一些比较复杂的图的操作如临时隐藏或合并某些节点的实现是比较复杂的，因此这时就要借助别人的轮子来干活了。

支持图结构的程序库：networkX、python-graph、Graphine、Grap-tool。

基于图结构的数据库：Pygr

基于图结构的动画工具箱：GAto

基于图结构的算法集：PADS

## 提防黑盒子

python的使用是比较简单，但是一不小心，可能会写出效率比预期慢很多倍的代码。

因此，在编程时，**应该多多注意那些我们正在使用但是还不太了解的内容，这里往往有着许多潜在的陷阱**。

### 隐藏的平方级操作

In [48]:
from random import randrange

L = [randrange(10000) for _ in range(1000)]

42 in L

S = set(L)

42 in S

False

False

这里将L转换成集合的操作看似没有意义，但是如果打算进行多次的成员查询操作的话，这样或许是值得的。

成员查询在list中是$O(n)$，而在set中则是$O(1)$，这样明显就可以将平方级操作转换为线性级操作了。

 **-------------------------------------------平台配置代码--------------------------------------------**

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"