# chapter2 Analysis

## 如何衡量代码执行效率

In [1]:
import numpy as np

一般使用时间复杂度来描述算法的复杂度和好坏，两段代码可能实现了同一个功能，但从耗费的时间的角度来衡量代码的好坏。

In [1]:
import time

# 比较两个计算sum的函数之间的差异；

def func1(n):
    start = time.time()
    
    theSum = 0
    for i in range(1, n+1):
        theSum += i
        
    end = time.time()
    
    return theSum, end-start

In [2]:
for i in range(5):
    print('结果是 %d 耗费的时间是 %10.7f 秒' % func1(10000))

结果是 50005000 耗费的时间是  0.0010340 秒
结果是 50005000 耗费的时间是  0.0007303 秒
结果是 50005000 耗费的时间是  0.0007308 秒
结果是 50005000 耗费的时间是  0.0007880 秒
结果是 50005000 耗费的时间是  0.0007288 秒


In [3]:
for i in range(5):
    print('结果是 %d 耗费的时间是 %10.7f 秒' % func1(1000000))

结果是 500000500000 耗费的时间是  0.0865140 秒
结果是 500000500000 耗费的时间是  0.0987501 秒
结果是 500000500000 耗费的时间是  0.0995760 秒
结果是 500000500000 耗费的时间是  0.0933840 秒
结果是 500000500000 耗费的时间是  0.0712540 秒


另外一个方式，直接用公式$\sum_i = \frac{n(n+1)}{2}$

In [4]:
def myfunc2(n):
    return n*(n+1)/2

for i in range(5):
    start = time.time()
    myfunc2(1000000)
    end = time.time()
    print('运算时间 %10.7f 秒'%(end-start))

运算时间  0.0000021 秒
运算时间  0.0000019 秒
运算时间  0.0000010 秒
运算时间  0.0000019 秒
运算时间  0.0000010 秒


## big O Notation
为了用一般的形式衡量代码的运行效率，而不是使用时间这一手段；
一句赋值语句复杂度为1

这样，myfunc1的时间复杂度就为$O(n)$


f(n) | Name 
----|------
1 | constant 
$logn$ | Logarithmic
n | Linear
$nlogn$ | Log Linear
$n^2$ | Quadratic
$n^3$ | Cubic
$2^n$ | Exponential

In [6]:
# write 2 functions to find minimum number in a list

def min1(l):
    # l is a list
    out = 0
    for item in l:
        if item < out:
            out = item
            
    return out

min([34,43,1,2,32,5,6])

1

## 一个字符串颠倒顺序检测的例子

### solution1：checking off
检查string1中的字符是不是都在string2中出现   时间复杂度 $O(n^2)$

In [7]:
def myfunc1(s1, s2):
    alist = list(s2)
    pos1 = 0
    stillOK = True
    
    while pos1 < len(s1) and stillOK:
        pos2 = 0
        found = False
        while pos2 < len(alist) and not found:
            if s1[pos1] == alist[pos2]:
                found = True
            else:
                pos2 = pos2 + 1
        
        if found:
            alist[pos2] = None
        else:
            stillOK = False
        
        pos1 = pos1 + 1
    
    return stillOK

print(myfunc1('abcd','dcba'))

True


### solution2: sort and compare
如果组成字符相同，那么sort完之后肯定是同样的字符   ，时间复杂度为 $O(n)$

In [8]:
def myfunc2(s1, s2):
    alist1 = list(s1)
    alist2 = list(s2)
    
    alist1.sort()
    alist2.sort()
    
    pos = 0
    matches = True
    
    while pos < len(s1) and matches:
        if alist1[pos] == alist2[pos]:
            pos += 1
        else:
            matches = False
    return matches

print(myfunc2('abcde', 'bcade'))

True


### solution3： Brute Force暴力破解
先对s1生成所有可能的字符串，再查看是否会出现s2；显然这不是一个好的方法

### solution4: count and compare
由于是重排，则所有字母出现的频率是相同的, 时间复杂度$O(n)$

In [9]:
def myfunc4(s1, s2):
    c1 = [0]*26
    c2 = [0]*26
    
    for item in s1:
        pos = ord(item) - ord('a') # 通过ASCII码返回该index值
        c1[pos] += 1
        
    for item in s2:
        pos = ord(item) - ord('a')
        c2[pos] += 1

    stillOK = True
    j = 0
    while j <26 and stillOK:
        if c1[j]==c2[j]:
            j +=1
        else:
            stillOK = False
        
    return stillOK
  
print(myfunc4('apple','pleap'))

True


## 内置数据结构的性能
这一章介绍了内置数据结构中各种运算的性能差异

### lists列表

+ index 和 赋值 时间复杂度都是$O(1)$

+ append的时间复杂度为$O(1)$，但是连接函数的时间复杂度为$O(k)$,k是列表的大小

In [5]:
def test1():
    l = []
    for i in range(1000):
        l = l + [i]

def test2():
    l = []
    for i in range(1000):
        l.append(i)
        
def test3():
    l = [ i for i in range(1000)]
    
def test4():
    l = list(range(1000))
        

In [6]:
# use timer module to test these functions;
# 它能保证所有的函数都在一个相同的环境下运行
from timeit import Timer
t1 = Timer("test1()", "from __main__ import test1")
print("concat ",t1.timeit(number=1000), "milliseconds")
t2 = Timer("test2()", "from __main__ import test2")
print("append ",t2.timeit(number=1000), "milliseconds")
t3 = Timer("test3()", "from __main__ import test3")
print("comprehension ",t3.timeit(number=1000), "milliseconds")
t4 = Timer("test4()", "from __main__ import test4")
print("list range ",t4.timeit(number=1000), "milliseconds")

concat  1.2119950179985608 milliseconds
append  0.08078084000590025 milliseconds
comprehension  0.03509966700221412 milliseconds
list range  0.014638794003985822 milliseconds


操作 | 耗费时间 
----|------
index [] |	O(1)
index assignment	|O(1)
append	|O(1)
pop()	|O(1)
pop(i)	|O(n)
insert(i,item)	|O(n)
del operator	|O(n)
iteration	|O(n)
contains (in)	|O(n)
get slice [x:y]	|O(k)
del slice	|O(n)
set slice	|O(n+k)
reverse	|O(n)
concatenate	|O(k)
sort	| O(n log n)
multiply	| O(nk)

In [13]:
x=[1,2,3]
x.reverse()
x

[3, 2, 1]

**从上述表格中可以看出，pop从列表中删除最后一个元素的时间复杂度为1，即不会随着列表长度的上升而增加时间开销，而pop(i)表示从其中索引为i处删除元素，其时间复杂度为$O(n)$**

In [16]:
import timeit
popzero = timeit.Timer('x.pop(0)',
                      'from __main__ import x')
popend = timeit.Timer('x.pop()',
                     'from __main__ import x')

x = range(20000000)
popzero.timeit(number = 1000) # 跑一千次

30.723511934280396

In [17]:
popend.timeit(number = 1000) #跑一千次

0.0004260540008544922

**可以看出pop()耗费时间极少！！**

### Dict字典
|operation	| Big-O Efficiency
|--------|-----------
|copy	|O(n)
|get item	|O(1)
|set item	|O(1)
|delete item	|O(1)
|contains (in)	|O(1)
|iteration|	O(n)

列表中 contains的操作时间复杂度为$O(n)$，而字典中只有$O(1)$，下面我们来比较一下：

In [25]:
import random
for i in range(10000, 1000001, 20000):
    t = timeit.Timer('random.randrange(%d)in x' %i,
                        'from __main__ import random, x')
    x = range(i)
    lst_time = t.timeit(number = 1000)
    x = {j: None for j in range(i)}
    d_time = t.timeit(number = 1000)
    print '%d, %10.3f, %10.3f' % (i, lst_time, d_time)

10000,      0.114,      0.001
30000,      0.220,      0.001
50000,      0.345,      0.001
70000,      0.505,      0.001
90000,      0.633,      0.001
110000,      0.797,      0.001
130000,      0.925,      0.001
150000,      1.068,      0.001
170000,      1.197,      0.001
190000,      1.374,      0.001
210000,      1.577,      0.001
230000,      1.709,      0.001
250000,      1.898,      0.001
270000,      2.064,      0.001
290000,      2.162,      0.001
310000,      2.475,      0.001
330000,      2.571,      0.001
350000,      2.766,      0.001
370000,      2.967,      0.001
390000,      3.077,      0.001
410000,      3.247,      0.001
430000,      3.333,      0.001
450000,      3.622,      0.001
470000,      3.692,      0.001
490000,      3.976,      0.001
510000,      4.066,      0.001
530000,      4.343,      0.001
550000,      4.379,      0.001
570000,      4.479,      0.001
590000,      4.698,      0.001
610000,      4.977,      0.001
630000,      5.048,      0.001
650000,      

**由此可以看出list中 in 的操作耗时随着表的长度增加而递增，而字典中时间复杂度为$O(1)$**

### summary
从上面这些分析中可以看出dict由于其内部的hash值匹配，所以时间复杂度较低；
同时列表操作中 append, index, pop这些的复杂度为1

### 作业

+ 1. 设计一个试验。来验证list 中 index的时间复杂度是 $O(1)$

In [33]:
for i in range(100000, 200000, 1000):
    t = timeit.Timer('x[5]',
                     'from __main__ import x')
    x = range(i)
    time = t.timeit(number = 1000)
    print '%10.3f' % time

     0.001
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000
     0.000

+ 2. 作业2：验证字典中 get和set的时间复杂度为$O(1)$

In [41]:
# timeit可以保证在一个独立的环境下进行测试
for i in range(10000, 1000001, 20000):
    
    t = timeit.Timer('d.get(random.randrange(i))',
                    'from __main__ import i,d,random')
    d = {j:j ** 2 for j in range(i)}
    time = t.timeit(number = 1000)
    print '%10.3f' %time

     0.002
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001


In [42]:
for i in range(10000, 1000001, 20000):
    
    t = timeit.Timer('d.setdefault(random.randrange(i), 12)',
                    'from __main__ import i,d,random')
    d = {j:j ** 2 for j in range(i)}
    time = t.timeit(number = 1000)
    print '%10.3f' %time

     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001
     0.001


+ 作业3：list和dictionary中的del操作比较

In [49]:
for i in range(10000, 1000001, 20000):
    t1 = timeit.Timer('del x[5]',
                     'from __main__ import  x, random')
    t2 = timeit.Timer('del y[y.keys()[1]]',
                     'from __main__ import i, y, random')
    x = range(i)
    y = {j: None for j in range(i)}
    
    out1 = t1.timeit(number= 1000)
    out2 = t2.timeit(number = 1000)
    print '%10.3f %10.3f' %(out1, out2)

     0.008      0.110
     0.009      0.177
     0.013      0.249
     0.019      0.329
     0.025      1.037
     0.032      1.405
     0.038      2.097
     0.044      2.881
     0.051      3.624
     0.057      6.009
     0.064      6.815
     0.069      7.567
     0.075      8.508
     0.082      9.346
     0.088     10.075
     0.094     10.997
     0.101     11.573
     0.106     14.107
     0.114     15.079
     0.120     16.100
     0.127     16.869
     0.133     17.835
     0.140     18.849
     0.161     19.565
     0.151     20.547
     0.158     21.446
     0.163     22.215
     0.171     23.225
     0.177     24.110
     0.183     24.891
     0.189     25.906
     0.196     26.756
     0.202     27.419
     0.211     28.434
     0.218     29.184
     0.223     32.214
     0.234     32.594
     0.296     33.456
     0.322     33.197
     0.289     33.602
     0.420     34.464
     0.428     34.160


KeyboardInterrupt: 