# chapter2 Analysis

## 如何衡量代码执行效率

In [1]:
import numpy as np

一般使用时间复杂度来描述算法的复杂度和好坏，两段代码可能实现了同一个功能，但从耗费的时间的角度来衡量代码的好坏。

In [11]:
import time

# 比较两个计算sum的函数之间的差异；

def func1(n):
    start = time.time()
    
    theSum = 0
    for i in range(1, n+1):
        theSum += i
        
    end = time.time()
    
    return theSum, end-start

In [14]:
for i in range(5):
    print '结果是 %d 耗费的时间是 %10.7f 秒' % func1(10000)

结果是 50005000 耗费的时间是  0.0018508 秒
结果是 50005000 耗费的时间是  0.0010631 秒
结果是 50005000 耗费的时间是  0.0010750 秒
结果是 50005000 耗费的时间是  0.0010450 秒
结果是 50005000 耗费的时间是  0.0010560 秒


In [15]:
for i in range(5):
    print '结果是 %d 耗费的时间是 %10.7f 秒' % func1(1000000)

结果是 500000500000 耗费的时间是  0.0884221 秒
结果是 500000500000 耗费的时间是  0.0523272 秒
结果是 500000500000 耗费的时间是  0.0456190 秒
结果是 500000500000 耗费的时间是  0.0430150 秒
结果是 500000500000 耗费的时间是  0.0426409 秒


另外一个方式，直接用公式$\sum_i = \frac{n(n+1)}{2}$

In [16]:
def myfunc2(n):
    return n*(n+1)/2

for i in range(5):
    start = time.time()
    myfunc2(1000000)
    end = time.time()
    print '运算时间 %10.7f 秒'%(end-start)

运算时间  0.0000062 秒
运算时间  0.0000041 秒
运算时间  0.0000019 秒
运算时间  0.0000019 秒
运算时间  0.0000021 秒


## big O Notation
为了用一般的形式衡量代码的运行效率，而不是使用时间这一手段；
一句赋值语句复杂度为1

这样，myfunc1的时间复杂度就为$O(n)$


f(n) | Name 
----|------
1 | constant 
$logn$ | Logarithmic
n | Linear
$nlogn$ | Log Linear
$n^2$ | Quadratic
$n^3$ | Cubic
$2^n$ | Exponential

In [17]:
# write 2 functions to find minimum number in a list

def min1(l):
    # l is a list
    out = 0
    for item in l:
        if item < out:
            out = item
            
    return out

min([34,43,1,2,32,5,6])

1

## 一个字符串颠倒顺序检测的例子

### solution1：checking off
检查string1中的字符是不是都在string2中出现   时间复杂度 $O(n^2)$

In [20]:
def myfunc1(s1, s2):
    alist = list(s2)
    pos1 = 0
    stillOK = True
    
    while pos1 < len(s1) and stillOK:
        pos2 = 0
        found = False
        while pos2 < len(alist) and not found:
            if s1[pos1] == alist[pos2]:
                found = True
            else:
                pos2 = pos2 + 1
        
        if found:
            alist[pos2] = None
        else:
            stillOK = False
        
        pos1 = pos1 + 1
    
    return stillOK

print(myfunc1('abcd','dcba'))

True


### solution2: sort and compare
如果组成字符相同，那么sort完之后肯定是同样的字符   ，时间复杂度为 $O(n)$

In [22]:
def myfunc2(s1, s2):
    alist1 = list(s1)
    alist2 = list(s2)
    
    alist1.sort()
    alist2.sort()
    
    pos = 0
    matches = True
    
    while pos < len(s1) and matches:
        if alist1[pos] == alist2[pos]:
            pos += 1
        else:
            matches = False
    return matches

print(myfunc2('abcde', 'bcade'))

True


### solution3： Brute Force暴力破解
先对s1生成所有可能的字符串，再查看是否会出现s2；显然这不是一个好的方法

### solution4: count and compare
由于是重排，则所有字母出现的频率是相同的, 时间复杂度$O(n)$

In [33]:
def myfunc4(s1, s2):
    c1 = [0]*26
    c2 = [0]*26
    
    for item in s1:
        pos = ord(item) - ord('a') # 通过ASCII码返回该index值
        c1[pos] += 1
        
    for item in s2:
        pos = ord(item) - ord('a')
        c2[pos] += 1

    stillOK = True
    j = 0
    while j <26 and stillOK:
        if c1[j]==c2[j]:
            j +=1
        else:
            stillOK = False
        
    return stillOK
  
print(myfunc4('apple','pleap'))

True


## 内置数据结构的性能
这一章介绍了内置数据结构中各种运算的性能差异

### lists列表

+ index 和 赋值 时间复杂度都是$O(1)$

+ append的时间复杂度为$O(1)$，但是连接函数的时间复杂度为$O(k)$,k是列表的大小

In [34]:
def test1():
    l = []
    for i in range(1000):
        l = l + [i]

def test2():
    l = []
    for i in range(1000):
        l.append(i)
        
def test3():
    l = [ i for i in range(1000)]
    
def test4():
    l = list(range(1000))
        

In [43]:
# use timer module to test these functions;
# 它能保证所有的函数都在一个相同的环境下运行
from timeit import Timer
t1 = Timer("test1()", "from __main__ import test1")
print("concat ",t1.timeit(number=1000), "milliseconds")
t2 = Timer("test2()", "from __main__ import test2")
print("append ",t2.timeit(number=1000), "milliseconds")
t3 = Timer("test3()", "from __main__ import test3")
print("comprehension ",t3.timeit(number=1000), "milliseconds")
t4 = Timer("test4()", "from __main__ import test4")
print("list range ",t4.timeit(number=1000), "milliseconds")

('concat ', 1.3345329761505127, 'milliseconds')
('append ', 0.06378293037414551, 'milliseconds')
('comprehension ', 0.03006291389465332, 'milliseconds')
('list range ', 0.00851297378540039, 'milliseconds')


操作 | 耗费时间 
----|------
index [] |	O(1)
index assignment	|O(1)
append	|O(1)
pop()	|O(1)
pop(i)	|O(n)
insert(i,item)	|O(n)
del operator	|O(n)
iteration	|O(n)
contains (in)	|O(n)
get slice [x:y]	|O(k)
del slice	|O(n)
set slice	|O(n+k)
reverse	|O(n)
concatenate	|O(k)
sort	| O(n log n)
multiply	| O(nk)

In [51]:
x=[1,2,3]
reverse(x)

NameError: name 'reverse' is not defined