# 算法分析

**算法分析主要就是从计算资源的消耗的角度来评判和比较算法。**我们想要分析两种算法并且指出哪种更好，主要考虑的是哪一种可以更高效地利用计算资源。

## 1. 引例

In [5]:
import time

def sum_of_n(n):
    start = time.time()
    the_sum = 0
    for i in range(1, n + 1):
        the_sum = the_sum + i 
    end = time.time()
    return the_sum, end - start
print(sum_of_n(10))

(55, 2.1457672119140625e-06)


In [6]:
for i in range(5):
    print("Sum is %d required %10.7f seconds"% sum_of_n(10000))

Sum is 50005000 required  0.0004239 seconds
Sum is 50005000 required  0.0004239 seconds
Sum is 50005000 required  0.0004230 seconds
Sum is 50005000 required  0.0004358 seconds
Sum is 50005000 required  0.0004401 seconds


In [8]:
for i in range(5):
    print("Sum is %d required %10.7f seconds"% sum_of_n(1000000))

Sum is 500000500000 required  0.0502369 seconds
Sum is 500000500000 required  0.0503192 seconds
Sum is 500000500000 required  0.0537519 seconds
Sum is 500000500000 required  0.0504000 seconds
Sum is 500000500000 required  0.0496562 seconds


**我们改写下代码如下：**

In [4]:
import time

def sum_of_n_2(n):
    start = time.time()
    res =  (n * (n +1)) / 2
    end = time.time()
    return res, end - start
for i in range(5):
    print("Sum is %d required %10.7f seconds"% sum_of_n_2(100000))


Sum is 5000050000 required  0.0000010 seconds
Sum is 5000050000 required  0.0000000 seconds
Sum is 5000050000 required  0.0000000 seconds
Sum is 5000050000 required  0.0000000 seconds
Sum is 5000050000 required  0.0000000 seconds


**但是这个基准测试真正告诉了我们什么?**
- 直观上，我们可以看到迭代算法似乎做了更多的工作，因为一些程序步骤被重复执行，这可能就是它需要更长时间的原因。
- 此外，迭代算法所需要的运行时间似乎会随着 n 值的增大而增大。
- 如果我们在不同的计算机上运行相同的函数，或者使用不同的编程语言，我们可能会得到不同的结果。如果计算机比较老旧，运行 sum_of_n 可能还需要更长的时间。

## 2. 大“O”表示法
- 我们可以用一个叫$T$的函数来表示赋值语句数量，如上例中 $T(n) = 1 + n$。变量$n$一般指“问题的规模”，可以理解为当要解决一个规模为$n$，对应$n+1$步操作步数的问题，所需要的时间为$T(n)$。
- 有限的操作次数对于$T(n)$函数的影响，并不如某些占据主要地位的操作部分重要。换言之，当问题规模越来越大时，$T(n)$函数中的一部分几乎掩盖了其他部分对于函数的影响。最终，这种起主导作用的部分用来对函数进行比较。
- **数量级函数**用来描述当规模$n$增加时，$T(n)$函数中增长最快的部分。这种数量级函数一般被称为大“$O$”表示法，记作$O(f(n))$。

**案例：**

In [None]:
a =5
b =6
c = 10
for i in range(n):
    for j in range(n):
        x = i* i
        y= j * j
        z =i * j
        
for k in range(n):
    w = a * k + 45
    v= b * b

d = 33

我们发现，任务操作总数分为四项。第一项是常数$ 3 $，代表程序开头的三个赋值语句。第二项是$ 3n^2 $，因为嵌套迭代(循环结构)中有三个赋值语句分别被重复执行了$ n^2 $次。第三项是$ 2n $，表示两个赋值语句被重复执行了$ n $次。最后一项是常数$ 1 $，代表最后的赋值语句。我们得到$ T(n) = 3+3n^2 +2n+1 = 3n^2+2n+ 4 $。
- **我们自然地发现$ n^2 $项占主导，当$ n $增大时，其他项和主导项的系数都可以忽略，所以这个代码片段的数量级就是$ O(n^2) $。**

## 3. 案例——变位词监测
经典的字符串变位词检测问题是比较不同数量级函数算法的一个典型例子。如果一个字符串是另一个字符串的重新排列组合，那么这两个字符串互为变位词。比如，”heart”与”earth”互为变位词，”python”与”typhon”也互为变位词。为了简化问题，我们设定问题中的字符串长度相同，都是由 26 个小写字母组成。我们需要编写一个接受两个字符串，返回真假，代表是否是一对变位词的布尔函数。

### 3.1 算法一：
$$ T(n) = \frac{n(n+1)}{2} = \frac{n^2}{2} + \frac{n}{2} $$
$$ 算法复杂度 = O(n^2) $$

In [10]:
def anagram_solution1(s1,s2): 
    a_list = list(s2)
    pos1 = 0
    still_ok = True
    while pos1 < len(s1) and still_ok:
        pos2 = 0
        found = False
        while pos2 < len(a_list) and not found:
            if s1[pos1] == a_list[pos2]:
                found = True
            else:
                pos2 = pos2 + 1

        if found:
            a_list[pos2] = None
        else:
            still_ok = False
        pos1 = pos1 + 1
    return still_ok

print(anagram_solution1('abcd', 'dcba'))

True


### 3.2 算法二
- 我们首先从 a 到 z 给每一个字符串按字母顺序进行排序，如果它们是变位词，那么 我们将得到两个完全一样的字符串。此外，我们可以先将字符串转化为列表，再利用 Python 中内建的 sort 方法对列表进行排序。
- 然而对 Python 内建的 sort 方法的两次使用并非毫无消耗。事实上，正如我们在后面的章节 中将要看到的，排序方法的复杂度往往都是$ O(n2)$或者$ O(nlogn)$，所以排序贡献了这个函数主要的循环操作。最终，这个算法和算法一的复杂度相同。


### 3.3 算法三
变位词问题的最后一个方法利用了任何变位词都有相同数量的a，相同数量的b，相同数量的c等等。为判断两个字符串是否为变位词，我们首先计算每一个字符在字符串中出现的次数。由于共有26个可能的字符，我们可以利用有26个计数器的列表，每个计数器对应一个字符。每当我们看到一个字符，就在相对应的计数器上加一。最终，如果这两个计数器列表相同，则这两个字符串是变位词。

$$ T(n)=2n+26 $$
$$ 算法复杂度 = O(n) $$

In [21]:
def anagram_solution2(s1,s2):
    C1 = [0] * 26
    C2 = [0] * 26

    for i in range(len(s1)):
        pos = ord(s1[i]) - ord('a')
        C1[pos] = C1[pos] + 1

    for i in range(len(s2)):
        pos = ord(s2[i]) - ord('a')
        C2[pos] = C2[pos] + 1

    j = 0
    still_ok = True

    while j < 26 and still_ok:
        if C1[j] == C2[j]:
            j = j + 1
        else:
            still_ok = False
    return still_ok

print(anagram_solution2('apple','pleap'))

True
