注：算法执行实际比较(运算)次数与表的大小n直接相关，是n的函数，称为算法的时间复杂度。同时，称n为问题规模。   

注：包含查找算法和排序算法

## A：查找算法：

#### 1.顺序查找

>A:算法核心:对每一个word，我们都要遍历一个table，比较其中的词与当前的word是否相同，相同就是找到，否则就是没有找到

>B:时间复杂度：O(n)

>C:顺序查找无内置模块，因为很慢

In [None]:
#算法1-A(别运行)
for line in f:#对于文件中的每一行，依次读入
    words = [word.split('/')[0] for word in line.split()]
    for word in words:#对于每一个word
        for item in word_freq_pairs:#遍历一遍table
            if word == item[0]:#相同，则词频加一
                item[1] += 1
                break
        else:                  #不同则没有找到，词表table加上这个词
            word_freq_pairs.append([word, 1])

- words是词表总大小，设为n。
- 假设table中词汇是均匀分布的，则对每一个查询词，平均只要遍历到table的一半。这样对一个词汇进行查找所需的比较次数就约为：n/2。 
- 对问题规模为n的词表，对长度为m个单词的文本，统计词频需要重复n/2\*m的比较。

In [17]:
#算法1-B
def count_words_freq(filename, words):
    word_freq_pairs = []
    with open(filename) as f:
        text = f.read()
    for word in words:
        number = text.count(word)
        word_freq_pairs.append([word, number])
    return word_freq_pairs

- words是词表总大小，设为n。
- text是文本大小，假设其长度为k(如果m为文本中的单词书，则k正比于m)
- 整个程序是要对词表中所有n个词，来进行text.count(word)，也就是放到长度为k的字符串中，寻找每一个word出现的次数。这个比较，平均每次比较的次数，一般将大于m次(具体可参考字符串匹配的BF算法及KMP算法)。
- 因此，最后整个程序，将需要进行判断字符串是否相同m\*n次(近似次数)

#### 2.二分查找/折半查找算法

>A:算法核心：对于有序的序列，通过二分的思想，将查找的步骤降低到log2（n）（详解：要在有序序列numbers中查找某一元素a，首先，将numbers中间位置的项与查找关键字a比较，如果两者相等，则查找成功（当然了，一般都不相等）；否则，利用中间项将numbers分成前后两个部分，如果中间项大于a，则查找前一部分，否则查找后一部分。重复以上过程，直到找到a，即查找成功，否则查找失败。

>B:时间复杂度:O(log2(n))

>C:二分查找有内置模块，即bisect模块

>D:二分查找的前提：初始序列有序（排序算法详见下方B：排序算法）


In [51]:
# 算法2-A(二分查找的递归算法)
def bi_search(a, numbers, low, high):
    if low > high:
        return -1         #查找失败，返回-1
    else:
        mid = (low+high)//2  #计算中间位置
        if a == numbers[mid]:  #等于，返回中间项
            return mid
        elif a > numbers[mid]: #大于，查找后一部分
            return bi_search(a, numbers, mid+1, high)
        else:                  #其他，即小于，查找前一部分
            return bi_search(a, numbers, low, mid-1)
            
# 测试用
nums = [x*x for x in range(10)]
print(nums)
print(bi_search(26, nums, 0, 9))
print(bi_search(9, nums, 0, 9))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
-1
3


In [52]:
#二分查找的非递归实现
def bi_search_2(a, numbers):
    low = 0                      #左边界
    high = len(numbers)-1        #右边界
    while low <= high:           #左边界小于右边界，则循环
        mid = (low+high)//2      #计算中间位置
        if numbers[mid] < a:     #小于
            low = mid+1          #调整左边界
        elif  numbers[mid] > a:  #大于
            high = mid-1         #调整右边界
        else :                   #等于
            return mid           #返回中间项
    return -1                    #查找失败，返回-1
            
# 测试用
nums = [x*x*x for x in range(10)]
print(nums)
print(bi_search_2(1, nums))
print(bi_search_2(8, nums))

[0, 1, 8, 27, 64, 125, 216, 343, 512, 729]
1
2


#### 二分查找的内置模块，bisect模块

- bisect是标准库中的二分查找模块，内置有多个方法。
  - **在序列中间，插入某不重复一对象的方法：**bisect.bisect_left(..., x)方法接受两个参数，第一个是正序序列，第二个是任意可与序列中元素进行大小比较的对象x。该方法会查找x在序列中的插入位置，这意味着，在序列中插入x以后，序列仍然保持有序。如果x大于序列中最大的对象，则返回序列长度，如果x小于序列中最小的对象，则返回0。在序列中如果有对象与对象x大小相同，返回该对象在序列中的索引。
  - **在任意位置，插入某一对象的方法**bisect.insort_left(..., x)方法接受两个参数，第一个是正序序列，第二个是任意可与序列中元素进行大小比较的对象x。该方法会查找x在序列中的插入位置，并将其插入，并使序列仍然保持有序。如果x大于序列中最大的对象，插入在序列尾部，如果x小于序列中最小的对象，则插入在序列首部。在序列中如果有对象与对象x大小相同，则插入在该对象的左侧。

- **bisect模块的六种方法：**

- bisect.bisect_left(a, x, lo=0, hi=len(a))

Locate the insertion point for x in a to maintain sorted order. The parameters lo and hi may be used to specify a subset of the list which should be considered; by default the entire list is used. If x is already present in a, the insertion point will be before (to the left of) any existing entries. The return value is suitable for use as the first parameter to list.insert() assuming that a is already sorted.
The returned insertion point i partitions the array a into two halves so that all(val < x for val in a[lo:i]) for the left side and all(val >= x for val in a[i:hi]) for the right side.

- bisect.bisect_right(a, x, lo=0, hi=len(a))
- bisect.bisect(a, x, lo=0, hi=len(a))

Similar to bisect_left(), but returns an insertion point which comes after (to the right of) any existing entries of x in a.
The returned insertion point i partitions the array a into two halves so that all(val <= x for val in a[lo:i]) for the left side and all(val > x for val in a[i:hi]) for the right side.

- bisect.insort_left(a, x, lo=0, hi=len(a))

Insert x in a in sorted order. This is equivalent to a.insert(bisect.bisect_left(a, x, lo, hi), x) assuming that a is already sorted. Keep in mind that the O(log n) search is dominated by the slow O(n) insertion step.

- bisect.insort_right(a, x, lo=0, hi=len(a))
- bisect.insort(a, x, lo=0, hi=len(a))。

Similar to insort_left(), but inserting x in a after any existing entries of x.

详细用法见：https://docs.python.org/3/library/bisect.html

In [27]:
import bisect
a = [i for i in range(20)]
print(a)
print('返回索引，并不插入：',bisect.bisect_left(a, 5))
print(a)
print(bisect.insort_left(a, 5.5))
print(a)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
返回索引，并不插入： 5
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
None
[0, 1, 2, 3, 4, 5, 5.5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]


## B.排序算法：

#### 1.基础排序算法中的简单选择排序

>A:算法核心：对于包含N个元素的列表A，按递增顺序排序的选择法的思想是：每次在若干无序数据中查找最小的数，并放在无序数据的首位。

>B:时间复杂度：主要的时间消耗是比较次数，总次数 ==（N-1)+(N-2)+ … +2+1 ，所以时间复杂度为 O（n\*n）

>C:简单选择排序无内置算法，因为很慢

In [53]:
def sort_simple_selection(seq):
    for i in range(len(seq)-1):
        min = i
        for j in range(i+1, len(seq)):
            if seq[j] < seq[min]:
                min = j
                seq[i], seq[min] = seq[min], seq[i]
            print(numbers)
        print('-----')
numbers = [2,1,0,-1,-2]
print('begin:',numbers)
sort_simple_selection(numbers)
print(numbers)

begin: [2, 1, 0, -1, -2]
[1, 2, 0, -1, -2]
[0, 2, 1, -1, -2]
[-1, 2, 1, 0, -2]
[-2, 2, 1, 0, -1]
-----
[-2, 1, 2, 0, -1]
[-2, 0, 2, 1, -1]
[-2, -1, 2, 1, 0]
-----
[-2, -1, 1, 2, 0]
[-2, -1, 0, 2, 1]
-----
[-2, -1, 0, 1, 2]
-----
[-2, -1, 0, 1, 2]


#### B:快速排序

>A:算法核心：通过一次排序将要排序的数列分割成独立的两部分，其中一部分的数据比另一部分的所有数据都小,然后递归进行快速排序

>B:时间复杂度：快排的最坏情况是，每次划分选取的基准都是当前无序列表中关键字的最值，时间复杂度为 O（n\*n）；平均情况下，其时间复杂度为 O（n\*log2n）

>C:快速排序法python已为我们内置，且是基于快速排序算法的改进版本。

>D:思想：我们可以利用与二分查找的思路来设计性能更高的排序算法，算法思路是，在待排序序列中，每次选定一个元素p，将其余元素与p依次进行比较，比这个元素小的元素均放到p的左侧，其余元素放到p的右侧。然后，对p的左侧、右侧，再进行同样的算法操作。 

>E:针对对象：针对完全无序的序列进行整理排序

In [54]:
# 刘鹏远老师算法
# 为了便于理解，算法中利用了2个辅助序列(实际算法实现可无额外序列）
# 以seq为数字序列为例
def quick_sort(seq):
    left_seq =  []
    right_seq = []
    p=seq[0]
    for number in seq[1:]:
        if number <= p:
            left_seq.append(number)
        else:
            right_seq.append(number)
    if left_seq:
        left_seq = quick_sort(left_seq)
    if right_seq:
        right_seq = quick_sort(right_seq)

    return  left_seq + [p] + right_seq

#测试
numbers = [23,45,12,1,2,333,5,1,222,34,-9,-9,-9]
sorted_numbers = quick_sort(numbers)
print(numbers)
print(sorted_numbers)

# 说明：由于quick_sort(...)函数内部并没有对参数seq进行排序，因此最终要返回排好序的序列，而原有的seq也即主程序中的numbers保持不变。

[23, 45, 12, 1, 2, 333, 5, 1, 222, 34, -9, -9, -9]
[-9, -9, -9, 1, 1, 2, 5, 12, 23, 34, 45, 222, 333]


In [63]:
# 快速排序算法的实现的实际代码：
def quick_sort(a,low,high):          #对列表a进行快排，上界为high，下界为low
    i = low                          #i等于列表下届
    j = high                         #j等于列表上界
    if i >= j:                       #下界大于等于上界，返回列表a
        return a
    key = a[i]                       #设置列表第一个元素作为关键数据
    #print(key)                       #调试
    while i < j:                     #循环直到i==j
        while i < j and a[j] >= key: #j开始向前搜索，直到找到第一个小于key的值a[j]
            j = j-1
        a[i] = a[j]
        while i <j and a[i] <=key:   #i开始向后搜索，直到找到第一个大于key的值a[i]
            i = i+1
        a[j] = a[i]
    a[i] = key
   # print(a)                         #调试
    quick_sort(a,low,i-1)            #递归调用快排（下界为low，上界为i-1）
    quick_sort(a,j+1,high)           #递归调用快排（下界为j+1，上界为high）
    return a
numbers = [23,45,12,1,2,333,5,1,222,34,-9,-9,-9]
quick_sort(numbers,0,len(numbers)-1)
print(numbers)

[-9, -9, -9, 1, 1, 2, 5, 12, 23, 34, 45, 222, 333]


#### 快速排序的内置排序算法，sort(),sorted()

- sort()是python的list对象的快速排序方法，用法是：列表.sort()，可将列表中的元素进行排序(默认为正序)。注意，列表自身进行了排序。
- sorted(...)是python内置的快速排序方法，用法是：sorted(seq)，可返回对序列seq排序后新生成的一个列表。注意，原有序列不变。

sort()与sorted()

. . .	|sort()	|sorted
:----: | :-----: | :----:
用法|	sort(*, key=None, reverse=None)	|sorted(*, key=None, reverse=None)
相同1	|内置，快速排序，针对列表|	内置，快速排序，针对列表
不同1|	就地排序，原列表改变|	返回排序后的新列表，原列表不变
不同2|	2个关键字参数(可选)|	1个序列参数(必选)，2个关键字参数(可选)
相同2	|关键字参数用法相同，任一关键字参数，须加上关键字才能使用	|关键字参数用法相同，任一关键字参数，须加上关键字才能使用
不同3	|仅针对列表|	可用于任何可迭代对象

In [56]:
# sort(),sorted()示例
numbers = [23,45,12,1,2,333,5,1,222,34,-9,-9,-9]
nums = sorted(numbers)
print('nums = ', nums)
print('numbers in sorted(numbers) = ', numbers)
numbers.sort()
print('numbers after numbers.sort() = ', numbers)

nums =  [-9, -9, -9, 1, 1, 2, 5, 12, 23, 34, 45, 222, 333]
numbers in sorted(numbers) =  [23, 45, 12, 1, 2, 333, 5, 1, 222, 34, -9, -9, -9]
numbers after numbers.sort() =  [-9, -9, -9, 1, 1, 2, 5, 12, 23, 34, 45, 222, 333]


In [1]:
a = [5,6,3,2,1,90]
print(sorted(a))
print('after sorted, a is still old a:', a)
a.sort()
print('after sort, a is not old a:', a)

print(sorted({1: 'D', 2: 'B', 3: 'B', 4: 'E', 5: 'A'}))     # 直接对dict进行sort，将仅单独作用于key

a.sort(reverse=True)
print('reverse a:', a)

[1, 2, 3, 5, 6, 90]
after sorted, a is still old a: [5, 6, 3, 2, 1, 90]
after sort, a is not old a: [1, 2, 3, 5, 6, 90]
[1, 2, 3, 4, 5]
reverse a: [90, 6, 5, 3, 2, 1]


- sort()及sorted()中的key参数指定一个可返回排序关键字的函数，该函数作用于待排序对象中的每一个元素，sort()及sorted()根据排序关键字进行排序。

In [3]:
a = sorted("This is a test string from Andrew".split(), key=str.lower)  #返回每个字符的小写形式，以其为关键字进行排序
print(a)

student_tuples = [
        ('john', 'A', 15),
        ('jane', 'B', 12),
        ('dave', 'B', 10),
    ]

from operator import itemgetter

a = sorted(student_tuples, key=itemgetter(2))           # 返回每个对象索引2的元素，以其为关键字对student_tuples排序
print(a, student_tuples)
student_tuples.sort(key=itemgetter(2), reverse=True)    # key及reverse参数一起使用
print(student_tuples)

['a', 'Andrew', 'from', 'is', 'string', 'test', 'This']
[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)] [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]


#### C:二分插入排序

>A:方法：在任意位置，插入某一对象的方法bisect.insort_left(..., x)方法接受两个参数，第一个是正序序列，第二个是任意可与序列中元素进行大小比较的对象x。该方法会查找x在序列中的插入位置，并将其插入，并使序列仍然保持有序。如果x大于序列中最大的对象，插入在序列尾部，如果x小于序列中最小的对象，则插入在序列首部。在序列中如果有对象与对象x大小相同，则插入在该对象的左侧。

>B：针对对象：把无序的一些序列插入到有序的序列里。（注：空列表自然有序，故可利用bisect进行排序）

>C：缺点：每次插入元素会导致O(n)的元素移动，将在很大程度上影响程序性能，但预期仍然会比原来顺序查找方法要快很多。 