# Python数据结构与算法

## 三、递归、搜索与排序算法

### （一）递归

#### 计算数字累加和举例

In [1]:
def listsum(numList):
    if len(numList) == 1:
        return numList[0]
    else:
        return numList[0] + listsum(numList[1:])
print(listsum([1,3,5,7,9]))

25


#### 计算进制转换举例

In [5]:
def transform(num,mod):
    convertString = "0123456789ABCDEF"
    if num < mod:
        return convertString[num]
    else:
        return transform(num//mod,mod)+ convertString[num % mod]

print (transform(16,2))

10000


#### 画蛛网图举例

In [6]:
import turtle

myTurtle = turtle.Turtle()
myWin = turtle.Screen()
def drawSpiral(myTurtle, lineLen):
    if lineLen > 0:
        myTurtle.forward(lineLen)
        myTurtle.right(90)
        drawSpiral(myTurtle,lineLen-5)
        
drawSpiral(myTurtle,100)
myWin.exitonclick()

#### 画分形树举例

In [1]:
import turtle
def tree(branchLen,t):
    if branchLen > 5:
        t.forward(branchLen)
        t.right(20)
        tree(branchLen-15,t)
        t.left(40)
        tree(branchLen-15,t)
        t.right(20)
        t.backward(branchLen)
def main():
    t = turtle.Turtle()
    myWin = turtle.Screen()
    t.left(90)
    t.up()
    t.backward(100)
    t.down()
    t.color("green")
    tree(75,t)
    myWin.exitonclick()
    
main()

### （二）搜索

#### 1. 顺序查找

对于无序列表：

（1）项不在列表中：如果有n 个项，则顺序查找需要 n 个比较来发现项不存在。

（2）项在列表中：有三种不同的情况可能发生。在最好的情况下，我们在列表的开头找到所需的项，只需要一个比较。在最坏的情况下，我们直到最后的比较才找到项，第 n 个比较。平均来说，我们会在列表的一半找到该项; 也就是说，我们将比较 n/2 项。

复杂度为O（n）。

对于有序列表：

（1）项不在列表中：只需查找到大于该值的项，若在之前不存在，即可判定为不存在。平均也为n/2项。

（2）项在列表中：与无序列表相同。

复杂度为O（n）。

#### 2. 二分查找（用于有序列表中）

In [11]:
def divSearch(alist,item):
    if len(alist) == 0:
        return False
    else:
        midPosition = len(alist)//2
        if alist[midPosition] == item:
            return True
        elif alist[midPosition] > item:
            return divSearch(alist[:midPosition],item)
        else:
            return divSearch(alist[midPosition + 1:],item)

testlist = [12,5,8,98,46,30,10,587,9,332]
testlist.sort()
print (testlist)
print (divSearch(testlist,9))
print (divSearch(testlist,50))

[5, 8, 9, 10, 12, 30, 46, 98, 332, 587]
True
False


二分查找复杂度：

<img src ="image/3_1.jpg", width = 500, higth = 1000>

找到查找项所需的比较数是 i，当 n/2^i = 1 时。 求解 i 得出 i = log^n 。 最大比较数相对于列表中的项是对数的。 因此，二分查找是 O( log^n )。

即使二分查找通常比顺序查找更好，但重要的是要注意，对于小的 n 值，排序的额外成本可能不值得。如果我们可以排序一次，然后查找多次，排序的成本就不那么重要。然而，对于大型列表，一次排序可能是非常昂贵，从一开始就执行顺序查找可能是最好的选择。

#### 3.Hash查找

下图展示了大小 m = 11 的哈希表（大小一般为质数）。在表中有 m 个槽，命名为 0 到 10。初始值全为None。
<img src ="image/3_2.jpg", width = 600, higth = 100>

假设我们有整数项 54,26,93,17,77 和31 的集合。我们的第一个 hash 函数叫做 余数法 ，即对哈希表的长度求模作为其散列值 （h(item) = item％11）。求得的哈希表如下：
<img src ="image/3_3.jpg", width = 600, higth = 100>

给定项的集合，将每个项映射到唯一槽的散列函数被称为完美散列函数。一般情况下，会有冲突产生，即不同项可能会映射到同一槽。

处理冲突的方法：分组求和法、平方取中法、重新散列

查找哈希表中的项复杂度接近 O(1) 。

#### 实现 map 抽象数据类型

字典是一种关联数据类型，你可以在其中存储键-值对。该键用于查找关联的值。我们经常将这个想法称为 map 。

下面用Hash查找实现map数据类型。

In [13]:
class HashTable:
    def __init__(self):
        self.size = 11
        self.slots = [None] * self.size
        self.data = [None] * self.size
        
    def put(self,key,data):
        hashvalue = self.hashfunction(key,len(self.slots))
        if self.slots[hashvalue] == None:
            self.slots[hashvalue] = key
            self.data[hashvalue] = data
        else:
            if self.slots[hashvalue] == key:
                self.data[hashvalue] = data #replace
            else:
                nextslot = self.rehash(hashvalue,len(self.slots))
                
                while self.slots[nextslot] != None and self.slots[nextslot] != key:
                    nextslot = self.rehash(nextslot,len(self.slots))
                if self.slots[nextslot] == None:
                    self.slots[nextslot]=key
                    self.data[nextslot]=data
                else:
                    self.data[nextslot] = data #replace
                    
    def hashfunction(self,key,size):
        return key%size
    
    def rehash(self,oldhash,size):    #加一取余映射
        return (oldhash+1)%size
    
    def get(self,key):
        startslot = self.hashfunction(key,len(self.slots))
        data = None
        stop = False
        found = False
        position = startslot
        
        while self.slots[position] != None and  not found and not stop:
            if self.slots[position] == key:
                found = True
                data = self.data[position]
            else:
                position=self.rehash(position,len(self.slots))
                if position == startslot:
                    stop = True
        return data
    
    def __getitem__(self,key):
        return self.get(key)
    
    def __setitem__(self,key,data):
        self.put(key,data)

In [23]:
# 创建一个哈希表并存储一些带有整数键和字符串数据值的项
>>> H=HashTable()
>>> H[54]="cat"
>>> H[26]="dog"
>>> H[93]="lion"
>>> H[17]="tiger"
>>> H[77]="bird"
>>> H[31]="cow"
>>> H[44]="goat"
>>> H[55]="pig"
>>> H[20]="chicken"

In [25]:
print(H.slots)
print(H.data)

[77, 44, 55, 20, 26, 93, 17, None, None, 31, 54]
['bird', 'goat', 'pig', 'chicken', 'dog', 'lion', 'tiger', None, None, 'cow', 'cat']


In [26]:
# 修改某一位置的值
H[20] = 'panda'
print(H.data)

['bird', 'goat', 'pig', 'panda', 'dog', 'lion', 'tiger', None, None, 'cow', 'cat']


### （三）排序

本节内容可参考http://abirdcfly.github.io/2016/03/09/python-sort/ ， 讲解的非常全面非常详细。

####  1.冒泡排序法

In [30]:
def bubbleSort(alist):
    for passnum in range(len(alist)-1,0,-1): 
        for i in range(passnum):
            if alist[i]>alist[i+1]:
#                 temp = alist[i]
#                 alist[i] = alist[i+1]
#                 alist[i+1] = temp

# python中的简易交换写法
                alist[i],alist[i+1] = alist[i+1],alist[i]
alist = [54,26,93,17,77,31,44,55,20]
bubbleSort(alist)
print(alist)

[17, 20, 26, 31, 44, 54, 55, 77, 93]


冒泡排序通常被认为是最低效的排序方法，共经过（n-1）+ (n-2) + …… + 1次比较与交换，复杂度为O(n^2)。

####  2.选择排序法

与冒泡排序法类似，但每次遍历不需要两两交换，只需找到最大值并放到指定位置。

In [32]:
def selectionSort(alist):
    for fillslot in range(len(alist)-1,0,-1):
        MaxPosition = 0
#         选出最大值，放到指定位置
        for i in range(1,fillslot+1):
            if alist[i] > alist[MaxPosition]:
                MaxPosition = i
        
        alist[fillslot],alist[MaxPosition] = alist[MaxPosition],alist[fillslot]
    
alist = [54,26,93,17,77,31,44,55,20]
selectionSort(alist)
print(alist)
                

[17, 20, 26, 31, 44, 54, 55, 77, 93]


选择排序与冒泡排序有相同数量的比较，因此也是 O(n^2 )。 然而，由于交换数量的减少，选择排序通常在基准研究中执行得更快。 事实上，对于我们的列表，冒泡排序有20 次交换，而选择排序只有 8 次。

####  3.插入排序法

每次循环，将待插值的项取出，依次与它前面的项比较。若前面的项比它大，则将前面的项依次后移一位，直至前面的项均比待插值项小为止。

插入排序的最大比较次数是 n-1 个整数的总和。同样，是 O(n^2 )。然而，在最好的情况下，每次通过只需要进行一次比较。

In [38]:
def insertSort(alist):
    for position in range(1,len(alist)):
        value = alist[position]
        
        while position > 0 and alist[position-1] >value:
            alist[position] = alist[position-1]
            position -= 1
            
        alist[position] = value
    
alist = [54,26,93,17,77,31,44,55,20]
insertSort(alist)
print(alist)    
            
        

[17, 20, 26, 31, 44, 54, 55, 77, 93]


#### 4.希尔排序法（递减递增排序）

通过将原始列表分解为多个较小的子列表来改进插入排序，每个子列表使用插入排序进行排序。

通过排序子列表，我们已将项目移动到更接近他们实际所属的位置。

图示如下：
<img src = "image/3_4.jpg" , width = 600, higth = 1000>

它的复杂度倾向于落在 O(n) 和O(n^2 ) 之间的某处。

#### 5.归并排序

归并排序是一种递归算法，不断将列表拆分为一半。 如果列表为空或有一个项，则按定义（基本情况） 进行排序。

一旦对这两半排序完成，就执行称为合并的基本操作。

举例如图：
<img src = "image/3_5.jpg" , width = 600, higth = 1000>
<img src = "image/3_6.jpg" , width = 600, higth = 1000>

In [40]:
def mergeSort(alist):
    print("Splitting ",alist)
    if len(alist)>1:
        mid = len(alist)//2
        lefthalf = alist[:mid]
        righthalf = alist[mid:]
        mergeSort(lefthalf)   # 每次迭代，都先对左边的一半执行分割并合并的过程，再对右边的一半执行同样的过程
        mergeSort(righthalf)  
        i=0
        j=0
        k=0
#          合并过程
        while i < len(lefthalf) and j < len(righthalf):
            if lefthalf[i] < righthalf[j]:
                alist[k]=lefthalf[i]
                i=i+1
            else:
                alist[k]=righthalf[j]
                j=j+1
            k=k+1
#         只有左边存在基本单元时执行
        while i < len(lefthalf):
            alist[k]=lefthalf[i]
            i=i+1
            k=k+1
#         只有右边存在基本单元时执行
        while j < len(righthalf):
            alist[k]=righthalf[j]
            j=j+1
            k=k+1
    print("Merging ",alist)
alist = [54,26,93,17,77,31,44,55,20]
mergeSort(alist)
print(alist)

Splitting  [54, 26, 93, 17, 77, 31, 44, 55, 20]
Splitting  [54, 26, 93, 17]
Splitting  [54, 26]
Splitting  [54]
Merging  [54]
Splitting  [26]
Merging  [26]
Merging  [26, 54]
Splitting  [93, 17]
Splitting  [93]
Merging  [93]
Splitting  [17]
Merging  [17]
Merging  [17, 93]
Merging  [17, 26, 54, 93]
Splitting  [77, 31, 44, 55, 20]
Splitting  [77, 31]
Splitting  [77]
Merging  [77]
Splitting  [31]
Merging  [31]
Merging  [31, 77]
Splitting  [44, 55, 20]
Splitting  [44]
Merging  [44]
Splitting  [55, 20]
Splitting  [55]
Merging  [55]
Splitting  [20]
Merging  [20]
Merging  [20, 55]
Merging  [20, 44, 55]
Merging  [20, 31, 44, 55, 77]
Merging  [17, 20, 26, 31, 44, 54, 55, 77, 93]
[17, 20, 26, 31, 44, 54, 55, 77, 93]


复杂度：首先，列表被分成两半。我们已经计算过（在二分查找中） 将列表划分为一半需要 log^n 次，其中 n 是列表的长度。第二个过程是合并。列表中的每个项将最终被处理并放置在排序的列表上。因此，大小为 n 的列表的合并操作需要 n 个操作。此分析的结果是 log^n 的拆分，其中每个操作花费n，总共 nlog^n 。归并排序是一种 O(nlogn) 算法。

但是，mergeSort 函数需要额外的空间来保存两个半部分，因为它们是使用切片操作提取的。如果列表很大，这个额外的空间可能是一个关键因素，并且在处理大型数据集时可能会导致此类问题。

#### 6.快速排序

（1）使用列表中的第一项作为枢轴值。枢轴值的作用是帮助拆分列表。
（2）我们首先增加左标记，直到我们找到一个大于枢轴值的值。 然后我们递减右标，直到我们找到小于枢轴值的值。现在我们交换这两个项目，然后重复该过程。
（3）最终所有元素比枢轴值小的摆放在枢轴值前面，所有元素比枢轴值大的摆在枢轴值的后面（相同的数可以到任一边）。在这个分区结束之后，该枢轴值就处于数列的中间位置。这个称为分区（partition）操作。
（4）在拆分成的两半上递归调用快速排序。

In [41]:
def quickSort(alist):
    quickSortHelper(alist,0,len(alist)-1)
def quickSortHelper(alist,first,last):
    if first<last:
#         递归调用，直至全部排序成功
        splitpoint = partition(alist,first,last)
        quickSortHelper(alist,first,splitpoint-1)
        quickSortHelper(alist,splitpoint+1,last)
#         确定每一次迭代的枢轴值的位置
def partition(alist,first,last):
    pivotvalue = alist[first]
    leftmark = first+1
    rightmark = last
    done = False
    while not done:
        while leftmark <= rightmark and alist[leftmark] <= pivotvalue:
            leftmark = leftmark + 1
        while alist[rightmark] >= pivotvalue and rightmark >= leftmark:
            rightmark = rightmark -1
        if rightmark < leftmark:
            done = True
        else:
            temp = alist[leftmark]
            alist[leftmark] = alist[rightmark]
            alist[rightmark] = temp
    temp = alist[first]
    alist[first] = alist[rightmark]
    alist[rightmark] = temp
    return rightmark
alist = [54,26,93,17,77,31,44,55,20]
quickSort(alist)
print(alist)

[17, 20, 26, 31, 44, 54, 55, 77, 93]


快速排序复杂度是 O(nlog^n ） ，但如果分割点不在列表中间附近，可能会降级到O(n^2 ) 。它不需要额外的空间。

In [6]:
x= 4
y = 8
bin(x^y)

'0b1100'