## 基本数据结构

### 线性数据结构
线性数据结构:栈、队列、双端队列和列表都是有序的数据集合，其元素的顺序取决于添加顺序或移除顺序。一旦某个元素被添加进来，它与前后元素的相对位置将保持不变。这样的数据集合经常被称为线性数据结构。

线性数据结构可以看作有两端。这两端有时候被称作“左端”和“右端”，有时候也被称作“前端”和“后端”。当然，它们还可以被称作“顶端”和“底端”。

#### 栈 （Stack）
栈(stack):栈有时也被称作“下推栈”。它是有序集合，添加操作和移除操作总发生在同一端，即“顶端”，另一端则被称为“底端”。
特点:
1. 最近添加的元素靠近顶端，旧元素则靠近底端。
2. 最新添加的元素将被最先移除。这种排序原则被称作 LIFO（last-in first-out），即后进先出。
3. 栈是元素的有序集合，添加操作与移除操作都发生在其顶端。

用python实现该功能:

In [4]:
class Stack: 
    def __init__(self): 
        self.items = [] 

    def isEmpty(self): 
        return self.items == [] 

    def push(self, item): 
        self.items.insert(0, item) 

    def pop(self): 
        return self.items.pop(0) 

    def peek(self): 
        return self.items[0] 

    def size(self): 
        return len(self.items)

#### 队列 (Queue)
队列: 队列是有序集合，添加操作发生在“尾部”，移除操作则发生在“头部”。
特点:
最新添加的元素必须在队列的尾部等待，在队列中时间最长的元素则排在最前面。这种排序原则被称作 FIFO（first-in first-out），即先进先出，也称先到先得。
用python实现该功能:

In [3]:
class Queue: 
    def __init__(self): 
        self.items = [] 

    def isEmpty(self): 
        return self.items == [] 

    def enqueue(self, item): 
        self.items.insert(0, item) 

    def dequeue(self): 
        return self.items.pop() 

    def size(self): 
        return len(self.items) 

#### 双端队列 (Deque)
双端队列是与队列类似的有序集合。它有一前、一后两端，元素在其中保持自己的位置。与队列不同的是，双端队列对在哪一端添加和移除元素没有任何限制。新元素既可以被添加到前端，也可以被添加到后端。用Python实现其功能:


In [5]:
class Deque: 
    def __init__(self): 
        self.items = [] 
    def isEmpty(self): 
        return self.items == [] 
    def addFront(self, item): 
        self.items.append(item) 
    def addRear(self, item): 
        self.items.insert(0, item) 
    def removeFront(self): 
        return self.items.pop() 
    def removeRear(self): 
        return self.items.pop(0) 
    def size(self): 
        return len(self.items)

In [11]:
def palchecker(aString): 
    chardeque = Deque() 

    for ch in aString: 
        chardeque.addRear(ch) 

    stillEqual = True 

    while chardeque.size() > 1 and stillEqual: 
        first = chardeque.removeFront() 
        last = chardeque.removeRear() 
        if first != last: 
            stillEqual = False 

    return stillEqual 

In [13]:
palchecker('radar')

True

#### 列表
列表是元素的集合，其中每一个元素都有一个相对于其他元素的位置。更具体地说，这种列表称为无序列表。

链表: 无序列表的实现。为了实现无序列表，我们要构建链表。无序列表需要维持元素之间的相对位置，但是并不需要在连续的内存空间中维护这些位置信息。无法随机读取元素。可以随机访问，顺序阅读。

有序列表: 在有序列表中，元素的相对位置取决于它们的基本特征。它们通常以升序或者降序排列。

## 递归（Recursion）

递归: 递归是解决问题的一种方法，它将问题不断地分成更小的子问题，直到子问题可以用普通的方法解决。通常情况下，递归会使用一个不停调用自己的函数。

递归三原则:
(1) 递归算法必须有基本情况；
(2) 递归算法必须改变其状态并向基本情况靠近；
(3) 递归算法必须递归地调用自己。

编程练习

In [20]:
## 写一个递归函数来计算数的阶乘。

def factorial(n):
    if isinstance(n, int):
        if n == 1:
            result = 1
        else:
            result = n * factorial(n-1)
        return result    
            
    else:
        print('the input must be int format!')
    

factorial(4.5)

the input must be int format!


In [None]:
## 写一个递归函数来反转列表



在帕斯卡三角形中，每个数等于其上方两数之和，如下
所示。
     1 
   1    1 
  1   2   1 
 1  3    3   1 
1 4   6   4   1 
将行数作为参数，写一个输出帕斯卡三角形的程序。

In [35]:
## 写一个递归函数来计算斐波那契数列，并对比递归函数与循环函数的性能

def Fibonacci(n):
    if n >= 1 and (isinstance(n, int)):
        if n == 1 or n == 2:
            result = 1
        else:
            result = Fibonacci(n-1) + Fibonacci(n-2)
        return result
    else:
        print('the input number must be greater than zero and int format!')
            
Fibonacci(5.9)          

the input number must be greater than zero and int format!


假设一个计算机科学家兼艺术大盗闯入美术馆。他只能用一个容量为 W 磅的背包来装盗取的艺术品，并且他对每一件艺术品的价值和重量了如指掌。
他会如何写一个动态规划程序来帮助自己最大程度地获利呢？下面的例子可以帮助你思考：假设背包容量是20 磅，艺术品为 5 件。
![chapter%204-14.png](attachment:chapter%204-14.png)

请尝试解决字符串编辑距离问题，它在很多研究领域中非常有用。假设要把单词
algorithm 转换成 alligator。对于每一个字母，可以用 5 个单位的代价将其从一个单词复
制到另一个，也可以用 20 个单位的代价将其删除或插入。拼写检查程序利用将一个单
词转换为另一个的总代价来提供拼写建议。请设计一个动态规划算法，给出任意两个单
词之间的最小编辑距离。

## 搜索和排序

### 搜索
搜索：搜索是指从元素集合中找到某个特定元素的算法过程。搜索过程通常返回 True 或 False，分别表示元素是否存在。有时，可以修改搜索过程，使其返回目标元素的位置。
示例代码:
15 in [3, 5, 2, 4, 1] 

顺序搜索:  从列表中的第一个元素开始，沿着默认的顺序逐个查看，直到找到目标元素或者查完列表。如果查完列表后仍没有找到目标元素，则说明目标元素不在列表中。
示例代码:


In [2]:
def sequentialSearch(alist, item): 
    pos = 0 
    found = False 

    while pos < len(alist) and not found: 
        if alist[pos] == item: 
            found = True 
        else: 
            pos = pos +1 

    return found

分析顺序搜索算法: 前提是假设列表中的元素按升序排列。

In [None]:
def orderedSequentialSearch(alist, item): 
    pos = 0 
    found = False 
    stop = False 
    while pos < len(alist) and not found and not stop: 
        if alist[pos] == item: 
            found = True 
        else: 
            if alist[pos] > item: 
                stop = True 
            else: 
                pos = pos +1 

    return found

二分搜索: 前提是列表有序。二分搜索不是从第一个元素开始搜索列表，而是从中间的元素着手。如果这个元素就是目标元素，那就立即停止搜索；
如果不是，则可以利用列表有序的特性，排除一半的元素。

In [None]:
def binarySearch(alist, item): 
    first = 0 
    last = len(alist) - 1 
    found = False 

    while first <= last and not found: 
        midpoint = (first + last) // 2 
        if alist[midpoint] == item: 
            found = True 
        else: 
            if item < alist[midpoint]: 
                last = midpoint - 1 
            else: 
                first = midpoint + 1 

    return found

In [None]:
## 二分法的递归方法：
def binarySearch(alist, item): 
    if len(alist) == 0: 
        return False 
    else: 
        midpoint = len(alist) // 2 
   
    if alist[midpoint] == item: 
        return True 
    else: 
        if item < alist[midpoint]: 
            return binarySearch(alist[:midpoint], item) 
        else: 
            return binarySearch(alist[midpoint+1:], item) 

散列:散列表是元素集合，其中的元素以一种便于查找的方式存储。散列表中的每个位置通常被称为槽，其中可以存储一个元素。

散列函数将散列表中的元素与其所属位置对应起来。对散列表中的任一元素，散列函数返回一个介于 0 和 m – 1 之间的整数
![%E6%95%A3%E5%88%97%E8%A1%A8.png](attachment:%E6%95%A3%E5%88%97%E8%A1%A8.png)


在 11 个槽中，有 6 个被占用了。占用率被称作载荷因子，记作λ:元素个数/散列表大小

碰撞(冲突)：散列函数会将两个元素都放入同一个槽，这种情况被称作冲突，也叫碰撞。

完美散列函数：给定一个元素集合，能将每个元素映射到不同的槽，这种散列函数称作完美散列函数。
构建完美散列函数的一个方法是增大散列表，使之能容纳每一个元素，这样就能保证每个元
素都有属于自己的槽。创建这样一个散列函数：冲突数最少，计算方便，元素均匀分布于散列表中。

处理冲突: 当两个元素被分到同一个槽中时，必须通过一种系统化方法在散列表中安置第二个元素。



## 排序

排序：排序是指将集合中的元素按某种顺序排列的过程。

冒泡排序: 冒泡排序多次遍历列表。它比较相邻的元素，将不合顺序的交换。每一轮遍历都将下一个最大值放到正确的位置上。
![%E5%86%92%E6%B3%A1%E6%8E%92%E5%BA%8F.png](attachment:%E5%86%92%E6%B3%A1%E6%8E%92%E5%BA%8F.png)
时间复杂度:O(n^2)
代码实现:

In [None]:
def shortBubbleSort(alist): 
    exchanges = True 
    passnum = len(alist)-1 
    while passnum > 0 and exchanges: 
        exchanges = False 
        for i in range(passnum): 
            if alist[i] > alist[i+1]: 
                exchanges = True 
                temp = alist[i] 
                alist[i] = alist[i+1] 
                alist[i+1] = temp 
        passnum = passnum -1 

选择排序: 选择排序在冒泡排序的基础上做了改进，每次遍历列表时只做一次交换。

![%E9%80%89%E6%8B%A9%E6%8E%92%E5%BA%8F.png](attachment:%E9%80%89%E6%8B%A9%E6%8E%92%E5%BA%8F.png)
    
python代码:

In [None]:
def selectionSort(alist): 
    for fillslot in range(len(alist)-1, 0, -1): 
        positionOfMax = 0 
        for location in range(1, fillslot+1): 
            if alist[location] > alist[positionOfMax]: 
                positionOfMax = location 

        temp = alist[fillslot] 
        alist[fillslot] = alist[positionOfMax] 
        alist[positionOfMax] = temp

## 树
树的定义
定义一: 树由节点及连接节点的边构成。
(1)有一个根节点；
(2)除根节点外，其他每个节点都与其唯一的父节点相连；
(3)从根节点到其他每个节点都有且仅有一条路径；
(4)如果每个节点最多有两个子节点，我们就称这样的树为二叉树。

定义二：：一棵树要么为空，要么由一个根节点和零棵或多棵子树构成，子树本身也是一棵树。每棵子树的根节点通过一条边连到父树的根节点。从树的递归定义。可知，图中的树至少有 4 个节点，因为三角形代表的子树必定有一个根节点。这棵树或许有更多的节点，但必须更深入地查看子树后才能确定。

python实现树:
(1)列表之列表
在“列表之列表”的树中，我们将根节点的值作为列表的第一个元素；第二个元素是代表左子树的列表；第三个元素是代表右子树的列表

(2)节点与引用
定义一个类，其中有根节点和左右子树的属性。这种表示法遵循面向对象编程范式，所以本章后续内容会采用这种表示法。

In [4]:
## 列表之列表
myTree = ['a', ['b', ['d', [], []], ['e', [], []]], ['c', ['f', [], []], []]]

In [5]:
## 定义二叉树
def BinaryTree(r): 
    return [r, [], []]

## 插入左子树
def insertLeft(root, newBranch): 
    t = root.pop(1) 
    if len(t) > 1: 
        root.insert(1, [newBranch, t, []]) 
    else: 
        root.insert(1, [newBranch, [], []]) 
    return root

## 插入右子树
def insertRight(root, newBranch): 
    t = root.pop(2) 
    if len(t) > 1: 
        root.insert(2, [newBranch, [], t]) 
    else: 
        root.insert(2, [newBranch, [], []]) 
    return root

## 树的访问函数
def getRootVal(root): 
    return root[0] 

def setRootVal(root, newVal): 
    root[0] = newVal 

def getLeftChild(root): 
    return root[1] 

def getRightChild(root): 
    return root[2] 

'a'

In [None]:
## 节点与引用

class BinaryTree: 
    def __init__(self, rootObj): 
        self.key = rootObj 
        self.leftChild = None 
        self.rightChild = None
        
def insertLeft(self, newNode): 
    if self.leftChild == None: 
        self.leftChild = BinaryTree(newNode) 
    else: 
        t = BinaryTree(newNode) 
        t.left = self.leftChild 
        self.leftChild = t 
        
def insertRight(self, newNode): 
    if self.rightChild == None: 
        self.rightChild = BinaryTree(newNode) 
    else: 
        t = BinaryTree(newNode) 
        t.right = self.rightChild 
        self.rightChild = t 
        
def getRightChild(self): 
    return self.rightChild 

def getLeftChild(self): 
    return self.leftChild 

def setRootVal(self, obj): 
    self.key = obj 

def getRootVal(self): 
    return self.key 


树的遍历：将对所有节点的访问称为“遍历”。

遍历的种类:
(1)前序遍历:
在前序遍历中，先访问根节点，然后递归地前序遍历左子树，最后递归地前序遍历右子树。

(2)中序遍历:
在中序遍历中，先递归地中序遍历左子树，然后访问根节点，最后递归地中序遍历右子树。

(3)后序遍历:
在后序遍历中，先递归地后序遍历右子树，然后递归地后序遍历左子树，最后访问根节点。



In [None]:
## 前序遍历
def preorder(tree): 
    if tree: 
        print(tree.getRootVal()) 
        preorder(tree.getLeftChild()) 
        preorder(tree.getRightChild()) 

## 后序遍历        
def postorder(tree): 
    if tree != None:
        postorder(tree.getLeftChild()) 
        postorder(tree.getRightChild()) 
        print(tree.getRootVal())
        
## 中序遍历
def inorder(tree): 
    if tree != None: 
        inorder(tree.getLeftChild()) 
        print(tree.getRootVal()) 
        inorder(tree.getRightChild()) 


二叉堆: 它画出来很像一棵树，但实现时只用一个列表作为内部表示。

二叉堆有两个常见的变体：最小堆（最小的元素一直在队首）与最大堆（最大的元素一直在队首）。

平衡的二叉树:其根节点的左右子树含有数量大致相等的节点。在实现二叉堆时，我们通过创建一棵完全二叉树来维持树的平衡。在完全二叉树中，除
了最底层，其他每一层的节点都是满的。。在完全二叉树中，除了最底层，其他每一层的节点都是满的

完全二叉树的另一个有趣之处在于，可以用一个列表来表示它，而不需要采用“列表之列表”或“节点与引用”表示法。

堆的有序性: 对于堆中任意元素 x 及其父元素 p，p 都不大于 x。

用Python实现:

二叉搜索树: 基本前提是小于父节点的键都在左子树中，大于父节点的键则都在右子树中。每一对父节点和子节点都具有这个性质。左子树的所有键都小于根节点的键，右子树的所有键则都大于根节点的键

![%E7%AE%80%E5%8D%95%E7%9A%84%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91.png](attachment:%E7%AE%80%E5%8D%95%E7%9A%84%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91.png)

如何构造二叉搜索树:

## 图

顶点：顶点又称节点，是图的基础部分。它可以有自己的名字，我们称作“键”。顶点也可以带有附加信息，我们称作“有效载荷”。

边：图的另一个基础部分。两个顶点通过一条边相连，表示它们之间存在关系。边既可以是单向的，也可以是双向的。如果图中的所有边都是单向的，我们称之为有向图。

权重：边可以带权重，用来表示从一个顶点到另一个顶点的成本。

路径：路径是由边连接的顶点组成的序列。无权重路径的长度是路径上的边数，有权重路径的长度是路径上的边的权重之和。

环：环是有向图中的一条起点和终点为同一个顶点的路径。没有环的图被称为无环图，没有环的有向图被称为有向无环图，简称为 DAG。

如何实现: 邻接矩阵和邻接表。

代码实现邻接表:

In [16]:
## 在 Python 中，通过字典可以轻松地实现邻接表。
## 我们要创建两个类：Graph 类存储包含所有顶点的主列表，Vertex 类表示图中的每一个顶点

## Vertex 使用字典 connectedTo 来记录与其相连的顶点，以及每一条边的权重。
## addNeighbor 方法添加从一个顶点到另一个的连接。getConnections 方法返
## 回邻接表中的所有顶点，由 connectedTo 来表示。getWeight 方法返回从当前顶点到以参数
## 传入的顶点之间的边的权重

class Vertex: 
    def __init__(self, key): 
        self.id = key 
        self.connectedTo = {} 

    def addNeighbor(self, nbr, weight=0): 
        self.connectedTo[nbr] = weight 

    def __str__(self): 
        return str(self.id) + ' connectedTo: ' + str([x.id for x in self.connectedTo])
    
    def getConnections(self): 
        return self.connectedTo.keys() 

    def getId(self): 
        return self.id 

    def getWeight(self, nbr): 
        return self.connectedTo[nbr]
    
## Graph 类也提供了向图中添加顶点和连接不同顶点的方法。
## getVertices 方法返回图中所有顶点的名字。此外，我们还实现了__iter__方法，从而使遍历图中的所有顶点对象更加方便.

class Graph:
    def init__(self):
        self.vertList = []
        self .numVertices = 0
        
    def addVertex(self, key):
        self.numVertices = self .numVertices + 1
        newVertex = Vertex(key)
        self .vertlist[key] = newVertex
        return newvertex
    
    def getVertex(self, n):
        if n in self.vertlist:
            return self.vertList[n]
        else:
            return None
        
    def _contains_(self, n):
        return n in self.vertList 
    
    def addEdge(self, f, t, cost=0): 
        if f not in self.vertList:
            nv = self.addVertex(f)
        if t not in self.vertList:
            nv = self .addVertex(t)
            self.vertList[f].addNeighbor(self .vertList[t], cost)
    
    def getVertices(self):
        return self.vertlist .keys()
                                                      
    def _iter_(self):
        return iter(self .vertList .values())

## 宽度优先搜索（breadth first search)

搜索方式: 给定图 G 和起点 s，BFS 通过边来访问在 G 中与 s 之间存在路径的顶点。BFS 的一个重要特性是，它会在访问完所有与 s 相距为 k 的顶点之后再去访问与 s 相距为 k+1 的顶点。



In [21]:
from pythonds.graphs import Graph, Vertex 
from pythonds.basic import Queue 

def bfs(g, start): 
    start.setDistance(0) 
    start.setPred() 
    vertQueue = Queue() 
    vertQueue.enqueue(start) 
    while (vertQueue.size() > 0): 
        currentVert = vertQueue.dequeue() 
        for nbr in currentVert.getConnections(): 
            if (nbr.getColor() == 'white'): 
                nbr.setColor('gray') 
                nbr.setDistance(currentVert.getDistance() + 1) 
                nbr.setPred(currentVert) 
                vertQueue.enqueue(nbr) 
        currentVert.setColor('black') 

In [22]:
def traverse(y): 
    x = y 
    while (x.getPred()): 
        print(x.getId()) 
        x = x.getPred() 
    print(x.getId()) 

g = Graph()

traverse(g.getVertex('sage'))

AttributeError: 'NoneType' object has no attribute 'getPred'

## 深度优先搜索（depth first search）

DFS: 通过尽可能深地探索分支来构建搜索树。

DFS 的 2种实现：第 1 种通过显式地禁止顶点被多次访问来直接解决骑士周游问题；第 2 种，它在构建搜索树时允许其中的顶点被多次访问。

一次深度优先搜索甚至能够创建多棵深度优先搜索树，我们称之为深度优先森林

实现通用深度优先搜索

In [23]:
from pythonds.graphs import Graph 

class DFSGraph(Graph): 
    def __init__(self): 
        super(). __init__() 
        self.time = 0 

    def dfs(self): 
        for aVertex in self: 
            aVertex.setColor('white') 
            aVertex.setPred(-1) 
        for aVertex in self: 
            if aVertex.getColor() == 'white': 
                self.dfsvisit(aVertex) 
    
    def dfsvisit(self, startVertex): 
        startVertex.setColor('gray') 
        self.time += 1 
        startVertex.setDiscovery(self.time) 
        for nextVertex in startVertex.getConnections(): 
            if nextVertex.getColor() == 'white': 
                nextVertex.setPred(startVertex) 
                self.dfsvisit(nextVertex) 
        startVertex.setColor('black') 
        self.time += 1 
        startVertex.setFinish(self.time) 


## Dijkstra 算法

Dijkstra 算法可用于确定最短路径，它是一种循环算法，可以提供从一个顶点到其他所有顶点的最短路径。

Dijkstra 算法的 Python 实现

In [None]:
## 为了记录从起点到各个终点的总开销，要利用 Vertex 类中的实例变量 dist。该实例变量记录从起点到当前顶点的最小权重路径的总权重。
## Dijkstra 算法针对图中的每个顶点都循环一次，但循环顺序是由一个优先级队列控制的。用来决定顺序的正是 dist。
## 在创建顶点时，将dist设为一个非常大的值。理论上可以将 dist 设为无穷大，但是实际一般将其设为一个大于所有可能出现的实际距离的值。

from pythonds.graphs import PriorityQueue, Graph, Vertex 

def dijkstra(aGraph, start): 
    pq = PriorityQueue() 
    start.setDistance(0) 
    pq.buildHeap([(v.getDistance(), v) for v in aGraph]) 
    while not pq.isEmpty(): 
        currentVert = pq.delMin() 
        for nextVert in currentVert.getConnections(): 
            newDist = currentVert.getDistance()+ currentVert.getWeight(nextVert) 
        if newDist < nextVert.getDistance(): 
            nextVert.setDistance(newDist) 
            nextVert.setPred(currentVert) 
            pq.decreaseKey(nextVert, newDist)










