# 1. 抽象数据类型和面向对象编程

程序 = 数据结构 + 算法

实现Bag类(ADT:abstract Data Type)
+ 选用datastructures
+ 能否操作(增删)
+ 效率

数据结构是指相互之间存在着一种或者多种关系的数据元素的集合和该集合中数据元素之间的关系组成  

数据结构按照其逻辑结构可分为线性结构、树结构、图结构
+ 线性结构:数据结构中的元素一对一相互关系
+ 树结构:数据结构中的元素一对多的相互关系
+ 图结构:数据结构中的元素多对多的相互关系

In [None]:
class Bag(object):

    def __init__(self,maxsize = 10):
        self.maxsize = maxsize
        self.items = list()

    def add(self, item):
        if len(self) > self.maxsize:
            raise Exception('Big is Full')
        self.items.append(item)

    def remove(self, item):
        self.items.remove(item)

    def __len__(self):
        return len(self.items)

    def __iter__(self):
        for item in self.items:
            yield item

def testBag():
    bag = Bag()

    bag.add(1)
    bag.add(2)
    bag.add(3)
    print(len(bag) == 3)

    bag.remove(3)
    print(len(bag) == 2)

testBag()

# 2. 数组和列表

线性结构
+ 内存连续
+ 下标访问

数组与列表两点不同
+ 同一类型
+ 数组长度固定


In [None]:
class Array(object):

    def __init__(self, size = 32):
        self.size = size
        self.items = [None] * size

    def __getitem__(self, index):
        return self.items[index]
    
    def __setitem__(self, index, value):
        self.items[index] = value

    def __len__(self):
        return self.size

    def __iter__(self):
        for item in self.items:
            yield item
    
    def clear(self, value = None):
        for i in range(len(self.items)):
            self.items[i] = value

def testArray():
    size = 10
    a = Array(size)
    a[0] = 1
    print(a[0] == 1)
    a.clear()
    print(a[0] is None)

testArray()

# 3. 链表
链式结构
+ 内存不再连续
+ 没有下标

单链表的实现
+ data
    + head
    + length
+ method
    + init
    + isEmpty
    + items
    + add
    + append
    + insert
    + remove
    + find

In [None]:
class Node(object):

    def __init__(self, item):
        self.item = item
        self.next = None

class LinkedList(object):
    
    def __init__(self):
        self.head = None

    def isEmpty(self):
        # 判断链表是否为空
        return self.head is None

    def length(self):
        # 链表长度
        curs = self.head
        coun = 0
        while curs is not None:
            coun += 1
            curs = curs.next
        
        return coun
    
    def items(self):
        # 遍历链表
        curs = self.head
        while curs is not None:
            yield curs.item
            curs = curs.next
    
    def add(self, item):
        # 向链表头部添加元素
        node = Node(item)
        node.next = self.head
        self.head = node

    def append(self, item):
        # 向尾部添加元素
        node = Node(item)
        if self.isEmpty():
            self.head = node
        else:
            curs = self.head
            while curs.next is not None:
                curs = curs.next
            curs.next = node

    def insert(self, index, item):
        # 指定位置插入元素
        if index <= 0:
            self.add(item)
        elif index > (self.length()-1):
            self.append(item)
        else:
            node = Node(item)
            curs = self.head
            for i in range(index-1):
                curs = curs.next
            node.next = curs.next
            curs.next = node
    
    def remove(self, item):
        # 删除节点
        curs = self.head
        pren = None
        while curs is not None:
            if curs.item == item:
                if not pren:
                    self.head = curs.next
                else:
                    pren.next = curs.next
                
                return True
            else:
                pren = curs
                curs = curs.next

    def find(self, item):
        # 查找元素是否存在
        return item in self.items()

if __name__ == '__main__':
    link = LinkedList()
    n1, n2 = Node(1), Node(2)

    link.head = n1
    n1.next = n2

    for i in [3, 4, 5]:
        link.append(i)

    for i in link.items():
        print(i)

    link.add(0)

    for i in link.items():
        print(i)

    print(link.isEmpty())

    print(link.length())

    link.insert(1, 1)

    for i in link.items():
        print(i)

    print(link.find(3))

# 4. 栈和队列

## 栈 LIFO(Last in First out)
+ 后进先出
+ method
    + push
    + pop
    + isEmpty
    + gettop

栈的应用:括号匹配问题

## 队列 FIFO(First in First out)
+ 队列(Queue)是一种数据集合,仅允许在列表的一端进行插入,另一端进行删除
+ 进行插入的一端成为队尾(rear),插入动作称为进队或入队
+ 进行删除的一端成为队头(front),删除动作称为出队

环形队列的实现方式
+ 队首指针front = maxsize - 1时,再前进一个位置就自动到0
+ 队首指针前进1:front = (front+1)%maxsize
+ 队尾指针前进1:rear = (rear+1)%maxsize
+ 队空条件:rear = front
+ 队满条件:(rear+1)%maxsize == front

In [None]:
class Stack(object):
    
    def __init__(self):
        self.stack = []
    
    def push(self, item):
        self.stack.append(item)

    def pop(self):
        if self.stack:
            self.stack.pop()
        else:
            raise Exception('stack is empty')
    
    def isEmpty(self):
        return self.stack

    def gettop(self):
        return self.stack[-1]

In [None]:
def matchBrace(s):
    stack = []
    match = {')':'(', ']':'[', '}':'{'}
    for i in s:
        if i in {'(', '[', '{'}:
            stack.append(i)
        else:
            if not stack:
                return False
            elif stack[-1] == match[i]:
                stack.pop()
            else:
                return False
    if not stack:
        return True
    return False

print(matchBrace('(())[[]]'))

# 5. 哈希表(利用哈希实现dict和set数据结构)
+ 列表通过下标访问元素O(1),删除元素O(n).
+ 哈希表通过一个哈希函数来计算一个元素放在数组中的位置,以快速定位和删除
+ 哈希冲突
    + 链接法解决冲突
    + 开放寻址法解决
        + 二次方探查法

 ## 部分概念
+ 哈希函数
+ 装载因子(已使用的槽数比哈希表大小)
+ 重哈希(Rehashing)
    + 装载因子大于0.8的时候,开辟新的空间
+ HashTable ADT

# 6. 递归
+ 递归必须包含一个出口,否则就会无限递归,最终导致栈的溢出.比如阶乘就是n==1返回1
+ 递归必须包含一个可以分解的问题(recursive case),fact(n) = n*fact(n-1)
+ 递归必须要向着递归的出口靠近(toward the base case),比如每次递归都用n-1,向着递归出口n==1靠近

计算机中使用调用栈来实现递归,每当进入递归函数,系统都会为当前函数开辟内存保存当前变量值等信息,每个调用栈之间数据互不影响,新调用的函数入栈就会放在栈顶

递归会有递归深度过深导致爆栈问题

In [None]:
def fact(n):
    if n == 1:
        return 1
    else:
        return n*fact(n-1)

print(fact(10))

In [None]:
# 尾递归
def printNumRecursive(n):
    if n > 0:
        print(n)
        printNumRecursive(n-1)

print(printNumRecursive(10))

In [None]:
def printNumRecursive(n):
    if n > 0:
        printNumRecursive(n-1)
        print(n)

printNumRecursive(10)

汉诺塔问题
+ 有三根杆子A, B, C.A杆上有N个穿孔圆盘,盘的尺寸由下到上依次变小,要去按下列规则将所有圆盘移到C杆,但有两个条件
    + 每次只能移动一个圆盘
    + 大盘不能叠在小盘上面

In [None]:
def hanoiMove(n, source, dest, intermediate):
    # 递归出口只剩一个盘子
    if n >= 1:
        # 把n-1个盘子借助目标杆移到中介杆
        hanoiMove(n-1, source, intermediate, dest)
        # 把最大一个盘移到目标杆
        print(f'move {source} -> {dest}')
        # 把n-1个盘借助原始杆移到目标杆
        hanoiMove(n-1, intermediate, dest, source)

hanoiMove(3, 'A', 'C', 'B')

# 7. 线性查找和二分查找

In [None]:
def stepSearch(nums, item):
    for i, j in enumerate(nums):
        if j == item:
            return i
    return  -1

In [None]:
def binarySearch(nums, item):
    if not nums:
        return -1

    mininx, maxinx = 0, len(nums)-1
    while mininx <= maxinx:
        midinx = (mininx + maxinx)//2
        if nums[midinx] > item:
            maxinx = midinx - 1
        elif nums[midinx] < item:
            mininx = midinx + 1
        else:
            return midinx
    
    return -1

print(binarySearch([1,3,5,7,9], 1))

# 8. 基本排序算法:冒泡、选择、插入

列表每两个相邻的数，如果前面的比后面的大，则交换这两个数  
一趟排序完成后，则无序区减少一个数，有序区增加一个数

In [None]:
def bubbleSort(nums):
    n = len(nums)
    for i in range(n-1):
        flag = False
        for j in range(n-1-i):
            if nums[j] > nums[j+1]:
                flag = True
                nums[j], nums[j+1] = nums[j+1], nums[j]
        if not flag:
            break
    
    return nums

print(bubbleSort([2,1,7,5,3,6,4]))

In [None]:
def selectSort(nums):
    n = len(nums)
    for i in range(n-1):
        mininx = i
        for j in range(i+1, n):
            if nums[mininx] > nums[j]:
                mininx = j
        if mininx != i:
            nums[mininx], nums[i] = nums[i], nums[mininx]
    
    return nums

print(selectSort([2,1,7,5,3,6,4]))

In [None]:
def insertSort(nums):
    for i in range(1, len(nums)):
        while i > 0:
            if nums[i] < nums[i-1]:
                nums[i], nums[i-1] = nums[i-1], nums[i]
                i -= 1
            else:
                break
        
    return nums

print(insertSort([2,1,7,5,3,6,4]))

# 9. 高级排序算法
+ 分支法与归并排序(Divide and Conquer)
    + 分解:将列表越分越小,直至分成一个元素
    + 终止条件:一个元素是有序的
    + 合并:将两个有序列表合并,列表越来越大
+ 快速排序
+ 堆排序

三种排序算法的时间复杂度都是 O(logn)  
一般情况运行时间:快速<归并<堆排序 
 
三种算法的优缺点:
+ 快速排序:极端情况下排序效率低
+ 归并排序:需要额外的内存开销
+ 堆排序:在快的排序算法中相对较慢

In [None]:
def mergeSort(nums):
    n = len(nums)
    if n <= 1:
        return nums
    else:
        mid = n//2
        lef = mergeSort(nums[:mid])
        rig = mergeSort(nums[mid:])

        # 归并两个个有序数组
        newNum = mergeSortList(lef, rig)
        return newNum

def mergeSortList(a, b):
    m, n = len(a), len(b)
    i, j = 0, 0
    
    nums = []
    while i < m and j < n:
        if a[i] < b[j]:
            nums.append(a[i])
            i += 1
        else:
            nums.append(b[j])
            j += 1
    
    if i < m:
        nums.extend(a[i:])
    
    if j < n:
        nums.extend(b[j:])

    return nums

print(mergeSort([2,1,7,5,3,6,4]))

暴力快排
+ 需要额外的存储空间,思考实现in-place原地排序
+ partition操作每次需要遍历两次数组,可以改善

In [None]:
def fastSort(nums):
    if len(nums) <= 1:
        return nums
    base = nums[0]
    left = [x for x in nums[1:] if x <= base]
    righ = [x for x in nums[1:] if x > base]

    return fastSort(left) + [base] + fastSort(righ)

print(fastSort([2,1,7,5,3,6,4]))

优化快排

In [5]:
def fastSort(nums, l, r):
    if l >= r: return

    base = partition(nums, l, r)
    fastSort(nums, l, base-1)
    fastSort(nums, base+1, r)


def partition(nums, l, r):
    i, j = l, r
    pivot = nums[l]
    while i != j:
        while i < j and nums[j] > pivot:
            j -= 1
        while i < j and nums[i] <= pivot:
            i += 1
        if i < j:
            nums[i], nums[j] = nums[j], nums[i]
    nums[l], nums[i] = nums[i], nums[l]

    return i

nums = [2,1,9,7,5,8,3,6,4]
fastSort(nums, 0, len(nums)-1)

print(nums)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


堆排序

引入:给定一个数组每次弹出其最小值
+ 每次获取数组当中最小值的索引,使用pop()函数弹出
+ 通过排序,依次弹出元素

In [None]:
nums = [2,1,7,5,3,6,4]

while len(nums):
    print(nums.pop(nums.index(min(nums))))

In [None]:
nums = [2,1,7,5,3,6,4]

nums.sort(reverse=True)

for i in range(len(nums)):
    print(nums.pop())

In [None]:
nums = [2,1,7,5,3,6,4]
def HeapSort(nums):
    for i in range(1, len(nums)):
        father = (i-1)//2
        while i != 0 and nums[i] < nums[father]:
            nums[i], nums[father] = nums[father], nums[i]
            i = father
            father = (i-1)//2
    
    return nums[0]

def pop(nums):
    while nums:
        mini = HeapSort(nums)
        print(nums.pop(0))

pop(nums)

其他排序:希尔排序、计数排序、基数排序

# 10. 树和二叉树
+ 树是一种数据结构 比如:目录结构
+ 树是一种可以递归定义的数据结构
+ 树是由n个节点组成的集合
    + 如果n=0,那么这是一棵空树
    + 如果n>0,那存在1个节点作为树的根节点,其他节点可以分为m个集合,每个集合本身又是一棵树
    
基本概念
+ 根节点(root):树的最上层节点,任何非空的数都有一个节点
+ 叶子节点
+ 树的深度
+ 树的度
+ 孩子节点/父节点
+ 子树

二叉树:度不超过2的树
+ 每个节点最多有两个孩子节点
+ 两个孩子节点被区分为左孩子节点和右孩子节点

满二叉树:一个二叉树,如果每一个层的节点数都达到最大值,则这个二叉树就是满二叉树  
完全二叉树:叶节点只能出现在最下层和次下层,并且最下面一层的节点都集中在该层最左边若干位置的二叉树

二叉树的存储方式
+ 链式存储方式
+ 顺序存储方式
    + 父节点和左子节点编号下标关系 i = 2i+1
    + 父节点和右子节点编号下标关系 i = 2i+2

# 11. 堆与堆排序

堆:堆是一种完全的二叉树结构  
大根堆:一棵完全二叉树,满足任一节点都比其子节点大  
小根堆:一棵完全二叉树,满足任一节点都比其子节点小

堆的向下调整:当节点的左右子树都是堆时,可以通过一次向下的调整来将其编程一个堆  

堆排序过程
1. 建立堆
2. 得到堆顶元素,为最大元素
3. 去掉堆顶元素,将堆最后一个元素放在堆顶,此时可通过一次调整重新使堆有序
4. 堆顶元素为第二大元素
5. 重复步骤3,直到堆变空

In [14]:
def sift(nums, l, r):
    """
    l:堆的根节点位置
    r:堆的最后一个节点位置
    """
    i = l
    j = 2*i + 1
    base = nums[l]
    while j <= r:
        if j + 1 <= r and nums[j+1] > nums[j]:
            j = j + 1
        if nums[j] > base:
            nums[i] = nums[j]
            i = j
            j = 2*i + 1
        else:
            nums[i] = base
            break
    else:
        nums[i] = base

def heapSort(nums):
    n = len(nums)
    for i in range((n-2)//2, -1, -1):
        sift(nums, i, n-1)
    for i in range(n-1, -1, -1):
        nums[0], nums[i] = nums[i], nums[0]
        sift(nums, 0, i-1)

    return nums

print(heapSort([2,1,7,5,4,3,6]))

[1, 2, 3, 4, 5, 6, 7]


堆排序的内置模块
+ heapq

In [None]:
import heapq

nums = [2,1,7,4,5,3,6]

heapq.heapify(nums)

for i in range(len(nums)):
    print(heapq.heappop(nums), end = ',')

堆排序-topK问题  
现在有n个数,设计算法得到前k大的数( k < n )
+ 排序后切片 O(nlogn)
+ 基础排序:冒泡、选择、排序 O(kn)
+ 堆排序 O(nlogk)
    + 取列表前k个元素建立一个小根堆,堆顶就是目前第k大的数
    + 依次向后遍历原来的列表,对于列表中的元素,如果小于堆顶,则忽略该元素;如果大于堆顶,则将堆顶更换为该元素,并且对堆进行一次调整
    + 遍历列表所有元素后,倒序弹出堆顶

In [None]:
def sift(nums, l, r):
    """
    l:堆的根节点位置
    r:堆的最后一个节点位置
    """
    i = l
    j = 2*i + 1
    base = nums[l]
    while j <= r:
        if j + 1 <= r and nums[j+1] < nums[j]:
            j = j + 1
        if nums[j] < base:
            nums[i] = nums[j]
            i = j
            j = 2*i + 1
        else:
            nums[i] = base
            break
    else:
        nums[i] = base

def topK(nums, k):
    # 建堆
    heap = nums[0:k]
    for i in range((k-2)//2, -1, -1):
        sift(heap, i, k-1)
    # 遍历
    for i in range(k, len(nums)):
        if nums[i] > heap[0]:
            heap[0] = nums[i]
            sift(heap, 0, k-1)
    # 反向输出
    for i in range(k-1, -1, -1):
        heap[0], heap[i] = heap[i], heap[0]
        sift(heap, 0, i-1)
    
    return heap

print(topK([2,1,7,5,4,3,6], 3))

# 12. 优先级队列

# 13. 二分查找树

# 14. 图与图的遍历

# 15. Python常用内置算法和数据结构
+ 常用内置数据类型:list、tuple、dict、set、frozenset
+ collections
+ heapq
+ bisect

+ 背包问题
+ 有一个容量为capacity的背包，和一些物品items，这些物品有两个属性，质量和价值，每种物品只有一个，要求用这个背包装下价值尽可能多的物品，求该最大价值，背包可以不被装满。

In [None]:
item, capacity = [[1,2], [4,3], [5,6], [6,7]], 10
