# Introduction

## What is Data Structure?
- 可以认为是一个集合，并且提供集合上的若干操作

## 队列 Queue - BFS
- 支持操作：O(1) Push / O(1) Pop / O(1) Top
- BFS的主要数据结构
- 多做做BFS的题就可以了
- 队列可以用链表或数组实现
    - 链表感觉简单点
    - 数组麻烦，需要循环且动态数组

## 栈 Stack - DFS
- 支持操作：O(1) Push / O(1) Pop / O(1) Top
- 非递归实现DFS的主要数据结构

# 哈希表 Hash
- 支持操作：<font color='red'>O(1) Insert / O(1) Find / O(1) Delete</font>
    - 如果key是个变量的话，那么复杂度就不是O(1)了，而是<font color='red'> $O(size\space of\space key)$</font>
    - 如果你放个整数，那就是4个字节，O(4)就是O(1)


- Hash Table / Hash Map / Hash Set 的区别是什么？
    - `Hash Map`: 标准的 key-value pair
    - `Hash Set`: 只有key，没有value
    - `Hash Table`: 是支持 Thread-Safe 线程安全的 key-value pair



## Hash Function
- 使命：对于任意的key:
    - <font color='red'>得到一个固定且无规律的介于0~capacity-1的__"整数"__</font>
        - 无规律强调的是这个得到的整数能够尽可能的分散开，防止冲突
        
        
- Hash表可以认为一个很大的数组，把仍将来的`key-value pair`的`key`经过`Hash Function`计算之后就得到了这个数组的整数下标，然后就可以把这个`pair`存进去了。
    - 理想情况就是key计算得到的整数下标不冲突


## 一些著名的Hash算法（用来加密，不会自己实现）
- MD5
- SHA-1
- SHA-2

## 自己写Hash算法举例：以 String 为例子
<img src = './pics/hash.png', width = 500>

- 从这里就很明显看出，这个时间复杂度就是 $O(size\space of\space key)$
    - <font color='red'>_也就是说，每次访问Hash表时，都是调用一下这个Hash Function来计算下标在哪_</font>
    - <span class="girk">每次都要算一遍这个方程</span>

## Open Hashing vs Closed Hashing
- <font color='red'>再好的 hash 函数也会存在冲突(Collision)</font>
- 有两种方法:
    - `Open Hashing`:
        - https://www.cs.usfca.edu/~galles/visualization/OpenHash.html
        - 冲突的话，新来的元素用链表的方式插入到现在已有元素的后面
        - 查找的时候就for循环一下这个链表
        
    - `Closed Hashing`:
        - https://www.cs.usfca.edu/~galles/visualization/ClosedHash.html
        - 冲突的话就往后移动一格，冲突会累积
        - 查找还行，就不停往下找知道空，但是删除的时候就很麻烦了，暂不描述了
        
    - __`Open Hashing`更常用，也更好理解__
        - 但是效率可能不太高，如果一个位置的那个链表特别长的话，说复杂度是 O(1) 就说不过去了。
        - <font color='red'>这个时候就需要Rehashing</font>
        - 一般用了10%（经验值）的空间之后就需要Rehashing了，即扩大hash表的容量，防止那个链表变得太长，这个时候要重新计算Hash Function
            - 一般Rehashing就是double一下空间
        
    - Hash表Rehash是膨胀，但是删除其中元素的时候它是__不会自动收缩的！__
        - 如果你觉得不需要添加新元素了，那么你可以把当前膨胀得很大的hash表destroy之后，新建一个

## 例题

### `Rehashing`
- 当hash不够大时怎么办？
    - http://www.jiuzhang.com/solutions/rehashing/
    - 这一题是Hash Set，只存了key没有value，一般是key和value一起存

- 和动态数组的扩容不太一样
    - 不是简单copy，因为你要重算一下方程，对应的新的位置会改变
    - 很慢

### <font color='red'>LRU Cache</font>

> Least Recently Used Cache

> LRU是最常用的cache淘汰算法

> cache可以看成系统层面的Hash表，但是空间大小固定不可变

http://www.jiuzhang.com/solutions/lru-cache/

- 很直观的想法就是用Queue实现这种淘汰，但是访问之后需要把那个从中间放到最后面，Queue不支持这种操作
    - 所以需要用链表，因为还想知道上一个是谁，所以应该是双向链表
    - 当然还需要Hash表
    - `LinkedHashMap = DoublyLinkedList + HashMap`



```java
///////////////////////////////////////////////
HashMap<key, DoublyListNode> DoublyListNode {
    prev, next, key, value;
}
```

- __Newest node append to tail.__
- __Eldest node remove from head.__

# 堆 Heap：`Max Heap` or `Min Heap`
- 一般说堆就是二叉树：
    - 同时必须是complete binary tree
        - 所以可以很方便地用数组表示，下标很好确定：
        - Consider k-th element of the array: (<span class="girk">The root begins from index 1, and index 0 可以用来存储当前有几个元素</span>)
            - its left child: 2*k 
            - its right child: 2*k+1 
            - its parent: k/2 
        - 数的高度就是log N
    - 而且满足堆的性质，如果是最小堆的话，所有的parent比children小
        - children之间没有大小关系
        - BST才有儿子间的关系

- 支持操作：
    - O(log N) Add
    > 1. Add the element to the bottom level of the heap. （插到最下层最左边可以放的位置）
    
    > 2. Compare the added element with its parent; if they are in the correct order, stop.
    
    > 3. If not, swap the element with its parent and return to the previous step. （不断地SiftUp）
        
        - 很明显，树有多高，最多上移多少次，所以复杂度就是O(log N)
        - -------------------
    - O(log N) Remove：只能删除最顶上的那个点（其实删除任意节点也可以，但一般不用）
    > 1. Replace the root of the heap with the last element on the last level. （把最后一个点扔到最顶上）
    
    > 2. Compare the new root with its children; if they are in the correct order, stop.
    
    > 3. If not, swap the element with its __smaller__ child and return to the previous step. ( In max-heap: swap with the larger ) （不断地SiftDown）
    
        - 很明显，树有多高，最多下移多少次，所以复杂度也是O(log N)
        - -----------------------
    - O(1) Min or Max
        - 就是看一下顶上那个点，不删除


## PriorityQueue vs Heap

- Priority Queue可以用Heap来实现
    - 本质上来说PQ可以有很多别的数据结构来实现：
        - 比如普通的array，链表，BST等等
        - 但是使用Heap的话实现PQ的操作最高效

    - 注意java里面没有Heap，但是有Priority Queue这个类
    

- 什么时候需要用到Priority Queue呢？
    - 当你要取Max/Min的时候

## 例题

### `Ugly Number`

http://www.jiuzhang.com/solutions/ugly-number-ii/

- 需要一个数据结构，可以同时满足
    - 取最小：`Priority Queue`
    - 去重：`Hash Set`
    
- 虽然这题最快的方法是$O(n)$，但是用PQ是$O(nlogn)$

- 本题做法：
    - 首先有一个set
    - 每次取出set中最小的那个，然后把它乘2,3,5之后放入这个set即可
    - 那么这俩数据结构怎么结合呢？
        - 就是一个数据分别存在两个数据结构里。。。
        - 每次加新的数时判断一下有没有重复，然后分别加到俩个数据结构里面

In [18]:
import heapq
def nthUglyNumber(self, n):
    Set = {1}
    h = [1]
    heapq.heapify(h) #默认是min-heap，如果要做max-heap，那么先把原数据取反，最后输出的时候再取反即可
    primes = [2, 3, 5]

    for i in xrange(n):
        number = heapq.heappop(h)
        for j in xrange(3):
            newNumber = number * primes[j]
            if newNumber not in Set:
                Set.add(newNumber)
                heapq.heappush(h, newNumber)

    return number
            

### <font color='red'>Top k Largest Number II</font>
> 面试必考题型！

http://www.jiuzhang.com/solutions/top-k-largest-number-ii/

- `I`可以用Quick Select来做，那题不需要这一题这样需要实现添加元素的操作，只需要找Top K
    - 直接找第K大的元素，那么这个元素左边就是所有的答案
    - 然后对这个子集排个序就好了
- `II`可以用Heap做
    - 我们可以maintain一个k这么大的集合，每次加上新的元素就踢掉一个元素
    - 尽管是Top k Largest，但是得用min heap才可以踢掉最小值
        - 不是max heap


### `K Closest Points`
> 我觉得这题考的就是怎么把一个稍复杂的数据结构heapify，其实只要定义一下__cmp__就可以了！

- 注意如果距离一样，那么优先比较x坐标

- 因为找k最小的，所以我们还是需要max-heap
    - 这个时候不能简单的乘上-1了，我们的__cmp__需要倒一下，这样的话才可以得到max heap
        - 从小到大排就是`self - other`
        - 从大到小排就是`- self + other`
    - 那么最后我们怎么再乘上-1呢？其实只要把结果的k个点reverse一下就好了
    - 对比普通的整数：我们先乘上-1，再heapify，最后的结果再乘上-1

- 还有一种方法可以不用__cmp__, 就是说push一个tuple即可，(key, data)
    - 见下一个例题：
    - `heapq.heappush(heap, (head.val, head))`

In [28]:
import heapq
class Type:
    def __init__(self, dist, point):
        self.dist = dist
        self.point = point
    def __cmp__(self, other):
        if self.dist != other.dist:
            return - self.dist + other.dist 
        if other.point.x != self.point.x:
            return - self.point.x + other.point.x
        return - self.point.y + other.point.y
        
class Solution:

    def getDistance(self, a, b):
        return  (a.x - b.x) ** 2 + (a.y - b.y) ** 2
        
    def kClosest(self, points, origin, k):
        heap = []
        for point in points:
            dist = self.getDistance(point, origin)
            heapq.heappush(heap, Type(dist, point))
            if len(heap) > k:
                heapq.heappop(heap)
        
        result = []
        while heap:
            result.append(heapq.heappop(heap).point)
        
        result.reverse()
        
        return result

### <font color='red'>Merge K Sorted Lists</font>
http://www.jiuzhang.com/solutions/merge-k-sorted-lists/
> <span class="girk">k路归并算法，必须要掌握！！！！</span>

- 其实就是外排序的思想，在大数据领域非常重要：
    - <font color='red'>外排序（External sorting）是指能够处理极大量数据的排序算法。</font>
    - 通常来说，外排序处理的数据不能一次装入内存，只能放在读写较慢的外存储器（通常是硬盘）上。
    - 外排序通常采用的是一种“排序-归并”的策略。
        - 在排序阶段，先读入能放在内存中的数据量，将其排序输出到一个临时文件，依此进行，将待排序数据组织为多个有序的临时文件。
        - 尔后在归并阶段将这些临时文件组合为一个大的有序文件，也即排序结果。



- k路归并算法的经典做法就是用堆heap来做：
    - 以前做过2路的，就是两个数谁小谁出来，然后指针右移。
    - 这个时候就是在k个数里面找最小值：
        - 不就是heap么！
        - 每次pop一下
        
        

- <span class="girk">本题一共三个方法，都需要掌握!!!</span> （$N$就是$k$个链表里一共多少个数）
    1. Heap: 
        - $O(Nlogk)$
    2. Divide&Conquer: 
        - 每一层合并的总数都是$N$个点，一共$logk$层
            - 比如最后一层，左边如果$x$个数，右边就是$N-x$个数，加起来一个$N$个点
        - 所以也是$O(Nlogk)$
    3. Merge 2 by 2:
        - 其实本质上和2没区别，这个是倒三角，2是正三角
        - 所以也是$O(Nlogk)$

In [3]:
# 1. 直接用Heap，每次从那k个数里面拿出一个最小的，然后把该点的next push进去
import heapq
def mergeKLists(lists):
    heap = []
    heapq.heapify(heap)
    for head in lists:
        if head:
            heapq.heappush(heap, (head.val, head)) #push的是一个tuple

    dummy = ListNode(0)
    head = dummy

    while heap:
        node = heapq.heappop(heap)[1]
        head.next = node
        head = node
        if head.next:
            heapq.heappush(heap, (head.next.val, head.next))

    return dummy.next

In [5]:
# 2. 不用Heap，Divide & Conquer，完全是Merge Sort的思想
def mergeKLists(lists):
    return mergeHelper(lists, 0, len(lists)-1)

def mergeHelper(lists, start, end):
    if start == end:
        return lists[start]

    mid = (start + end) / 2
    left = mergeHelper(lists, start, mid)
    right = mergeHelper(lists, mid+1, end)
    return mergeTwoLists(left, right)

def mergeTwoLists(l1, l2): #第6章时写过这个程序
    dummy = ListNode(0)
    head = dummy

    while l1 and l2:
        if l1.val < l2.val:#注意一共做了三件事：把head连上、l1右移（即删掉第一个点）、最后head也要右移
            head.next = l1
            l1 = l1.next
        else:
            head.next = l2
            l2 = l2.next
        head = head.next

    if l1:
        head.next = l1
    if l2:
        head.next = l2

    return dummy.next

In [17]:
# 3. 相邻的两两归并，不用递归了
# 写出来最简单
def mergeKLists(lists):
    while len(lists) != 1:
        newLists = []
        for i in xrange(0, len(lists) - 1, 2):
            mergedLists = mergeTwoLists(lists[i], lists[i+1]) #两两归并
            newLists.append(mergedLists) #存入新的lists
        if len(lists) % 2:
            newLists.append(lists[-1]) #注意，如果原来有奇数个，那么最后一个元素直接加入
        lists = newLists[:] #别忘了[:]，deep copy
    return lists[0]

def mergeTwoLists(l1, l2): #就是第二种方法那个函数，必背
    dummy = ListNode(0)
    head = dummy

    while l1 and l2:
        if l1.val < l2.val:
            head.next = l1
            l1 = l1.next
        else:
            head.next = l2
            l2 = l2.next
        head = head.next

    if l1:
        head.next = l1
    if l2:
        head.next = l2

    return dummy.next

## 替代品TreeMap
- 又想知道最小值，又想支持修改和删除
- 好像本质上是红黑树：自平衡二叉树
    - 面试不会考实现

https://docs.oracle.com/javase/7/docs/api/java/util/TreeMap.html

## <font color='red'>Quick select（死）`vs` heap（活）</font>
- 如果找kth largest number:
    - QS: $O(n)$，与k无关
    - heap: $O(nlogk)$，与k有关
- 但是如果找Top k：
    - QS就不行了，它只能找一个数，而且比较死板，不能添加新的数进来
    - heap可以，就算每次有新的数添加进来，马上就能知道现在Top K是谁
        - 注意是min heap