# 链表 

## 链表介绍

- 链表是由一系列节点组成的元素集合。每个节点包含两部分，数据域item和指向下一个节点的指针next。通过节点之间的相互连接，最终串联成一个链表。

In [1]:
class Node(object):
    def __init__(self, item):
        self.item = item
        self.next = None

In [2]:
a = Node(1)
b = Node(2)
c = Node(3)

In [3]:
a.next = b
b.next = c

In [4]:
print(a.next.item)
print(a.next.next.item)

2
3


## 链表的创建和遍历

- 头插法：存在一个链表，加入新元素a时，a.next = head<br>
倒序

- 尾插法：存在一个链表，加入新元素a时，rear.next = a<br>
顺序

In [17]:
def create_linklist_head(li):
    head = Node(li[0])
    for element in li[1:]:
        node = Node(element)
        node.next = head
        head = node
    return head

In [18]:
def create_linklist_tail(li):
    head = Node(li[0])
    tail = head
    for element in li[1:]:
        node = Node(element)
        tail.next = node
        tail = node
    return head #只能从链表头开始找

In [12]:
def print_linklist(lk):
    while lk:
        print(lk.item, end=',')
        lk = lk.next

In [14]:
lk = create_linklist_head([1,2,3])
print_linklist(lk)

3,2,1,

In [19]:
lk = create_linklist_tail([1,2,3])
print_linklist(lk)

1,2,3,

## 链表节点的插入

- 先把后面的链连起来，再连前面的节点

In [24]:
lk = create_linklist_head([1,2,3])
curNode = lk.next
p = Node([5])

In [25]:
p.next = curNode.next   # 先把后面的节点连接上
curNode.next = p    # 再连接前面的节点

## 链表节点的删除

In [26]:
p = curNode.next
curNode.next = curNode.next.next # 先连接上当前节点和删除后的下一个节点
del p # 可以不写，已经不在链表中

## 双链表 

链表只能从前往后找，不能从后往前找。

- 双链表的每个节点都有两个指针：一个指向后一个节点，另一个指向前一个节点。
- 如何建立双链表？

In [29]:
class Node(object):
    def __init__(self, item = None):
        self.item = item
        self.next = None
        self.prior = None

### 双链表节点的插入 

In [30]:
p.next = curNode.next
curNode.next.prior = p
p.prior = curNode
curNode.next = p

NameError: name 'p' is not defined

### 双链表节点的删除 

In [None]:
p = curNode.next # 要删除的对象
curNode.next = p.next #将前一个节点连接上后一个节点
p.next.prior = curNode #将后一个节点连接上前一个节点
del p

## 链表总结 

### 复杂度分析 

- 顺序表（列表/数组）与链表
    - 按元素值查找：都是 O(n)
    - 按下标查找：顺序表O(1)， 链表O(n)
    - 在某元素后插入：顺序表O(n)，链表O(1)
    - 删除某元素：顺序表O(n)，链表O(1)

### 链表与顺序表

- 链表在插入和删除的操作上明显快于顺序表
- 链表的内存可以更灵活的分配（队列满了就无法扩充）
    - 试利用链表重新实现栈和队列
- 链表这种链式存储的数据结构对树和图的结构有很大的启发性

# 哈希表

- 哈希表一个通过哈希函数来计算数据存储位置的数据结构，通常支持如下操作：
    - insert(key, value)：插入键值对(key, value)
    - get(key)：如果存在键为key的键值对则返回其value，否则返回空值
    - delete(key)：删除键为key的键值对

## 直接寻址表

- 当<b>关键字(key)</b>的全域U比较小时，直接寻址是一种简单而有效的方法。

<b>缺点：</b>
- 当域U很大时，需要消耗大量内存，很不实际
- 如果域U很大而实际出现的key很少，则大量空间被浪费
- 无法处理<b>关键字不是数字</b>的情况

## 哈希表 = 直接寻址表 + 哈希 

- 直接寻址标：key为k的元素放到k位置上
- 改进直接寻址表：哈希(Hashing)
    - 构建大小为m的寻址表T
    - key为k的元素放到h(k)位置上
    - <b>h(k)</b>是一个函数，其将域U映射到表T[0,1,...,m-1]

- 哈希表(Hash Table，又称为散列表)，是一种线性表的存储结构。哈希表由一个<b>直接寻址表</b>和一个<b>哈希函数</b>组成。哈希函数h(k)将元素关键字k作为自变量，返回元素的存储下标。
- 假设有一个长度为7的哈希表，哈希函数 $h(k)=k \% 7$ 。元素集合{14,22,3,5}的存储方式如下图。

### 哈希冲突 

- 由于哈希表的大小是有限的，而要存储的值的总数量是无限的，因此对于任何哈希函数，都会出现两个不同元素映射到同一个位置上的情况，这种情况叫做哈希冲突。
- 比如$h(k)=k\%7, h(0)=h(7)=h(14)=...$

### 解决1：开放寻址法

- 开放寻址法：如果哈希函数返回的位置已经有值，则可以向后探查新的位置来存储这个值。
    - 线性探查：如果位置i被占用，则探查i+1,i+2,...<br>
        查找的时候先通过哈希函数h(k)查找,找不到往后探查,直到找到或者发现空位为止,因为发现空位但没找到说明没有这个数.
    - 二次探查：如果位置i被占用，则探查$i+1^2,i-1^2,i+2^2,i-2^2,...$
    - 二度哈希：有n个哈希函数，当使用第1个哈希函数h1发生冲突时，则尝试使用h2,h3,...

### <b>解决2：拉链法</b>

- 拉链法：哈希表每个位置都连接一个链表，当冲突发生时，冲突的元素将被加到该位置链表的最后。

### 常见哈希函数

- 除法哈希法：
    - $h(k)=k \% m$
- 乘法哈希法：
    - $h(k) = floor(m*A*(key\%1))$
- 全域哈希法：
    - $h_{a,b}(k) = ((a*key+b) mod p) mod m ;a, b = 1,2,...,p-1$

## 哈希表实现

In [1]:
class LinkList:
    class Node:
        def __init__(self, item = None):
            self.item = item
            self.next = None
    
    class LinkListIterator:
        def __init__(self, node):
            self.node = node
        def __next__(self):
            if self.node: # 如果node非空,更新node为下一个节点
                cur_node = self.node 
                self.node = cur_node.next 
                return cur_node.item
            else:
                raise StopIteration
            
        def __iter__(self):
            return self
        
    def __init__(self, iterable = None):
        self.head = None
        self.tail = None
        if iterable:
            self.extend(iterable)
        
    def append(self, obj):
        s = LinkList.Node(obj) # 新建节点
        if not self.head: # 如果head为空
            self.head = s # 将s赋为头节点
            self.tail = s # 将s赋为尾节点
        else:
            self.tail.next = s #如果head不为空,将s赋为next节点
            self.tail = s # 更新尾节点

    def extend(self, iterable):
        for obj in iterable:
            self.append(obj)

    def find(self, obj):
        for n in self:
            if n == obj:
                return True
        else:
            return False

    def __iter__(self):
        return self.LinkListIterator(self.head)

    def __repr__(self): # 转化为字符串
        return '<<'+','.join(map(str, self))+'>>' # map将int转为str

In [2]:
lk = LinkList([1,2,3,4,5])

In [3]:
for element in lk:
    print(element)

1
2
3
4
5


In [5]:
print(lk)

<<1,2,3,4,5>>


In [13]:
# 类似于集合的结构
class HashTable:
    def __init__(self, size = 101):
        self.size = size
        self.T = [LinkList() for i in range(self.size)]
    
    def h(self, k): # 哈希函数
        return k % self.size
    
    def insert(self, k):
        i = self.h(k) # 返回哈希值
        if self.find(k):
            print('Duplicated Insert.')
        else:
            self.T[i].append(k)        
    
    def find(self, k):
        i = self.h(k) # 先定位属于T里面哪个位置
        return self.T[i].find(k) # 在指定位置的集合里面find

In [14]:
ht = HashTable()

In [15]:
ht.insert(0)
ht.insert(1)

In [16]:
ht.insert(0)

Duplicated Insert.


In [17]:
",".join(map(str,ht.T))

'<<0>>,<<1>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>'

In [18]:
ht.insert(3)
ht.insert(102)

In [19]:
",".join(map(str,ht.T)) #哈希表长度为100,因此102和1在同一个位置

'<<0>>,<<1,102>>,<<>>,<<3>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>'

In [20]:
ht.insert(508)
','.join(map(str, ht.T))

'<<0>>,<<1,102>>,<<>>,<<3,508>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>,<<>>'

In [21]:
ht.find(4)

False

In [22]:
ht.find(102)

True

## 哈希表的应用

### 集合与字典 

- 字典与集合都是通过哈希表来实现的.
    - a = {'name':'Alex','age':18,'gender':'Man'}
- 使用哈希表存储字典,通过哈希函数将字典的键映射为下标.假设h('name') = 3, h('age') = 1, h('gender') = 4, 则哈希表存储为[None, 18, None, 'Alex', 'Man']
- 如果发生哈希冲突,则通过拉链法或者开发寻址法解决

### md5算法 

- MD5(Message-Digest Algorithm 5)<b>曾经</b>是密码学中常用的哈希函数,可以把任意长度的数据映射为<b>128位</b>的哈希值,其曾经包含如下特征:
    - 1. 同样的消息,其MD5值必定相同;
    - 2. 可以快速计算出任意给定消息的MD5值;
    - 3. 除非暴力的枚举所有可能的消息,否则不可能从哈希值反推出消息本身;
    - 4. 两条消息之间即使只有微小的差别,其对应的MD5值也应该是完全不同、完全不相关的;
    - 5. 不能再有意义的时间内人工的构造两个不同的消息 使其具有相同的MD5值。

md5算法主要用于判断文件，如果两个文件的md5值一样，则大概率是一样的文件。为什么不能说完全一样？因为有哈希值就表示有哈希冲突。

目前md5已被破解，如果不太注重安全性可用md5算法。

- 应用举例：文件的哈希值
    - 算出文件的哈希值，若两个文件的哈希值相同，则可认为这两个文件是相同的。因此：
        - 1. 用户可以利用它来验证下载的文件是否完整。
        - 2. 云存储服务商可以利用它来判断用户要上传的文件 是否已经存在于服务器上，从而实现秒传的功能，同时避免存储过多相同的文件副本。

### <b>SHA2算法</b> 

- 历史上MD5和SHA-1曾经是使用最为广泛的cryptographic hash function,但是随着密码学的发展,这两个哈希函数的安全性相继受到了各种挑战.
- 因此现在安全性较重要的场合推荐使用SHA-2等新的<b>更安全</b>的哈希函数.
- SHA-2包含了一系列的哈希函数:SHA-224,SHA-384,SHA-512,SHA-512/224,SHA-512/256,其对应的哈希值长度分别为224,256,384 or 512位.
- SHA-2具有和MD5类似的性质(参见MD5算法的特征).

- 应用举例:
- 例如,在比特币系统中,所有参与者需要共同解决如下问题:<b>对于一个给定的字符串U,给定的目标哈希值H,需要计算出一个字符串V,使得U+V的哈希值与H的差小于一个给定值D</b>.此时,只能通过暴力枚举V来进行猜测.首先计算出结果的人可获得一定奖金.而某人首先计算成功的概率与其拥有的计算量成正比,所以其获得的奖金的期望值与其拥有的计算量成正比.