# 哈希表理论基础



---
## 1.哈希表

**什么是哈希表？**通过一个哈希函数，把我们要找到的key直接转换成一个index，从而一秒定位。

假设我们要在图书馆里面找一本书：

- **链表模式**：从第一个书架开始找，一本一本往后看，直到找到这本书,复杂度$O(n)$
- **hash table**:我们有这本书的具体位置，直接去书架拿，复杂度$O(1)$

哈希表中关键码就是数组的索引(index)下标，然后通过下标直接访问数组中的元素

![image.png](attachment:image.png)

那么哈希表解决什么问题呢？，**一般哈希表都是用来快速判断一个元素是否出现在集合里**

比如我们要确定一本书是否在图书馆里，查询时通过索引在不在图书馆。

将书名映射到哈希表上就涉及到**哈希函数**

---

## 2.哈希函数

哈希函数，将书名直接映射到哈希表上的索引，然后就可以通过查询索引下标快速知道书是否在图书馆里。

通过hashCode把名字转化为数值，一般hashCode是通过特定编码方式，可以将其他数据格式转化为不同的数值，这样就把名字映射到哈希表上的索引数字。

![image-2.png](attachment:image-2.png)


## 3.哈希碰撞

数组长度有有限的，而key是无限的，如果我们输入的"apple"算得5，"orange"也算得5怎么办？

这一现象叫做哈希碰撞(hash collisions)

![image-3.png](attachment:image-3.png)

**两种解决方法**

1. **拉链法(Chaining)**:在位置5后面挂一个**链表**，把"apple" & "orange"都存进去。

2. **线性探测(Open Addressing)**:如果位置5被占领，自动往后找到位置6，直到有空位。


哈希表之所以快，是牺牲了空间来换取时间。需要预留足够多的空位来减少碰撞。

---

## 4.常见的哈希结构

在 Python 中，你主要会用到两种“武器”：

| 结构 | Python 对应实现 | 特点 |
| --- | --- | --- |
| **集合 (Set)** | `set()` | 只存 Key，不存 Value。常用于**去重**或**判断是否存在**。 |
| **字典 (Map)** | `dict()` | 存 `Key: Value` 对。常用于**统计次数**或**存储映射关系**。 |
| **数组 (Array)** | `[0] * 26` | 当 Key 的范围很小且固定（如只有 26 个小写字母）时，数组就是最快的哈希表。 |


## 5.常见场景

当你遇到以下关键词时，脑子里要立刻蹦出“哈希表”：

- **“快速查找”**：判断一个元素是否出现过。

- **“统计频率”**：计算每个单词出现了多少次。

- **“去重”**：去掉数组中重复的数字。

例如：

给你一个很长的字符串，需要找出第一个只出现一个的字符串

- **不用哈希表**：你可能需要双层循环，一个个对比，复杂度 $O(n^2)$。
- **用哈希表**：
    1. 扫描一遍字符串，把每个字母出现的次数记在字典里：{'a': 2, 'b': 1, 'c': 3...}。
    2. 再扫描一遍字符串，去字典里查谁的次数是 1。
    3. 复杂度瞬间降到 $O(n)$。