### 资源限制技巧汇总
1. 布隆过滤器用于集合的建立与查询，并可以节省大量空间
2. 一致性哈希解决数据服务器的负载管理问题
3. 利用并查集结构做岛问题的并行计算
4. 哈希函数可以把数据按照种类均匀分类
5. 位图解决某一范围上数字的出现情况，并可以节省大量空间
6. 利用分段统计思想，并可以节省大量空间
7. 利用堆、外排序来做多个处理单元的结果合并

#### 哈希函数可以把数据按照种类均匀分类 ==> 哈希分流
32位无符号整数的范围是0～4284967295。现在有一个正好包含40亿个无符号整数的文件，可以使用最多1GB的内存，怎么找到出现次数最多的数？

In [1]:
'''
解题思路：
1. 使用哈希表的话，一个整数key是4字节(byte)，一个整数value是4字节(记录出现次数)。那么一条记录就是8字节，1GB大约可以存125,000,000条记录。
2. 估算其他索引消耗，假设1GB只能记录100,000,000条记录。那么40亿个数，最多需要400个这样的哈希表记录。
3. 将40亿数计算出的哈希值 mod 400，通过mod后结果决定文件序号。逐个文件处理，记录最多出现次数的数。
4. 这样串行处理400个文件后，会得到400个可能出现次数最多的数，然后再进行count，得到最终答案。
5. 这里利用的是哈希函数的均匀分布性质，将40亿数均匀扔到400个文件中，然后再处理。 
'''

'\n解题思路：\n1. 使用哈希表的话，一个整数key是4字节(byte)，一个整数value是4字节(记录出现次数)。那么一条记录就是8字节，1GB大约可以存125,000,000条记录。\n2. 估算其他索引消耗，假设1GB只能记录100,000,000条记录。那么40亿个数，最多需要400个这样的哈希表记录。\n3. 将40亿数计算出的哈希值 mod 400，通过mod后结果决定文件序号。逐个文件处理，记录最多出现次数的数。\n4. 这样串行处理400个文件后，会得到400个可能出现次数最多的数，然后再进行count，得到最终答案。\n5. 这里利用的是哈希函数的均匀分布性质，将40亿数均匀扔到400个文件中，然后再处理。\n'

#### 位图解决某一范围上数字的出现情况，并可以节省大量空间
32位无符号整数的范围是0～4284967295。现在有一个正好包含40亿个无符号整数的文件，可以使用最多1GB的内存，怎么找到没有出现过的数？

In [None]:
'''
解题思路：
1. 使用位图：建立bit数组，出现过就是1，未出现过就是0.一位只占1bit，1字节表达8bit，所以2^32 --> 2^32 / 8 = 536,870,912 < 1GB
2. 一个整数数组，一个整数有32位，所以一个长度为10的整数数组，可以代表320长度的bit数组。
3. i//32代表数组第几个位置，i%32代表这个位置的整数的第几位
'''

#### 利用分段统计思想，并可以节省大量空间
进阶：只用3kb，但只需要找到一个没出现过的数

In [None]:
'''
解题思路：
1. 3KB ≈ 3000B, 1个整数4B，那么可以包含大概750个整数
2. 找到离750最近的2的某次方，即512
3. 一个整数的范围是0~2^32 -1， 可以分成512份，且每一份包含的范围是等长的。 2^32 / 512 = 每份负责8388608的长度的数组。
4. 所以512个整数，每个整数可以统计8388608个数出现的次数；而2^32大概在43亿，一共只有40亿个数，那么512个整数中一定存在次数不够8388608。
5. 那么后续只需要在不够的那个整数的原始范围上找就可以了。重复将这个新的范围再分成512份，继续找不够的那个整数。重复直到找到未出现的
'''


#### 
只允许使用有限个变量。

In [None]:
'''
解题思路：
1. 设定两个变量，一个为左边界L=0，一个为右边界R=2^32。中点变量可求。
2. 遍历计数所有40亿整数，左右两边一定有一边的count<2^31。继续二分即可
'''

#### 
有一个包含100亿个URL的大文件，假设每个URL占用64B，找出其中所有重复的URL
【补充】某搜素公司一天的用户搜索词汇是海量的(百亿数据量)，设计出一种求出每天热门top100词汇的可行方法

In [None]:
'''
解题思路：
不允许失误率，即使用哈希函数。将所有url映射到不同小文件中，再对小文件进行哈希，直至可以处理的量级，统计重复的URL即可
'''

#### 
32位无符号整数的范围是0～4284967295。现在有一个正好包含40亿个无符号整数的文件，可以使用最多1GB的内存，怎么找到所有出现了两次的数

In [None]:
'''
解题思路：
1. 使用一位位图，只需要512MB即可表示0~2^32的数；两位位图，仍然在1GB要求内。如果担心两位超出内存，即可分段统计。
2. 00表示0次，01表示1次，10表示2次，11表示3次及以上
'''

#### 
32位无符号整数的范围是0～4284967295。现在有一个正好包含40亿个无符号整数的文件，可以使用最多3KB的内存，怎么找到中位数

In [None]:
'''
解题思路：
1. 3KB ≈ 3000B, 1个整数4B，那么可以包含大概750个整数
2. 找到离750最近的2的某次方，即512
3. 通过512个整数的数组分段统计所有整数出现的次数
4. 40亿找中位数，即20亿，512长度的整数数组，假设第一个整数为1亿(即最低频的有1亿个)，那么可以确定中位数不来自第一位
5. 累加第二个整数..第N个数，找到刚好或超过20亿的那个整数的位置，中位数包含在这个整数所表达的整数区间内。
6. 假设第x个数累加为19亿，那么找到第x+1数包含的第1亿个数即可。
'''

#### 利用堆、外排序来做多个处理单元的结果合并
假设有10GB大小的文件包含0~2^32范围的数，要求用5G内存排好序。

In [None]:
'''
解题思路：
1. 准备一个长度为K的大根堆(并储存每个数出现的次数)，依次遍历所有的数。
2. 每次当前数<堆顶，压入，弹出最大值。遍历过后可以找到前K小的数，然后根据次数重复打印；
3. 将堆顶最大值记录，二次循环的时候只查找大于这个最大值的数，继续找前K小，直到结束。
'''