<a href="https://colab.research.google.com/github/lizhicq/Algorithms-Manual/blob/master/Ch09%20Realtime%20Issues.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##海量数据类处理问题
举一个常见的例子：求数组A和数组B的交集。

这个问题看起来是一个算法问题，没错，我们通过 Hash 或者排序+二分法等方法可以十分容易的解决。你以为面试就到此为止了，而面试官马上跟进的问题，让你措手不及：求两个超大文件中 URLs 的交集，内存不足以放下所有 URLs。

海量数据处理问题的考点
“内存不足”，“文件超大” 通常是这类问题的因素。这里我们先不着急展开这个问题的解法，让我们看一看对于海量数据处理类问题，有哪些可能的考点：
```
算法方面：
外排序算法（External Sorting）
Map Reduce
非精确算法
概率算法
哈希算法与哈希函数（Hash Function）

数据结构方面：
哈希表（Hash Table）
堆（Heap）
布隆过滤器（BloomFilter）
位图（Bitmap）
```
最高频的 K 项（Top K Frequent Elements）
在海量数据处理类问题中，最最高频的一类题，莫过于 Top K Frequent Elements 了。从这个问题开始，逐步揭开海量数据处理类问题的神秘面纱

### 547. Intersection of Two Arrays
Given two arrays, write a function to compute their intersection.
```
Example
Given nums1 = [1, 2, 2, 1], nums2 = [2, 2], return [2].

Challenge
Can you implement it in three different algorithms?
```

In [0]:
class Solution:
    
    """
    @param: nums1: an integer array
    @param: nums2: an integer array
    @return: an integer array
    """
    def intersection(self, nums1, nums2):
        set1 = set(nums1)
        set2 = set(nums2)
        
        return list(set1 & set2)

### 544. Top k Largest Numbers
Given an integer array, find the top k largest numbers in it.
```
Example
Given [3,10,1000,-99,4,100] and k = 3.
Return [1000, 100, 10].
```

In [0]:
class Solution:
    """
    @param nums: an integer array
    @param k: An integer
    @return: the top k largest numbers in array
    """
    def topk(self, nums, k):
        n = len(nums)
        self.quickselect(nums, n-k)
        return sorted(nums[n-k:], reverse=True)

    def quickselect(self, nums, k, lo=None, hi=None):
        lo = 0 if lo is None else lo
        hi = len(nums)-1 if hi is None else hi
        while True:
            if lo == hi:
                return nums[lo]
            pvt = self.partition(nums, lo, hi)
            if k == pvt:
                return nums[k]
            elif pvt > k:
                hi = pvt - 1
            else:
                lo = pvt + 1

    def partition(self, nums, lo=None, hi=None):
        lo = 0 if lo is None else lo
        hi = len(nums)-1 if hi is None else hi

        pvt = lo
        for i in range(lo, hi):
            if nums[i] < nums[hi]:
                nums[i], nums[pvt] = nums[pvt], nums[i]
                pvt += 1
        nums[hi], nums[pvt] = nums[pvt], nums[hi]
        return pvt

### 545. Top k Largest Numbers II
Implement a data structure, provide two interfaces:

add(number). Add a new number in the data structure.
topk(). Return the top k largest numbers in this data structure. k is given when we create the data structure.
```
Example
s = new Solution(3);
>> create a new data structure.
s.add(3)
s.add(10)
s.topk()
>> return [10, 3]
s.add(1000)
s.add(-99)
s.topk()
>> return [1000, 10, 3]
s.add(4)
s.topk()
>> return [1000, 10, 4]
s.add(100)
s.topk()
>> return [1000, 100, 10]
```

In [0]:
from heapq import heappop, heappush
class Solution:
    """
    @param: k: An integer
    """
    def __init__(self, k):
        self.heap = []
        self.k = k

    """
    @param: num: Number to be added
    @return: nothing
    """
    def add(self, num):
        if len(self.heap) < self.k:
            heappush(self.heap, num)
        else:
            if self.heap[0] < num:
                heappop(self.heap)
                heappush(self.heap, num)
    """
    @return: Top k element
    """
    def topk(self):
        ans = sorted(self.heap, reverse=True)
        return ans

### 471. Top K Frequent Words
Given a list of words and an integer k, return the top k frequent words in the list.
```
Example
Given

[
    "yes", "lint", "code",
    "yes", "code", "baby",
    "you", "baby", "chrome",
    "safari", "lint", "code",
    "body", "lint", "code"
]
for k = 3, return ["code", "lint", "baby"].

for k = 4, return ["code", "lint", "baby", "yes"],

Challenge
Do it in O(nlogk) time and O(n) extra space.
```
Note: O(n logk) with O(k) space 

In [0]:
class wordFreq(object):
    def __init__(self, word, freq):
        self.word = word
        self.freq = freq

    def __cmp__(self, other):
        if self.freq == other.freq:
            if self.word < other.word:
                return 1
            else:
                return -1
        return self.freq - other.freq

class Solution:
    """
    @param words: an array of string
    @param k: An integer
    @return: an array of string
    """

    def topKFrequentWords(self, words, k):
        if k == 0:
            return []
        from collections import Counter
        from heapq import heappop, heappush
        count = Counter(words)
        heap = []
        for word, freq in count.iteritems():
            num = wordFreq(word, freq)
            if len(heap) < k:
                heappush(heap, num)
            else:
                if heap[0] < num:
                    heappop(heap)
                    heappush(heap, num)

        ans = sorted(heap, reverse=True)
        ans = [a.word for a in ans]
        return ans


if __name__ == "__main__":
    words = ["yes", "lint", "code", "yes", "code", "baby", "you",
             "baby", "chrome", "safari", "lint", "code", "body",
             "lint", "code"]

    s = Solution()
    print s.topKFrequentWords(words, 3)


['code', 'lint', 'baby']


### Follow up 1: 还有办法提速么？

**难点**

假如说摆在你面前的是上 T 的数据，就算是全部扫描一次，都会非常的慢。所以虽然时间复杂度 O(N log K) 看起来已经是理论的下限，但是是不是仍然可以想办法加速呢？


**问题描述**

这里假设你有若干个小文件（如果是一个很大的文件，可以先进行 split，分割为若干个小文件），他们加起来有 1T 那么大。每个文件中用空格隔开若干单词，你需要统计出现次数最多的 K 个单词。


**分布式计算 Map Reduce**
作为 Google 的三驾马车之一的 Map Reduce 系统，是用于进行分布式计算的。（另外的两个系统 Big Table 和 Google File System 都是用于分布式存储的）。Map Reduce 的基本思想很简单，就是通过 Map 这个步骤把通过多台机器并行将所有的数据都整理为 <Key, Value> 的二元组，然后Reduce 操作之前这套系统会按照 Key 的不同，将不同的 Key 分给不同的机器进行处理，比如可以简单的根据 hash(key) % 机器数 的方式来进行数据分配（这个过程叫做shuffle）。接下来，每台机器拿到数据之后，进行reduce合并统计的操作将同一个 Key 的数据进行处理。最终得到了每个 Key 的处理结果。

**Map Reduce 有什么好？**

Map Reduce 并没有结余实际上的计算时间总和，但是如果你有很多的计算资源的时候（很多台机器），你可以通过 Map Reduce 的框架利用多台机器同时计算，来优化性能进行提速。Map Reduce是一套通用的分布式计算框架。这样，对于很多类似的问题，工程师并不需要每次都去自己构思如何使用多台机器优化计算的算法，只需要套用这个通用框架，就可以快速的解决问题。（比如：矩阵分解问题，Page Rank搜索排序算法）

**不使用 Map Reduce 单纯的分割文件分别统计行不行？**

不行。如果单纯的将文件1丢给机器1，文件2丢给机器2，分别统计 Top K 之后再合并，这种方法是不行的。因为可能最高频的那一项分别出现在了文件1和文件2中，但是他在文件1和2里都没有挤进 Top K，那么统计结果就不对了。


**最高频 K 项问题如何使用 Map Reduce？**

通过 Map 步骤，将每一个文件中的单词一个个取出，每个单词构造一个 <Word, 1> 的 Key-value 二元组，作为 Map 的输出。
通过 Reduce 的步骤，每个 Reducer（Reducer是处理reduce的机器） 会处理若干个不同的 Key，在每个 Reducer 一开始初始化的时候，构建一个最小堆（如最开始我们提到的算法），Reducer 在每次 Reduce 操作的时候，输入是 key（某个 word） 和他对应的values，其实这里我们可以假设 values 就是一堆 1（事实上 Map Reduce 会帮你做一些优化，导致有可能 value 已经被加过，所以实际处理的时候，还是老老实实的把 values 加起来，而不是看一下 values 有多少个）。那么我们把所有的 values 加起来就是当前这个 key（某个 word）的出现次数。那么当我们拿到这个单词的出现次数之后，就可以在当前的 Reducer 里去和最小堆里的第K大比大小，来决定是否淘汰当前的第K大了。Reducer 在处理完他需要处理的数据之后，就输出他得到的 Top K。
由于可能有多个 Reducers（跟你同时运行的机器数有关，当然一台机器也可能会运行多个Reducer），因此我们会得到多个 Top K，最后还需要从这些输出中过一遍，得到最终的 Top K。这个步骤已经在 Map Reduce 之外了，用一个单独的代码扫一遍就可以了。


### 549. Top K Frequent Words (Map Reduce)
Find top k frequent words with map reduce framework.

The mapper's key is the document id, value is the content of the document, words in a document are split by spaces.

For reducer, the output should be at most k key-value pairs, which are the top k words and their frequencies in this reducer. The judge will take care about how to merge different reducers' results to get the global top k frequent words, so you don't need to care about that part.

The k is given in the constructor of TopK class.
```
Example
Given document A =

lintcode is the best online judge
I love lintcode
and document B =

lintcode is an online judge for coding interview
you can test your code online at lintcode
The top 2 words and their frequencies should be

lintcode, 4
online, 3
```

In [0]:
class TopKFrequentWords:
    