PingCap 笔试题 by JJZ

题目描述

有一个 100GB 的文件，里面内容是文本，要求：找出第一个不重复的词；只允许扫一遍原文件；尽量少的 IO；内存限制 16G

思路历程

海量的数据查询，最开始想到的是布隆过滤器，但是布隆没有办法来记录第一次出现的位置。所以需要其他的东西来记录。除此之外，布隆还有误判该单词在布隆过滤器的问题。
第二个想法是使用Trie树和HashMap。流式地读取数据，但内存有限，所以要对100G的源数据进行分块处理。
联想到大数据的相关知识，海量数据处理可以使用MapReduce编程模型。所以整个问题就变成了MapReduce的word count，只不过是需要额外记录一下单词第一次出现的位置
MapReduce的编程模型更加通用，流程更复杂。针对本问题可以进行简化。类似于Spark Shuffle的Aggregator机制，我们可以吧Map阶段和Reduce阶段的排序等过程省去，提高效率。
除此之外，需要计算下数据量，来决定Shuffle阶段的数据切割个数，如下图所示，1千万个长度为1-64位的单词写入到文件大约是175MB。故100G的数据大约有585千万个单词。
设置一个结构体，作为Map的Value值，而且不需要考虑字节对齐，因为go的Map是使用数组来存储的。所以GO的Map的大小大约为，map_len * 8 * (key_size,value_size) .但是由于数据可能有重复，在不考虑数据倾斜和其他程序占用内存的情况下估算的话： 100G的单词（平均长度32Bytes）+uint64类型索引和出现次数（16Bytes） ≈ 250G。 250G/16G ≈ 16 个分块数故shuffle时，要生成16个临时文件。

方法：

生成数据，写入到input.in文件。
Map阶段：读取数据 -> 通过Hash值取模，并发shuffle到分块的临时文件
Reduce阶段：读取临时文件 -> 解析出KV -> 数据刷新到collection中-> 遍历collection找到只出现了一次且第一次出现索引最小的单词 -> 对比当前最小值，输出结果

Collection是我自己定义的结构，目前有两种实现方法，Map和Trie

输出结果

电脑配置

CPU: AMD Ryzen 7 pro 4750U 8核16线程 1.7Ghz
内存： 16G 3200MHz
磁盘：三星 PM981a SSD
Go : go version go1.15 windows/amd64

注：此处的MapReduce是指，Reduce在存储键值的时候，使用的是go语言的内置的Map

Tiny数据集：1w个单词

MapReduce

TrieReduce

Small数据集：500w个单词 87MB

MapReduce

TrieReduce

Large数据集：10亿个单词 16GB

MapReduce

TrieReduce

结论：

通过Small和Tiny数据集可以产出，Trie树运算较慢，且需要的内存比map大很多。到Large数据集上，Trie树已经完全不能使用了。
Trie树的结构决定，字母的长度越长，树就越高，需要的空间和时间就越多。同时Trie树更适合有大量重复值的数据，比如日常生活中的文章等等。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Data		Data
GenerateData		GenerateData
Image		Image
Process		Process
Test		Test
Util		Util
tmp		tmp
.gitignore		.gitignore
LICENSE		LICENSE
ReadMe.md		ReadMe.md
go.mod		go.mod
go.sum		go.sum
run.go		run.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PingCap 笔试题 by JJZ

题目描述

思路历程

方法：

输出结果

电脑配置

Tiny数据集：1w个单词

MapReduce

TrieReduce

Small数据集：500w个单词 87MB

MapReduce

TrieReduce

Large数据集：10亿个单词 16GB

MapReduce

TrieReduce

结论：

About

Releases

Packages

Languages

License

AntiTopQuark/pingcap_examination

Folders and files

Latest commit

History

Repository files navigation

PingCap 笔试题 by JJZ

题目描述

思路历程

方法：

输出结果

电脑配置

Tiny数据集：1w个单词

MapReduce

TrieReduce

Small数据集：500w个单词 87MB

MapReduce

TrieReduce

Large数据集：10亿个单词 16GB

MapReduce

TrieReduce

结论：

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages