Skip to content

letcheng/BloomFilter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BloomFilter

Build Status Release

Bloom Filter && Count Bloom Filter && Cached Bloom Filter

Bloom Filter

  • 原理

image

  • 性能
    • 添加元素: 0.943s, 53022.269353128315 元素/s
    • 测试已经存在的元素: 0.907s, 55126.79162072767 元素/s
    • 测试不存在的元素: 0.519s, 96339.11368015414 元素/s

Cached Bloom Filter

  • 原理

    image

可以进行高效缓存替换的Bloom Filter数据结构,可以应用于爬虫的URL去重中,在以雪球爬行策略过程中,一个爬虫线程在一定时间范围内遇到的链接集中在一个URL集合中的。这时可以采用CachedBloomFilter数据结构。

About

Bloom Filter、Count Bloom Filter 和Cached Bloom Filter三种数据去重策略实现

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages