- 可控的线程数
- 可控的爬取深度
- 可控的爬取数量
- 可控的爬取时间
- 可控的域名聚焦、过滤(字符支持","(逗号)分割)
- 可控的关键字聚焦、过滤(字符支持","(逗号)分割)
- URL相似度过滤(可控开关)
- 3种下载模式
- 3种爬取策略:宽度优先、深度优先、随机优先
- 2种运行时的显示模式
- 数据存储(数据库为mongo)
- 内置起始URL字典
- 自动选择代理池(待完成)
本次更新主要完成了如下内容。
- 构建全局变量类
- 构建UrlRule规则类
- 优化爬虫流程
- 补全过滤标签
- 更新相似度检查函数
- gevent模型
6月26日 v2.0 技术更新
- 动态下载模式不下载图片(大幅提速)
- 动态下载模式可设置ua字段
- 页面提取链接正则加强
未来爬虫模块会整体迁移到Mscanner,作为其链接获取引擎。
联系 乌云Manning
qq 408468023
《爬虫技术浅析》—运用技术概述
《爬虫技术实战》—Mspider使用实例
Usage:
MMMM MMMM MM
MMMMMMMMMMMMMMM MM MMM MMMMMMM
MM M MM M MM MM MM
M M MMMMMM MMMMMMMM MMMMMM MMMMMM MM MMMMMMMM MMMMMM
M MM MM M MMM MM MM MMM M MM MM M MM MM MMM MM M
M MM MM M M MMMM M M MM M M MM MM MM M MM M
M MM MM M MM MMMM MMMM MM M MMMM MMMM MMMM MM MMMM MMM
M MM MM M MM MM M MMMM MM M MM M MMMM MM M MMMMMMMMMMM M
M MM MM M M MM MM M MM M MM MM MM MM MM MM M
M MM MM MMM MMMM MM MM MM M MM MMM MMM MMM MMM MM M
MMMMMMMMMMMMMMMMM MMMM MM MMMMM MMMMMM MMMMMM MMMMMM MMMMMM
MM MM
MMMMMM
by Manning
Options:
Options:
-h, --help show this help message and exit
-u MSPIDER_URL, --url=MSPIDER_URL
Start the domain name
-t MSPIDER_THREADS_NUM, --threads=MSPIDER_THREADS_NUM
Number of threads
--depth=MSPIDER_DEPTH
Crawling depth
--count=MSPIDER_COUNT
Crawling number: The default download 100000000 pages
--time=MSPIDER_TIME Crawl time: The default crawl for 7 days
--similarity=MSPIDER_SIMILARITY
Similarity check: True False
--storage=MSPIDER_STORAGE
Storage true save false don't save
--spider-model=MSPIDER_MODEL
Crawling mode: Static 0 Dynamic 1 Mixed 2
--spider-policy=MSPIDER_POLICY
Crawling strategy: Breadth-first 0 Depth-first 1
Random-first 2
--focus-keyword=MSPIDER_FOCUS_KEYWORD
Focus keyword in URL's path
--filter-keyword=MSPIDER_FILTER_KEYWORD
Filter keyword in URL's path
--filter-domain=MSPIDER_FILTER_DOMAIN
Filter domain
--focus-domain=MSPIDER_FOCUS_DOMAIN
Focus domain
--random-agent=MSPIDER_AGENT
like sqlmap --random-agent default is false: no random
--print-all=MSPIDER_PRINT_ALL
mspider_print_all