GitHub - shaojintian/WebCrawler: 基于Go语言的分布式图片爬虫系统

shaojintian / WebCrawler Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

基于Go语言的分布式图片爬虫系统

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
cmap		cmap
docs		docs
errors		errors
finder		finder
helper		helper
module		module
scheduler		scheduler
toolkit		toolkit
.DS_Store		.DS_Store
README.md		README.md

Repository files navigation

#WebCrawler网络爬虫与框架网络爬虫是互联网用户的模仿者

实现一个开箱即用的工具类WebCrawler

特点：可扩展，高度定制化的网络爬虫框架
##总体功能和需求

下载器：下载给定网址相应的内容
分析器：

分析下载到的内容，分析筛选到可用的内容（以下均称为条目）;
组装新的下载请求发给"下载器";
过滤掉不符合要求的网址;
特点：WebCrawler提供高度定制化接口，根据用户的需求改变分析策略和内容

条目处理管道：接受所有的条目，对其进行相应定制化的处理（eg：命名，存储...）
##总体设计

/module
下载器：
分析器：
条目处理管道
调度器
负责整个任务的启动和各个模块的整合处理

##详细设计
###数据流图
###模块架构图
##工具的实现

/errors 错误处理
/helper/log 监控日志处理
/toolkit/buffer 缓冲器，缓冲池
/toolkit/reader 多重读取器 ##组件的实现
/module/local 主要数据结构的实现
下载器downloader,分析器analyzer,条目处理管道pipeline

##调度器的实现

/scheduler 调度器
##未来工作
并发
支持cookie

About

基于Go语言的分布式图片爬虫系统

Report repository

Releases

No releases published

Packages

No packages published

Languages

Go 100.0%