go-crawler 并发式网站爬虫

2022-04-09 更新

最近整理 repo 时，发现这个项目还有人 star，作为当初的练手项目，现在来看这个项目还是很不成熟。先升级到 go mod，有空再尝试整理维护。

介绍

作为并发编程练手项目，这个Repo是在慕课网学完Google 资深工程师深度讲解 Go 语言后（个人觉得课程很不错，适合有语法基础的初学者进一步学习），自己尝试实践完成的爬虫实战练习。

目的

完成一个通用的爬虫基础框架，熟悉golang并发编程的基础，逐步深入golang分布式开发学习。

思路

原课程讲解了一个分布式的爬虫项目实践过程，十分有参考价值。所以本项目的实现也大体参照该课程的结构，有以下关键组成：

Engine，爬虫任务下发和结果处理
Scheduler，任务队列调度管理
Fetcher, 获取请求路径的html内容
Model，保存内容的实体
Parser，fetcher得到html解析器，解析后返回数据和下一步请求信息。
Persist，爬取信息保存实现

除了使用Parser模块来处理特定页面的信息解析规则外，其他模块都是抽象的通用模块，所以如果想爬取其他网站，只需要在Parser里添加新的解析规则，其他的模块处理逻辑不变。

依赖

该项目依赖以下组件和软件

github.com/PuerkitoBio/goquery,提供类似jquery的dom元素选择方法，提高爬取内容的解析效率，相比原课程的正则匹配来提取内容，这种实现更加清晰优雅
gopkg.in/olivere/elastic.v5,Elasticsearch是一个分布式 RESTful 搜索和分析引擎,因为个人理解不深，不做过多介绍，项目里是做爬取结果内容存储和提供RESTful接口读取使用
docker，这个不用多说，这里暂时用作运行Elasticsearch，相关命令docker run -d -p 9200:9200 elasticsearch

使用

暂时以爬取链家深圳租房信息为例，进行项目开发和调试，后期可根据实际需求来添加应对目标网站反爬虫的机制，或者提高爬取速度的分布式开发。

在$GOPATH/src/github.com/zzayne下存放该项目，可运行查看结果输出。如果Elasticsearch运行在9200默认端口，可GET请求http://localhost:9200/house_info/rent/_search?后得到json数据。

其他

本项目仅为学习实践项目，他用产生一切后果与本人无关。我的邮箱：thezhangwen@outlook.com，欢迎一起交流学习。

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
engine		engine
fetcher		fetcher
model		model
parser/lianjia		parser/lianjia
persist		persist
scheduler		scheduler
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
go.mod		go.mod
go.sum		go.sum
main.go		main.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

engine

engine

fetcher

fetcher

model

model

parser/lianjia

parser/lianjia

persist

persist

scheduler

scheduler

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

go.mod

go.mod

go.sum

go.sum

main.go

main.go

Repository files navigation

go-crawler 并发式网站爬虫

2022-04-09 更新

介绍

目的

思路

依赖

使用

其他

About

Releases

Packages

Languages

License

zzayne/go-crawler

Folders and files

Latest commit

History

Repository files navigation

go-crawler 并发式网站爬虫

2022-04-09 更新

介绍

目的

思路

依赖

使用

其他

About

Topics

Resources

License

Stars

Watchers

Forks

Languages