Skip to content

LMFrank/Go_Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Go_Crawler

Go写的一些爬虫项目

Python爬虫项目地址: https://github.com/LMFrank/CrawlerProject

demo01

初始Go爬虫,利用原生的net/http库爬取

demo02

  1. 对网页charset的检测,并将其统一编码为utf-8
  2. 正则表达式匹配,用于url拼接

Go_crawler_v1.0

以爬取豆瓣读书为例,构建爬虫项目,后期尝试改造为分布式爬虫

已改造为并发版,数据存储使用elasticsearch

Go_crawler_v2.0

在v1.0的版本上改造了并发结构,尝试拆分为微服务,使用内置的rpc进行通信

Distribute_cralwer

Go_crawler_v2.0中的豆瓣网爬虫项目

在本项目中重构了代码,加入了存储模块(ES),完善了框架

具体请查看:README

About

Golang爬虫项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published