这是一个基于Node.js的爬虫项目,主要用来爬取pixiv.net-插画网站上的高分图片
- 根据用户自定义规则来爬取满足条件的图片信息,包括链接和tag等。
- 爬下来的图片可以做一些有趣的应用,例如机器学习和推荐系统,或者一个第三方app等等
主要代码分布在getURL和download文件夹中
- 运行该项目需要redis,请在运行之前确保redis已经启动,并且为默认端口
- 将项目克隆到本地后,在根目录下运行
npm install来安装依赖,本项目使用了shrinkpack来管理依赖,使得安装过程不需要http请求
- 进入cluster目录,运行
npm start - 这会开启一个生产者和多个消费者,由运行机器的cpu数量决定,持久化的方法需要自行实现,目前只是在控制台中打印出来可以存入文件或者数据库
-
等待优化,计划仍然使用redis实现
-
注:由于网络原因,pixiv的http request可能不流畅,因此运行前请在根目录下运行
npm test来运行测试用例