PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

PHelper可以做什么

根据用户自定义规则来爬取满足条件的图片信息，包括链接和tag等。
爬下来的图片可以做一些有趣的应用，例如机器学习和推荐系统，或者一个第三方app等等

项目结构

主要代码分布在getURL和download文件夹中

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中(需要自行实现)

download：从持久化介质中读取url并下载图片

准备工作

redis

运行该项目需要redis，请在运行之前确保redis已经启动，并且为默认端口

安装与运行

安装依赖

将项目克隆到本地后，在根目录下运行npm install来安装依赖，本项目使用了shrinkpack来管理依赖，使得安装过程不需要http请求

爬取链接

进入cluster目录，运行npm start
这会开启一个生产者和多个消费者，由运行机器的cpu数量决定，持久化的方法需要自行实现，目前只是在控制台中打印出来可以存入文件或者数据库

下载图片

等待优化，计划仍然使用redis实现
注：由于网络原因，pixiv的http request可能不流畅，因此运行前请在根目录下运行 npm test来运行测试用例

Name		Name	Last commit message	Last commit date
Latest commit History 75 Commits
cluster		cluster
download		download
getURL		getURL
node_shrinkwrap		node_shrinkwrap
test		test
.gitignore		.gitignore
.travis.yml		.travis.yml
Dockerfile		Dockerfile
README.md		README.md
config.js		config.js
npm-shrinkwrap.json		npm-shrinkwrap.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

PHelper可以做什么

项目结构

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中(需要自行实现)

download：从持久化介质中读取url并下载图片

准备工作

redis

安装与运行

安装依赖

爬取链接

下载图片

更新日志，发布计划详见[wiki](https://github.com/Yuki-Minakami/PHelper/wiki)

如果有疑问欢迎提issue，或者联系likaiboy_2012@126.com

About

Uh oh!

Releases

Packages

Languages

loringmore/PHelper

Folders and files

Latest commit

History

Repository files navigation

PHelper

这是一个基于Node.js的爬虫项目，主要用来爬取pixiv.net-插画网站上的高分图片

PHelper可以做什么

项目结构

getURL：按照ID逐个遍历pixiv上的图片，按一定规则筛选后提取页面中的图片URL，写入持久化介质中(需要自行实现)

download：从持久化介质中读取url并下载图片

准备工作

redis

安装与运行

安装依赖

爬取链接

下载图片

更新日志，发布计划详见[wiki](https://github.com/Yuki-Minakami/PHelper/wiki)

如果有疑问欢迎提issue，或者联系likaiboy_2012@126.com

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages