网络蜘蛛🕷️
JavaScript
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
express-spider
koa2-spider
.gitignore
LICENSE
README.md

README.md

web-spiders

网络蜘蛛🕷️

[TOC]

基于 NodeJS 的几种方案

大致思路是“抓取、解析、入库”,可选 “黑白名单、并发、定时任务”。

  1. superagent/cheerio/express
  2. superagent/cheerio/koa2/koa-router/eventproxy
  3. request/cheerio/async/node-schedule
  4. phantomjs/cheerio

案例

  • express-spider
  • koa2-spider

运行

  1. 前提是需安装 nodejs

  2. 在 express-spider 或 koa2-spider 目录执行

    npm start
  3. 然后浏览器访问 http://127.0.0.1:3000 或 curl -get http://127.0.0.1 即可

参考