Nodejs crawler for cnbeta.com
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
asset
.gitignore
LICENSE
README.md
app.js
package.json

README.md

crawler

Nodejs crawler for cnbeta.com, The source code is on Github.

  • 用于爬取并保存cnbeta新闻内容及图片
  • 从起始文章开始爬取,异步获取上一篇文章ID并循环爬取
  • 支持爬取总条数限制,默认50条
  • 支持301跳转追踪
  • 仅用于Nodejs学习,无意冒犯

使用

  • 安装依赖:npm install
  • 修改app.js中的startId变量为起始文章ID
  • 运行抓取:node app [limitNumber=50]

示例

  • 例如从该篇文章开始爬取http://www.cnbeta.com/articles/tech/620719.htm,修改 startId="620719";
  • 执行爬取10条:node app 10

preview

更多

前端路上