Skip to content
a mini web spider
JavaScript HTML CSS
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
client
core
web
.gitignore
README.md

README.md

爬虫客户端

一个使用electron构建的爬虫客户端

  • 填写抓取基本信息,包括url、页数、页面解析策略、数据保存形式等
  • 点击开始按钮,等待抓取完成

Features

  • 抓取任务可视化
  • 自定义页面抓取策略

Todo

  • 保存对应网址的多个策略,方便来回切换抓取任务
  • 抓取策略优化
  • 数据保存配置可视化,包括json文件、excel、mongodb等

目录结构

├── client  // 使用electron-forge构建的客户端源码
├── core    // node爬虫核心逻辑
│   ├── db  // 存储方式
│   ├── ...
├── web     // 使用react构建的UI
You can’t perform that action at this time.