基于 JSDOM 实现的 Node.js 爬虫小工具。
爬取所有正在招聘的事业单位职位名录,数据来源:https://sc.huatu.com/syzwb/
- 职位代码
code - 职位名称
name - 工作地区
district - 招聘部门
department - 职位人数
positions - 招考对象
object - 年龄要求
age - 学历要求
degree - 专业要求
majors
git clone https://github.com/idea2app/gov-org-datapnpm ipnpm crawl 网页地址 --output 生成文件名pnpm crawl https://sc.huatu.com/syzwb/2021/1/buweisearch/1.htmlpnpm crawl https://sc.huatu.com/syzwb/2021/1/buweisearch/1.html https://sc.huatu.com/syzwb/2021/8/buweisearch/1.html- 默认在根目录生成
data.json存储爬取数据 - 支持生成
.json.yaml.yml.csv格式的任意命名文件,如:
pnpm crawl https://sc.huatu.com/syzwb/2021/1/buweisearch/1.html --output test.csv