Skip to content

学习使用puppeteer,做了一个爬虫,指定的url保存为pdf,用来爬电子书不错

Notifications You must be signed in to change notification settings

yangnianbing/puppeteer-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

github

安装

通过npm安装

$ npm install puppeteer-crawler -g

示例

下面的例子爬取百度首页上面的链接,并保存为pdf格式。

puppeteer-crawler start --url http://www.baidu.com --level 1 --target ***

或者像下面这样,使用互动的方式输入

puppeteer-crawler start
? 请输入爬取的url http://www.baidu.com
? 请输入爬取的层级 1
? 请输入存储目录 E:\Users\code\puppeteer-crawler
? 保存文件格式 pdf

注意安装依赖puppeteer的时候会去谷歌下载chrome,需要自备梯子翻墙。 没有梯子的同学可以在环境变量中添加变量PUPPETEER_SKIP_CHROMIUM_DOWNLOAD值为true,然后手动从这里下载,在包puppeteer下面新建文件夹.local-chromium/win64-version,version的值可以在包puppeteer下面的package.json文件中找到。把下载的chrome包解压到该文件夹即可。

About

学习使用puppeteer,做了一个爬虫,指定的url保存为pdf,用来爬电子书不错

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published