鉴于不要给AllITeBooks网站带来太大的流量压力,搜索的输入应该尽可能详细,减到爬取得无用的结果。 我也争取能把整个网站pdf文件爬取出来,然后放到百度云上
git clone https://github.com/wangzhengya/allitebooks.git
cd allitebooks
npm install
npm start
得到一个以pdf.txt结尾的文本,里面含有下载pdf的链接,复制到迅雷中下载即可
node index2.js
输入:分类的网址后半部分,如:web-development/javascript
得到一个以pdf.txt文本,里面含有下载pdf的链接,复制到迅雷中下载即可
node index3.js
得到一个以pdf.txt文本,里面含有下载pdf的链接,复制到迅雷中下载即可