这套PHP编写的小程序可以帮助喜欢在电子书阅读器上看新浪博客上文章的你,它可以根据已知的文章列表来爬行,亦可以根据已知的文章目录来爬行——你只需要将URL写入一个文本文件,接着调用程序即可。当然,你可以使用#
符号作为注释,与bash类似。而且,它生成的是gitbook的标准格式,可以用gitbook/calibre工具自动生成多种格式(mobi/epub/pdf)的电子书。文章细节均已自动优化,爬行图片保存到本地,也生成封面,且使用MarkDown格式,只为带给你完美的阅读体验!
淀粉月刊撰写的本程序简明教程:https://dfkan.com/1635.html
需要PHP5以上版本,Windows用户可安装phpstudy。
它用于抓取wenku8.net(轻小说文库)的全本小说,生成分卷章节,打包mobi/epub电子书。
输入wenku8.net的BookID,抓取并生成电子书。
使用方法:
php wenku8.php
命令示例:
php wenku8.php 1538
新浪博客爬虫-列表爬虫
-可以集合已知文章目录(/s/articlelist*)里面的文章列表
使用方法:
php sina-list.php <网址文件>
参数解释:
<网址文件>:一行一个网址,请使用电脑版访问后复制
命令示例:
php sina-list.php urls.txt
网址文件示例:
新浪博客爬虫-文章爬虫
-可以提取已知文章页面(/s/blog*)里面的文章
使用方法:
php sina-article.php <网址文件>
参数解释:
<网址文件>:一行一个网址,请使用电脑版访问后复制
命令示例:
php sina-article.php urls.txt
网址文件示例:
它用于把上面说的网址文件前前后后颠倒过来
新浪博客爬虫-网址文件反转工具
-将某个网址文件里面的url全部反转过来,可用于处理新旧文章顺序等
使用方法: php tool-rev.php <网址文件>
参数解释:
<网址文件>:一行一个网址,请使用电脑版访问后复制
命令示例:
php tool-rev.php urls.txt
网址文件示例:
这个脚本专门用于处理FimFiction的故事,同时包括抓取图片、调用彩云小译API翻译正文为中英双语对照格式。
使用方法:php fimfic.php <Story网址>
命令示例:php fimfic.php https://www.fimfiction.net/story/318771/earth-without-us