Baidu Hi Crawler v0.1.0 Release
注意!!!
这个版本可能存在一个很严重的bug。请等待0.1.1版本,预计今晚将推出。
软件说明
百度空间将于近日关闭,本软件用于抓取用户百度空间上的文章和评论。
百度本身会将文章内容转移到百度网盘,但并不会保留格式和评论。本软件在抓取时将保留全部HTML格式及评论内容。
软件当前版本为0.1.0。
使用方法
抓取百度空间文章/评论
- 点击“Login Page”按钮,加载百度空间登录页面。
- 在登录页面输入你的用户名密码登录。(这一步是为了能够拿到你的空间地址和私有文章,也是为了防止使用此工具抓取他人文章。软件并不会记录或上传任何你的用户名和密码信息。)
- 点击“Start Crawling”按钮,软件开始自动抓取。
- 若抓取成功,软件会弹出对话框:“Crawling Finished!”。若失败,则会弹出“Crawling Failed, exception: ”,请协助将对话框内容以文字或图片形式添加issue,以便于修复问题。添加issue地址: https://github.com/sqybi/baidu-hi-crawler/issues 。
- 抓取成功后的文件存储于程序所在目录Articles文件夹下的.json文件中,其中为你的百度空间URL后缀。如:百度空间地址为 http://hi.baidu.com/sqybi ,则抓取结果存放在sqybi.json文件里。
加载已经抓取的文章/评论
- 切换到Load from local选项卡。
- 点击下方的Load from local按钮。
- 在弹出的对话框中选择之前下载的json文件,点击确定,会看到所有文章都被加载进来。
- 双击文章查看详细内容和评论。
遇到问题?
如果在使用中遇到问题,请遵循以下步骤:
- 如果在抓取时出错,可能是网络情况不好,请先尝试在网络情况良好时重试。
- 检查 https://github.com/sqybi/baidu-hi-crawler/releases 是否有新版本,如果有,请使用新版本重试。
- 如果有解决不了的问题,请在 https://github.com/sqybi/baidu-hi-crawler/issues 使用New Issue功能提出新的issue。尽量详细地描述你遇到问题的过程,你的系统信息,以及所有可以得到的错误信息。