Skip to content

Baidu Hi Crawler v0.1.0 Release

Compare
Choose a tag to compare
@sqybi sqybi released this 09 Apr 12:37
· 18 commits to master since this release

注意!!!

这个版本可能存在一个很严重的bug。请等待0.1.1版本,预计今晚将推出。

软件说明

百度空间将于近日关闭,本软件用于抓取用户百度空间上的文章和评论。

百度本身会将文章内容转移到百度网盘,但并不会保留格式和评论。本软件在抓取时将保留全部HTML格式及评论内容。

软件当前版本为0.1.0。

使用方法

抓取百度空间文章/评论

  1. 点击“Login Page”按钮,加载百度空间登录页面。
  2. 在登录页面输入你的用户名密码登录。(这一步是为了能够拿到你的空间地址和私有文章,也是为了防止使用此工具抓取他人文章。软件并不会记录或上传任何你的用户名和密码信息。)
  3. 点击“Start Crawling”按钮,软件开始自动抓取。
  4. 若抓取成功,软件会弹出对话框:“Crawling Finished!”。若失败,则会弹出“Crawling Failed, exception: ”,请协助将对话框内容以文字或图片形式添加issue,以便于修复问题。添加issue地址: https://github.com/sqybi/baidu-hi-crawler/issues
  5. 抓取成功后的文件存储于程序所在目录Articles文件夹下的.json文件中,其中为你的百度空间URL后缀。如:百度空间地址为 http://hi.baidu.com/sqybi ,则抓取结果存放在sqybi.json文件里。

加载已经抓取的文章/评论

  1. 切换到Load from local选项卡。
  2. 点击下方的Load from local按钮。
  3. 在弹出的对话框中选择之前下载的json文件,点击确定,会看到所有文章都被加载进来。
  4. 双击文章查看详细内容和评论。

遇到问题?

如果在使用中遇到问题,请遵循以下步骤: