使用爬虫爬取了 acgHeaven 这个网站所有文章的 html 文件,并检测爬取到的 HTML 文件中是否有可用的百度云链接。每有一个可用链接,文件名中就带有一个 [百度云可用]
。例如 [10184][百度云可用][百度云可用].html
表示其中有两个可用的百度云链接。
前面的数字就是对应文章的序号,[10184] 对应的文章是: http://acgheaven.cc/archives/10184
双击打开 HTML 文件,里面有百度云链接。
- 在转存文件的时候,对每一篇文章,在百度云都建立一个文件夹,并以文章的标题作为文件夹的名字,不然后面你都不知道你转存的文件是什么。
- 转存完一篇文章后,随便把其 HTML 文件也扔进文件夹里,因为这些文件都是加了密的,解密方法在 HTML 文件里。
- 尽快下载,链接可能失效!
有哪位大佬能帮忙转存一下文件?七百多个连接,一个个转存真的挺累的 T-T。转存完了 issue 一下,发个转存好的百度云链接给我可好?感激不尽!
不要在线解压!会导致链接失效!!!