Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

抓一下这里的微信公众号文章备份 #4

Open
NodeBE4 opened this issue Sep 21, 2020 · 8 comments
Open

抓一下这里的微信公众号文章备份 #4

NodeBE4 opened this issue Sep 21, 2020 · 8 comments

Comments

@NodeBE4
Copy link

NodeBE4 commented Sep 21, 2020

https://wechatscope.jmsc.hku.hk/api/html?fn=gh_da91e6008b7f_2020-09-21_2247504698_jl2Qvu6wor.y.tar.gz

都是被删掉的

查看 https://nodebe4.github.io/weixin/

@duty-machine
Copy link
Collaborator

是要把它们都存成jpg这样?可以是可以不过最终大概会占用非常多github的空间,不知道是不是妥当。

@duty-machine
Copy link
Collaborator

我发现他们这里显示的已经把所有图片之类的内联了,似乎直接保存为单个html就行,这样空间效率会高一点。

@NodeBE4
Copy link
Author

NodeBE4 commented Oct 3, 2020

如果能弄个存档到archive.today或者archive.org的代码就好了,我可以将每篇文章都自动存档,其他人点查看就行。这两个archive现在都很难搞。

@duty-machine
Copy link
Collaborator

https://github.com/duty-machine/wechatscope 原样抓到仓库里做备份就是这样子了,它的每个文章都是一个独立的html,然后我把文章标题等信息写在了文件最前面,之后可以拿来归类列表。

我觉得archive服务有点过于滥用了,不是很支持,而且archive服务的一个原则是应该以原网页为源。

@duty-machine
Copy link
Collaborator

唔,hku那边似乎把我这个爬虫屏蔽了,抓到的都是无法访问

@NodeBE4
Copy link
Author

NodeBE4 commented Oct 10, 2020

唔,hku那边似乎把我这个爬虫屏蔽了,抓到的都是无法访问

要降低访问频率,否则有自动屏蔽,不过屏蔽应该是临时的

另外,我fork了你的项目,现在内容都保存在

https://github.com/NodeBE4/weixin/issues?q=is%3Aissue+is%3Aclosed

可以点击网页上的按钮查看

其实我觉得archive还是最好的,可惜archive.org无法顺利保存带?的url,浏览器可以但成功率低。

@duty-machine
Copy link
Collaborator

我那个wechatscope的仓库打算停下了,这才两天就已经1.5g了,要的空间太夸张了,而且大部分也是些没什么用的东西。。

@NodeBE4
Copy link
Author

NodeBE4 commented Oct 11, 2020

微信公众号的大部分图片都没有信息量的,少数包含图表的应该用archive保存

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant