Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Already on GitHub? Sign in to your account

My blog feedback about charset #4

Closed
miniflycn opened this Issue Nov 15, 2013 · 4 comments

Comments

Projects
None yet
2 participants
Owner

miniflycn commented Nov 15, 2013

PhantomJS截图时使用的是UTF-8编码,但是有的网页使用的是GB2312编码,而且这个网页没有指明编码类型,所以phantomjs使用的是UTF8截图的,结果就是乱码。
例如:
http://2013liuhequancaiziliao.389lhc.com/

@爱读书

要不尝试通过是否有 charset=gb2312charset=gbk 字样 来判断?
或是否有大量乱码字符 ƣ ѧ п

Owner

miniflycn commented Dec 12, 2013

charset=gb2312方法不行,主要有些页面连这个meta都没有。
第二种方法我也想过,但最关键的问题是PhantomJS进程中好像没有设置页面的编码的方法,目前只看到启动时候设置编码类型的方法。具体还要reserach一下。

Cheers,
Daniel Yang

哦 好的 加油
稍后fork!

Owner

miniflycn commented Jan 13, 2014

可能更适合的方案是先看response header是否有charset,如果有直接丢给url-extract,没有则反向代理并添加一个头给这个网页。

找时间实现一个……

@miniflycn miniflycn closed this May 15, 2014

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment