Skip to content

msxfXF/antispider

 
 

Repository files navigation

antispider

记录一下碰到过的反爬虫措施和解决办法,欢迎交流!!!

第二级目录无限制


首次访问会出现js中间页跳转 估计是验证ip


页面加载时间特长


discuz论坛板块接口


需要验证referer


js跳转 changde.py


cookie加密验证天眼查 test_down_tianyancha.py


逗比验证码+%99验证失败

http://xygs.gsaic.gov.cn/gsxygs/pub!list.do


豆瓣FM及其他豆瓣网站 https 不严密的cookie参数 test_down_douban.py

js执行后url增加_dsign参数 get_dsign.py

访问显示安全检查中... 5秒后经过js跳转到正常页面

文字使用css样式代替

限制访问频率以及代理类型

  • https://m.guazi.com/bj/dazhong/
  • 访问频率要小于 0.5次/s
  • 如果使用代理的话 http协议要用http协议的代理 https要用https的代理,混用的话相当于没加代理

巧妙使用\r在不同平台的差异让爬虫开发者头疼

  • \r在linux下会被解释为回车,如果使用\r当做换行符,在网页和windows上显示都没有问题,但在linux下输出的时候测绘覆盖\r之前的字符,导致输出结果和网页上看到的少很多。。,如果不太明白\r含义的话,想必要调试很久很久很久很久吧。。。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • JavaScript 50.0%
  • Python 46.3%
  • HTML 3.7%