Skip to content

bmxbmx3/ZSpider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

39 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PythonSpider

Author Lxb
Wechat lxbryz
BLOG https://www.jianshu.com/u/8524376e970d
Introduce 数据解密、反爬处理、验证码
Abstraction 主要是反爬分析处理的代码,未有系统性的爬取

一、前言

1、建议安装

pip install PyExecJS
npm install jsdom

2、目录介绍

文件夹 说明
APPCrack APP爬虫
FontDecode 字体处理
JsCrack Js逆向
simpleSpider 简易类爬虫(适合初学者)
VerifyCode 验证码处理

3、使用说明 建议直接看代码文件里的if __main__部分。

二、爬虫案例

Time Summary Weakness Stauts Folder Analyse
2019-03 scrapy-redis分布式抓取当当网所有商品及评论 商品与评论抓取速度差异明显 有效 DangDang /
2019-04 Js调试及模拟登录知乎抓取用户及问答 无法判断用户抓取是否全量 有效 JsCrack/ZhiHu /
2019-05 汽车之家配置界面伪元素 自定义字体库过大手动映射麻烦,OCR准确率较低 有效 FontDecode/CarConfig /
2019-05 汽车之家、58同城 自定义字体库过大手动映射麻烦,OCR准确率较低 有效 FontDecode/CityCar /
2019-05 猫眼 自定义字体库过大手动映射麻烦,OCR准确率较低 有效 FontDecode/MaoYan /
2019-05 大众点评详情页字体及SVG反爬 重定向验证码界面 已更新 FontDecode/FontDianPing /
2019-06 全网代理IP 暂无 有效 FontDecode/QuanwangIP /
2019-07 红薯中文网 暂无 有效 FontDecode/HongShu /
2019-07 百度/谷歌/有道翻译 暂无 有效 JsCrack/Translate /
2019-07 企名片 暂无 有效 JsCrack/Qimingpian /
2019-07 空气质量网 暂无 有效 JsCrack/AQI /
2019-08 七麦数据 初稿 有效 JsCrack/QiMaiData /
2019-08 It桔子 非VIP前三页 有效 simpleSpider/Itorange /
2019-08 豆瓣图书搜索页 暂无 有效 JsCrack/DoubanSearch /

三、更新维护

1、8/9更新大众点评详情页

原先:SVG及自定义字体混合

现为:纯自定义字体,字体有多套但文字顺序不变只是编码变换(可采用汽车之家的方式处理)

个人看法:字体处理上变简单了


补充一

有朋友说我把多个项目放在一个仓库,导致他只需某个项目只能全部clone,在这里推荐一个chrome插件GitZip for github,开启插件后在需下载的文件夹后双击即可,如下图:

补充二

简书的文章被莫名锁定,感兴趣的朋友可以看我的个人博客:https://lxb321.github.io/

补充三

注:公众号主要用于学习资料分享,基本不更文章

补充四

Win10下运行遇到如下错误,可进入相应文件修改encode为utf8

补充五

所有代码仅供学习交流。

About

Python网络爬虫实战:知乎、企名、简书、大众点评、红薯中文网

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 69.6%
  • JavaScript 30.1%
  • C 0.3%