Skip to content

kokozh/taobao

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

淘宝模拟登录 + 商品爬取 (2019/11/7)

环境:

* PYTHON
* requests库
* time库
* re库

实现思路

* 检查此账号需不需要验证(滑动验证/验证码)
* 浏览器/工具 获取ua和加密后的密码(一劳永逸的方法)
* post请求登录url获取st申请url
* 根据获得的st申请地址获取st码
* 用st码登录,提取重定向网址,存储 cookie
* 用cookie向其它页面发送请求,获取信息

函数说明

* check_login()       #检查账号是否需要滑块验证
* login_get_st()      #登录验证获取st申请地址
* get_st()            #获取st码
* st_login()          #使用st登录淘宝
* test()              #商品爬取测试
* test2()             #个人页面测试

文件结构

* demo文件夹存放代码文件
* data文件夹存放爬取的数据

未来完善升级想法

* 将验证账号和登录方法封装在一起
* 采用IP代理更好的的获取信息
* cookie序列化减少重复登录(已完成)
* 采用框架实现模拟滑动操作,极大的提高信息的获取效率
* 采用多线程或分布式,将信息获取速度最大化
* 挺粗糙的一个作品哈哈,有空会继续优化的

About

淘宝模拟登陆/数据采集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published