Skip to content
😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟
Branch: master
Clone or download
Latest commit 3d3e183 Mar 18, 2019
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
163email PEP8 Mar 8, 2019
Github delete DS_Store Mar 11, 2019
NeteaseCloudMusicDownload PEP8 Mar 8, 2019
baidu PEP8 Mar 8, 2019
baidu2 PEP8 Mar 8, 2019
bilibili delete DS_Store Mar 11, 2019
csdn PEP8 Mar 8, 2019
douban PEP8 Mar 8, 2019
facebook PEP8 Mar 8, 2019
guoke PEP8 Mar 8, 2019
images 糗事百科 Mar 10, 2019
jd_login PEP8 Mar 8, 2019
lagou PEP8 Mar 8, 2019
lianjia_spider 添加链家spider Mar 8, 2019
liepin 猎聘提示-(中文) Mar 18, 2019
qqzone PEP8 Mar 8, 2019
qsbk 糗事百科-(添加中文注释) Mar 18, 2019
sina 新浪微博-(输入密码不可见) Mar 18, 2019
taobao delete DS_Store Mar 11, 2019
tuchong Merge pull request #18 from ksoeasyxiaosi/master Mar 11, 2019
twitter delete DS_Store Mar 11, 2019
webWeixin delete DS_Store Mar 11, 2019
zhihu 知乎-(输入密码不可见) Mar 18, 2019
.gitattributes Create .gitattributes Mar 4, 2019
.gitignore 删除DS_Store Mar 11, 2019
LICENSE 新增多个模拟登录 Mar 6, 2019
README-en-us.md 糗事百科 Mar 10, 2019
README.md 添加注意事项 Mar 18, 2019

README.md

🎉Life is fantastic🥳!~


Master


"Did you know all your doors were locked?" - Riddick (The Chronicles of Riddick)


Branch Stars Forks License Awesome


Created by CriseLYJ


💕Website login model

🌟收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过selenium登录,有的是通过抓包直接模拟登录,有的是利用scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

About

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

Completed

catalogue

Test

Bilibili自动登录测试正常,成功率98%

web微信

Alt text

图虫Spider

淘宝web

  • taobao.py为模拟登录
  • 剩下的文件为爬虫

Github

新增链家Spider

1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB
2. 通过pandas进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示

guoke.spider使用需谨慎,下载的比较快!10秒能下载一堆,截图我就不展示了,已经删除,东西太多了😝

微博

  • sina.py为模拟登录
  • spider文件夹中为爬虫
1. 输入要爬取的博主ID,获取ajax请求
2. 解析json数据,爬取博主所有微博,保存至MySQL

网易云音乐

  • 新增网易云音乐下载,之前的一个小demo应该还可以用,Crypto包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!

知乎

  • 知乎登录没有问题,不过要手动输入验证码

  • 知乎登录遇到“execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”

  • 原因以及解决办法:

1. 由于是你本地的JScript引擎只有一个默认的JScript,所以会造成json未定义的错误。
2. execjs会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个nodejs的V8引擎就可以了

糗事百科

tips of pull request

  • 欢迎大家一起来 pull request 💗

Problems

  • 关于验证码:本项目所用的方法都没有处理验证码,识别复杂验证码的难度就目前来说,还是比较大的。以我的心得来说,做爬虫最好的方式就是尽量规避验证码。
  • 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提issue,如果你已经解决,可以提PR,谢谢!
  • 正在对部分代码进行优化。。。
  • 如果该repo对大家有帮助,给个star鼓励鼓励吧

Have something to say❗️❗️(Important)

  • 今天有人给我说了一些东西,他说:”你今天开源这些东西会让别人容易的反爬虫“。对,我知道,当然我很清楚这些,但是人生总是需要一些挑战不是吗?兄弟?我认为当我攻破他们防守的时刻,才是最刺激的,不是吗?如果没人反抗,我做这些才是真的毫无意义,只有真正的攻与守,才能促使我们进步,时代在变兄弟,科技也在变,安于现状,才是错误的根本原因!
  • 希望你们不要安于现状,生活处处是惊喜!

🎉Life is fantastic🥳! bro💪~

Acknowledgments

  • Thanks for all 🎉

联系我

注意:

  • 本项目仅用于学习和交流

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.