GitHub - Joey-Coder/WeixinPublicCrawler: 微信公众号爬虫，可爬取公众号和文章

Joey-Coder / WeixinPublicCrawler Public

Notifications You must be signed in to change notification settings
Fork 1
Star 11

微信公众号爬虫，可爬取公众号和文章

11 stars 1 fork Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
sogou		sogou
.gitignore		.gitignore
README.md		README.md
cookies.json		cookies.json
scrapy.cfg		scrapy.cfg

Repository files navigation

微信公众号爬虫（搜狗端）

介绍

scrapy框架爬取，selenium用于处理验证码以及登陆。
支持爬取公众号主体以及相关文章。
只需登陆一次，自动存储用户凭证。
可接入代理池，自由切换代理。
遇到验证码反爬，可截取验证码图片，等待用户输入正确验证码。

使用

设置setting中的最大爬取页数MAX_PAGE。
启动命令： scrapy crawl sogou_weixin
根据提示输入想爬取的关键字，例如：吉他

其他

如果想以表格形式导出爬取内容：

    scrapy crawl sogou_weixin -o xxxx.csv

如果想接入proxy池，先在setting中设置PROXY_URL。然后取消middleware.py中proxy中间件的注释。

待办

接入第三方打码平台 ...... [ ]

About

微信公众号爬虫，可爬取公众号和文章

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%