sogou_wechat_spider

基于搜狗微信搜索的微信公众号爬虫

项目介绍

本项目基于ThinkPHP5.0.9核心版开发,采用了QueryList采集器。

使用本项目可以根据您自定义的关键字采集公众号信息。

如果对您有帮助,欢迎点 star ;如果有问题,请提 issue .

项目使用

基本环境

PHP 5.6+
MySql 5.6+
Redis 3.2+

基本配置

导入/sql/wechat_data.sql到数据库中,并在wd_task_keywords表中添加需要采集的公众号关键字
配置/application/database.php 为本机的数据库信息

设置代理

因为搜狗会封IP，所以需要设置代理，我用的代理是[阿布云]。购买后把对应信息填写好，并把以下代码复制到程序curl opt中

   CURLOPT_PROXYTYPE=> CURLPROXY_HTTP,
   CURLOPT_PROXY=> 'PROXY_URL',
   CURLOPT_PROXYAUTH=> CURLAUTH_BASIC,
   CURLOPT_PROXYUSERPWD=> 'PROXY_PASSWORD',

运行

cd 到 public 目录 执行 ./sogou_wechat_spider.sh
若报错，请检查是否赋予执行权限。

方法说明

方法	含义
index/index/sg	根据关键字去搜狗搜索匹配的公众号
index/index/sg_art	根据关键字去搜狗搜索匹配的文章
index/index/autoStart	根据任务量判断是否继续抓取还是休息
index/index/setCookie	手动设置cookie信息，设置了cookie可以抓取10页以上
index/index/count	统计当天总的抓取数量
index/index/keyword_count	统计关键字当天抓取数量

采集效果

1000 个关键词; 不设置cookie; 代理单次并发5个请求。不间断运行,每天可采集约10万公众号。

赞助作者

若项目对您有帮助,欢迎您请我喝杯咖啡。

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
application		application
public		public
sponsor		sponsor
sql		sql
thinkphp		thinkphp
vendor		vendor
.travis.yml		.travis.yml
LICENSE		LICENSE
README.md		README.md
build.php		build.php
composer.json		composer.json
composer.lock		composer.lock
think		think

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

sogou_wechat_spider

项目介绍

项目使用

基本环境

基本配置

设置代理

运行

方法说明

采集效果

赞助作者

About

Releases

Packages

Languages

License

raycraft/sogou_wechat_spider

Folders and files

Latest commit

History

Repository files navigation

sogou_wechat_spider

项目介绍

项目使用

基本环境

基本配置

设置代理

运行

方法说明

采集效果

赞助作者

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages