项目补充说明

resolvewang edited this page Oct 26, 2017 · 2 revisions
  • 本项目运行环境是Python3.x,由于Py2和Py3关于字符编码完全不同,所以如果需要在Py2上运行该程序,需要修改解析模块的相关代码
  • 建议使用linux或者mac作为worker节点,windows平台也可以作为worker节点,但是一定不能作为beat节点,并且celery版本要注意一致。
  • 目前该项目已经抓取将近三十万条微博用户数据,如果有需要数据的同学,可以查看这里
  • 目前项目有普通抓取和极速抓取两种模式,细节请查看分布式微博爬虫的普通模式与极速模式
  • 建议每台机器上都指定queue,目前发现如果启动worker的时候只指定-c 1 -l info而不指定-Q的话,可能运行会出现问题
  • 如果在同一个节点上开多个worker,需要使用-n指定worker的nodename,否则可能出现警告,比如

celery -A tasks.workers worker -Q user_crawler -l info -c 1 -n worker1@%h

  • 如果不需要登录的模块建议就别使用cookie进行抓取,因为这样账号的负载更小。至于哪些信息不需要登录,且是有价值的,这个还会再进行调研,和等待用户的反馈。
  • 如果是开发版,可能会存在运行出问题的情况,所以建议通过release页面下载稳定版
  • 文档方面,目前在WiKi中有一些较为系统的知识。如果使用过程中遇到问题,可以给该项目提issue, 也可以加QQ群交流,群号是:499500161, 暗号是:微博爬虫。注意加群务必备注信息,否则将视为广告而拒绝!
You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.
Press h to open a hovercard with more details.