Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

你好,非常感谢能开源这么好的微博爬取工具,我想问 这个tasks/workers.py 定时任务,里面的时间可以再调得频繁一点吗,如果调的频繁点会出现什么问题吗 #81

Closed
lovenodejs opened this issue Mar 27, 2018 · 6 comments

Comments

@lovenodejs
Copy link

在提交Issue之前请先回答下面问题,谢谢!

1.你是怎么操作的?

尽量把你的操作过程描述清楚,最好能够复现问题。

2.你期望的结果是什么?

3.实际上你得到的结果是什么?

4.你使用的是哪个版本的WeiboSpider? 你的操作系统是什么?是否有读本项目的常见问题

@ResolveWang
Copy link
Member

可能出现的问题就是账号被封,其它没啥问题,你要账号多的话,可以频繁一些。而且抓取不同模块,微博的不同模块限制的抓取间隔也不一样,目前还没做细粒度的控制。

@lovenodejs
Copy link
Author

最想用的是用户主页的抓取,和搜索模块,如果是一个账号推荐最低的间隔是多少,

@ResolveWang
Copy link
Member

搜索的话,限制很严格,如果一个账号的话,你试试20~30秒吧,用户主页的话,大概十来秒。这个我也不能说绝对是这样,只能给一个大概的范围

@lovenodejs
Copy link
Author

那岂不是在源码文件中原来设置的小时已经是很宽松了的?也就是在tasks/workers.py 设置 hours minutes seconds 成需要间隔多少时间对应的值是吗?

@ResolveWang
Copy link
Member

ResolveWang commented Mar 27, 2018

读文档吧。我感觉你没读文档,我希望你是读了文档再来提问的。

一个是抓取间隔,一个是定时任务间隔,两个是不一样的

spider.yaml中是抓取间隔,就是每两个http request的发送间隔

min_crawl_interal: 10 # min interal of http request
max_crawl_interal: 20 # max interal of http request

workers.py中是定时任务间隔,比如你要用微博搜索,我会在这一轮搜完过后,再过N个小时再进行搜索,而不会这轮搜完马上就进行下一轮搜索

@lovenodejs
Copy link
Author

好的,麻烦了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants