Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

每次爬取99条记录就中断,再次运行脚本结果集相同 #32

Closed
ever-lasting opened this issue Jun 14, 2018 · 1 comment
Closed

Comments

@ever-lasting
Copy link

第一次执行bilibili_user.py,第一行返回Succeed get user info: 521401 0.5652303695678711,最后一行返回Error: https://space.bilibili.com/521499,然后就自动退出执行脚本。我进入数据库查看,有86条记录,即有13条记录没有爬取到(我不关心)。
第二次再次执行,仍从ID为 521401 开始爬取,与第一次执行情况一样(除时间外),数据库增加到了172条记录,测试之后,发现每个ID 都重复两次。
请问一下,
1、如何解决一次性爬取任意条数据,而并非99条后就退出。
2、如何实现第二次执行脚本是接着上一次继续爬取,而并非重新开始。(每次返回的结果集一样,没意义)。
3、若不能实现问题2,那如何实现当重新执行脚本时,避免重复爬取相同记录。
我是新手,还望见谅,感谢指导!

@airingursb
Copy link
Owner

需要自己手动改for循环的数据… emmm我加个注释吧,很多人不知道。

对于3,有空就加

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants