Skip to content
This repository has been archived by the owner on Jun 18, 2022. It is now read-only.

关于该包的使用 #1

Closed
zplzpl opened this issue Aug 7, 2019 · 5 comments
Closed

关于该包的使用 #1

zplzpl opened this issue Aug 7, 2019 · 5 comments

Comments

@zplzpl
Copy link

zplzpl commented Aug 7, 2019

python3 ./server/proxy.py

这个是一次性的吗?所以要配合crontab配置定时任务刷?

执行这工具的时候,爬了一下,然后就不爬了,进程也没有退出

还有一个问题,爬取出来的打印记录与redis内的记录是不一致的

@zplzpl
Copy link
Author

zplzpl commented Aug 7, 2019

`
while True:
proxy = await proxies.get()
if proxy is None:
break
print(proxy)
if "HTTP" not in proxy.types:
continue
if "High" == proxy.types["HTTP"]:
row = '%s://%s:%d' % ("http", proxy.host, proxy.port)
r.set(row, 0, ex=60 * 60 * 24)

`

看到逻辑了,但是奇怪这个逻辑没有正常退出

@zplzpl
Copy link
Author

zplzpl commented Aug 7, 2019

这里好像就并没有像书中说的那样,逻辑放在客户端,这里还是有些逻辑

@derekhe
Copy link
Owner

derekhe commented Aug 7, 2019

由于很多代理资源在中国无法访问的网站,部署在国内的服务器上会影响资源的获取,所以推荐将服务器部署到国外的服务器。进程没有退出是因为有很多国内网站访问不了但是没有超时导致,多等段时间就可以了。

如果你需要连续运行可以加个while True循环

@zplzpl
Copy link
Author

zplzpl commented Aug 7, 2019

其实我是用美国的vps,跑的,但是还等了一段时间,看代码逻辑理论上应该要正常退出,还有一个问题,就是proxybroker的爬取的资源其实好像不是特别多?我爬到就几百个,然后就卡住了(控制台没有输出)

关于是否需要连续运行,我觉得完全没必要,配合有效时间,定时增量跑即可

然后我发现,有些代理,ping得通,但是其实发出http request,目的地返回500,怀疑是代理有什么处理,因为其它同区域的代理是可以通的

@derekhe
Copy link
Owner

derekhe commented Aug 7, 2019

我用的是DigitalOcean,每天大概有1万左右的IP资源,可用的有好几千。
由于每个人的VPS不一样,网络情况不一样,所以得到的代理数量可能不一样。

@zplzpl zplzpl closed this as completed Aug 8, 2019
This issue was closed.
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants