Skip to content
This repository has been archived by the owner on Nov 10, 2022. It is now read-only.

新手第一天用python,依赖的包都下载好了,运行scrapy run 沙发 aa #37

Open
tomyu168 opened this issue Jul 14, 2021 · 22 comments

Comments

@tomyu168
Copy link

结果报错,mysql5.7 数据库建好了,config.json修改过配置了,大哥帮忙看看怎么解决

Traceback (most recent call last):
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\runpy.py", line 193, in _run_module_as_main
"main", mod_spec)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\runpy.py", line 85, in run_code
exec(code, run_globals)
File "C:\Users\HP ENVY\AppData\Local\Programs\Python\Python36\Scripts\scrapy.exe_main
.py", line 7, in
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 145, in execute
_run_print_help(parser, _run_command, cmd, args, opts)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 100, in _run_print_help
func(*a, **kw)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 153, in _run_command
cmd.run(args, opts)
File "C:\Users\HP ENVY\Downloads\tie\tieba\commands\run.py", line 58, in run
cfg = config.config()
AttributeError: module 'config' has no attribute 'config'

@tomyu168
Copy link
Author

测试了scrapy官网的tutorial 案例运行没有问题

@Aqua-Dream
Copy link
Owner

请问执行scrapy run命令时,你的当前目录是什么?

@tomyu168
Copy link
Author

请问执行scrapy run命令时,你的当前目录是什么?

C:\Users\HP ENVY\Downloads\tie>scrapy run a tt

scrapy.cfg config.json所在目录

哥能不能加个qq方便截图,547301517,十分感谢

@Aqua-Dream
Copy link
Owner

你直接截图复制后粘贴到issue框里,它会自动上传的。

按你当前的目录,你确认下有没有config.py文件,是否和github一致?

@tomyu168
Copy link
Author

你直接截图复制后粘贴到issue框里,它会自动上传的。

按你当前的目录,你确认下有没有config.py文件,是否和github一致?

image

code以zip形式下载下来解压,除了config.json其他都没有改动过

@Aqua-Dream
Copy link
Owner

要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了

@tomyu168
Copy link
Author

要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了

不行啊,我试试看把python卸载了重新安装看看,很久很久以前安装的,昨天第一次上,说什么pip要更新,我看网上有些说版本问题有关系,我看看是不是通过conda安装能够玄学一下

@tomyu168
Copy link
Author

要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了

兄弟,我重新安装python3.9莫名其妙解决了,但是又有了新问题。
image
image

执行了命令,爬不出东西,只有一次爬了10页,这个爬虫是从最早的帖子开始爬吗?
image

@tomyu168
Copy link
Author

哥,目前测试了下发现只有开全局代理时,爬虫能够正常工作,但是运行时间巨慢,5分钟爬一页已经是极限了,看看问题出在哪里呢,不开代理什么都爬不出来

@Aqua-Dream
Copy link
Owner

  1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。
  2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。

@tomyu168
Copy link
Author

  1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。
  2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。

不懂,什么是ip被baidu拉黑啊哥,我正常可以不通过代理浏览百度贴吧,反倒是开了代理上不了百度贴吧,但是运行这个爬虫程序就必须开代理才行,哥您是在云服务器运行这个爬虫的吗?

@tomyu168
Copy link
Author

  1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。
  2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。

哥,我去查了下好像setting.py里面设置user agent 或者proxy_pool可能解决这个问题,我等下试试看

@tomyu168
Copy link
Author

哥,前天狂肝到凌晨4点终于成了,配合了另外一个github的项目获取动态ip验证拉黑,设置随机时间延迟
image

image

image

image

还是多谢哥的指点

@tomyu168
Copy link
Author

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

@jiaaaaaaaaaa
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

@tomyu168
Copy link
Author

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

啊呀,不好意思之前手机看到忘记回了,https://github.com/jhao104/proxy_pool 你去把这个搞一下,获取动态ip池的一个应用,搞好了就可以得到一组动态ip,然后找个scrapy proxy的工具把这个ip集合填进去,有的是配置文件也有的填数组。

@tomyu168
Copy link
Author

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

@almost-zhengming
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

python小白 可以介绍一下怎么设置这个代理么?

@almost-zhengming
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

如果方便的话您留一个联系方式可以么?请教一下这个问题

@almost-zhengming
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

已经解决了,看了一天资料

@codinghahaha
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

大佬能把代码发我吗

@Crescentz
Copy link

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用

大佬,可以告诉我怎么弄的吗,或者直接发我代码如何?

我试验过好多个github上的动态ip池应用,好像就这个是有效的,不过作用有限,毕竟免费的,如果你要稳定的那得去买相关的服务了,你可以免费的先试试看,那先代理scrapy的应用基本都没毛病,把ip集合填充进去就好了,我测试下来是一小时大概抓取15页左右。

请问可以发一下添加代理的代码么

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants