新手第一天用python，依赖的包都下载好了，运行scrapy run 沙发 aa #37

tomyu168 · 2021-07-14T15:52:40Z

结果报错，mysql5.7 数据库建好了，config.json修改过配置了，大哥帮忙看看怎么解决

Traceback (most recent call last):
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\runpy.py", line 193, in _run_module_as_main
"main", mod_spec)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\runpy.py", line 85, in run_code
exec(code, run_globals)
File "C:\Users\HP ENVY\AppData\Local\Programs\Python\Python36\Scripts\scrapy.exe_main.py", line 7, in
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 145, in execute
_run_print_help(parser, _run_command, cmd, args, opts)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 100, in _run_print_help
func(*a, **kw)
File "c:\users\hp envy\appdata\local\programs\python\python36\lib\site-packages\scrapy\cmdline.py", line 153, in _run_command
cmd.run(args, opts)
File "C:\Users\HP ENVY\Downloads\tie\tieba\commands\run.py", line 58, in run
cfg = config.config()
AttributeError: module 'config' has no attribute 'config'

tomyu168 · 2021-07-14T16:13:53Z

测试了scrapy官网的tutorial 案例运行没有问题

Aqua-Dream · 2021-07-15T02:20:40Z

请问执行scrapy run命令时，你的当前目录是什么？

tomyu168 · 2021-07-15T02:25:03Z

请问执行scrapy run命令时，你的当前目录是什么？

C:\Users\HP ENVY\Downloads\tie>scrapy run a tt

scrapy.cfg config.json所在目录

哥能不能加个qq方便截图，547301517，十分感谢

Aqua-Dream · 2021-07-15T02:28:41Z

你直接截图复制后粘贴到issue框里，它会自动上传的。

按你当前的目录，你确认下有没有config.py文件，是否和github一致？

tomyu168 · 2021-07-15T02:32:05Z

你直接截图复制后粘贴到issue框里，它会自动上传的。

按你当前的目录，你确认下有没有config.py文件，是否和github一致？

code以zip形式下载下来解压，除了config.json其他都没有改动过

Aqua-Dream · 2021-07-15T02:37:05Z

要不再试试把项目放到另一个目录中，目录的前缀不要带有空格的（比如别放到HP ENVY里）。如果还不行的话，我也不会了

tomyu168 · 2021-07-15T02:47:41Z

要不再试试把项目放到另一个目录中，目录的前缀不要带有空格的（比如别放到HP ENVY里）。如果还不行的话，我也不会了

不行啊，我试试看把python卸载了重新安装看看，很久很久以前安装的，昨天第一次上，说什么pip要更新，我看网上有些说版本问题有关系，我看看是不是通过conda安装能够玄学一下

tomyu168 · 2021-07-15T03:46:25Z

要不再试试把项目放到另一个目录中，目录的前缀不要带有空格的（比如别放到HP ENVY里）。如果还不行的话，我也不会了

兄弟，我重新安装python3.9莫名其妙解决了，但是又有了新问题。

执行了命令，爬不出东西，只有一次爬了10页，这个爬虫是从最早的帖子开始爬吗?

tomyu168 · 2021-07-15T04:22:01Z

哥，目前测试了下发现只有开全局代理时，爬虫能够正常工作，但是运行时间巨慢，5分钟爬一页已经是极限了，看看问题出在哪里呢，不开代理什么都爬不出来

Aqua-Dream · 2021-07-15T04:27:57Z

是按页数的顺序爬的，不过贴吧id是按发帖时间顺序排列，所以在数据库中看到的是旧帖在前。
这种情况应该是ip被百度拉黑了，代理换了ip所以不会被ban，但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决，暂时也不打算去讨论。

tomyu168 · 2021-07-15T04:31:32Z

是按页数的顺序爬的，不过贴吧id是按发帖时间顺序排列，所以在数据库中看到的是旧帖在前。

这种情况应该是ip被百度拉黑了，代理换了ip所以不会被ban，但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决，暂时也不打算去讨论。

不懂，什么是ip被baidu拉黑啊哥，我正常可以不通过代理浏览百度贴吧，反倒是开了代理上不了百度贴吧，但是运行这个爬虫程序就必须开代理才行，哥您是在云服务器运行这个爬虫的吗？

tomyu168 · 2021-07-15T05:37:58Z

是按页数的顺序爬的，不过贴吧id是按发帖时间顺序排列，所以在数据库中看到的是旧帖在前。

这种情况应该是ip被百度拉黑了，代理换了ip所以不会被ban，但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决，暂时也不打算去讨论。

哥，我去查了下好像setting.py里面设置user agent 或者proxy_pool可能解决这个问题，我等下试试看

tomyu168 · 2021-07-17T02:43:45Z

哥，前天狂肝到凌晨4点终于成了，配合了另外一个github的项目获取动态ip验证拉黑，设置随机时间延迟

还是多谢哥的指点

tomyu168 · 2021-07-17T03:23:56Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

jiaaaaaaaaaa · 2021-08-27T04:15:13Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

tomyu168 · 2021-09-11T16:10:16Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

啊呀，不好意思之前手机看到忘记回了，https://github.com/jhao104/proxy_pool 你去把这个搞一下，获取动态ip池的一个应用，搞好了就可以得到一组动态ip，然后找个scrapy proxy的工具把这个ip集合填进去，有的是配置文件也有的填数组。

tomyu168 · 2021-09-11T16:13:14Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

almost-zhengming · 2021-09-24T09:25:56Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

python小白可以介绍一下怎么设置这个代理么？

almost-zhengming · 2021-09-24T09:46:14Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

如果方便的话您留一个联系方式可以么？请教一下这个问题

almost-zhengming · 2021-09-26T03:54:54Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

已经解决了，看了一天资料

codinghahaha · 2021-11-29T11:53:04Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

大佬能把代码发我吗

Crescentz · 2022-01-21T08:27:16Z

不过用了这个办法之后速度大概是一小时不到10页，还有待多次测试看看更多问题，好像还是会卡可能是代理ip数不够用

大佬，可以告诉我怎么弄的吗，或者直接发我代码如何？

我试验过好多个github上的动态ip池应用，好像就这个是有效的，不过作用有限，毕竟免费的，如果你要稳定的那得去买相关的服务了，你可以免费的先试试看，那先代理scrapy的应用基本都没毛病，把ip集合填充进去就好了，我测试下来是一小时大概抓取15页左右。

请问可以发一下添加代理的代码么

Aqua-Dream mentioned this issue Nov 29, 2021

请问怎么加代理 #41

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

新手第一天用python，依赖的包都下载好了，运行scrapy run 沙发 aa #37

新手第一天用python，依赖的包都下载好了，运行scrapy run 沙发 aa #37

tomyu168 commented Jul 14, 2021

tomyu168 commented Jul 14, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 17, 2021

tomyu168 commented Jul 17, 2021

jiaaaaaaaaaa commented Aug 27, 2021

tomyu168 commented Sep 11, 2021

tomyu168 commented Sep 11, 2021

almost-zhengming commented Sep 24, 2021

almost-zhengming commented Sep 24, 2021

almost-zhengming commented Sep 26, 2021

codinghahaha commented Nov 29, 2021

Crescentz commented Jan 21, 2022

新手第一天用python，依赖的包都下载好了，运行scrapy run 沙发 aa #37

新手第一天用python，依赖的包都下载好了，运行scrapy run 沙发 aa #37

Comments

tomyu168 commented Jul 14, 2021

tomyu168 commented Jul 14, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

Aqua-Dream commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 15, 2021

tomyu168 commented Jul 17, 2021

tomyu168 commented Jul 17, 2021

jiaaaaaaaaaa commented Aug 27, 2021

tomyu168 commented Sep 11, 2021

tomyu168 commented Sep 11, 2021

almost-zhengming commented Sep 24, 2021

almost-zhengming commented Sep 24, 2021

almost-zhengming commented Sep 26, 2021

codinghahaha commented Nov 29, 2021

Crescentz commented Jan 21, 2022