Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

能否增加一个爬虫入口(url列表) 像awvs一样,因为有一些页面爬虫爬不到? #31

Open
asdfasadfasfa opened this issue Feb 11, 2020 · 5 comments

Comments

@asdfasadfasfa
Copy link

能否增加一个爬虫入口(url列表) 像awvs一样,因为有一些页面爬虫爬不到?

@Qianlitp
Copy link
Owner

爬虫入口(url列表) 是指输入列表?还是指什么呢

@asdfasadfasfa
Copy link
Author

是的,输入列表,如果能增加输入列表,会引导爬虫去抓取一些爬虫本身发现不了的页面,另外crawlergo有一些bug,没法判断404页面,导致这些404页面也会一并输出。。。。

@djerryz
Copy link

djerryz commented Feb 26, 2020

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b
那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

@PIGfaces
Copy link
Contributor

PIGfaces commented May 13, 2022

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

目前我的方法是拼接, 比如 http://www.A.com, 已知了两个路径: /path_a,/path_b 那么命令为: crawlergo -c chrome http://www.A.com/ http://www.A.com/path_a http://www.A.com/path_b

有两个问题:

  1. 如果已知路径比较多, 手工拼接比较麻烦
  2. 这种拼接传参的方法和分开一个个执行得到的结果是一样? 还是说有差别,没有进行验证.

当然后期能有参数支持多路径作为入口最好不过.

vim /home/user/fuzz_dir.txt
/path_a
/path_b

可以通过 --fuzz-path-dict 配置,如:

crawlergo -c chrome --fuzz-path-dict /home/user/fuzz_dir.txt http://www.A.com/

但这个方式会覆盖掉内置的 fuzz-path, 若没有开启 --fuzz-path 可以尝试使用 --fuzz-path-dict 来指定

@Qianlitp
Copy link
Owner

Qianlitp commented Jul 5, 2022

#108

Repository owner deleted a comment from Arpitkandwal Feb 23, 2024
Repository owner deleted a comment from Dattakiranrao Feb 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants