将自动爬虫的结果判断是否属于hooks,属于则入库,并不断抓取url爬啊爬。
AutoHookSpider
├── LICENSE
├── README.md
├── hooks.txt #hooks字典,随机放了200个,可以自己收集。
├── lib
│ ├── __init__.py
│ ├── common.py #琐碎功能
│ └── record.sql #先在Mysql创建这个表,并改下common.py数据库连接
├── main.py #主程序
└── requirements.txt
- sudo pip install -r requirements.txt
- lib/record.sql into mysql
- usage: python main.py {Options} [ google.com,twitter.com,facebook.com | -t 20 ]
- 或者直接
python main.py
会直接在hooks.txt抽取(thread_cnt)个入口域名。