Skip to content
/ spiders Public

针对多种形态的网站,展示针对性的基础抓取方案。

Notifications You must be signed in to change notification settings

CUCSec/spiders

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬虫演示

针对静态、ajax以及HTTP API三种不同技术方案的网站进行抓取演示。

演示的抓取目标为 https://github.com/CUCSec/simple-flask-website

其中对应关系如下:

static_website_spider/simple_spider.py -> simple-flask-website/static_website/

dynamic_website_spider/spider_with_selenium.py -> simple-flask-website/dynamic_website/

dynamic_website_spider/spider_with_api.py -> simple-flask-website/dynamic_website/

后两个的区别详见 dynamic_website_spider/README.md

最后的 scrapy 是一个演示如何使用 scrapy 来实现持久化大量数据抓取的例子。

About

针对多种形态的网站,展示针对性的基础抓取方案。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages