Skip to content

bbbbx/Acfun_article_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Acfun_article_spider

A 站文章区爬虫,爬了近万篇文章(9996),时间跨度为 2015-07-22 至 2017-05-08。

数据在 Acfun_article_spider/ac_article.xls 中。

爬取过程:http://blog.venusworld.cn/用scrapy爬了A站文章区的一万篇文-爽-章-文/

词云可视化

提取每篇文章的标签并使用词云可视化数据:

images/wordcloud_01.png

images/wordcloud_03.png

images/wordcloud_02.png

如果对你有所帮助,不妨 ⭐️ Star 一下。 acfun_emotion

后记

A 站文章区的布局已经改版了,要抓文章的话根本不需要爬虫,通过抓 HTTP 包就可以知道请求文章的 API,一次 GET 请求可以获取 200 篇文章。

About

👾 A站文章区爬虫

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages