A 站文章区爬虫,爬了近万篇文章(9996),时间跨度为 2015-07-22 至 2017-05-08。
数据在 Acfun_article_spider/ac_article.xls 中。
爬取过程:http://blog.venusworld.cn/用scrapy爬了A站文章区的一万篇文-爽-章-文/
提取每篇文章的标签并使用词云可视化数据:
A 站文章区的布局已经改版了,要抓文章的话根本不需要爬虫,通过抓 HTTP 包就可以知道请求文章的 API,一次 GET 请求可以获取 200 篇文章。



