博客园 用户blog爬虫 数据:https://imgss.github.io/demo/maxRead/
- 3-31 对3000条数据的随笔数进行分析。
- 4-8 爬取用户的最大阅读量的文章,用
async函数
控制并发. - 4-12 获取前3000名用户的最大阅读量的文章名,耗时:
50709.082ms
- 4-25 获取园龄
- 4-27 整理目录
node 3k
主要是涉及用cheerio
处理数据,将数据写到data.text
中
data.txt可以导入excel中进行分析。
node topview
抓取前3000名用户的最大阅读量的文章.
node yuanAge
获取用户的园龄
-
git clone demo 到本地
-
npm install
-
node index [你的url地址名]
如:
node index imgss
, 因为我的博客地址是https://home.cnblogs.com/u/imgss/
控制台会输出你博客的总阅读量 访问localhost:8080获取一周阅读量