Skip to content

XinChou16/web-crawl

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

爬取网站JS库(web-crawl)

功能

  • 从 alexa.com 或者 alexa.cn 上的排行版获取 TopXXX 的网站列表,xxx 作为输入

  • 依次扫描这些网站,检查是否有页面使用了某个 JS 基础库,并记录 JS 文件引用地址

  • 封装为一个独立站点,作为开源 JS 软件使用率的一个第三方评估方,按照月或者季度粒度进行排名

  • 支持针对具体某个开源产品的使用量查询

  • 爬取 alexa.cn 上 top50 个站点,对 js 库的使用情况进行排名,并在前端以列表的方式显示出来,包括 js 库的名称缩写,次数,排名

  • 爬虫做成了定时任务,每日能定时执行一次

  • 前端能进行搜索,搜索显示特定库的情况

  • 支持分页显示

优点

  • 代码可读性强,代码设计合理

  • 爬虫有基本的反爬策略

  • 产品 用户体验顺畅

About

爬取网站JS库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published