Skip to content

bilibiliHack/bilibiliCid

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bilibili CID抓取

抓取程序用NodeJS写的,写的很烂,如果用逼得依赖的包能直接减少相当多的代码,并且在网络堵塞中丢失了部分CID数据。

抓取程序

由于程序非常简单,也就没有用NPM进行管理。写的很烂,不过“能捉到老鼠的就是好猫”嘛。总之数据是基本都回来了。

  • data 储存数据的路径
  • node_modules nodejs的依赖项
  • cid.js 进行抓取的主程序,抓取的进度会保存在state这个文件里面
  • cid-sql.js 把数据导入mysql用的

数据

这次的抓取是在2015年7月初进行的,抓取时间一共持续了接近一个星期。大多数数据都是在一台阿里云的服务上获得的。由于服务器不是我的,而抓取的原始数据里面已经包含了IP地址,我这里就不放出来了。

我这里放出来已经导出的MySQL的数据好了。一共前390W CID

About

bilibili CID 抓取(包含数据)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published