Skip to content

爬取了B站文章的数据,每条数据包括标题、内容、分类、阅读量、点赞、收藏、分享、回复数等

License

Notifications You must be signed in to change notification settings

Justin3go/Bili_Spider-bili_dataset-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bili_Spider-bili_dataset-

爬取了B站文章的数据,每条数据包括标题、内容、分类、阅读量、点赞、收藏、分享、回复数等 你可以点击这里(提取码:l92b)获取数据清理后的数据,原数据在下方的链接中

Crawler1:

这个爬虫项目是爬取的B站文章加标题的数据:

格式为:

image

每三行一条数据,id下面一行为空的代表已经被用户删除的数据,是无效数据;

你可以在这里获取我已经爬好了的10万条未经过任何处理的数据(提取码:kgzp );

Clawler2:

这个爬虫项目是发现前面那点数据有点不够就单独再爬的一次

其中包含了每篇文章的观看数目(view)、收藏数(favorite)、点赞数(like)、回复数(reply)、分享数(share)、投币数(coin)、不喜欢数(dislike)这些数据

你可以从这里获取10万条这个数据(提取码:j6ta );

格式为:

image

每一行就是一条数据,从左到右一次是ID、view、favor、like、reply、share、coin、dislike,中间以空格分隔。

注:我并没有爬取完B站的数据,大概到2021/3/11,B站的文章有1亿条左右(包括空的被删除的数据)需要的可以自己爬取,Crawler1不需要延时也不需要买代理,Crawler2在不延时的情况下会被检测,需要买代理,但在延时1秒的时候是可以一直爬取的,我这里是用的后面的一种方法,毕竟只是来试试手;

使用

如果你需要使用代码去爬取数据,可以参考以下流程:

step1: pip install scrapy

step2: cd /爬虫项目的路径/ e:cd C:??????\Crawler1\bili

step3: 选择你需要爬取的数据的区间,在Crawler2\bili1\bili1\spiders\other_data.py或Crawler1\bili\bili\spiders\bili_data.py中

修改image 里面的标记数字为你的开始位置(建议从1000 000开始)

修改image 里面的数字为你的结束位置(目前的的大约是在 101 000 000左右) 相当于在这1亿条数据里面选择一个区间进行爬取;

step4: 输入scrapy crawl other_data 或 scrapy crawl bili_data 开始爬取

step5:(可选)在setting.py文件里面设置延时,预定义crawler1的延时为0,crawler2的延时为1秒,如果你需要大量数据,建议买代理池;

About

爬取了B站文章的数据,每条数据包括标题、内容、分类、阅读量、点赞、收藏、分享、回复数等

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages