爬取了B站文章的数据,每条数据包括标题、内容、分类、阅读量、点赞、收藏、分享、回复数等 你可以点击这里(提取码:l92b)获取数据清理后的数据,原数据在下方的链接中
这个爬虫项目是爬取的B站文章加标题的数据:
每三行一条数据,id下面一行为空的代表已经被用户删除的数据,是无效数据;
你可以在这里获取我已经爬好了的10万条未经过任何处理的数据(提取码:kgzp );
这个爬虫项目是发现前面那点数据有点不够就单独再爬的一次
其中包含了每篇文章的观看数目(view)、收藏数(favorite)、点赞数(like)、回复数(reply)、分享数(share)、投币数(coin)、不喜欢数(dislike)这些数据
你可以从这里获取10万条这个数据(提取码:j6ta );
每一行就是一条数据,从左到右一次是ID、view、favor、like、reply、share、coin、dislike,中间以空格分隔。
注:我并没有爬取完B站的数据,大概到2021/3/11,B站的文章有1亿条左右(包括空的被删除的数据)需要的可以自己爬取,Crawler1不需要延时也不需要买代理,Crawler2在不延时的情况下会被检测,需要买代理,但在延时1秒的时候是可以一直爬取的,我这里是用的后面的一种方法,毕竟只是来试试手;
如果你需要使用代码去爬取数据,可以参考以下流程:
step1: pip install scrapy
step2: cd /爬虫项目的路径/ e:cd C:??????\Crawler1\bili
step3: 选择你需要爬取的数据的区间,在Crawler2\bili1\bili1\spiders\other_data.py或Crawler1\bili\bili\spiders\bili_data.py中
修改: 里面的标记数字为你的开始位置(建议从1000 000开始)
修改: 里面的数字为你的结束位置(目前的的大约是在 101 000 000左右) 相当于在这1亿条数据里面选择一个区间进行爬取;
step4: 输入scrapy crawl other_data 或 scrapy crawl bili_data 开始爬取
step5:(可选)在setting.py文件里面设置延时,预定义crawler1的延时为0,crawler2的延时为1秒,如果你需要大量数据,建议买代理池;