In [1]:
import re  # 正则表达式提取文本
import requests  # 爬虫发送请求
from bs4 import BeautifulSoup as BS  # 爬虫解析页面
import time
import pandas as pd  # 存入csv文件
import os

In [1]:
def get_bilibili_danmu(v_url, v_result_file):
    """
    爬取B站弹幕
    :param v_url: 视频地址
    :param v_result_file: 保存文件名
    :return:
    """
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)", }
    print('视频地址是：', v_url)
    r1 = requests.get(url='https://api.bilibili.com/x/player/pagelist?bvid='+bv, headers=headers)
    html1 = r1.json()
    cid = html1['data'][0]['cid']  # 获取视频对应的cid号
    print('该视频的cid是:', cid)
    danmu_url = 'http://comment.bilibili.com/{}.xml'.format(cid)  # 弹幕地址
    print('弹幕地址是：', danmu_url)
    r2 = requests.get(danmu_url)
    html2 = r2.text.encode('raw_unicode_escape')  # 编码格式
    soup = BS(html2, 'xml')
    danmu_list = soup.find_all('d')
    print('共爬取到{}条弹幕'.format(len(danmu_list)))
    video_url_list = []  # 视频地址
    danmu_url_list = []  # 弹幕地址
    time_list = []  # 弹幕时间
    text_list = []  # 弹幕内容
    for d in danmu_list:
        data_split = d['p'].split(',')  # 按逗号分隔
        temp_time = time.localtime(int(data_split[4]))  # 转换时间格式
        danmu_time = time.strftime("%Y-%m-%d %H:%M:%S", temp_time)
        video_url_list.append(v_url)
        danmu_url_list.append(danmu_url)
        time_list.append(danmu_time)
        text_list.append(d.text)
        print('{}:{}'.format(danmu_time, d.text))
    df = pd.DataFrame()  # 初始化一个DataFrame对象
    df['视频地址'] = video_url_list
    df['弹幕地址'] = danmu_url_list
    df['弹幕时间'] = time_list
    df['弹幕内容'] = text_list
    if os.path.exists(v_result_file):  # 如果文件存在，不需写入字段标题
        header = None
    else:  # 如果文件不存在，说明是第一次新建文件，需写入字段标题
        header = ['视频地址', '弹幕地址', '弹幕时间', '弹幕内容']
    df.to_csv(v_result_file, encoding='utf_8_sig', mode='a+',
              index=False, header=header)  # 数据保存到csv文件

In [3]:
# 保存数据的文件名
csv_file = '刘畊宏弹幕.csv'

In [4]:
# 如果存在csv文件，先删除，避免数据重复
if os.path.exists(csv_file):
    print('{}已存在，开始删除文件'.format(csv_file))
    os.remove(csv_file)
    print('{}已删除文件'.format(csv_file))

刘畊宏弹幕.csv已存在，开始删除文件
刘畊宏弹幕.csv已删除文件


In [5]:
# "刘畊宏"弹幕数较多的视频Bv号
bv_list = ['BV1Pa411v7vg', 'BV1t3411T7k6', 'BV1wY411P7cV', 'BV1fr4y1J7tL', 'BV1o44y1N7X9']

In [6]:
# 开始爬取
for bv in bv_list:
    get_bilibili_danmu(v_url='https://www.bilibili.com/video/{}'.format(bv), v_result_file='刘畊宏弹幕.csv')
print('爬虫程序执行完毕！')

视频地址是： https://www.bilibili.com/video/BV1Pa411v7vg
该视频的cid是: 574147025
弹幕地址是： http://comment.bilibili.com/574147025.xml
共爬取到781条弹幕
2022-05-17 23:43:34:哈哈哈哈哈哈姐姐家
2022-05-17 21:32:26:呜～
2022-05-17 11:10:15:这个弹幕好可爱呀哈哈哈
2022-05-16 22:38:30:已经累了哈哈哈哈
2022-05-16 21:52:48:曲对币有
2022-05-15 23:12:13:哈哈哈可爱
2022-05-15 23:02:09:哈哈哈哈哈我都够不着
2022-05-15 15:12:12:我是来听歌的哈哈哈哈
2022-05-15 14:08:19:姐姐这痛苦面具哈哈哈
2022-05-15 12:36:21:弹幕好好玩哈哈哈哈
2022-05-15 10:26:59:曲对币有
2022-04-28 17:04:39:腰间的最肉（哭doge
2022-04-28 13:44:57:我的心脏:你停不停，你不停我听（doge）
2022-04-24 22:21:19:屏幕前4000个人里有多少是坐着看的哈哈哈哈哈哈
2022-04-24 20:49:28:打卡第二天，循环33min，消耗307大卡
2022-04-21 18:46:38:周杰伦:终于不用放我的歌了  我听着都累
2022-04-21 01:03:54:姐姐开始翻白眼了哈哈哈哈哈
2022-05-18 12:43:46:哈哈哈
2022-05-18 12:31:37:6
2022-05-18 12:12:45:累死了
2022-05-18 12:03:22:这个弹幕是真的吗？
2022-05-18 12:00:22:666
2022-05-18 11:14:56:这个弹幕笑死我了
2022-05-18 11:13:11:哇哦！
2022-05-18 11:00:44:哇哦
2022-05-18 10:35:36:这个弹幕！！！
2022-05-18 10:33:10:哈哈哈
2022-05-18 10:26:00:针好啊
2022-05-18 10:19:28:我从现在开始要练腹肌了
2022-05-18 0

该视频的cid是: 580777276
弹幕地址是： http://comment.bilibili.com/580777276.xml
共爬取到7196条弹幕
2022-05-17 21:57:49:沐夜暖5.17打卡！！
2022-05-17 21:30:54:今天到此结束
2022-05-17 21:00:34:泡芙泡芙
2022-05-17 17:07:00:明天见~~！
2022-05-17 12:16:02:我凌乱了，再见哈哈哈
2022-05-16 22:11:26:5.16打卡成功
2022-05-16 21:53:31:完成，快乐
2022-05-16 21:31:03:我到现在了还在跳，居然还有9000加
2022-05-16 21:14:53:救命啊
2022-05-16 21:06:34:打卡完成！！361千卡
2022-05-16 20:58:55:打卡完成！！！
2022-05-16 20:24:44:累死我了 怎么才一半啊呜呜呜
2022-05-16 20:20:42:从头顺拐到尾
2022-05-16 20:18:25:牛爷爷！！
2022-05-15 21:52:01:哈哈哈，跳下来了，果然体力变好，之前30min就想停了，哇咔咔，还好坚持下来了
2022-05-15 21:10:19:被叼到！哈哈哈哈哈哈哈
2022-05-15 20:15:57:5.15打卡成功！！！！！！
2022-05-14 21:36:10:完整跟练！！！打卡
2022-05-14 20:58:25:255第一天打卡30min
2022-05-14 20:41:40:今天结束
2022-05-14 20:38:25:5.14打卡成功！！！！！！
2022-05-14 19:40:53:居然有7000人在一起做哈哈哈哈
2022-05-14 18:54:03:今天是防弹女孩！！！
2022-05-14 18:45:36:vv听起来不太想要人鱼线的样子哈哈哈
2022-05-14 17:18:57:妍总第14天39:00
2022-05-14 13:34:18:这点肚子跳的好痛啊哈哈哈哈哈哈
2022-05-14 09:49:09:5.14第17天打卡33”
2022-05-14 00:21:01:太累了，休息一下
2022-05-13 22:15:42:我跳

2022-05-11 20:37:42:不得要领
2022-05-11 20:37:41:啊啊啊啊啊
2022-05-11 20:36:22:今天就到这吧
2022-05-11 20:35:22:怎么还有啊
2022-05-11 20:35:12:好诶！
2022-05-11 20:34:05:口
2022-05-11 20:33:54:灵灵 来了
2022-05-11 20:32:32:妈妈 妈妈奶奶奶奶
2022-05-11 20:30:10:姐姐姐姐军军军军军军军军军军军军军军军军军军军军军军军军军军军军女
2022-05-11 20:29:32:0411c完成
2022-05-11 20:29:24:0411x
2022-05-11 20:28:43:MP3
2022-05-11 20:28:23:我结束了，不行了
2022-05-11 20:27:36:集客家扩军扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩扩㔿
2022-05-11 20:24:47:第一天打卡 21分钟
2022-05-11 20:19:05:打卡打卡
2022-05-11 20:16:41:好累啊
2022-05-11 20:14:23:1
2022-05-11 20:10:16:天呐
2022-05-11 20:09:52:打卡09
2022-05-11 20:09:13:第三天打卡
2022-05-11 20:07:55:力丸老公第十天
2022-05-11 20:04:39:弹幕好可爱
2022-05-11 19:58:28:王睿琦你在看吗
2022-05-11 19:58:14:第三天打卡
2022-05-11 19:54:43:？
2022-05-11 19:53:15:加油
2022-05-11 19:50:51:哈哈哈
2022-05-11 19:49:07:开动
2022-05-11 19:48:46:+15,今天搞多了5分钟
2022-05-11 19:44:09:哦哦哦
2022-05-11 19:42:26:好可爱的弹幕
2022-05-11 19:42:15:5/11 第9天打卡成功R
2022-05-11 19:42:10:啊
2022-05-11 19:41:59:海海
2022-05-1

2022-05-07 12:56:02:跟了一半，累成狗!
2022-05-07 12:55:32:哈哈哈哈哈哈这个弹幕
2022-05-07 12:54:58:芜湖芜湖
2022-05-07 12:54:17:累死了！！
2022-05-07 12:53:40:还好还好哈这个弹幕
2022-05-07 12:53:04:哈哈
2022-05-07 12:51:51:？
2022-05-07 12:49:49:这有啥好看？
2022-05-07 12:49:38:？
2022-05-07 12:49:19:这个弹幕
2022-05-07 12:48:26:？
2022-05-07 12:47:24:卧槽
2022-05-07 12:47:20:本草纲目呢
2022-05-07 12:46:43:哈哈哈哈
2022-05-07 12:46:23:好玩
2022-05-07 12:45:29:涨粉狂魔
2022-05-07 12:44:44:哈哈哈哈
2022-05-07 12:43:56:牛的
2022-05-07 12:43:46:？？？？
2022-05-07 12:43:11:Hi
2022-05-07 12:42:34:说是刘教练老婆的时候，明显听出自豪感
2022-05-07 12:41:23:这惊人的收藏率
2022-05-07 12:40:52:啊
2022-05-07 12:38:42:？
2022-05-07 12:38:14:打卡打卡
2022-05-07 12:37:37:。。
2022-05-07 12:37:19:第三天打卡
2022-05-07 12:34:41:太难了
2022-05-07 12:34:13:弹幕为啥这样了
2022-05-07 12:34:12:az
2022-05-07 12:34:00:？？？
2022-05-07 12:32:12:gogoGO
2022-05-07 12:31:10:哦耶
2022-05-07 12:30:35:我的腿要断了
2022-05-07 12:30:09:弹幕好牛
2022-05-07 12:29:39:真的有用吗
2022-05-07 12:28:04:好家伙
2022-05-07 12:26:19:！
2022-05-07 12:24:38:？
2022-05-07 12:23:53

2022-05-04 18:01:16:打卡第六天拉！
2022-05-04 18:00:40:我太难啦
2022-05-04 18:00:23:= =
2022-05-04 17:59:50:行
2022-05-04 17:59:39:0504c完成
2022-05-04 17:59:13:我估计他开了倍速班吧
2022-05-04 17:55:50:？
2022-05-04 17:55:39:哈哈哈
2022-05-04 17:55:25:哈哈哈哈
2022-05-04 17:50:20:倍速吗？
2022-05-04 17:50:19:今晚就练
2022-05-04 17:48:05:真的好欢乐呀
2022-05-04 17:47:24:6
2022-05-04 17:46:42:消逝的笑容
2022-05-04 17:45:23:第六天结束
2022-05-04 17:41:21:被发现了
2022-05-04 17:41:19:今天先到这里
2022-05-04 17:39:59:实在跟不上了
2022-05-04 17:35:01:第31分钟打卡，又进步了6分钟！！
2022-05-04 17:34:24:第一次跟刘老师的课，一个字“累”，两个字“真累”断断续续的好不容易跟完（玩）了。。（捂脸）
2022-05-04 17:31:41:炸宝！
2022-05-04 17:30:59:救命
2022-05-04 17:29:35:要没了
2022-05-04 17:26:51:别骂了
2022-05-04 17:26:41:就喜欢简单有效的
2022-05-04 17:24:29:《暖身》
2022-05-04 17:23:53:我已经累了
2022-05-04 17:22:53:暖身
2022-05-04 17:22:12:救命
2022-05-04 17:18:48:吓一吓
2022-05-04 17:16:10:黄仁俊打卡第七天
2022-05-04 17:14:26:哇哦
2022-05-04 17:11:08:芒果第六天！！
2022-05-04 17:06:14:费莱尼第二天
2022-05-04 17:06:01:s
2022-05-04 17:05:59:这他吗是暖身？
2022-05-04 17:03:11:已经踢不起来了…
2022-0

2022-05-02 16:03:04:不行了不行了，改天改天
2022-05-02 16:02:56:哈哈哈哈
2022-05-02 16:02:26:啊
2022-05-02 16:01:47:弹幕好酷
2022-05-02 15:58:06:躺着看
2022-05-02 15:57:34:惊了
2022-05-02 15:57:15:这个弹幕怎么搞的啊啊好高级
2022-05-02 15:57:13:也是绿色的衣服。
2022-05-02 15:57:01:第八天
2022-05-02 15:56:41:《暖身》
2022-05-02 15:56:40:『暖身』
2022-05-02 15:54:29:！好耶！
2022-05-02 15:52:23:人没了
2022-05-02 15:52:21:牛牛
2022-05-02 15:51:19:《暖身》
2022-05-02 15:47:08:比昨天多坚持了10分钟
2022-05-02 15:46:41:第二天打卡
2022-05-02 15:46:26:已经瘫了
2022-05-02 15:46:14:救命
2022-05-02 15:45:36:本草纲目
2022-05-02 15:44:43:累死了⊙﹏⊙
2022-05-02 15:43:49:芜湖
2022-05-02 15:42:46:《暖身》
2022-05-02 15:42:33:收藏夹吃灰
2022-05-02 15:41:52:第一天打卡到这里
2022-05-02 15:39:24:哈哈h哈哈哈
2022-05-02 15:37:27:看着就挺累的
2022-05-02 15:37:08:哈哈哈哈
2022-05-02 15:35:52:哇，这个弹幕～
2022-05-02 15:32:43:好家伙
2022-05-02 15:31:33:边说边做真的可以喘过来气吗
2022-05-02 15:29:51:！！！
2022-05-02 15:22:39:哈哈哈
2022-05-02 15:22:32:卧槽
2022-05-02 15:19:43:试图混入其中。
2022-05-02 15:19:32:好家伙
2022-05-02 15:18:19:弹幕好有意思哈哈哈哈哈哈哈哈哈
2022-05-02 15:16:15:炫酷！
2022-0

该视频的cid是: 584184364
弹幕地址是： http://comment.bilibili.com/584184364.xml
共爬取到1200条弹幕
2022-05-18 12:05:51:涨粉狂魔
2022-05-18 01:12:05:哈哈哈哈哈好可爱
2022-05-18 00:20:46:涨粉狂魔
2022-05-17 23:08:35:涨粉狂魔
2022-05-17 21:21:24:涨粉狂魔
2022-05-17 21:03:59:涨粉狂魔
2022-05-17 20:27:43:哈哈哈哈哈哈哈好可爱
2022-05-17 20:22:21:涨粉狂魔
2022-05-17 19:32:00:涨粉狂魔
2022-05-17 19:21:11:涨粉狂魔
2022-05-17 19:17:29:涨粉狂魔
2022-05-17 19:01:33:涨粉狂魔
2022-05-17 19:00:35:涨粉狂魔
2022-05-17 18:59:14:涨粉狂魔
2022-05-17 18:50:18:涨粉狂魔
2022-05-17 18:44:36:涨粉狂魔
2022-05-17 18:44:28:涨粉狂魔
2022-05-17 18:36:05:涨粉狂魔
2022-05-17 18:08:47:涨粉狂魔
2022-05-17 17:04:26:涨粉狂魔
2022-05-17 17:04:13:涨粉狂魔
2022-05-17 17:03:49:涨粉狂魔
2022-05-17 16:34:32:涨粉狂魔
2022-05-17 14:29:22:姐姐好可爱呀
2022-05-17 13:00:52:涨粉狂魔
2022-05-17 12:53:45:涨粉狂魔
2022-05-17 11:49:48:涨粉狂魔
2022-05-16 22:35:18:涨粉狂魔
2022-05-16 22:25:07:可爱哈哈哈哈
2022-05-16 21:56:35:涨粉狂魔
2022-05-16 17:30:46:涨粉狂魔
2022-05-16 17:22:37:涨粉狂魔
2022-05-16 17:18:56:哈哈哈痛苦面具
2022-05-16 17:08:15:哈哈哈哈好难
2022-05-16 16:42:28:哈哈哈哈哈龙拳我的一生之敌
2022-05-16 14:54

该视频的cid是: 581778148
弹幕地址是： http://comment.bilibili.com/581778148.xml
共爬取到1200条弹幕
2022-05-18 12:14:06:这身上是涂了风油精吗哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
2022-05-17 16:01:08:姐姐好可爱哈哈哈哈哈哈哈
2022-05-14 22:02:10:很累我知道哈哈哈哈
2022-05-14 15:03:54:哈哈哈哈哈看起来就累
2022-05-14 14:31:52:我是来听歌的
2022-05-14 00:40:20:涨粉狂魔
2022-05-13 23:20:05:vivi姐太可爱啦
2022-05-13 21:53:11:涨粉狂魔！
2022-05-13 21:43:21:我是来听歌的
2022-05-13 20:50:44:我是来听歌的
2022-05-13 12:57:43:看着就累了_(: 」∠)_
2022-05-13 11:46:37:弹幕-好卡哇伊哈哈哈
2022-05-12 23:20:46:我也来听歌的哈哈
2022-05-12 21:53:14:涨粉狂魔
2022-05-12 12:32:24: 我是来听歌的
2022-05-11 19:27:22:涨粉狂魔
2022-05-11 14:05:31:我是来听歌的
2022-05-11 08:36:09:我是来听歌的
2022-05-10 21:46:16:涨粉狂魔
2022-05-09 21:19:52:涨粉狂魔
2022-05-09 11:33:13:涨粉狂魔
2022-05-09 11:15:36:好累哈哈哈哈哈哈
2022-05-09 08:42:56:好可爱哈哈哈
2022-05-08 15:28:54:好狠～
2022-05-07 23:41:35:涨粉狂魔
2022-05-07 23:14:36:涨粉狂魔
2022-05-07 20:54:00:哈哈哈哈哈，心疼vivi
2022-05-07 17:24:41:我是来听歌的
2022-05-07 14:48:34:我来听歌的！啊哈哈哈
2022-05-07 14:44:36:记住现在姐姐的笑容哈哈哈哈哈
2022-05-07 12:25:06:涨粉狂魔
2022-05-07 11:02:56:涨粉狂魔
2022-

该视频的cid是: 558519967
弹幕地址是： http://comment.bilibili.com/558519967.xml
共爬取到556条弹幕
2022-05-16 22:17:58:呀呀呀好累呀呀呀!!!！
2022-05-01 22:07:38:弹幕都好可爱啊哈哈哈
2022-05-01 14:34:14:防弹的歌啊哈哈哈
2022-05-01 01:28:31:歌好听诶
2022-04-23 00:57:39:听到bgm立刻收藏哈哈哈
2022-04-22 13:05:29:我用手刀防御!
2022-04-21 23:36:41:果然健身是最好的护肤品，好年轻
2022-04-21 22:49:49:救命，是我减肥课的动作了，手开始酸了
2022-04-21 21:38:27:快把哥哥，小泡芙也抓来跳！哈哈
2022-04-21 20:28:37:竟然听到了炸宝呜呜我可以
2022-04-21 20:23:31:《春季里开花十四五六》
2022-04-21 14:14:48:救命啊，这才二分钟吗？？？我感觉一个小时都
2022-04-21 11:36:54:多看几遍就凑够时间了哈哈哈
2022-04-20 21:43:29:我跳顺拐了直接哈哈哈哈
2022-04-20 14:32:56:我也是躺着看完的哈哈哈
2022-04-20 00:54:28:vivi好坚强
2022-04-19 21:28:53:啊啊啊啊防弹的炸炸！！！！！！！！！！！！！！！
2022-04-19 21:24:22:后面老婆的表情太真实了哈哈哈
2022-04-19 18:22:25:想看小孩子们一起跳的亚子哈哈哈哈哈
2022-04-18 21:40:33:哈哈哈哈好真实
2022-04-18 19:59:25:对角线情侣装哈哈哈哈哈
2022-04-18 03:26:23:彩虹天堂的刘耕宏？
2022-04-18 00:04:52:逐渐跟不上哈哈哈
2022-04-18 00:04:20:可可爱爱的两人
2022-04-17 21:59:58:终于来了啊！！
2022-04-17 21:35:12:前面的哈哈哈我也是躺着看完的
2022-04-17 18:43:34:真的好好哈
2022-04-17 12:57:46:同求40分钟的！！！！这个太短了！！！
202