In [1]:
import re  # 正则表达式提取文本
import requests  # 爬虫发送请求
from bs4 import BeautifulSoup as BS  # 爬虫解析页面
import time
import pandas as pd  # 存入csv文件
import os

In [2]:
def get_real_time(v_str):
    """弹幕出现时间: 把秒转换为时分秒"""
    total_seconds = int(v_str.split('.')[0])
    second = total_seconds % 60
    hour = total_seconds // 60 // 60
    minute = total_seconds // 60 % 60
    ret_time = str(hour)+"时"+str(minute)+"分"+str(second)+"秒"
    print(ret_time)
    return ret_time

In [3]:
def get_bilibili_danmu(v_url, v_result_file):
    """
    爬取B站弹幕
    :param v_url: 视频地址
    :param v_result_file: 保存文件名
    :return:
    """
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)", }
    print('视频地址是：', v_url)
    r1 = requests.get(
        url='https://api.bilibili.com/x/player/pagelist?bvid='+bv, headers=headers)
    html1 = r1.json()
    cid = html1['data'][0]['cid']  # 获取视频对应的cid号
    print('该视频的cid是:', cid)
    danmu_url = 'http://comment.bilibili.com/{}.xml'.format(cid)  # 弹幕地址
    print('弹幕地址是：', danmu_url)
    r2 = requests.get(danmu_url)
    html2 = r2.text.encode('raw_unicode_escape')  # 编码格式
    soup = BS(html2, 'xml')
    danmu_list = soup.find_all('d')
    print('共爬取到{}条弹幕'.format(len(danmu_list)))
    video_url_list = []  # 视频地址
    danmu_url_list = []  # 弹幕地址
    time_list = []  # 弹幕时间
    time_loc_list = []  # 弹幕出现位置
    text_list = []  # 弹幕内容
    for d in danmu_list:
        data_split = d['p'].split(',')  # 按逗号分隔
        temp_time = time.localtime(int(data_split[4]))  # 转换时间格式
        danmu_time = time.strftime("%Y-%m-%d %H:%M:%S", temp_time)
        video_url_list.append(v_url)
        danmu_url_list.append(danmu_url)
        time_list.append(danmu_time)
        time_loc_list.append(get_real_time(v_str=data_split[0]))
        text_list.append(d.text)
        print('{}:{}'.format(danmu_time, d.text))
    df = pd.DataFrame()  # 初始化一个DataFrame对象
    df['视频地址'] = video_url_list
    df['弹幕地址'] = danmu_url_list
    df['弹幕时间'] = time_list
    df['弹幕出现位置'] = time_loc_list
    df['弹幕内容'] = text_list
    if os.path.exists(v_result_file):  # 如果文件存在，不需写入字段标题
        header = None
    else:  # 如果文件不存在，说明是第一次新建文件，需写入字段标题
        header = ['视频地址', '弹幕地址', '弹幕时间', '弹幕出现位置', '弹幕内容']
    df.to_csv(v_result_file, encoding='utf_8_sig', mode='a+',
              index=False, header=header)  # 数据保存到csv文件

In [4]:
# 保存数据的文件名
csv_file = '谷爱凌弹幕.csv'

In [5]:
# 如果存在csv文件，先删除，避免数据重复
if os.path.exists(csv_file):
    print('{}已存在，开始删除文件'.format(csv_file))
    os.remove(csv_file)
    print('{}已删除文件'.format(csv_file))

谷爱凌弹幕.csv已存在，开始删除文件
谷爱凌弹幕.csv已删除文件


In [6]:
# "谷爱凌"弹幕数较多的视频Bv号
bv_list = ['BV1YY41157dk', 'BV13r4y1h7jP',
           'BV1Np4y1B79t', 'BV1n64y1D7zT', 'BV1gR4y1777Q']

In [7]:
# 开始爬取
for bv in bv_list:
    get_bilibili_danmu(
        v_url='https://www.bilibili.com/video/{}'.format(bv), v_result_file='谷爱凌弹幕.csv')

视频地址是： https://www.bilibili.com/video/BV1YY41157dk
该视频的cid是: 503862594
弹幕地址是： http://comment.bilibili.com/503862594.xml
共爬取到119条弹幕
0时1分32秒
2022-05-17 15:33:20:金色的冰墩墩！好唉！！
0时0分14秒
2022-03-16 19:27:37:恭喜获得金色冰墩墩!
0时0分37秒
2022-03-14 22:14:00:正版冰墩墩plus
0时0分33秒
2022-02-15 22:03:33:冰墩墩！你有主了！
0时0分22秒
2022-02-13 16:00:48:谷爱凌真的很优秀
0时0分1秒
2022-02-13 11:58:24:哇～金色传说
0时0分6秒
2022-02-13 11:55:33:恭喜恭喜！！！！
0时0分31秒
2022-02-12 19:52:49:谷爱凌
0时1分8秒
2022-02-18 12:49:10:完美收官
0时0分8秒
2022-02-14 03:06:22:哇这弹幕绝了，冰墩墩爱了
0时0分3秒
2022-02-13 22:32:05:谷爱凌＝520
0时1分27秒
2022-02-12 08:49:14:大家既是对手也是朋友
0时0分37秒
2022-02-11 15:16:38:谷爱凌
0时0分31秒
2022-02-11 14:28:50:自信的中国人是最美的！！！
0时0分50秒
2022-02-11 06:07:18:谷爱凌！！
0时1分28秒
2022-02-10 23:05:30:我想要冰墩墩
0时1分40秒
2022-02-10 22:21:01:太优秀了
0时0分7秒
2022-02-10 20:00:20:这个弹幕是冰墩墩也太可爱了吧
0时1分27秒
2022-03-22 19:31:48:冰墩墩
0时0分32秒
2022-02-24 15:27:03:哇，这字幕好可爱
0时1分33秒
2022-02-11 16:00:06:谷爱凌太棒了！
0时0分10秒
2022-02-11 00:23:56:爱凌姐姐永远的神！！！
0时0分59秒
2022-02-10 20:02:46:谷爱凌！！！！！！
0时0分38秒
2022-02-10 19:59:11:

2021-06-12 21:43:40:中国现在的伟人多的数不清，不过都是站在键盘上的罢了
0时6分59秒
2021-06-12 00:18:47:哇好帅
0时6分39秒
2021-06-10 23:48:22:政治作秀
0时0分19秒
2021-05-12 18:19:11:这个好看？
0时4分6秒
2021-04-23 05:53:16:厉害，
0时4分1秒
2021-04-07 21:17:30:键盘侠啥都厉害
0时1分27秒
2021-04-03 20:30:54:加油
0时7分3秒
2021-03-28 11:54:45:支持谷爱凌
0时2分57秒
2021-03-27 15:14:49:卧槽
0时7分23秒
2021-03-27 14:51:26:加油！祝福！
0时5分59秒
2021-03-27 10:25:17:？？？
0时1分7秒
2021-03-25 13:35:09:厉害！
0时4分48秒
2021-03-19 18:26:37:少年班不符合国情？？你自己没能力就不要质疑国家
0时3分29秒
2021-03-16 16:46:53:斯坦福？
0时3分47秒
2021-03-15 20:24:34:键盘侠有立场？
0时1分44秒
2021-03-15 18:26:42:有钱能第一嘛？
0时6分34秒
2021-03-14 13:26:26:说国籍不能代表什么的话不敢认同，但是很多海外华侨华人有中国心我绝对认同，但也有很多华奸。
0时0分52秒
2021-03-13 18:29:10:基因很好？
0时7分5秒
2021-03-05 14:49:00:加油加油加油
0时0分55秒
2021-03-02 22:17:16:离谱
0时7分32秒
2021-02-27 02:02:40:谷爱凌
0时0分55秒
2021-02-16 18:49:46:nb
0时3分26秒
2021-02-13 19:57:27:？？？？
0时3分30秒
2021-02-12 15:23:24:玩儿不起滑雪可以玩儿别的。说滑雪玩儿不起的有钱也不会去玩儿。玩儿点儿别的吧，别只撒尿和泥就好。
0时4分56秒
2021-02-07 10:06:00:杨振宁是做基础科学的，需要大量资金且不能在短期看到成果，那时中国可无法提供这些
0时2分13秒
2021-02-04 17:56:41

该视频的cid是: 311593147
弹幕地址是： http://comment.bilibili.com/311593147.xml
共爬取到1200条弹幕
0时2分48秒
2022-02-27 18:32:48:卧槽，让我感到了人间的参差
0时3分4秒
2022-02-20 00:14:35:比完了，两金一银！
0时3分0秒
2022-02-19 13:02:03:穿越回来，她在北京冬奥会拿了2金1银！
0时2分53秒
2022-02-19 01:47:46:大佬带飞
0时1分43秒
2022-02-15 08:48:11:《摆满了整个屋子》
0时0分6秒
2022-02-13 23:51:17:开幕暴击
0时2分57秒
2022-02-12 00:16:39:别给人家那么大压力谢谢
0时3分0秒
2022-02-11 04:49:49:已经夺得一枚金牌了
0时3分2秒
2022-02-11 02:14:02:一人撑起半边天
0时2分56秒
2022-02-10 23:40:58:现代版的，美貌与智慧并重，圆形战士
0时1分26秒
2022-02-10 11:38:20:希望不要冠以天才之名，这回抹灭她的努力与坚持
0时1分14秒
2022-02-10 08:59:58:父亲后来是谷歌创始人之一
0时0分19秒
2022-02-09 22:03:47:真正的天才美少女
0时1分13秒
2022-02-09 13:07:27:果然遗传基因太强大
0时2分9秒
2022-02-09 12:59:47:刘亦菲：我是亚洲人
0时0分18秒
2022-02-08 21:39:17:我在意林上看到爱凌的，但是我那本意林现在还没找到
0时0分28秒
2022-02-08 18:02:08:这爽朗的笑声，超级自信啊。爱了
0时0分18秒
2022-02-08 14:18:36:00后凡尔赛的终极天花板
0时3分9秒
2022-02-08 13:28:22:满级大佬加盟新手村
0时2分56秒
2022-02-08 13:09:47:今天，公主夺金！
0时1分24秒
2022-02-08 12:49:32:猫猫立大功
0时3分8秒
2022-02-08 12:41:01:今天夺冠了，2月8日
0时3分12秒
2022-02-08 12:17:26:希望她在比赛中获得佳绩的同时平平

0时0分51秒
2021-07-30 10:38:40:比我只大2年
0时2分22秒
2021-07-30 10:24:42:2022年北京冬奥会，在自己的主场加油拿个全金
0时1分58秒
2021-07-30 07:20:32:欢迎回家 
0时3分39秒
2021-07-30 03:05:11:现实中的艾莎！
0时2分0秒
2021-07-30 02:32:39:欢迎回家
0时3分44秒
2021-07-29 23:08:07:U型池字由滑就是没有雪仗的
0时0分42秒
2021-07-29 22:43:39:看似平凡……
0时3分38秒
2021-07-29 22:35:50:致敬
0时1分58秒
2021-07-29 21:58:27:希望美国为祖国培养更多的人才
0时2分19秒
2021-07-29 21:29:09:自我认知是中国人就是中国人
0时0分42秒
2021-07-29 20:10:04:同年同月⊙∀⊙！
0时0分7秒
2021-07-27 21:01:51:太可爱啦
0时0分9秒
2021-03-22 22:07:25:好厉害
0时0分7秒
2021-03-20 17:59:04:厉害
0时0分1秒
2021-03-19 21:20:05:行，比我念的好
0时0分2秒
2022-04-08 20:38:58:呵呵，它没放弃
0时2分58秒
2022-02-27 23:25:56:大佬
0时1分7秒
2022-02-19 11:38:30:直接SSR
0时0分16秒
2022-02-18 14:32:14:说实话，这凤凰我都念不好。
0时0分15秒
2022-02-15 06:02:52:西方基因，大国荣耀！
0时1分55秒
2022-02-10 22:33:56:格局爆炸
0时2分31秒
2022-02-10 20:10:02:哇太厉害了！！！！
0时0分8秒
2022-02-10 08:58:40:华籍美人
0时3分10秒
2022-02-09 13:11:12:拍电影去吧长那么美
0时3分19秒
2022-02-09 12:18:53:有金牌！-2022-2.9
0时1分42秒
2022-02-09 00:20:23:哦阔
0时3分35秒
2022-02-08 22:05:05:别人家的孩子咋就这么优秀呢？
0时3分41秒
2022-02-

该视频的cid是: 503836343
弹幕地址是： http://comment.bilibili.com/503836343.xml
共爬取到18条弹幕
0时0分15秒
2022-03-06 11:58:12:OHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
0时0分12秒
2022-02-11 00:11:07:牛壁！
0时0分17秒
2022-02-10 21:45:43:太棒了这个弹幕，爱凌加油！
0时0分2秒
2022-02-10 13:22:29:你永远可以相信谷爱凌
0时0分4秒
2022-02-10 19:17:46:蛙，这个弹幕好帅
0时0分13秒
2022-02-10 13:28:33:谷爱凌值得！(✪▽✪)
0时0分11秒
2022-08-19 02:36:05:谷爱凌
0时0分8秒
2022-08-19 02:35:52:加油加油
0时0分6秒
2022-08-18 01:06:12:抱抱我的公主
0时0分6秒
2022-02-20 16:28:30:太厉害了！！
0时0分6秒
2022-02-10 18:16:57:杂毛终结者
0时0分10秒
2022-02-10 15:59:37:牛逼！！！！！！！！！
0时0分17秒
2022-02-10 22:12:31:谷爱凌太棒了！
0时0分6秒
2022-02-10 12:34:48:简直太帅啦
0时0分4秒
2022-02-11 02:34:50:谷爱凌NB!!
0时0分20秒
2022-02-16 18:28:02:太棒啦
0时0分20秒
2022-02-14 23:45:40:帅
0时0分9秒
2022-02-10 19:44:52:谷爱凌最棒！！！
