# 通过API获取字幕

这是一个通过API来获取B站CC字幕的方法，使用jupyter notebook进行每一步代码的验证，因此代码的正确性能够保障。虽然每一步都能正确运行，但是本人在抓取过程中也发现了代码在很多地方的不足，如
- `cookie`的获取，如果`cookie`缺失或失效，API很难返回字幕url，为空，或者根本没有这一属性
- `headers`散乱，每一步请求都最好带上`headers`，这样也不容易请求失败
- 需要重写一个请求函数，因为请求次数较多，将所有参数都封装为一个函数会更为整洁易读

请求过程：

1. 获取`bili_info`使用api：https://api.bilibili.com/x/web-interface/view

   获取`tag`使用api：https://api.bilibili.com/x/web-interface/view/detail/tag

2. 获取`cid`使用api：https://api.bilibili.com/x/player/pagelist?bvid='+bvid

3. 加上`cid`获取json使用api：https://api.bilibili.com/x/player/v2?bvid={bvid}&cid={cid}

4. api返回字幕url：response.json()['data']['subtitle']['subtitles'] -> `subtitle_url`

5. 最后使用`subtitle_url`获取字幕json

## 抓取基本信息
通过`bili_info()`和`bili_tags()`获得视频名称、up主、标签等信息

In [1]:
import requests

# 加上请求头，否则经常报错412
cookie = "buvid3=5469CAA4-3327-6817-C110-63EC4C48A2B841595infoc; b_nut=1690905941; i-wanna-go-back=-1; _uuid=D12D3DD8-A212-6C5D-B11C-B981056FBDBAC42037infoc; FEED_LIVE_VERSION=V8; DedeUserID=631081975; DedeUserID__ckMd5=8480d8688fb0d91c; CURRENT_FNVAL=4048; buvid4=F5C72193-655E-A103-CF78-0D472A9B9E7042640-023080200-S1vCeaCWwH6m%2B4KHu4XUBQ%3D%3D; hit-new-style-dyn=1; hit-dyn-v2=1; header_theme_version=CLOSE; home_feed_column=5; rpdid=|(kmJYkYmJJJ0J'uYmuJmJkY); b_ut=5; CURRENT_QUALITY=112; enable_web_push=DISABLE; bsource=search_google; bp_article_offset_631081975=859991180132221012; fingerprint=31cedae465023077a9a68974b5b29f04; buvid_fp_plain=undefined; buvid_fp=31cedae465023077a9a68974b5b29f04; browser_resolution=1800-1008; PVID=5; SESSDATA=ae3a8f54%2C1716175064%2Ce3e49%2Ab2CjBHKHEYjbEDIXilb6TpFZ3DRt6ayI8zxe6UlDTZpfGEbVlu1ugKGCeEDweifDiUFW4SVlp5UHczVHJibVI0OTdHMFc4TXdraVlONEZ5aWN6VkJjOXowNnZjWGxiQ3hnUW5ZSWpwaVUwRDhub09kODRZMlBsaTVibmFxd2R5M1c5b2EwMGhtbmlnIIEC; bili_jct=3208e9e6aa22067a9cf8d8541e23c6ed; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MDA4ODIyNzgsImlhdCI6MTcwMDYyMzAxOCwicGx0IjotMX0.Pn4xgTW_mv5zcX480n5RZ8WXGPRLuB02VuKNDSjAOi0; bili_ticket_expires=1700882218; sid=4t2204gr; b_lsid=975D43E5_18BF6F0CE4A; bp_video_offset_631081975=866793235808256086"
headers = {
    'authority': 'api.bilibili.com',
    'accept': 'application/json, text/plain, */*',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'origin': 'https://www.bilibili.com',
    'referer': 'https://www.bilibili.com/',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
    'cookie': cookie
    }

def bili_info(bvid):
    
    params = (
        ('bvid', bvid),
    )
    response = requests.get('https://api.bilibili.com/x/web-interface/view', params = params, headers = headers)
    # 为了防止报错了不知道，还是加上为好
    if response.status_code == 200:
        return response.json()['data']
    else:
        print('访问出错:')
        return response
def bili_tags(bvid):
    params = (
        ('bvid', bvid),
    )

    response = requests.get('https://api.bilibili.com/x/web-interface/view/detail/tag', params=params)
    data = response.json()['data']
    if data:
        tags = [x['tag_name'] for x in data]
        if len(tags) > 5:
            tags = tags[:5]
    else:
        tags = []
    return tags

In [1]:
## 尝试打印验证，并查看json格式
bvid = "BV1iN411g7zi"
bili_info(bvid)

NameError: name 'bili_info' is not defined

这里直接使用`data['title']`竟然会报错？不是很能理解

询问GPT后给出了使用`get()`方法就能正常输出了

多次执行后发现，这个报错貌似是随机的？

不过好在使用`get()`方法可以增加程序的容错率，不会导致报错了

前面的函数加上了headers舒服多了😮‍💨

In [3]:
# print('标题：', data['title'])
# print('up主：', data['owner']['name'])
# print('播放量：', data['stat']['view'])

data = bili_info(bvid)
print('标题：', data.get('title', 'N/A'))
print('up主：', data['owner'].get('name', 'N/A'))
print('播放量：', data['stat'].get('view', 'N/A'))

tags = bili_tags(bvid)
print(tags)

标题： 【万字解析】艾伦2000年的布局如何改变一切？始祖之力是这么用的！
up主： Mr丨Sun
播放量： 747078
['动漫杂谈', '自由之翼', '解析', '进击的巨人', '进击的巨人最终季']


## 抓取字幕json文件
在`player`接口中找到`subtitle_url`获取字幕信息并解析

In [6]:
# 这里是对视频cid的获取
def bili_player_list(bvid):
    url = 'https://api.bilibili.com/x/player/pagelist?bvid='+bvid
    response = requests.get(url, headers = headers)
    # 获取cid
    cid_list = response.json()['data'][0].get('cid')
    return cid_list

def bili_subtitle_list(bvid, cid):
    url = f'https://api.bilibili.com/x/player/v2?bvid={bvid}&cid={cid}'
    response = requests.get(url, headers = headers)
    returnjson = response.json()
    # 这里的subtitles中储存了字幕的url，用该url来访问字幕json文件
    subtitles = response.json()['data']['subtitle']['subtitles']
    # 如果有字幕的，则返回这些有字幕的链接，否则返回空，没有说明cookie不对或者根本就没有AI字幕，大概率是前者
    # 注意下面subtitles为list型变量，不能使用get方法
    if subtitles:
        return ['https:' + x['subtitle_url'] for x in subtitles]
    else:
        return []

In [7]:
# 调试
print('cid号：')
print(bili_player_list(bvid))
print('url:')
cid = bili_player_list(bvid)
bili_subtitle_list(bvid, cid)

cid号：
1327193156
url:


['https://aisubtitle.hdslb.com/bfs/ai_subtitle/prod/493246544132719315640ce73085f062ab2cf00c4fa1ca7e759?auth_key=1700658758-0f84714b0ad14c4e8823bbcf27b216c1-0-78f917dc53234f9e4d6bf82a1ffc5411']

试了半天一直报错，拿不到`cid`的值，直接浏览器中打开：

`https://api.bilibili.com/x/player/pagelist?bvid=BV1iN411g7zi`

In [None]:
url = "https://api.bilibili.com/x/player/pagelist?bvid=BV1iN411g7zi"
response = requests.get(url, headers = headers)
data = response.json()['data']
data

可以发现整个`data`都是被`[]`给框起来的，也就是说这是一个只有一个元素的数组，而其中的这一个元素为一个字典

因此在`['data']`后还得加上`[0]`，这样才能正确提取到字典变量


In [None]:
cid = data[0].get('cid')
cid

这下就能够成功提取出`cid`了！

接下来是提取字幕，但是字幕好像并非每次访问都提供，而且每次访问返回的结果都不一样，可以尝试提供cookie

url = "https://api.bilibili.com/x/player/v2?bvid=BV1gj411E7W3&cid=1332974538"

字幕json = "https://aisubtitle.hdslb.com/bfs/ai_subtitle/prod/4509055061332974538de0dec3ae60e296f7bdb57593ffdac23?auth_key=1700656435-f77b8048cc714d629486c77a6568b282-0-1bff5b52f5b0f18dfd38443e04429550"

In [11]:
def bili_subtitle(bvid, cid):
    # add cookies if necessary
    # 注意这里的subtitles数组中存放的是视频的url
    subtitles = bili_subtitle_list(bvid, cid)
    if subtitles:
        response = requests.get(subtitles[0], headers=headers)
        if response.status_code == 200:
            body = response.json()['body']
            return body
        else:
            print("请求错误：")
            return response.status_code
    return []

subtitle_text = bili_subtitle(bvid, bili_player_list(bvid))
subtitle_text

[{'from': 3.24,
  'to': 5.61,
  'sid': 1,
  'location': 2,
  'content': '帕拉蒂岛奇袭作战正在进行之中',
  'music': 0.0},
 {'from': 5.61,
  'to': 7.38,
  'sid': 2,
  'location': 2,
  'content': '为了在地名之前阻止艾伦',
  'music': 0.0},
 {'from': 7.38,
  'to': 9.309,
  'sid': 3,
  'location': 2,
  'content': '马来派出的小队进行阻击',
  'music': 0.0},
 {'from': 9.309,
  'to': 11.649,
  'sid': 4,
  'location': 2,
  'content': '兽之巨人即刻摆脱了兵长之后',
  'music': 0.0},
 {'from': 11.649,
  'to': 13.689,
  'sid': 5,
  'location': 2,
  'content': '按照和艾伦的约定来到了这里',
  'music': 0.0},
 {'from': 13.689,
  'to': 15.189,
  'sid': 6,
  'location': 2,
  'content': '等待和艾伦汇合',
  'music': 0.0},
 {'from': 15.189,
  'to': 16.619,
  'sid': 7,
  'location': 2,
  'content': '发动始祖之力',
  'music': 0.0},
 {'from': 16.619,
  'to': 18.719,
  'sid': 8,
  'location': 2,
  'content': '凯之巨人莱纳拼命阻止艾伦',
  'music': 0.0},
 {'from': 18.719,
  'to': 20.399,
  'sid': 9,
  'location': 2,
  'content': '却被对方用硬质化躲过',
  'music': 0.0},
 {'from': 20.399,
  'to': 21.359,
  'sid':

## 将json写入文本

现在提取得到的`subtitle_text`是一个以字典为元素的数组文件

In [15]:
subtitle_text[0]

{'from': 3.24,
 'to': 5.61,
 'sid': 1,
 'location': 2,
 'content': '帕拉蒂岛奇袭作战正在进行之中',
 'music': 0.0}

In [19]:
text_list = [x['content'] for x in subtitle_text]
text_list

['帕拉蒂岛奇袭作战正在进行之中',
 '为了在地名之前阻止艾伦',
 '马来派出的小队进行阻击',
 '兽之巨人即刻摆脱了兵长之后',
 '按照和艾伦的约定来到了这里',
 '等待和艾伦汇合',
 '发动始祖之力',
 '凯之巨人莱纳拼命阻止艾伦',
 '却被对方用硬质化躲过',
 '缩小成人身',
 '继续前进',
 '在帕拉迪岛小队的帮助下',
 '艾伦距离即刻仅仅一步之遥',
 '却被假币一枪命中',
 '千钧万发之际',
 '在命运的指引之下',
 '艾伦的头旋转着触碰到了极客',
 '这一瞬间',
 '发动始祖之力的要素齐全',
 '他进入了道路',
 '终于明白自己追寻的前方是什么',
 '也终于明白自己所经历的一切因何而起',
 '于是一场横跨了2000年的史诗',
 '就这样拉开了序幕',
 '有人或许会很疑惑',
 '为什么我要用这个时间点作为开头呢',
 '实际上',
 '因为巨人是一个环形叙事结构的故事决策',
 '在未来的决定会影响到过去发生过的事实',
 '所以居然并没有一个完整意义上的开头',
 '我选取的时间点是艾伦第一次发动始祖之力',
 '拥有改变过去的能力的开始',
 '想要理清楚一切',
 '我需要把艾伦发分成三个时间段',
 '青年艾伦代表一开始一无所知的艾伦觉醒',
 '艾伦代表从亲吻女王手背后',
 '获得了未来记忆碎片的艾伦始祖',
 '艾伦代表和吉克碰头后',
 '全知全能',
 '彻底掌握巨人之力',
 '可以去主导未来和过去的巨人',
 '看到了全部剧情',
 '并导演了这一切的艾伦',
 '我先把结论放出来',
 '巨人的几乎全部剧情',
 '都是由始祖艾伦一手打造的',
 '让我们开始吧',
 '艾伦从树下醒来',
 '他好像做了一个很长的梦',
 '梦里三里剪去了长发',
 '就好像看到小孩的玩具与鲜血',
 '他睁开眼和三笠一起回家了',
 '就在这一天',
 '莱纳和贝尔托特破坏了墙壁',
 '艾伦亲眼目睹自己的母亲被吃掉',
 '于是从心里发誓要把巨人全部驱逐出去',
 '加入了训练兵团的艾伦在5年后毕业',
 '此时巨人再次袭击第二道墙壁',
 '在战斗中',
 '艾伦发现了自己变身巨人的能力',
 '借此机会堵上了城门',
 '击退了巨人',
 '在调查巨人的过程中',
 '艾伦一伙被女巨人袭击之

In [22]:
text = '，'.join(text_list)
text

'帕拉蒂岛奇袭作战正在进行之中，为了在地名之前阻止艾伦，马来派出的小队进行阻击，兽之巨人即刻摆脱了兵长之后，按照和艾伦的约定来到了这里，等待和艾伦汇合，发动始祖之力，凯之巨人莱纳拼命阻止艾伦，却被对方用硬质化躲过，缩小成人身，继续前进，在帕拉迪岛小队的帮助下，艾伦距离即刻仅仅一步之遥，却被假币一枪命中，千钧万发之际，在命运的指引之下，艾伦的头旋转着触碰到了极客，这一瞬间，发动始祖之力的要素齐全，他进入了道路，终于明白自己追寻的前方是什么，也终于明白自己所经历的一切因何而起，于是一场横跨了2000年的史诗，就这样拉开了序幕，有人或许会很疑惑，为什么我要用这个时间点作为开头呢，实际上，因为巨人是一个环形叙事结构的故事决策，在未来的决定会影响到过去发生过的事实，所以居然并没有一个完整意义上的开头，我选取的时间点是艾伦第一次发动始祖之力，拥有改变过去的能力的开始，想要理清楚一切，我需要把艾伦发分成三个时间段，青年艾伦代表一开始一无所知的艾伦觉醒，艾伦代表从亲吻女王手背后，获得了未来记忆碎片的艾伦始祖，艾伦代表和吉克碰头后，全知全能，彻底掌握巨人之力，可以去主导未来和过去的巨人，看到了全部剧情，并导演了这一切的艾伦，我先把结论放出来，巨人的几乎全部剧情，都是由始祖艾伦一手打造的，让我们开始吧，艾伦从树下醒来，他好像做了一个很长的梦，梦里三里剪去了长发，就好像看到小孩的玩具与鲜血，他睁开眼和三笠一起回家了，就在这一天，莱纳和贝尔托特破坏了墙壁，艾伦亲眼目睹自己的母亲被吃掉，于是从心里发誓要把巨人全部驱逐出去，加入了训练兵团的艾伦在5年后毕业，此时巨人再次袭击第二道墙壁，在战斗中，艾伦发现了自己变身巨人的能力，借此机会堵上了城门，击退了巨人，在调查巨人的过程中，艾伦一伙被女巨人袭击之后，他们揭发了该巨人的身份，是与艾伦同期的亚尼，并且连带着发现墙内藏有的多个巨人，亚尼被捉住后，将自己包裹在水晶之中，调查兵团的其他两名成员，莱纳和贝尔托特分别表示，自己是盔甲巨人和超大型巨人，两人试图绑架艾伦却没有成功，过程中艾伦发现自己拥有的名为坐标的能力，可以控制其他巨人，此能力逼得莱纳和贝尔托特只能撤退，事件结束之后，艾伦加入了利威尔班，通过调查发现目前的国王其实只是一个傀儡，而真正的王不知所踪，最后希斯特利亚的父亲雷斯绑架艾伦，原来之前的王族被艾伦的父亲鼓励下所击败，并且吃掉，而鼓励下又将巨

## 将文本写入Markdown文件中


In [26]:
with open(f"{data.get('title')}.md", "w") as f:
   f.write(text)

成功抓取！可以在同目录下看到与视频标题相同的`markdown`文件了

## 一点点小问题和想法

最后是`cookie`的问题，在参考的链接中，这名开发者使用的方法是如果抓取失败，则返回要求输入`cookie`，但是我想更自动化一些，目前有两种思路：
- 将`cookie`存储在一个专门的文件中，这样方便替换
- 每次开始获取url前，自动从浏览器获取`cookie`，这样可以保证每次都能使用最新的`cookie`进行访问，只需要给一点点权限即可

最后感谢开发者们的无私奉献！简洁模块化的代码让我学到了很多


## 参考
- https://zhuanlan.zhihu.com/p/610250035
- https://github.com/DavinciEvans/chatGPT-Summary-Bilibili-To-Notion/blob/master/bili_subtitle_downloader/bili_subtitle_downloader.py