In [1]:
import re
from pathlib import Path
from bs4 import BeautifulSoup

bangumi_html = Path("bangumi.txt").read_text(encoding="utf-8")
soup = BeautifulSoup(bangumi_html, "html.parser")

id_name_mapping = {}
for subtitle in soup.select("div.item h2.subtitle"):
    anchor = subtitle.find("a", href=re.compile(r"^/character/\d+"))
    if not anchor:
        continue

    match = re.search(r"/character/(\d+)", anchor["href"])
    if not match:
        continue

    character_id = match.group(1)
    name = anchor.get_text(strip=True)
    id_name_mapping[character_id] = name

for character_id, name in id_name_mapping.items():
    print(f"{character_id}: {name}")


85978: 空
85979: 荧
86066: 派蒙
85762: 安柏
85765: 凯亚
85764: 丽莎
85970: 芭芭拉
85972: 雷泽
85983: 香菱
85981: 北斗
85984: 行秋
85982: 凝光
85975: 菲谢尔
85973: 班尼特
85974: 诺艾尔
85985: 重云
85976: 砂糖
85763: 琴
85971: 迪卢克
85987: 七七
85977: 莫娜
85986: 刻晴
85767: 温迪
85766: 可莉
86308: 达达利亚
86310: 迪奥娜
86292: 钟离
86309: 辛焱
89988: 阿贝多
86312: 甘雨
85980: 魈
91909: 胡桃
89100: 罗莎莉亚
94889: 烟绯
94890: 优菈
96352: 枫原万叶
86294: 神里绫华
98864: 宵宫
98865: 早柚
98862: 雷电将军
98863: 九条裟罗
98861: 珊瑚宫心海
99208: 托马
101819: 荒泷一斗
99210: 五郎
102831: 申鹤
102832: 云堇
99209: 八重神子
104088: 神里绫人
108989: 夜兰
108990: 久岐忍
110693: 鹿野院平藏
113127: 提纳里
111520: 柯莱
113128: 多莉
86326: 赛诺
115322: 坎蒂丝
115321: 妮露
112644: 纳西妲
116915: 莱依拉
94892: 流浪者
119351: 珐露珊
115744: 艾尔海森
86317: 瑶瑶
115743: 迪希雅
116431: 米卡
86311: 白术
126118: 卡维
127808: 绮良良
86327: 林尼
86328: 琳妮特
132773: 菲米尼
132778: 那维莱特
132777: 莱欧斯利
132779: 芙宁娜
129744: 夏洛蒂
132774: 娜维娅
142343: 夏沃蕾
99211: 闲云
148640: 嘉明
147835: 千织
113132: 阿蕾奇诺
132775: 克洛琳德
155205: 赛索斯
132776: 希格雯
158753: 艾梅莉埃
161147: 玛拉妮
161148: 卡齐娜
161149: 基尼奇
161152: 希诺宁
16

In [2]:
from pathlib import Path
from bs4 import BeautifulSoup

bwiki_html = Path("bwiki.txt").read_text(encoding="utf-8")
soup = BeautifulSoup(bwiki_html, "html.parser")

mapping = {
    '空': {
        "稀有度": '5星',
        "武器类型": '单手剑',
        "属性": [],
        "所属国家": '其它'
    },
    '荧': {
        "稀有度": '5星',
        "武器类型": '单手剑',
        "属性": [],
        "所属国家": '其它'
    }
}

for card in soup.select("#CardSelectTr div.divsort"):
    name_block = card.find("div", class_="L")
    if not name_block:
        continue

    name = name_block.get_text(strip=True)
    rarity = card.get("data-param1", "").strip()
    element = card.get("data-param2", "").strip()
    weapon = card.get("data-param3", "").strip()
    nation = card.get("data-param4", "").strip()

    if not name or not rarity:
        continue

    if nation == '其他':
        nation = '其它'

    if '旅行者' in name:
        if element in ('', '无', '与旅行者相同'):
            continue
        for traveler in ('空', '荧'):
            if element not in mapping[traveler]["属性"]:
                mapping[traveler]["属性"].append(element)
        continue

    mapping[name] = {
        "稀有度": rarity,
        "武器类型": weapon,
        "属性": element,
        "所属国家": nation
    }

for name, info in mapping.items():
    print(f"{name}: {info}")


空: {'稀有度': '5星', '武器类型': '单手剑', '属性': ['火', '水', '草', '雷', '风', '岩'], '所属国家': '其它'}
荧: {'稀有度': '5星', '武器类型': '单手剑', '属性': ['火', '水', '草', '雷', '风', '岩'], '所属国家': '其它'}
杜林: {'稀有度': '5星', '武器类型': '单手剑', '属性': '火', '所属国家': '蒙德'}
雅珂达: {'稀有度': '4星', '武器类型': '弓', '属性': '风', '所属国家': '挪德卡莱'}
奈芙尔: {'稀有度': '5星', '武器类型': '法器', '属性': '草', '所属国家': '挪德卡莱'}
奇偶: {'稀有度': '5星', '武器类型': '单手剑', '属性': '与旅行者相同', '所属国家': '其它'}
菲林斯: {'稀有度': '5星', '武器类型': '长柄武器', '属性': '雷', '所属国家': '挪德卡莱'}
菈乌玛: {'稀有度': '5星', '武器类型': '法器', '属性': '草', '所属国家': '挪德卡莱'}
爱诺: {'稀有度': '4星', '武器类型': '双手剑', '属性': '水', '所属国家': '挪德卡莱'}
伊涅芙: {'稀有度': '5星', '武器类型': '长柄武器', '属性': '雷', '所属国家': '挪德卡莱'}
丝柯克: {'稀有度': '5星', '武器类型': '单手剑', '属性': '冰', '所属国家': '其它'}
塔利雅: {'稀有度': '4星', '武器类型': '单手剑', '属性': '水', '所属国家': '蒙德'}
爱可菲: {'稀有度': '5星', '武器类型': '长柄武器', '属性': '冰', '所属国家': '枫丹'}
伊法: {'稀有度': '4星', '武器类型': '法器', '属性': '风', '所属国家': '纳塔'}
瓦雷莎: {'稀有度': '5星', '武器类型': '法器', '属性': '雷', '所属国家': '纳塔'}
伊安珊: {'稀有度': '4星', '武器类型': '长柄武器', '属性': '雷', '所属国家': '

In [3]:
id_info = {}
unmatched_names = []
for id_, name in id_name_mapping.items():
    if name in mapping:
        id_info[id_] = mapping[name]
    else:
        unmatched_names.append(name)

print('id_info:', id_info)
print('Unmatched names:', unmatched_names)

id_info: {'85978': {'稀有度': '5星', '武器类型': '单手剑', '属性': ['火', '水', '草', '雷', '风', '岩'], '所属国家': '其它'}, '85979': {'稀有度': '5星', '武器类型': '单手剑', '属性': ['火', '水', '草', '雷', '风', '岩'], '所属国家': '其它'}, '85762': {'稀有度': '4星', '武器类型': '弓', '属性': '火', '所属国家': '蒙德'}, '85765': {'稀有度': '4星', '武器类型': '单手剑', '属性': '冰', '所属国家': '蒙德'}, '85764': {'稀有度': '4星', '武器类型': '法器', '属性': '雷', '所属国家': '蒙德'}, '85970': {'稀有度': '4星', '武器类型': '法器', '属性': '水', '所属国家': '蒙德'}, '85972': {'稀有度': '4星', '武器类型': '双手剑', '属性': '雷', '所属国家': '蒙德'}, '85983': {'稀有度': '4星', '武器类型': '长柄武器', '属性': '火', '所属国家': '璃月'}, '85981': {'稀有度': '4星', '武器类型': '双手剑', '属性': '雷', '所属国家': '璃月'}, '85984': {'稀有度': '4星', '武器类型': '单手剑', '属性': '水', '所属国家': '璃月'}, '85982': {'稀有度': '4星', '武器类型': '法器', '属性': '岩', '所属国家': '璃月'}, '85975': {'稀有度': '4星', '武器类型': '弓', '属性': '雷', '所属国家': '蒙德'}, '85973': {'稀有度': '4星', '武器类型': '单手剑', '属性': '火', '所属国家': '蒙德'}, '85974': {'稀有度': '4星', '武器类型': '双手剑', '属性': '岩', '所属国家': '蒙德'}, '85985': {'稀有度': '4星', '武器类型': '双手剑', '属性': '冰

In [4]:
id_info['80855'] = mapping['埃洛伊']

In [None]:
import json

def make_tag_img(value):
    return f"<img src='/assets/tag/ys/{value}.png' alt='{value}' />"

extra_tags = {}

for id_, info in id_info.items():
    rarity = info['稀有度']
    weapon = info['武器类型']
    element = info['属性']
    nation = info['所属国家']

    # 元素属性 can be a list or a string
    if isinstance(element, list):
        element_dict = {e: make_tag_img(e)+e for e in element}
    else:
        element_dict = {element: make_tag_img(element)+element}

    extra_tags[id_] = {
        "_name": id_name_mapping[id_],
        "稀有度": {rarity: make_tag_img(rarity)},
        "属性": element_dict,
        "武器类型": {weapon: make_tag_img(weapon)+weapon},
        "所属": {nation: make_tag_img(nation)+nation if (nation != '其它' and nation != '至冬') else nation}
    }

with open("../../outputs/extra_tags/284157.json", "w", encoding="utf-8") as f:
    json.dump(extra_tags, f, ensure_ascii=False, indent=2)

: 