In [86]:
import re

regex = {
    "h": re.compile(r"=+(.+?)=+"),
    "ul": re.compile(r"\*+(.+)："),
    "ol": re.compile(r"\#+(.+)："),
    "a": re.compile(r"\[\[([^文件].+?)\]\]"),
    "icon": re.compile(r"\{\{图标\|(.+?)\}\}"),
}


def save(file: str, data: set[str]):
    with open(file, "w", encoding="utf-8") as f:
        f.write("\n".join(data))


def clean(data: set[str] | list[str]) -> set[str]:
    result = set()
    for word in data:
        transformed_word = ""
        for char in word:
            if is_chinese(char):
                transformed_word += char
            else:
                break
        if len(transformed_word) > 1:
            result.add(transformed_word)

    return result


def is_chinese(char: str) -> bool:
    """检查字符是汉字

    参考: https://cloud.tencent.com/developer/article/1499958
    """
    assert len(char) == 1
    return "\u4e00" <= char <= "\u9fa5"


## 天体


In [6]:
with open("./source_天体.txt", "r", encoding="utf-8") as f:
    source = f.read()

source

'{{面包屑}}\n==主序星==\n主序星是分布在赫罗图对角线附近的主序带上的恒星，宇宙中大部分恒星都是主序星。\n{| class="wikitable wikitable-dsp" border=3 style="margin:10px auto;"\n!分类\n!级别\n!展示\n!style="width: 50em;"|描述\n|-\n|rowspan=2|红矮星\n|[[M型恒星]]||[[文件:M型恒星.png|125px|class=img-star]]\n|质量最低的一类恒星，光芒黯淡偏红，温度也不高。但由于其内部聚变反应速度缓慢，这类恒星的寿命极其漫长。在现有理论中，由于红矮星寿命超过宇宙年龄，当前宇宙中应该不存在红矮星衰老死亡后形成的天体\'\'\'黑矮星\'\'\'。\n\n在游戏中，M型恒星的亮度过低，在其周围建造戴森球是很不划算的。\n|-\n|[[K型恒星]]||[[文件:K型恒星.png|125px|class=img-star]]\n|由于红矮星生命漫长，所以这是宇宙间最常见的恒星，且其数量会随时间的延长而不断增加。由于数目众多，外星生命也有可能出现在这类星系中，但由于红矮星的宜居带太过靠近恒星，红矮星本身活动也不稳定，这里的外星生命将面临恒星活动频繁的考验。\n\n在游戏中，K型恒星的亮度小于1，通常不建议在其周围建造戴森壳，而戴森云因其造价较低，可用于满足星系内的能量需求。\n|-\n|rowspan=2|黄矮星\n|[[G型恒星]]||[[文件:G型恒星.png|125px|class=img-star]]\n|我们的母星太阳，以及游戏开始时抵达的[[地中海]]星球的恒星都是G型恒星，正因如此，G型恒星的光度系数被定义在“1”附近。\n\n由于G型恒星相对稳定，生命有足够时间去演化，因此这类恒星的星系是搜寻外星生命的重点。\n|-\n|[[F型恒星]]||[[文件:F型恒星.png|125px|class=img-star]]\n|F型黄白色的恒星，这类恒星的寿命一般只有30-80亿年，光度和温度都较之G型星更高\nF5以上的恒星，由于寿命短暂，生命可能没有足够的时间去演化\n|-\n|rowspan=3|蓝矮星\n|[[A型恒星]]||[[文件:A型恒星.png|125px|class=img-star]]\n|A型蓝白色

In [71]:
h = regex["h"].findall(source)
h


['主序星',
 '"wikitable wikitable-dsp" border',
 '巨星',
 '"wikitable wikitable-dsp" border',
 '恒星残骸',
 '"wikitable wikitable-dsp" border',
 '[[巨行星]]',
 '"wikitable wikitable-dsp" border',
 '[[岩质行星]]',
 '"wikitable wikitable-dsp" border',
 '相关概念',
 '行星词条',
 '动力学参量']

In [73]:
h = clean(h)
h


{'主序星', '动力学参量', '巨星', '恒星残骸', '相关概念', '行星词条'}

In [74]:
ul = regex["ul"].findall(source)
ul


['宜居行星',
 '高温行星',
 '荒漠行星',
 '冻土行星',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力',
 '基础矿物',
 '稀有矿物',
 '海洋',
 '适建区域',
 '风力']

In [75]:
ul = clean(ul)
ul


{'冻土行星', '基础矿物', '宜居行星', '海洋', '稀有矿物', '荒漠行星', '适建区域', '风力', '高温行星'}

In [77]:
a = regex["a"].findall(source)
a


['M型恒星',
 'K型恒星',
 'G型恒星',
 '地中海',
 'F型恒星',
 'A型恒星',
 'B型恒星',
 'O型恒星',
 '红巨星',
 '黄巨星',
 '蓝巨星',
 '白巨星',
 '黑洞',
 '单极磁石',
 '中子星',
 '单极磁石',
 '白矮星',
 '分形硅石',
 '金伯利矿石',
 '光栅石',
 '巨行星',
 '气态巨星',
 '氢]]和[[重氢',
 '轨道采集器',
 '冰巨星',
 '氢]]和[[可燃冰',
 '轨道采集器',
 '岩质行星',
 '地中海',
 '海洋丛林',
 '樱林海',
 '水世界',
 '潘多拉沼泽',
 '红石',
 '草原',
 '热带草原',
 '熔岩',
 '地热发电站',
 '火山灰',
 '戈壁',
 '贫瘠荒漠',
 '风力涡轮机',
 '干旱荒漠',
 '橙晶荒漠',
 '黑石盐滩',
 '飓风石林',
 '猩红冰湖',
 '灰烬冻土',
 '冰原冻土',
 '极寒冻土',
 '潮汐锁定',
 '轨道共振',
 '横躺自转',
 '卫星与多卫星',
 '轨道半径',
 '公转周期',
 '自转周期',
 '轨道倾角',
 '地轴倾角']

In [78]:
a = clean(a)
a


{'中子星',
 '光栅石',
 '公转周期',
 '冰原冻土',
 '冰巨星',
 '分形硅石',
 '单极磁石',
 '卫星与多卫星',
 '地中海',
 '地热发电站',
 '地轴倾角',
 '岩质行星',
 '巨行星',
 '干旱荒漠',
 '戈壁',
 '极寒冻土',
 '横躺自转',
 '樱林海',
 '橙晶荒漠',
 '气态巨星',
 '水世界',
 '海洋丛林',
 '潘多拉沼泽',
 '潮汐锁定',
 '火山灰',
 '灰烬冻土',
 '热带草原',
 '熔岩',
 '猩红冰湖',
 '白巨星',
 '白矮星',
 '红巨星',
 '红石',
 '自转周期',
 '草原',
 '蓝巨星',
 '贫瘠荒漠',
 '轨道倾角',
 '轨道共振',
 '轨道半径',
 '轨道采集器',
 '金伯利矿石',
 '风力涡轮机',
 '飓风石林',
 '黄巨星',
 '黑洞',
 '黑石盐滩'}

In [79]:
save("dictionary_天体.txt", h | ul | a)

## 黑雾


In [97]:
with open("./source_黑雾.txt", "r", encoding="utf-8") as f:
    source = f.read()

source


'==黑雾简介==\n黑雾属于《戴森球计划》2023年12月15日“黑雾崛起”新资料片更新的敌对势力，对应着游戏主界面的战斗模式。\n==黑雾起源==\n人类在进入虚拟宇宙后，出于对能量的需求，提出了机械能量计划（MEP - Mechanic Energy Program）。\n\n科学家创造了一种具有自我复制功能的机械体，根据计划，机械体将被投入到银河系，攫取能量并提供给主脑。这些机械体在保障主脑能量供应的前提下，可以利用多余的能量及从资源进行自我复制。因此，它们的扩张十分迅速，为了应对银河系中潜在的威胁，科学家们还为机械体设计了强力的防御性武器。\n\n起初机械能量计划的进展十分顺利，机械体为主脑带来了可观的能量。在机械能量计划执行了数年后，主脑陆续发现了一些不寻常的迹象。最初某些机械体上传的超级矩阵被损坏，部分信息出现了混乱并不可解析，发展到后面甚至某些机械上传的信息序列包含自我复制模块并企图劫持主脑的部分计算权限。由于异常的机械体样本量较小，主脑将这些异常判定为随机误差，直到某一天，银河系中所有异常机械体突然切断了与主脑的联系。\n\n由于机械能量计划的技术已经过于落后，为了满足虚拟宇宙的能量需求，人类重组了空间管理联盟（简称：[[COSMO]]）并提出了[[戴森球计划]]。主脑在戴森球计划准备期间秘密地持续对银河系中的信号进行搜寻并解析，试图寻找异常机械体的踪迹。现在主脑综合观察报告，异常能量波动等线索判定，异常机械体的AI模块受到高能射线的影响而进化出了自我意识，它们已经叛变了！这些异常机械体极有可能袭击并阻挠戴森球计划的工作，它们像一团黑色的雾气吞噬一个又一个行星系，因此这些异常机械体有一个流行于工程师中的名字：黑雾（Dark Fog）。\n==黑雾构成==\n黑雾主要由“[[太空巢穴]]”和“[[行星基地]]”两大部分构成，各自有所属的战斗部队和防御设施。\n\n太空巢穴负责能量收集（自带太阳能板以及偷取玩家建设的戴森球能量），行星基地负责物质收集（深入地核），两者通过高空的“[[中继站]]”为纽带互相传递能量和物质（所以攻击中继站会大幅度提高黑雾巢穴的威胁度，同时每个中继站都独立于各自的行星基地和太空巢穴）。注意：正如黑雾无法攻击玩家的运输船一样，玩家也无法攻击这些运输能量和物质的黑雾运输船。\n\n除最初叛变的异常机械体（即游戏开始时便已存在的巢

In [81]:
h = regex["h"].findall(source)
h


['黑雾简介',
 '黑雾起源',
 '黑雾构成',
 '威胁度',
 '[[黑雾掉落]]',
 '黑雾战斗',
 '"wikitable wikitable-dsp" border',
 '"wikitable wikitable-dsp" border',
 '击败黑雾后']

In [82]:
ul = regex["ul"].findall(source)
ul


['{{强调|行星基地袭击逻辑}}',
 '{{强调|行星基地威胁度额外}}',
 '{{强调|太空巢穴袭击逻辑}}',
 '{{强调|太空巢穴威胁度额外}}',
 '{{强调|[[黑雾进攻波次]]}}']

In [83]:
ol = regex["ol"].findall(source)
ol


[]

In [98]:
a = regex["a"].findall(source)
a


['COSMO',
 '戴森球计划',
 '太空巢穴',
 '行星基地',
 '中继站',
 '火种',
 '中枢核心',
 '地核钻井',
 '中继站',
 '黑雾进攻波次',
 '黑雾防守策略',
 '黑雾掉落',
 '科技',
 '中继站',
 '中继站',
 '火种',
 '火种',
 '火种']

In [99]:
a = clean(a)
a


{'中枢核心',
 '中继站',
 '地核钻井',
 '太空巢穴',
 '戴森球计划',
 '火种',
 '科技',
 '行星基地',
 '黑雾掉落',
 '黑雾进攻波次',
 '黑雾防守策略'}

In [100]:
icon = regex["icon"].findall(source)
icon


['行星基地',
 '等离子哨戒塔',
 '未知建筑',
 '高能激光塔',
 '守卫者营地',
 '守卫者',
 '守卫者',
 '强袭者营地',
 '强袭者',
 '强袭者',
 '游骑兵营地',
 '游骑兵',
 '游骑兵',
 '中枢核心',
 '中继站',
 '光能接收站',
 '相位激光塔',
 '等离子发生器',
 '日蚀要塞装配港',
 '日蚀要塞',
 '日蚀要塞',
 '巨鲸装配港',
 '巨鲸',
 '巨鲸',
 '枪骑装配港',
 '枪骑',
 '枪骑',
 '火种',
 '地基',
 '地热发电站']

In [101]:
icon = clean(icon)
icon


{'中枢核心',
 '中继站',
 '光能接收站',
 '地基',
 '地热发电站',
 '守卫者',
 '守卫者营地',
 '巨鲸',
 '巨鲸装配港',
 '强袭者',
 '强袭者营地',
 '日蚀要塞',
 '日蚀要塞装配港',
 '未知建筑',
 '枪骑',
 '枪骑装配港',
 '游骑兵',
 '游骑兵营地',
 '火种',
 '相位激光塔',
 '等离子发生器',
 '等离子哨戒塔',
 '行星基地',
 '高能激光塔'}

In [102]:
save("dictionary_黑雾.txt", a | icon)

## 里程碑


In [103]:
with open("./source_里程碑.txt", "r", encoding="utf-8") as f:
    source = f.read()

source


'<bstyle>\n.tab-panel{\ncolor: aliceblue;\n}\n.resp-tabs-list li{\nborder-left:1px solid rgba(255 255 255 / 0%);\n}\n.resp-tabs-list li:last-child{\nborder-right:1px solid rgba(255 255 255 / 0%);\n}\n.resp-tabs-list li.active .tab-panel, .tab-panel:hover{\ncolor: rgb(255 255 255 / 85%);\nborder-bottom:2px solid rgb(255 255 255 / 50%);\n}\n.bili-list-style:hover {\nbackground-color: rgba(75, 75, 80, 0.66);\n}\n</bstyle>\n<div style="max-width: 880px;margin: 0 auto;">\n<div class="main-line-wrap">\n<div class="resp-tabs">\n<ul class="resp-tabs-list clearfix" style="margin:15px 5px">\n<li class="active bili-list-style"><span class="tab-panel">总览</span></li>\n<li class="bili-list-style" ><span class="tab-panel" >详细</span></li>\n</ul>\n<div class="resp-tabs-container">\n\n<div class="resp-tab-content" style="display:block">\n{| class="wikitable wikitable-dsp" border=3 style="width: 100%;background:rgba(26,37,43,0.1) ;text-align: center"\n!width=100px|位置（顺时针方向）\n!colspan=4|内容\n|-\n|rowspan=5

In [104]:
icon = regex["icon"].findall(source)
icon


['移山填海（里程碑）',
 '射线接收站（里程碑）',
 '太阳能板（里程碑）',
 '临界光子（里程碑）',
 '反物质（里程碑）',
 '太阳帆（里程碑）',
 '戴森球细胞（里程碑）',
 '处理器（里程碑）',
 '量子芯片（里程碑）',
 '火箭发射（里程碑）',
 '化工厂（里程碑）',
 '结构矩阵（里程碑）',
 '引力矩阵（里程碑）',
 '宇宙矩阵（里程碑）',
 '电磁矩阵（里程碑）',
 '奇异物质（里程碑）',
 '能量矩阵（里程碑）',
 '信息矩阵（里程碑）',
 '重氢（里程碑）',
 '卡西米尔晶体（里程碑）',
 '液体封装（里程碑）',
 '可燃冰（里程碑）',
 '有机晶体（里程碑）',
 '分形硅石（里程碑）',
 '金伯利矿石（里程碑）',
 '刺笋结晶（里程碑）',
 '光栅石（里程碑）',
 '单极磁石（里程碑）',
 '宇宙探索（里程碑）',
 '低空飞行（里程碑）',
 '曲速飞行（里程碑）',
 '蓝图（里程碑）',
 '风力发电（里程碑）',
 '火力发电（里程碑）',
 '聚变发电（里程碑）',
 '行星内物流（里程碑）',
 '星际物流（里程碑）',
 '轨道采集器（里程碑）',
 '自动化（里程碑）',
 '人造恒星（里程碑）',
 '电力储存（里程碑）',
 '能量枢纽（里程碑）',
 '低空飞行（里程碑）',
 '驱动引擎（1）',
 '宇宙探索（里程碑）',
 '驱动引擎（2）',
 '曲速飞行（里程碑）',
 '驱动引擎（4）',
 '可燃冰（里程碑）',
 '轨道采集器',
 '可燃冰矿',
 '金伯利矿石（里程碑）',
 '金伯利矿脉',
 '分形硅石（里程碑）',
 '分形硅矿',
 '光栅石（里程碑）',
 '光栅石矿',
 '刺笋结晶（里程碑）',
 '刺笋结晶矿',
 '单极磁石（里程碑）',
 '单极磁矿',
 '有机晶体（里程碑）',
 '有机晶体矿',
 '电磁矩阵（里程碑）',
 '电磁矩阵',
 '能量矩阵（里程碑）',
 '能量矩阵',
 '结构矩阵（里程碑）',
 '结构矩阵',
 '信息矩阵（里程碑）',
 '信息矩阵',
 '引力矩阵（里程碑）',
 '引力矩阵',
 '宇宙矩阵（里程碑）',
 '宇宙矩阵',
 '处理器（里程碑）',
 '处理器',
 '卡西米尔

In [105]:
icon = clean(icon)
icon


{'临界光子',
 '人造恒星',
 '低空飞行',
 '信息矩阵',
 '光栅石',
 '光栅石矿',
 '分形硅石',
 '分形硅矿',
 '刺笋结晶',
 '刺笋结晶矿',
 '化工厂',
 '单极磁石',
 '单极磁矿',
 '卡西米尔晶体',
 '反物质',
 '可燃冰',
 '可燃冰矿',
 '地基',
 '垂直发射井',
 '处理器',
 '太阳帆',
 '太阳能板',
 '奇异物质',
 '宇宙探索',
 '宇宙矩阵',
 '射线接收站',
 '引力矩阵',
 '微型聚变发电站',
 '戴森球细胞',
 '星际物流',
 '星际物流运输站',
 '曲速飞行',
 '有机晶体',
 '有机晶体矿',
 '液体封装',
 '火力发电',
 '火力发电厂',
 '火箭发射',
 '电力储存',
 '电磁矩阵',
 '移山填海',
 '结构矩阵',
 '聚变发电',
 '能量枢纽',
 '能量矩阵',
 '自动化',
 '蓄电器',
 '蓝图',
 '行星内物流',
 '行星内物流运输站',
 '轨道采集器',
 '重氢',
 '量子芯片',
 '金伯利矿石',
 '金伯利矿脉',
 '风力发电',
 '风力涡轮机',
 '驱动引擎'}

In [106]:
save("dictionary_里程碑.txt", icon)