# 知识图谱

知识图谱（Knowledge Graph, KG）是用一种结构化的方式，来描述现实世界中的实体及其相互关系。

主要由两个核心要素构成：

- 节点（Nodes）：代表现实世界中的“实体”（Entities），例如一个人、一部电影、一家公司或一个具体概念。

- 边（Edges）：代表实体与实体之间的“关系”（Relations）。

这些元素共同构成了一个庞大的语义网络，其基本结构可以表示为 （实体）- [关系] -> （实体） 的三元组（Triples）。

例如，“饺子”和“哪吒2”是两个实体，“导演”就是它们之间的关系，构成一个知识三元组：（饺子）- [导演] -> （哪吒2）。

## 知识图谱的应用

在需要深度结合领域知识的场景中，知识图谱有着广泛且深入的应用。

### 风险识别与网络分析

在许多领域，一个实体的风险或属性，往往与其关联的其他实体有很强的相关性。

知识图谱正是挖掘这种关联性的利器。

- 犯罪网络侦查：
    
    - 公安部门可以利用通话记录、社交关系、转账流水等信息构建犯罪嫌疑人网络。
    - 在这个网络中，如果某个节点与多个已知的犯罪分子有直接或间接的联系，那么他参与犯罪的可能性就大大增加。
    - 通过分析网络中的核心人物（连接数最多的节点）和资金流向，可以有效地打击整个犯罪团伙。


- 信用卡反欺诈：

    - 银行可以将申请人的信息（如电话、地址、公司）构建成一个庞大的关系网络。
    - 通过分析这张网络，可以识别出“欺诈团伙”——例如，多个申请人共享同一个联系电话或家庭住址，或者与已知的欺诈分子有紧密的社交关系。

### 智能诊断与运维

- 工业设备运维：

    - 将设备的各种“故障现象”、“故障原因”、“解决方案”和“所需零件”构建成知识图谱。
    - 当设备出现问题时，系统可以根据上报的现象，在图谱中进行推理，快速定位可能的原因，并给出维修建议。
    - 甚至可以提示维修人员需要携带哪些工具和备件，从而提高维修效率。

- 医疗辅助诊断：

    - 医疗领域知识繁杂，可以通过构建“病症”、“疾病”、“检查项目”、“治疗方案”、“药品”之间的关系图谱。
    - 医生输入患者的症状后，系统可以辅助推荐需要进行的检查，并根据检查结果在图谱中推理，给出可能的诊断建议和治疗方案。
    - 帮助实现规范化诊疗，提高患者的治疗效果和满意度。


### 特定领域聊天机器人

许多垂直领域，基于知识图谱的问答系统（KBQA）因其答案的准确性和可解释性，仍然具有不可替代的价值。其工作流程通常如下：

1. 意图识别：首先判断用户提问的意图。例如，“我想买一张明天上午的故宫门票”这个问题的意图是“票务预订”。

2. 槽位填充 (实体抽取)：从问题中抽取出关键信息，即“实体”。例如：景点: 故宫, 时间: 明天上午, 数量: 一张。

3. 知识查询：利用抽取出的实体，在知识图谱（或数据库）中进行精确查询。

4. 回复生成：将查询到的结果，通过预设的模板生成自然语言回复。

这种方式虽然不如 LLM 灵活，但在机票预订、酒店查询、银行客服等**业务逻辑明确的场景中**，能够提供更加可靠和可控的服务。

## 知识图谱的构建

### 经典构建流程

传统的知识图谱构建过程主要依赖于两项关键的 NLP 技术：

- 命名实体识别 (Named Entity Recognition, NER)：从文本中识别并抽取出特定类别的实体。

    - 例如，在“英伟达发布了专为 AI 设计的 Blackwell 芯片”这句话中，识别出“英伟达”（公司）、“Blackwell”（产品）。
    - 这些被抽取的实体将成为知识图谱中的 节点。

- 关系抽取 (Relation Extraction, RE)：在识别出实体的基础上，进一步判断实体与实体之间存在何种语义关系。

    - 在上面的例子中，模型需要判断“英伟达”和“Blackwell”之间的关系是“发布”。这个关系将成为连接两个节点的边。

通过对大量文本进行这两步处理，我们就能源源不断地抽取出知识三元组，最终汇聚成一个庞大的知识图谱。

### 大模型带来的革新

LLM 同样具备强大的实体识别和关系抽取能力，但这并不意味着对传统流程的简单替代，而是呈现出深度融合的趋势。

- 局限性与挑战：完全依赖 LLM 会面临成本高昂、数据隐私（使用闭源 API 时）、以及“幻觉”问题，即模型可能会编造事实。

- 融合方案：为了结合知识图谱的准确性和大模型的推理能力，微软提出了 GraphRAG。

    - 将知识图谱作为一个可靠、可随时更新的 外部知识库，并基于图结构进行“子图检索”（如社区发现、路径搜索等），而非检索孤立事实。

    - 当用户提问时：

        1. 利用模型从问题中识别出核心实体与约束。
        2. 在图中检索与之高度相关的子图（社区/路径/邻域），获得准确且可解释的事实与关系。
        3. 将该子图的结构化信息作为上下文，连同原始问题一起输入给大语言模型，生成基于证据的答案。