## 知识管理

### 基本结构

- 表示：MarkMeta, 从 Markdown 语法扩展，使用 @meta 标记知识点文本的段落边界，可作为向量切分的依据
- 存取：BaseKnowledgeDB, 可存取 MarkMeta 结构的文本，可从多种来源导入知识
- 检索：VectorDB, 可加载 BaseKnowledgeDB

## 在内存中管理知识

### 创建

In [1]:
from illufly.io import BaseKnowledgeDB

kg = BaseKnowledgeDB()

In [2]:
kg.add("我是诸葛浪", tags=["个人资料"])
kg.add("草船借箭", tags=["故事", "三国"])

'20241208-87871-0001-6395'

### 查询

In [3]:
kg.get('20241207-70418-0003-8926')

In [4]:
kg.all()

[Document(text="我是诸葛浪", meta=['source', 'raw_meta', 'id', 'tags', 'summary']),
 Document(text="草船借箭", meta=['source', 'raw_meta', 'id', 'tags', 'summary'])]

In [5]:
kg.find_by_tags(["个人资料"])

['20241208-87871-0000-3914']

In [6]:
kg.tags

['个人资料', '故事', '三国']

## 使用 MarkMeta 解析文本

In [1]:
md1 = """
<!-- @meta {"tag": "related"} -->
**Question:**
如何在家里制作美味的比萨？

**Answer:**
首先准备面团，然后加入番茄酱，放上你喜欢的配料，最后撒上奶酪，放入预热至200度的烤箱中烤约15分钟即可。

<!-- @meta {"tag": "related"} -->
**Question:**
有没有简单的方法在家做比萨？

**Answer:**
可以买现成的比萨饼底，加上自己喜欢的食材，放入烤箱烤制即可。

<!-- @meta {"tag": "related"} -->
**Question:**
自己动手做比萨需要注意哪些步骤？

**Answer:**
注意面团发酵时间，酱料的选择，配料的新鲜程度以及烘烤温度和时间。

<!-- @meta {"tag": "related"} -->
**Question:**
在家中怎样才能做出餐厅级别的比萨？

**Answer:**
选用高质量的原材料，掌握正确的烘焙技巧，尝试不同的配料组合。

<!-- @meta {"tag":"related"} -->
**Question:**
想在家里给家人做一顿特别的晚餐，有什么推荐？

**Answer:**
自制比萨是个不错的选择，可以根据家人的口味定制各种风味。

<!-- @meta {"tag": "unrelated"} -->
**Question:**
如何训练一只小狗成为导盲犬？

**Answer:**
从小狗三个月大时开始基础训练，之后进行专业技能训练，通过测试后与视障者配合训练。

<!-- @meta {"tag": "unrelated"} -->
**Question:**
怎样才能提高自己的编程能力？

**Answer:**
多练习，参与开源项目，阅读优秀的代码，不断学习新的技术和框架。

<!-- @meta {"tag": "unrelated"} -->
**Question:**
为什么我的盆栽植物总是长不好？

**Answer:**
可能是浇水过多或过少，光照不足，或者土壤不适合植物生长，需要调整养护方法。

<!-- @meta {"tag": "unrelated"} -->
**Question:**
如何挑选一双适合跑步的运动鞋？

**Answer:**
要选择适合自己脚型的鞋子，注意鞋子的缓震性和透气性，最好在下午试穿以确保大小合适。

<!-- @meta {"tag": "unrelated"} -->
**Question:**
怎样才能有效地减肥？

**Answer:**
制定合理的饮食计划，增加日常活动量，保证充足的睡眠，必要时可以寻求专业人士的帮助。

@meta
"""

### 解析 MarkMeta 文本

In [2]:
from illufly.types import MarkMeta

mm = MarkMeta()
mm.parse_text(md1, source="001.md")

[Document(text="**Question:**<br>如何在家里制作美味的比萨？<br><br>**Answer:**<br>首先准备面团，然后加入番茄酱，放上你喜欢的配料，最后撒上奶酪，放入预热至200度的烤箱中烤约15分钟即可。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>有没有简单的方法在家做比萨？<br><br>**Answer:**<br>可以买现成的比萨饼底，加上自己喜欢的食材，放入烤箱烤制即可。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>自己动手做比萨需要注意哪些步骤？<br><br>**Answer:**<br>注意面团发酵时间，酱料的选择，配料的新鲜程度以及烘烤温度和时间。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>在家中怎样才能做出餐厅级别的比萨？<br><br>**Answer:**<br>选用高质量的原材料，掌握正确的烘焙技巧，尝试不同的配料组合。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>想在家里给家人做一顿特别的晚餐，有什么推荐？<br><br>**Answer:**<br>自制比萨是个不错的选择，可以根据家人的口味定制各种风味。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>如何训练一只小狗成为导盲犬？<br><br>**Answer:**<br>从小狗三个月大时开始基础训练，之后进行专业技能训练，通过测试后与视障者配合训练。", meta=['source', 'tag', 'id']),
 Document(text="**Question:**<br>怎样才能提高自己的编程能力？<br><br>**Answer:**<br>多练习，参与开源项目，阅读优秀的代码，不断学习新的技术和框架。", meta=['source', 'tag', 'id']),
 Document(text="

### 按照 Meta 标记分割文档

In [3]:
from illufly.types import MarkMeta

mm = MarkMeta()
docs = mm.parse_text(
    "\n".join([
        'hello',
        '<!-- @meta -->',
        'illufly'
]))
for d in docs:
    print(d.text, d.meta)

hello {'raw_meta': '', 'id': '20241208-18678-0010-7428'}
illufly {'raw_meta': '', 'id': '20241208-18678-0011-3786'}


### 提供 Meta 元数据

In [5]:
import os
os.environ['ILLUFLY_DOCS'] = 'docs'

from illufly.types import MarkMeta

mm = MarkMeta()
mm.parse_text(
    "\n".join([
        '<!-- @meta {"id": "1", "source": "1.md"} -->',
        'hello',
        '<!-- @meta {"id": "2", "source": "2.md"} -->',
        'illufly'
    ])
)
for d in docs:
    print(d.text, d.meta)

hello {'raw_meta': '', 'id': '20241208-18678-0010-7428'}
illufly {'raw_meta': '', 'id': '20241208-18678-0011-3786'}


## 从 MarkMeta 文件中导入知识到 BaseKnowledgeDB

In [8]:
kg.import_files("__mydocs__")

['20241208-87871-0011-7368',
 '20241208-87871-0007-0778',
 '20241208-87871-0010-1938',
 '20241208-87871-0002-3187',
 '20241208-87871-0003-7697',
 '20241208-87871-0008-8872',
 '20241208-87871-0009-6989',
 '20241208-87871-0004-2240',
 '20241208-87871-0006-4943',
 '20241208-87871-0005-8078']

In [9]:
kg.tag_index

{'个人资料': {'20241208-87871-0000-3914'},
 '故事': {'20241208-87871-0001-6395'},
 '三国': {'20241208-87871-0001-6395'},
 'imported_files': {'20241208-87871-0002-3187',
  '20241208-87871-0003-7697',
  '20241208-87871-0004-2240',
  '20241208-87871-0005-8078',
  '20241208-87871-0006-4943',
  '20241208-87871-0007-0778',
  '20241208-87871-0008-8872',
  '20241208-87871-0009-6989',
  '20241208-87871-0010-1938',
  '20241208-87871-0011-7368'}}

In [10]:
kg.tags

['个人资料', '故事', '三国', 'imported_files']

## 在本地文件中管理知识

### 创建

In [11]:
from illufly.io import LocalFileKnowledgeDB

kg = LocalFileKnowledgeDB()

In [12]:
kg.add("我是诸葛浪", tags=["个人资料"])
kg.add("草船借箭", tags=["故事", "三国"])
kg.update("草船借箭", tags=["故事", "三国"])

False

### 从文件导入到 LocalFileKnowledgeDB

In [13]:
kg.import_files("__mydocs__")

['20241208-87871-0021-7753',
 '20241208-87871-0020-7723',
 '20241208-87871-0017-0198',
 '20241208-87871-0014-8387',
 '20241208-87871-0016-3996',
 '20241208-87871-0012-2621',
 '20241208-87871-0015-1119',
 '20241208-87871-0018-6310',
 '20241208-87871-0013-3688',
 '20241208-87871-0019-0646']

### 查询

In [14]:
kg.get('20241207-70418-0003-8926')

In [15]:
kg.all()

[Document(text="我是诸葛浪", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>如何训练一只小狗成为导盲犬？<br><br>**Answer:**<br>从小狗三个月大时开始基础训练，之后进行专业技能训练，通过测试后与视障者配合训练。", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>想在家里给家人做一顿特别的晚餐，有什么推荐？<br><br>**Answer:**<br>自制比萨是个不错的选择，可以根据家人的口味定制各种风味。", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>在家中怎样才能做出餐厅级别的比萨？<br><br>**Answer:**<br>选用高质量的原材料，掌握正确的烘焙技巧，尝试不同的配料组合。", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>如何在家里制作美味的比萨？<br><br>**Answer:**<br>首先准备面团，然后加入番茄酱，放上你喜欢的配料，最后撒上奶酪，放入预热至200度的烤箱中烤约15分钟即可。", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>怎样才能有效地减肥？<br><br>**Answer:**<br>制定合理的饮食计划，增加日常活动量，保证充足的睡眠，必要时可以寻求专业人士的帮助。<br><br>@meta", meta=['tags', 'summary', 'source', 'id']),
 Document(text="**Question:**<br>为什么我的盆栽植物总是长不好？<br><br>**Answer:**<br>可能是浇水过多或过少，光照不足，或者土壤不适合植物生长，需要调整养护方法。", meta=['tags', 'summary', 'sourc

In [16]:
kg.find_by_tags(["import_files"])

['20241207-85719-0014-1485',
 '20241207-85719-0013-4634',
 '20241207-85719-0017-0164',
 '20241207-85719-0016-6886',
 '20241207-85719-0020-4674',
 '20241207-85719-0019-9233',
 '20241207-85719-0018-9913',
 '20241207-85719-0015-9907',
 '20241207-85719-0012-0832',
 '20241207-85719-0021-5607']

In [17]:
kg.tags

['个人资料', '故事', '三国', 'import_files', 'imported_files']

In [18]:
!ls /var/folders/f5/rlf27f4n6wzc_k4x7y4vzm5h0000gn/T/__ILLUFLY__/CHART_LEARN

[1m[36mimport_files[m[m   [1m[36mimported_files[m[m tag_index.json [1m[36m故事[m[m           [1m[36m个人资料[m[m


In [19]:
kg.get_meta_list()

{'total': 22,
 'total_pages': 3,
 'current_page': 1,
 'items': [{'id': '20241207-72867-0000-4616',
   'summary': '我是诸葛浪',
   'tags': ['个人资料'],
   'source': None},
  {'id': '20241207-72867-0001-4094',
   'summary': '草船借箭',
   'tags': ['故事', '三国'],
   'source': None},
  {'id': '20241207-85719-0012-0832',
   'summary': '**Question:**\n如何在家里制作美味的比萨？\n\n**Answer:**\n首先准备面团，然后加入番茄酱，放上你喜欢的配料，最后撒上奶酪，放入预热至200度的烤箱中烤约15分钟即可。...',
   'tags': ['import_files'],
   'source': '__mydocs__/创意/001.md'},
  {'id': '20241207-85719-0013-4634',
   'summary': '**Question:**\n有没有简单的方法在家做比萨？\n\n**Answer:**\n可以买现成的比萨饼底，加上自己喜欢的食材，放入烤箱烤制即可。...',
   'tags': ['import_files'],
   'source': '__mydocs__/创意/001.md'},
  {'id': '20241207-85719-0014-1485',
   'summary': '**Question:**\n自己动手做比萨需要注意哪些步骤？\n\n**Answer:**\n注意面团发酵时间，酱料的选择，配料的新鲜程度以及烘烤温度和时间。...',
   'tags': ['import_files'],
   'source': '__mydocs__/创意/001.md'},
  {'id': '20241207-85719-0015-9907',
   'summary': '**Question:**\n在家中怎样才能做出餐厅级别的比萨？\n\n**Answer:**\n选用高