docs: update glossary

phodal · Jun 25, 2023 · f222862 · f222862
1 parent 787b7d8
commit f222862
Showing 1 changed file with 10 additions and 0 deletions.
diff --git a/src/6-llm-glossary.md b/src/6-llm-glossary.md
@@ -29,3 +29,13 @@ Token 是指在自然语言处理和文本处理任务中，将文本分解成
 LoRA（Low-Rank Adaptation of LLM，即插件式的微调）用于对大语言模型进行个性化和特定任务的定制。LoRA 通过将模型的权重矩阵分解为低秩的近似矩阵，降低了参数空间的复杂性，从而减少了微调的计算成本和模型存储需求。
 
 传统的微调方法通常需要在整个模型上进行参数优化，这可能会导致训练时间长、计算资源消耗大，并且需要大量的标注数据。而低秩适应方法则提供了一种更高效的微调策略，基于对原始模型的分析，选择性地微调模型的某些部分，使其更适应于特定的任务或数据。
+
+### 矢量数据库
+矢量数据库（Vector Database）是一种用于存储和检索矢量数据的数据库。矢量数据库可以存储和管理大量的矢量数据，例如图像、视频、音频、文本等，同时提供高效的检索功能。
+
+矢量数据库通常基于矢量搜索引擎实现，它可以将矢量数据转换为向量表示，并将其存储在数据库中。在查询时，矢量搜索引擎可以将查询数据转换为向量表示，并在数据库中进行相似度匹配，从而找到与之最相似的数据。
+
+### 数据蒸馏
+数据蒸馏（Knowledge Distillation）旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集，使得在这一小数据集上训练出的模型，和在原数据集上训练得到的模型表现相似
+
+数据蒸馏技术在深度学习领域中被广泛应用，特别是在模型压缩和模型部署方面。它可以帮助将复杂的模型转化为更轻量级的模型，并能够促进模型的迁移学习和模型集成，提高模型的鲁棒性和泛化能力。