Skip to content

Commit

Permalink
docs: update glossary
Browse files Browse the repository at this point in the history
  • Loading branch information
isixline committed Jun 25, 2023
1 parent 787b7d8 commit f222862
Showing 1 changed file with 10 additions and 0 deletions.
10 changes: 10 additions & 0 deletions src/6-llm-glossary.md
Original file line number Diff line number Diff line change
Expand Up @@ -29,3 +29,13 @@ Token 是指在自然语言处理和文本处理任务中,将文本分解成
LoRA(Low-Rank Adaptation of LLM,即插件式的微调)用于对大语言模型进行个性化和特定任务的定制。LoRA 通过将模型的权重矩阵分解为低秩的近似矩阵,降低了参数空间的复杂性,从而减少了微调的计算成本和模型存储需求。

传统的微调方法通常需要在整个模型上进行参数优化,这可能会导致训练时间长、计算资源消耗大,并且需要大量的标注数据。而低秩适应方法则提供了一种更高效的微调策略,基于对原始模型的分析,选择性地微调模型的某些部分,使其更适应于特定的任务或数据。

### 矢量数据库
矢量数据库(Vector Database)是一种用于存储和检索矢量数据的数据库。矢量数据库可以存储和管理大量的矢量数据,例如图像、视频、音频、文本等,同时提供高效的检索功能。

矢量数据库通常基于矢量搜索引擎实现,它可以将矢量数据转换为向量表示,并将其存储在数据库中。在查询时,矢量搜索引擎可以将查询数据转换为向量表示,并在数据库中进行相似度匹配,从而找到与之最相似的数据。

### 数据蒸馏
数据蒸馏(Knowledge Distillation)旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似

数据蒸馏技术在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。它可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。

0 comments on commit f222862

Please sign in to comment.