# 向量数据库介绍

## 一、数据库类型及应用场景

数据库是工程应用中非常重要的一个组件，每种类型的数据库都有其特定的应用场景。因此，选择合适的数据库对应用的性能和效果至关重要。

以下是几种常见数据库类型及其适用场景：

| 数据库类型 | 适用场景 | 典型数据库举例 |
|------------|----------|----------------|
| 关系型数据库（RDBMS） | 处理结构化数据，擅长OLTP，如财务、人事管理等。 | MySQL，Oracle，SQL Server |
| 非关系型数据库（NoSQL） | 存储大量非结构化或半结构化数据，擅长点查，如大数据分析、人工智能等。 | MongoDB，Redis，Cassandra |
| 对象数据库 | 数据存储结构比较复杂的应用场景 | Versant Object Database，ObjectStore，ZopeDB |
| 列式数据库 | 需要快速进行按列查询的应用场景，擅长OLTP查询，如数据仓库。 | HBase，Cassandra，Amazon DynamoDB |
| 图形数据库 | 存储和处理大型图形数据，一般使用GraphQL如社交网络、物联网等场景。 | Neo4j，ArangoDB，JanusGraph |
| 向量数据库 | 快速处理向量数据的应用场景，擅长算法聚类等，如图像识别、音频处理、自然语言处理等 | Milvus，Faiss，Hive-Vector-Storage |
| 全文搜索引擎（search db） | 处理全文搜索和日志存储等应用场景 | Elasticsearch，Apache Solr，Sphinx |

随着LLM的兴起，向量数据库（Vector Database）作为一种专门用于存储和检索向量数据的数据库类型，在处理大规模数据和复杂查询方面表现出色。根据在[DB-Engines Ranking Trend of Vector DBMS](https://db-engines.com/en/ranking_trend/vector+dbms)显示，向量数据在最近一段时间得到很强的关注和发展。

![向量数据库排名趋势](figures/向量数据库发展趋势.jpg)

## 二、向量数据库介绍

向量数据库是一种专为管理向量数据而设计的数据库。向量数据是指通过机器学习算法提取出来的数据点的多个特征，如图片、音频和视频的“特征”。向量数据库可以将数据转换成向量形式，并通过计算向量之间的距离来衡量数据之间的相似度。向量数据库可以提供资源管理、安全控制、可扩展性、容错能力和高效信息检索等数据库功能，如图片搜索图片，或者语音搜索语音

下图是一个在大模型应用中使用向量数据库的案例，主要包括两个过程
1. **数据预处理**：将非结构化内容（文本）通过分段（chunk）等方式切分，使用embedding模型转化成向量，存储到向量数据库中
2. **数据应用**：将用户的query（文本）通过相同的embedding模型转化成向量，在向量数据库中找到最相关的分段（chunk），大模型基于内容加工后输出结果。

![向量数据库应用案例](figures/向量数据库应用案例.jpeg)

和其他类型的数据库相同，向量数据库也需要解决两个核心的问题：
1. **存储数据**：利用Vector Embeddings可以将非结构化数据（如图片、音频、视频）转换成向量形式，能够根据不同的算法生成高维度的向量数据，代表着数据的不同特征，这些特征代表了数据的不同维度。例如，对于文本，这些特征可能包括词汇、语法、语义、情感、情绪、主题、上下文等。对于音频，这些特征可能包括音调、节奏、音高、音色、音量、语音、音乐等。
2. **检索数据**：通过计算向量之间的距离，可以快速地找到与查询向量最相似的向量。相比于传统数据库使用的索引方式（B Tree、倒排索引等），向量数据库使用的相似度搜索算法，能够最大程度寻找相似数据。


因此，相似度检索算法是向量数据库中比较核心的能力，以下是几种常见的相似度检索算法：
1. **HNSW（Hierarchical Navigable Small World）**：这是一种基于层次结构的索引算法，可用于高维度的向量搜索。它使用以哈希表为基础的图数据结构来构造图，并执行快速最近邻搜索。
2. **NGT（Neighborhood Graph and Tree）**：NGT是一种近似最近邻搜索算法，它使用邻居图和深度优先树的结合来实现快速搜索。较小的数据集可使用精确最近邻搜索。
3. **Scann：Scann（Scalable Nearest Neighbors）**：是一个基于哈希的近似KNN搜索算法，它是Google在Tensorflow上开发的。Scann可用于高维向量的快速搜索，并使用便利风格搜索API进行操作。
4. **ANN（Approximate Nearest Neighbor）**：ANN是一种近似最近邻搜索算法，通常是基于哈希的或基于树的。ANN算法的主要目的是在大型数据集中实现快速的近似搜索。
5. **Exact KNN（Exact K-Nearest Neighbor）**：Exact KNN是一种精确的KNN搜索算法，它将与查询向量最相似的K个向量返回给用户。Exact KNN是一种较为简单但较为耗时的搜索方法，但它可以保证正确性。
6. **ANNOY（Approximate Nearest Neighbors Oh Yeah）**：ANNOY是一种基于随机搜索的近似最近邻搜索算法。与其他基于哈希的算法不同，它使用随机性来搜索高维度的向量，并提供可扩展的解决方案。
7. **RNSG（Random Nearest Neighbors Search）**：RNSG也是一种基于随机搜索的KNN搜索算法，它使用随机性来搜索高维度的向量，从而避免了其他算法中的局部最优解问题。

常见的向量数据库包括：
1. Pinecone：专为机器学习和人工智能应用设计的向量数据库。
2. Milvus：开源的向量数据库，支持大规模相似性搜索。
3. Faiss：Facebook AI开发的高效相似性搜索库。
4. Weaviate：开源的向量搜索引擎。
5. Qdrant：专注于向量相似性搜索和过滤的向量数据库。
6. Vespa：雅虎开发的开源大规模搜索引擎，支持向量搜索。
7. Elasticsearch：虽然主要是全文搜索引擎，但也支持向量搜索功能。
8. Chroma：专为嵌入式和语义搜索设计的向量数据库。
9. pgvector：PostgreSQL的扩展，为关系型数据库添加向量相似性搜索功能。
10. Redis：通过RedisSearch模块支持向量搜索。


## 三、向量数据库应用举例 - Chroma

### 3.1 Chroma介绍

Chroma 是一种高效的、基于 Python 的、用于大规模相似性搜索的数据库。它的设计初衷是为了解决在大规模数据集中进行相似性搜索的问题，特别是在需要处理高维度数据时。Chroma 的核心是 HNSW（Hierarchical Navigable Small World）算法，这是一种高效的近似最近邻搜索算法，可以在大规模数据集中实现快速的相似性搜索。


到 2020 年，Chroma 已经成为一种成熟的相似性搜索工具，被广泛应用于各种需要处理大规模、高维度数据的场景，如推荐系统、图像搜索、文本搜索等。未来，Chroma 的开发者们计划继续改进和优化 Chroma，以满足用户不断增长的需求。


Chroma是一个非常方面开发中使用的数据库，具备以下特性
1. **持久化客户端**：Chroma 可以配置为保存和从本地机器加载数据，这使得数据在启动时自动持久化并加载。
2. **Python HTTP-only 客户端**：Chroma 提供了一个轻量级的客户端库，使得用户无需安装完整的 Chroma 库就可以连接到 Chroma 服务器。
3. **使用集合（Collections）**：Chroma 使用集合名称在 URL 中，对命名有限制，用户可以创建、检查和删除集合。

### 3.2 Chroma安装

在开始使用 Chroma 之前，我们需要首先安装它。Chroma 可以通过 Python 的包管理器 pip 进行安装。打开你的命令行工具，输入以下命令：

In [None]:
!pip install chromadb

安装完成后，你可以通过在 Python 环境中输入以下命令来验证安装是否成功：

In [2]:
import chromadb

### 3.3 Chroma应用举例

假设我们正在开发一个LLM问答系统，我们需要存储和检索大量的文章。我们可以使用 Chroma 来创建一个集合，将每篇文章的内容作为文档，文章的元数据（如标题、作者、发布日期等）作为元数据，文章的 ID 作为 ID。然后我们可以使用 Chroma 的查询功能来根据用户的问题来推荐文章

In [35]:
import pandas as pd

# 读取 CSV 数据
file_path = 'data/media_data.csv'
data = pd.read_csv(file_path)

# 输出统计信息
print("数据概览：", data.shape)
data.head()  # 显示前五行数据

数据概览： (3846, 5)


Unnamed: 0,platform_name,news_url,news_title,news_content,news_posttime
0,每日经济新闻,https://m.nbd.com.cn/articles/2024-10-29/36150...,天津市公积金放宽在京冀购房提取政策，支持购买配售型保障性住房,每经AI快讯，日前，天津市住房公积金管理中心发布，自2024年10月29日起施行，有效期5年...,2024-10-29 09:23:54
1,每日经济新闻,https://m.nbd.com.cn/articles/2024-10-29/36150...,央行今日进行3828亿元7天期逆回购操作，中标利率为1.50%，与此前持平,每经AI快讯，10月29日，央行今日进行3828亿元7天期逆回购操作，中标利率为1.50%，...,2024-10-29 09:21:56
2,每日经济新闻,https://m.nbd.com.cn/articles/2024-10-29/36150...,香港恒生指数开盘涨0.63%，恒生科技指数涨1.63%,每经AI快讯，10月29日，香港恒生指数开盘涨0.63%。恒生科技指数涨1.63%。,2024-10-29 09:21:48
3,每日经济新闻,https://m.nbd.com.cn/articles/2024-10-29/36150...,铖昌科技：计提减值准备约2046万元,每经AI快讯，铖昌科技10月28日晚间发布公告称，2024年前三季度计提的信用减值损失共计1...,2024-10-29 09:19:28
4,每日经济新闻,https://m.nbd.com.cn/articles/2024-10-29/36150...,山西证券给予天融信增持评级，三季度收入实现正增长，归母净利润实现扭亏,每经AI快讯，山西证券10月29日发布研报称，给予天融信增持评级。评级理由主要包括：1）三季...,2024-10-29 09:18:30


接下来我们将上述内容变成chroma可以理解的document格式，其中
- news_url将被用作ids
- platform_name、news_title、news_posttime将被用作metadata
- news_content是正文

In [38]:
from langchain.schema import Document

# 将csv数据转化成 documents
documents = []
for index, row in data.iterrows():
    document = Document(
        metadata={
            'source': row['news_url'],
            'platform_name': row['platform_name'],
            'news_title': row['news_title'],
            'news_posttime': row['news_posttime']
        },
        ids = row['news_url'],
        page_content=row['news_content']
    )
    documents.append(document)




In [42]:
import chromadb
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores.chroma import Chroma
# 将处理好的新闻内容放进向量数据库
embedding = HuggingFaceEmbeddings(model_name='BAAI/bge-small-zh-v1.5')

chroma_db = Chroma.from_documents(documents=documents, embedding=embedding)

In [53]:
# 查询一：根据输入query，查询top3的内容
chroma_db.similarity_search("凯莱英三季度业绩报告", k=3)

[Document(metadata={'news_posttime': '2024-10-29 17:36:18', 'news_title': '凯莱英：前三季度净利润7.1亿元 同比下降67.86%', 'platform_name': '第一财经', 'source': 'https://www.yicai.com/news/102332725.html'}, page_content='凯莱英披露三季报，2024年前三季度实现营业收入41.4亿元，同比下降35.14%；归属于上市公司股东的净利润7.1亿元，同比下降67.86%。其中，第三季度实现营业收入14.43亿元，同比下降18.09%；归属于上市公司股东的净利润2.11亿元，同比下降59.68%。'),
 Document(metadata={'news_posttime': '2024-10-29 17:36:18', 'news_title': '凯莱英：前三季度净利润7.1亿元 同比下降67.86%', 'platform_name': '第一财经', 'source': 'https://m.yicai.com/news/102332725.html'}, page_content='凯莱英披露三季报，2024年前三季度实现营业收入41.4亿元，同比下降35.14%；归属于上市公司股东的净利润7.1亿元，同比下降67.86%。其中，第三季度实现营业收入14.43亿元，同比下降18.09%；归属于上市公司股东的净利润2.11亿元，同比下降59.68%。'),
 Document(metadata={'news_posttime': '2024-10-29 17:33:39', 'news_title': '凯莱英：前三季度归母净利润7.1亿元 同比降67.86%', 'platform_name': '每日经济新闻', 'source': 'https://m.nbd.com.cn/articles/2024-10-29/3616186.html'}, page_content='每经AI快讯，10月29日，凯莱英发布2024年前三季度业绩，该集团期内取得营业收入约41.4亿元，同比减少35.14%；归属于上市公司股东的净利润7.10亿元，同比减少67.86%；基本每股收益2.01元。')]

In [55]:
# 查询二：假设用户只有每日经济新闻权限，根据输入query，查询top3的内容
filter_condition = {"platform_name": "每日经济新闻"} # 根据用户权限，过滤metadata中的内容
chroma_db.similarity_search(query="凯莱英三季度业绩报告", k=3, filter=filter_condition)

[Document(metadata={'news_posttime': '2024-10-29 17:33:39', 'news_title': '凯莱英：前三季度归母净利润7.1亿元 同比降67.86%', 'platform_name': '每日经济新闻', 'source': 'https://m.nbd.com.cn/articles/2024-10-29/3616186.html'}, page_content='每经AI快讯，10月29日，凯莱英发布2024年前三季度业绩，该集团期内取得营业收入约41.4亿元，同比减少35.14%；归属于上市公司股东的净利润7.10亿元，同比减少67.86%；基本每股收益2.01元。'),
 Document(metadata={'news_posttime': '2024-10-29 21:03:31', 'news_title': '凯瑞德：2024年前三季度净利润约-253万元', 'platform_name': '每日经济新闻', 'source': 'https://m.nbd.com.cn/articles/2024-10-29/3617530.html'}, page_content='每经AI快讯，凯瑞德10月29日晚间发布三季度业绩公告称，2024年前三季度营收约5.02亿元，同比增加133.02%；归属于上市公司股东的净利润亏损约253万元；基本每股收益亏损0.0069元。凯瑞德的总经理、董事长均是纪晓文，男，52岁，学历背景为硕士。'),
 Document(metadata={'news_posttime': '2024-10-28 19:02:00', 'news_title': '莱伯泰科：2024年前三季度净利润约3510万元', 'platform_name': '每日经济新闻', 'source': 'https://m.nbd.com.cn/articles/2024-10-28/3613233.html'}, page_content='每经AI快讯，莱伯泰科10月28日晚间发布三季度业绩公告称，2024年前三季度营收约3.11亿元，同比增加3.72%；归属于上市公司股东的净利润约3510万元，同比增加31.64%。')]