More information about milvus operation detail #1763

yhmo · 2020-03-26T08:39:00Z

建索引有两种方式

a) 后台自动建索引, 主要的操作步骤是：

调用create_collection建立一个空集合
调用create_index给该集合指定一种索引（除IDMAP之外的任意一种索引）
多次调用insert插入数据，每当累计插入数据量达到index_file_size设定的大小，后台就会自动给新增的index_file_size大小的数据块建立索引

b) 手动调用create_index建索引, 主要的操作步骤是：

调用create_collection建立一个空集合
多次调用insert插入数据，这时由于没有给集合指定索引，所以不会在后台自动建立索引
手动调用create_index对整个集合的全部数据块建立索引，就算数据块的大小没有达到index_file_size设定的值，也会强制建索引，create_index是阻塞操作

分别在CPU和GPU两种模式下，两种建索引方式对查询的影响：

对于第1种方式：

对于第2种方式：

CPU版本：由于create_index是阻塞操作，同一个客户端上要等该操作完成后才能查询。如果使用多客户端，另一个客户端可以执行查询，但由于建索引和查询都需要全占CPU资源，因此在milvus在运行建索引的时候，查询任务会等待索引完成后才能执行。
GPU版本：由于create_index是阻塞操作，同一个客户端上要等该操作完成后才能查询，建索引任务只使用一个GPU。如果使用多客户端，另一个客户端可以执行查询，使用其他的GPU或者CPU执行查询任务，因此可以异步进行。

delete_by_id操作只是记录了一个被删向量的id列表，并没有真正从数据文件里把向量数据删除，为了清理掉被删向量，需要调用compact操作。
compact操作是很消耗资源的操作，其具体做的事情是：从原数据文件中提取出未被删除的向量数据，重新生成一份数据文件，如果该数据文件已经建好了索引，则把该索引文件删除，并重建一个新的索引文件。
compact是阻塞操作，由于既有大量磁盘IO也可能连带有建索引的操作，因此会严重影响其他客户端的查询性能。

获取信息的接口包括：describe_collection, describe_index, get_vector_ids, get_vector_by_id，collection_info等等。
这些接口都是从meta里获取信息返回客户端，或者读取某些记录向量信息的小文件，因此比较轻量，对其他客户端查询性能的影响很小。

preload_collection是把集合的数据预加载到缓存里，其功能相当于server_config.yaml里的preload_table这一项
milvus启动时，如果没有预加载集合的数据，那么对这个集合的查询就要经过将数据从磁盘读入缓存这一阶段，对于大数据量的集合来说会非常慢，因此在查询之前调用preload_table可以把数据先加载进磁盘，虽然总的耗时不变，但对于希望第一次查询就有好性能的场合很适用。

yhmo added the kind/user-doc Issues or changes related to the user document label Mar 26, 2020

yhmo assigned yamasite Mar 26, 2020

tinkerlin assigned yhmo and PahudPlus and unassigned yamasite Apr 30, 2020

yhmo closed this as completed May 25, 2020

Provide feedback