# IndexFlatL2演示

- [官网文档](https://github.com/facebookresearch/faiss/wiki)
- [Faiss-indexes](https://github.com/facebookresearch/faiss/wiki/Faiss-indexes)
- [similarity search](https://github.com/facebookresearch/faiss/wiki)

## 目录
- 构造测试数据
- 创建索引并添加训练样本向量集合
- 用k-近邻搜索
- 完整代码

In [2]:
import numpy as np
import faiss
import time

下面构造如何向量：
1. 1万个数据
2. 每个数据64个维度

## 构造测试数据

Faiss处理固定维数d的向量集合，d通常为几十到几百，存储在矩阵中。

In [3]:
d = 64                           
nb = 100000                       
nq = 10000                       
np.random.seed(1234)                              # 对生成的数据，每次都一样，可预见，若无此句，每次都不一样
xb = np.random.random((nb, d)).astype('float32')  # 向量集合，矩阵nb*d
xb[:, 0] += np.arange(nb) / 1000                  # 修正向量集合第一列，每项加 0...nb/1000 小数
xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000 

> 说明：
>
> `xb`为`[100000,64]`的训练数据，`xq`为`[10000,64]`的查询数据。

行主存储，即向量编号为`i`的第`j`个分量存储在矩阵的第`i`行第`j`列中。

例如，如下向量集合为5个数据，每个数据为2维度：
```
[[0.19151945 0.62210876]
 [0.43872774 0.7853586 ]
 [0.7819758  0.2725926 ]
 [0.27946424 0.8018722 ]
 [0.96213937 0.87593263]]
```
Faiss只使用32位浮点矩阵。

add方法一般添加训练时的样本，search就是寻找相似向量。

## 创建索引并添加训练样本向量集合

faiss创建索引从而对向量预处理，提高查询效率。

faiss提供多种索引方法，最简单的暴力检索L2距离：`IndexFlatL2`。

当创建索引时，必须指定数据集向量的维度`d`。 

大多数索引还需要训练来分析向量集的分布。但`IndexFlatL2`可以跳过这个操作。

In [4]:
index = faiss.IndexFlatL2(d)
print('is_trained',index.is_trained)
index.add(xb)
print('ntotal', index.ntotal)

is_trained True
ntotal 100000


> 说明：
> 
> 将向量 xb 添加到 index。

## 用k-近邻搜索

In [6]:
k = 4                               # k邻近搜索 k=4 
D, I = index.search(xb[:5], k)      # 用xb前五个数据测试
print(I)
print(D)

[[  0 393 363  78]
 [  1 555 277 364]
 [  2 304 101  13]
 [  3 173  18 182]
 [  4 288 370 531]]
[[0.        7.1751733 7.207629  7.2511625]
 [0.        6.3235645 6.684581  6.7999454]
 [0.        5.7964087 6.391736  7.2815123]
 [0.        7.2779055 7.5279865 7.6628466]
 [0.        6.7638035 7.2951202 7.3688145]]


In [20]:
k = 10                               # k邻近搜索 k=4 
D, I = index.search(xb[-5:], k)      # 用xb前五个数据测试
print(I)
print(D)

[[99995 99822 99864 99692 99810 99608 98764 98978 99653 99815]
 [99996 99836 99784 99941 99800 99995 99647 99506 99656 99859]
 [99997 99339 99946 99273 99647 99608 99874 99138 99742 99434]
 [99998 99711 99798 99584 99817 99508 99974 99206 98991 99332]
 [99999 99404 99659 99941 99693 99931 99827 99562 99568 99653]]
[[0.        5.665085  5.704484  5.785391  5.862203  6.327144  6.331679
  6.382374  6.421702  6.436242 ]
 [0.        6.68367   6.842343  6.920699  7.0573673 7.116924  7.1207876
  7.1694236 7.1842127 7.2120733]
 [0.        6.7744017 6.818219  6.88326   6.965914  6.992526  7.3095956
  7.3889666 7.4510303 7.602867 ]
 [0.        7.5281425 7.7377906 7.9008036 7.973149  8.318675  8.52397
  8.649483  8.698359  8.7357855]
 [0.        6.173254  7.0847716 7.2752233 7.599222  7.824944  7.891345
  7.9095006 8.020744  8.248194 ]]


距离此向量最近的确实是他本身。

说明：

```python
k = 4   # we want to see 4 nearest neighbors
D, I = index.search(xq, 10)     # actual search
# xq is the query data
# k is the num of neigbors you want to search
# D is the distance matrix between xq and k neigbors
# I is the index matrix of k neigbors
print(I[:5])                   # neighbors of the 5 first queries
print(I[-5:]) # neighbors of the 5 last queries
```

In [18]:
D, I = index.search(xq, k)          # 执行搜索
print(I[:5])                        # 最初五次查询的结果
print(I[-5:])                       # 最后五次查询的结果

[[ 381  207  210  477]
 [ 526  911  142   72]
 [ 838  527 1290  425]
 [ 196  184  164  359]
 [ 526  377  120  425]]
[[ 9900 10500  9309  9831]
 [11055 10895 10812 11321]
 [11353 11103 10164  9787]
 [10571 10664 10632  9638]
 [ 9628  9554 10036  9582]]


## 完整代码
```python
import numpy as np

d = 3                               # 向量维度
nb = 100000                         # 向量集大小
nq = 10000                          # 查询次数
np.random.seed(1234)                # 结果可复现
xb = np.random.random((nb, d)).astype('float32')
xb[:, 0] += np.arange(nb) / 1000.   # 修正项
xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000.

import faiss
index = faiss.IndexFlatL2(d)        # 构建FlatL2索引
print(index.is_trained)
index.add(xb)                       # 向索引中添加向量
print(index.ntotal)

k = 4                               # k=4的 k邻近搜索
D, I = index.search(xq, k)          # 执行搜索
print(I[:5])                        # 最初五次查询的结果
print(I[-5:])                       # 最后五次查询的结果
```