## Vector Search: From Zero To Hero
这一系列代码教程是为了让你能够对向量搜索有一定的认识和了解，通过该教程你可以
- 对向量搜索的算法有一个清晰的认识
- 自己动手实现一个简单的向量搜索库
- 对不同的向量搜索算法有一个直观的感受

该教程使用Python实现，如果你没有学过Python也不用紧张，Python十分简单易懂，并且该教程更专注于算法实现。

该教程使用sift1M作为数据集。唯一依赖的就是numpy。

该教程会使用TDD风格进行开发。希望你可以接受。

In [1]:
print('Welcome to Vector Search! Hope you will become Vector Search Hero!')

Welcome to Vector Search! Hope you will become Vector Search Hero!


### Prepare Data
如果你已经下载了数据，可以直接跳过这个cell

In [2]:
import shutil
import urllib.request as request
import tarfile
from contextlib import closing

# download the Sift1M dataset
with closing(request.urlopen('ftp://ftp.irisa.fr/local/texmex/corpus/sift.tar.gz')) as r:
    with open('sift.tar.gz', 'wb') as f:
        shutil.copyfileobj(r, f)


# the download leaves us with a tar.gz file, we unzip it
tar = tarfile.open('sift.tar.gz', "r:gz")
tar.extractall()

### The K-Nearest Neighbors (kNN)
KNN 是向量搜索中最简单的一个算法，首先想象一个二维平面中有许多的点，当你想要得到距离某一个点最近的K个点时，最朴素的算法就是遍历所有的点，挨个计算距离
并始终保存K个最近的点，当遍历结束，也就得到了最近的K个点。

向量搜索中大部分的向量都是高维向量，但是思想是相同的，因此KNN算法可以很轻易的从二维空间延展到多维空间。

KNN的缺点
1. 计算量大
2. 空间复杂度高

优点就是简单易于实现，因此这一份教程以KNN作为开篇，让你可以更容易的熟悉这个教程的风格以及流程。

首先我们为KNN编写测试用例

In [None]:
"""
dataset  is the sift1M or custom datasize
query    is point we interesting
k        is the top-k nearest neighbors
expected is the result we expected
"""
def knn_test(dataset, query, k, knn_algorithm, expected):
    actual = knn_algorithm(query, k, dataset)
    assert actual == expected

"""
We will use 3 test case to test your algorithm's correctness
knn_test()

"""

#### DISTANCE
既然要算出最近的距离，我们就需要有一个距离函数。

KNN算法中我们使用欧式距离，公式如下
$$y=\sqrt{\sum_{i=1}^{n}{\left| x_{i}-y_{i} \right|^{2}}}$$

如果你对向量搜索中使用的距离公式感兴趣,有一篇很好的博客可供参考

[https://weaviate.io/blog/distance-metrics-in-vector-search](https://weaviate.io/blog/distance-metrics-in-vector-search)

In [None]:
def euclidean(v, u):
    distance = sum((x - y) ** 2 for x, y in zip(v, u)) ** .5
    return distance