## Vector Search: From Zero To Hero
这一系列代码教程是为了让你在学习后能够对向量搜索有一定的认识和了解，通过该教程你可以
- 对向量搜索的算法有一个清晰的认识
- 自己动手实现一个简单的向量搜索库
- 对不同的向量搜索算法有一个直观的感受

该教程使用Python实现，如果你没有学过Python也不用紧张，Python十分简单易懂，并且该教程更专注于算法实现。

该教程使用sift1M作为数据集。

运行下面的code block，然后开始向量搜索之旅。

In [25]:
print('Welcome to Vector Search! Hope you will become Vector Search Hero!')

Welcome to Vector Search! Hope you will become Vector Search Hero!


### Prepare Data
如果你已经下载了数据，可以直接跳过这个cell

In [26]:
import shutil
import urllib.request as request
import tarfile
from contextlib import closing

# download the Sift1M dataset
with closing(request.urlopen('ftp://ftp.irisa.fr/local/texmex/corpus/sift.tar.gz')) as r:
    with open('sift.tar.gz', 'wb') as f:
        shutil.copyfileobj(r, f)


# the download leaves us with a tar.gz file, we unzip it
tar = tarfile.open('sift.tar.gz', "r:gz")
tar.extractall()

KeyboardInterrupt: 

### The K-Nearest Neighbors (kNN)
KNN 是向量搜索中最简单的一个算法，首先想象一个二维平面中有许多的点，当你想要得到距离某一个点最近的K个点时，最朴素的算法就是遍历所有的点，挨个计算距离
并始终保存K个最近的点，当遍历结束，也就得到了最近的K个点。

向量搜索中大部分的向量都是高维向量，但是思想是相同的，因此KNN算法可以很轻易的从二维空间延展到多维空间。

KNN的缺点
1. 计算量大
2. 空间复杂度高

优点就是简单易于实现，因此这一份教程以KNN作为开篇，让你可以更容易熟悉这个教程的流程。

<img src="./resources/knn.png" title="From Weaviate" width="50%" height="50%">

Picture From Weaviate

#### DISTANCE
既然要算出最近的距离，我们就需要有一个距离函数。

KNN算法中我们使用欧式距离，公式如下
$$y=\sqrt{\sum_{i=1}^{n}{\left| x_{i}-y_{i} \right|^{2}}}$$

如果你对向量搜索中使用的距离公式感兴趣,有一篇很好的博客可供参考

[distance in vector search](https://weaviate.io/blog/distance-metrics-in-vector-search)

##### **TASK1**:
你需要在KNN类中的distance函数实现这一公式， **u**,**v**为numpy的数组类型，你可以假设他们都是一维数组，并且size完全相等。
##### **HINT**:
1. 如果你并不熟悉numpy也无需慌张,这里有一份很好的[tutorial](https://numpy.org/doc/stable/user/absolute_beginners.html)，可以帮助你快速的熟悉numpy。
2. 无需着急，第一个task十分简单，他的主要目的是让你熟悉numpy,你大可以放松心情。
3. python有许多有用的内置函数，你可以在[link](https://docs.python.org/3/library/functions.html)中找到。也许sum，zip可以帮助到你。
4. 如果你对python不熟悉，这里有一份[tutorial](https://docs.python.org/3/tutorial/index.html),

在你实现距离函数后，你可以尝试运行DISTANCE FUNCTION TEST的CELL，如果不出意外的话，你可以看到**Distance Pass**


In [27]:
import numpy as np
class KNN:

    # Calculate the euclidean distance between V and U
    def distance(self,v: np.ndarray, u: np.ndarray) -> float:
        # you code here
        return sum((v1 - v2) ** 2 for v1, v2 in zip(v,u)) ** .5
        pass
    

    # Get the top K nearest point of query in self.data
    # return it as a (K, 128) numpy array
    def topK(self,query: np.ndarray, k: int) -> np.ndarray:
        # you code here
        pass

    def read_data(self,file : str) -> np.ndarray:
        a = np.fromfile(file, dtype='int32')
        d = a[0]
        return a.reshape(-1, d + 1)[:, 1:].copy().view('float32')


    def __init__(self) -> None:
        self.data_set = self.read_data("./sift/sift_base.fvecs") 

In [28]:
# DISTANCE FUNCTION TEST
knn = KNN()
assert knn.distance(np.array([1,2]), np.array([1,3])) == 1.0, "FAIL, EXPECT 1.0"
assert knn.distance(np.array([1,2,3]), np.array([1,1,1])) == 2.23606797749979, "FAIL, EXPECT 2.23"
assert knn.distance(np.array([1,2]), np.array([-1,2])) == 2.0, "FAIL, EXPECT 2.0"
assert knn.distance(np.array([]), np.array([])) == 0, "FAIL, EXPECT 0"
assert knn.distance(np.array([1.0]), np.array([1])) == 0, "FAIL, EXPECT 0"
print('\033[92m' + "Distance Pass" + '\033[0m')

[92mDistance Pass[0m


In [None]:
# TEST 