# KNN vs other similarity metrics

Inspired by Karpathy --
https://github.com/karpathy/randomfun/blob/master/knn_vs_svm.ipynb

```        
A very common workflow is to index some data based on its embeddings and then given a new query embedding retrieve the most similar examples with k-Nearest Neighbor search. For example, you can imagine embedding a large collection of papers by their abstracts and then given a new paper of interest retrieve the most similar papers to it.

TLDR in my experience it ~always works better to use an SVM instead of kNN, if you can afford the slight computational hit. Example below:
```

My question: how does KNN compare to other similarity metrics, besides SVM?

In [2]:
import numpy as np
np.random.seed(42)

embeddings = np.random.randn(1000, 1536) # (1000 documents, 1536-dimensional embeddings)
embeddings = embeddings / np.sqrt((embeddings**2).sum(1, keepdims=True)) # L2 normalize the rows, as is common 

query = np.random.randn(1536) # the query vector
query = query / np.sqrt((query**2).sum())  # (1536,)

## KNN

In [9]:
embeddings

array([[ 0.01278695, -0.00355935,  0.0166735 , ..., -0.00379975,
        -0.01199722, -0.04105258],
       [ 0.01330037, -0.01379501, -0.03029659, ...,  0.017939  ,
        -0.03287104,  0.04408893],
       [ 0.00512884,  0.04136598, -0.01858167, ..., -0.00643044,
        -0.00874959,  0.01240212],
       ...,
       [-0.01519871, -0.01918601, -0.00795636, ...,  0.05916144,
         0.06012371, -0.00636577],
       [ 0.04927123,  0.02736768,  0.02532746, ...,  0.01941154,
        -0.00600695, -0.03203716],
       [-0.00810883, -0.00925525,  0.00068903, ...,  0.02962341,
         0.01253986, -0.02029635]])

In [11]:
np.diag(embeddings @ embeddings.T)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [6]:
embeddings.shape

(1000, 1536)