# Index vectoriel : NN et ANN, équivalent ML des index lexicaux

Depuis ~2020, le ML permet de représenter des documents textuels par des vecteurs en grande dimension (appelés **embedding**) qui possèdent l'énorme propriété de traduire numériquement/vectoriellement l'information sémantique contenue dans les documents. De surcroit, ces embeddings peuvent se comparer algébriquement très simplement dans le sens où 2 embeddings "proches" (dans leur espace) correspondent à des objets proches (dans notre perception). Le uses-case 4 des TP précédent visait à obtenir de tels embeddings à partir d'un service externe.

Des structures de données spécifiques ont été proposées pour tirer profit des avantages techniques des embeddings. On parlera de DB vectorielle (DBV) pour ce type de base de données vectorielles. Ces DBV nécessitent une technologie très différentes des index lexicaux/float traditionnels et implémentent différents algorithmes de résolution des problèmes *Nearest Neighbors* (plus proches voisins) ou plus fréquemment *Approximated Nearest Neighbors* (plus proches voisins approximatifs).
## Recherche par plus proche voisins 
### Algorithme Nearest Neighbors - NN

Puisqu'il est possible de représenter (presque) tout document sous format embedding et que ces derniers ont la propriété d'être comparables entre eux, un nouveau type de recherche s'ouvre : recherche par embeddings les plus proche de l'embedding d'une query. Opérer une recherche à partir d'une query revient à trouver les *plus proches voisins* (Nearest Neighbors - NN) de l'embedding de la query parmi les embeddings de documents.

Exemple en dimension 2 : les coordonnées GPS 2D d'une ville sont en quelque sort un embedding basique d'une ville. Trouver les 5 villes les plus proches de Nancy est simple : il suffit de cacluler les distances de Nancy à toutes les villes grâce à leurs coordonnées et de trouver les top5 distances les plus faibles.

**Problème:** une telle recherche exhaustive implique $O(n^2)$ calculs où $n$ est le nombre de villes. Si $n=10^6$, le calcul devient difficile.

### Variante Approximative Nearest Neihbors - ANN

**Solution proposée:** sachant qu'il est inutile de calculer la distance entre Nancy et Timbuktu ou New-York (celles-ci ne seront jamais dans le top5 proximité), il peut être intéressant de restreindre le champ de recherche afin de ne payer une recherche exhaustive en $O(n^2)$ que pour une poignée de villes qu'on sait déjà être "proches". Dans notre exemple, une recherche limitée au département de la ville cible et aux départements limitrophes suffit. 

Il s'agit d'un début de compréhension de la famille d'algorithmes Approximative Nearest Neihbors (ANN par la suite) qui permet de casser la complexité du problème de recherche de plus proches voisins en hierarchisant l'information. Cette hierarchisation se fait via une structure de donnée particulière ; l'implémentation la plus courante en 2024 est [Hierarchical Navigable Small World - HNSW](https://www.wikiwand.com/en/articles/HNSW_indexes).

Remarque : l'algo qui traduit réellement la hierarchisation stricte est plutôt de la famille [K-d tree](https://www.wikiwand.com/en/articles/K-d_tree) mais il est inefficace pour des vecteurs de dimension $k=768+$ comme c'est le cas pour la plupart des embeddings

## Solutions open sources
Depuis quelques années, de nouveaux acteurs spécialisés en DB vectorielles ont émergé. Les acteurs historiques de l'indexation s'y mettent:
- ElasticSearch : se met "sur le tard" aux ANN ([ici](https://www.elastic.co/fr/blog/introducing-approximate-nearest-neighbor-search-in-elasticsearch-8-0)) - ils sont possiblement ralentis par leur coeur-algo Lucent qui me semble peu flexible
- Vespa : comme indiqué au TP précédent, Vespa intègre nativement tout l'atirail vectoriel et ANN, de façon distribué (le [blog](https://blog.vespa.ai/index.html) abonde de sujets ANN)
- PostgresSQL : la DB SQL historique a démarré un projet [pgvector](https://github.com/pgvector/pgvector/) pour proposer un support ANN
- Redis Vector : le caching utilisé en TP peut également être utilisé comme index vectoriel
De nouveaux acteurs "pure players" des DB vectorielles ont vu le jour également :
- FAISS : [lib open-source](https://github.com/facebookresearch/faiss) de Meta. Interface rustique mais grande puissance. Plutôt pour tester que pour mettre en prod
- Milvus : d'après leur [site](https://milvus.io/) il s'agit d'une DBV scalabale. En prod chez Le Bon Coin
- Qdrant : idem d'après [leur site](https://qdrant.tech/) - utilisée uniquement dans des PoC persos
- Weaviate : idem d'après [leur site](https://weaviate.io/)

Certains services proposent des DBV managées dans le cloud (ex: Weaviate, Vespa, ...), d'autres proposent simplement le code (ex: FAISS).

**Dans ce TP, nous utiliserons rapidement Vespa et surtout Qdrant**

https://blog.vespa.ai/semantic-search-with-multi-vector-indexing/

## Reprise de l'exemple avec Vespa

In [1]:
from vespa.application import Vespa, VespaSync
import json

vespa = Vespa(url="http://vespa", port=8080)
vespa.wait_for_application_up(30)

Application is up!


En réalité, Vespa peut également manipuler des vecteurs et les crée même lui-même si on lui demande (plus besoin de passer par Jina) :

In [3]:
query = "scottish oak cask beer"
resp = vespa.query(
    {
        "yql": "select * from beer where {targetHits:3}nearestNeighbor(mrl_embedding, q)",
        "input.query(q)": "embed(mxbai, @text)",
        "ranking.profile": "ann",
        "presentation.summary": "textual",
        "text": query
    }
)
print(json.dumps(resp.json["root"]["children"], indent=2))

[
  {
    "id": "index:beer_content/0/d5cec10264e957e6464646ec",
    "relevance": 0.8012198041499473,
    "source": "beer_content",
    "fields": {
      "sddocname": "beer",
      "name": "The Livery Kilt Tilter",
      "id": "5369",
      "brewery": "The Livery",
      "description_beer": "Our version of a Scotch Ale is made with a portion of peat smoked barley. Very malty, with a subtle smoky finish. Also available in a barrel aged version.",
      "description_brewery": "All of our Hand Forged Microbrews here at the Livery are painstakingly created by brewmaster Steve Berthel and his assistant, Wally Rouse, on a 10bbl. system of his own design. Closed fermenters allow for the use of many different yeast strains to assure that all our beer styles have their own unique flavor profile. Many of our high gravity beers are aged in a selection of oak barrels for up to a year.  We feature 3 real ales every day, poured to perfection from our antique beer engines. Every 4th. Sunday of the mo

# Qdrant

Qdrant est une solution open-source "pur vecteur". Le client `qdrant` ci-après est pré-chargé avec les embeddings Jina calculés aux TPs précédents

In [5]:
from qdrant_client import QdrantClient
import numpy as np

In [6]:
jina_collection_name = "beer-jina"
client = QdrantClient(url="http://qdrant:6333", prefer_grpc=True)

In [23]:
import requests

EMBEDDING_NAME = "jina-embeddings-v2-base-en"
url = 'https://api.jina.ai/v1/embeddings'

headers = {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer jina_82bf2b472cd5427a8fc20c6ed47188dfqYajsVcyJBdY7L-ZgYuuTd6GQ5rW'
}

query = "stout"
data = {
    'model': EMBEDDING_NAME,
    'normalized': True,
    'embedding_type': 'float',
    'input': query
}

response = requests.post(url, headers=headers, json=data)

In [24]:
vec = response.json()["data"][0]["embedding"]

In [25]:
resp = client.search(collection_name=jina_collection_name, query_vector=vec)

In [26]:
resp[0].

ScoredPoint(id=4429, version=0, score=0.8613784313201904, payload={'description': 'the beer Double Chocolate Stout from brewery Youngs & Company Brewery () crafts the beer Double Chocolate Stout defined as A rich, creamy stout with roasted chocolate flavors. A perfect dessert beer.. Spec of the beer are: ABV=5.2, IBU=0, SRM=0'}, vector=None, shard_key=None, order_value=None)

# Répondre à une question
Utiliser QdrantDB pour trouver les docs qui répondent à une query sous format textuel (l'embedder au préalable avec Jina)

In [18]:
res = client.search(
    collection_name=jina_collection_name,
    query_vector=vec[1],
    limit=3
)

In [None]:
res

# Trouver les bières proches d'une bière cible
Utiliser QdrantDB pour trouver les bières les plus proches de quelques bières de la DB qui vous plaisent