# 03 - Recherche vectorielle avec Albert API

**Objectif** : Impl√©menter la recherche s√©mantique sur le catalogue Mediatech

**√âtapes** :
1. Appeler Albert API pour g√©n√©rer l'embedding d'une question
2. Calculer la similarit√© cosinus avec les embeddings Mediatech
3. Retourner les top-k datasets pertinents

## 1. Configuration et imports

In [None]:
import os
import json
import numpy as np
import duckdb
import httpx
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv("../.env")

ALBERT_API_KEY = os.getenv("ALBERT_API_KEY")
ALBERT_API_URL = os.getenv("ALBERT_API_URL", "https://albert.api.etalab.gouv.fr/v1")

if not ALBERT_API_KEY:
    raise ValueError("ALBERT_API_KEY non d√©finie dans .env")

print(f"‚úÖ Albert API configur√©e : {ALBERT_API_URL}")
print(f"   Cl√© : {ALBERT_API_KEY[:20]}...")

## 2. Charger les donn√©es Mediatech

In [None]:
# Connexion DuckDB
PARQUET_GLOB = "../huggingface/data_gouv_datasets_catalog_part_*.parquet"
con = duckdb.connect()

con.execute(f"""
    CREATE VIEW mediatech AS 
    SELECT * FROM read_parquet('{PARQUET_GLOB}')
""")

nb_datasets = con.execute("SELECT COUNT(*) FROM mediatech").fetchone()[0]
print(f"‚úÖ {nb_datasets:,} datasets charg√©s")

## 3. Fonction d'embedding via Albert API

In [None]:
def get_embedding(text: str) -> np.ndarray:
    """
    Appelle Albert API pour obtenir l'embedding BGE-M3 d'un texte.
    Retourne un vecteur numpy de dimension 1024.
    """
    url = f"{ALBERT_API_URL}/embeddings"
    headers = {
        "Authorization": f"Bearer {ALBERT_API_KEY}",
        "Content-Type": "application/json"
    }
    payload = {
        "model": "BAAI/bge-m3",
        "input": text
    }
    
    with httpx.Client(timeout=30) as client:
        response = client.post(url, headers=headers, json=payload)
        response.raise_for_status()
        
    data = response.json()
    embedding = data["data"][0]["embedding"]
    return np.array(embedding, dtype=np.float32)

# Test
test_emb = get_embedding("test")
print(f"‚úÖ Embedding test : dimension {len(test_emb)}, type {test_emb.dtype}")

## 4. Charger les embeddings Mediatech en m√©moire

In [None]:
%%time
# Charger tous les embeddings et m√©tadonn√©es
# Note : ~99k embeddings de 1024 dim = ~400 MB en float32

EMB_COL = "embeddings_bge-m3"

df = con.execute(f"""
    SELECT 
        doc_id,
        title,
        organization,
        description,
        url,
        quality_score,
        metric_views,
        "{EMB_COL}" as embedding_json
    FROM mediatech
    WHERE "{EMB_COL}" IS NOT NULL
""").df()

print(f"‚úÖ {len(df):,} datasets avec embeddings charg√©s")

In [None]:
%%time
# Parser les embeddings JSON en matrice numpy
# C'est l'√©tape la plus lente (~30s)

embeddings_list = [json.loads(e) for e in df["embedding_json"]]
embeddings_matrix = np.array(embeddings_list, dtype=np.float32)

print(f"‚úÖ Matrice embeddings : {embeddings_matrix.shape}")
print(f"   M√©moire : {embeddings_matrix.nbytes / 1024**2:.1f} MB")

## 5. Fonction de recherche s√©mantique

In [None]:
def cosine_similarity(query_vec: np.ndarray, matrix: np.ndarray) -> np.ndarray:
    """
    Calcule la similarit√© cosinus entre un vecteur requ√™te et une matrice.
    Retourne un vecteur de scores.
    """
    # Normaliser le vecteur requ√™te
    query_norm = query_vec / np.linalg.norm(query_vec)
    
    # Normaliser chaque ligne de la matrice
    matrix_norms = np.linalg.norm(matrix, axis=1, keepdims=True)
    matrix_normalized = matrix / matrix_norms
    
    # Produit scalaire = similarit√© cosinus (car vecteurs normalis√©s)
    similarities = matrix_normalized @ query_norm
    
    return similarities

In [None]:
def search_datasets(query: str, top_k: int = 10) -> list[dict]:
    """
    Recherche les datasets les plus pertinents pour une requ√™te.
    
    Args:
        query: Question en langage naturel
        top_k: Nombre de r√©sultats √† retourner
        
    Returns:
        Liste de dicts avec les m√©tadonn√©es et scores
    """
    # 1. Obtenir l'embedding de la requ√™te
    query_embedding = get_embedding(query)
    
    # 2. Calculer les similarit√©s
    similarities = cosine_similarity(query_embedding, embeddings_matrix)
    
    # 3. Trier et prendre les top-k
    top_indices = np.argsort(similarities)[::-1][:top_k]
    
    # 4. Construire les r√©sultats
    results = []
    for idx in top_indices:
        row = df.iloc[idx]
        results.append({
            "doc_id": row["doc_id"],
            "title": row["title"],
            "organization": row["organization"],
            "description": row["description"][:300] + "..." if row["description"] and len(row["description"]) > 300 else row["description"],
            "url": row["url"],
            "quality_score": row["quality_score"],
            "metric_views": row["metric_views"],
            "similarity": float(similarities[idx])
        })
    
    return results

## 6. Tests de recherche

In [None]:
# Test 1 : Requ√™te simple
query = "donn√©es sur la qualit√© de l'air en France"
print(f"üîç Requ√™te : {query}\n")

results = search_datasets(query, top_k=5)

for i, r in enumerate(results, 1):
    print(f"{i}. [{r['similarity']:.3f}] {r['title']}")
    print(f"   üìç {r['organization']}")
    print(f"   üëÅÔ∏è {r['metric_views']:,} vues | ‚≠ê {r['quality_score']}")
    print()

In [None]:
# Test 2 : Autre requ√™te
query = "statistiques d√©mographiques par commune"
print(f"üîç Requ√™te : {query}\n")

results = search_datasets(query, top_k=5)

for i, r in enumerate(results, 1):
    print(f"{i}. [{r['similarity']:.3f}] {r['title']}")
    print(f"   üìç {r['organization']}")
    print()

In [None]:
# Test 3 : Requ√™te sp√©cifique
query = "bornes de recharge v√©hicules √©lectriques"
print(f"üîç Requ√™te : {query}\n")

results = search_datasets(query, top_k=5)

for i, r in enumerate(results, 1):
    print(f"{i}. [{r['similarity']:.3f}] {r['title']}")
    print(f"   üìç {r['organization']}")
    print()

## 7. Optimisation : Pr√©-normaliser les embeddings

In [None]:
# Pr√©-normaliser pour acc√©l√©rer les recherches suivantes
norms = np.linalg.norm(embeddings_matrix, axis=1, keepdims=True)
embeddings_normalized = embeddings_matrix / norms

def search_datasets_fast(query: str, top_k: int = 10) -> list[dict]:
    """
    Version optimis√©e avec embeddings pr√©-normalis√©s.
    """
    # 1. Obtenir et normaliser l'embedding de la requ√™te
    query_embedding = get_embedding(query)
    query_norm = query_embedding / np.linalg.norm(query_embedding)
    
    # 2. Produit scalaire direct (embeddings d√©j√† normalis√©s)
    similarities = embeddings_normalized @ query_norm
    
    # 3. Trier et prendre les top-k
    top_indices = np.argsort(similarities)[::-1][:top_k]
    
    # 4. Construire les r√©sultats
    results = []
    for idx in top_indices:
        row = df.iloc[idx]
        results.append({
            "doc_id": row["doc_id"],
            "title": row["title"],
            "organization": row["organization"],
            "description": row["description"][:300] + "..." if row["description"] and len(row["description"]) > 300 else row["description"],
            "url": row["url"],
            "quality_score": row["quality_score"],
            "metric_views": row["metric_views"],
            "similarity": float(similarities[idx])
        })
    
    return results

print("‚úÖ Embeddings pr√©-normalis√©s")

In [None]:
%%time
# Benchmark
results = search_datasets_fast("transports en commun Paris")
print(f"Top r√©sultat : {results[0]['title']}")

## 8. R√©sum√©

**Fonctions impl√©ment√©es** :
- `get_embedding(text)` : Appel Albert API pour embedding BGE-M3
- `search_datasets(query, top_k)` : Recherche s√©mantique sur Mediatech
- `search_datasets_fast(query, top_k)` : Version optimis√©e

**Performance** :
- Chargement initial : ~30s (parsing JSON)
- Recherche : ~200ms (dont ~150ms pour l'appel API)

---

## Prochaine √©tape

**Notebook 04** : Client MCP datagouv
- Se connecter au serveur MCP
- R√©cup√©rer les donn√©es fra√Æches d'un dataset