### √âtape 1 ‚Äì Connexion Python

In [2]:
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility
import pandas as pd
import numpy as np

# === √âtape 1 : Connexion √† Milvus ===
connections.connect("default", host="localhost", port="19530")
print(" Connect√© √† Milvus")

# === √âtape 2 : D√©finition du sch√©ma ===
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=512),
    FieldSchema(name="artist", dtype=DataType.VARCHAR, max_length=256),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384),
]

schema = CollectionSchema(fields, description="Embeddings musicaux GutsOfDarkness")

collection_name = "music_embeddings"

# Supprime la collection si elle existe d√©j√† (utile pour tester plusieurs fois)
existing_collections = utility.list_collections()
if collection_name in existing_collections:
    collection = Collection(collection_name)
    collection.drop()
    print(f" Ancienne collection '{collection_name}' supprim√©e.")

# Cr√©ation de la collection
collection = Collection(collection_name, schema=schema)
print(" Collection cr√©√©e :", collection.name)

# === √âtape 3 : Lecture du dataset ===
df = pd.read_parquet("../data/processed/sample_albums_embedded.parquet")
print(f" {len(df)} lignes charg√©es depuis le fichier Parquet.")

# === √âtape 4 : Conversion des embeddings ===
# Si ton embedding est stock√© sous forme de cha√Æne (ex: "[0.1, 0.2, ...]")
if isinstance(df["embedding"].iloc[0], str):
    df["embedding"] = df["embedding"].apply(
        lambda x: np.array(eval(x), dtype=np.float32)
    )

# V√©rifie la taille du premier vecteur
print(" Taille du premier embedding :", len(df["embedding"].iloc[0]))

# === √âtape 5 : Insertion dans Milvus ===
collection.insert([
    df["album_name"].tolist(),
    df["artist_name"].tolist(),
    df["embedding"].tolist()
])

collection.flush()
print(f"‚úÖ {len(df)} morceaux ins√©r√©s dans Milvus.")


 Connect√© √† Milvus
 Ancienne collection 'music_embeddings' supprim√©e.
 Collection cr√©√©e : music_embeddings
 14072 lignes charg√©es depuis le fichier Parquet.
 Taille du premier embedding : 384
‚úÖ 14072 morceaux ins√©r√©s dans Milvus.


### TEST

In [5]:
from sentence_transformers import SentenceTransformer

# Charger le mod√®le d'embedding (m√™me que celui utilis√© pour les albums)
model = SentenceTransformer("all-MiniLM-L6-v2")

# Exemple : une requ√™te utilisateur
query = "album de dark ambient exp√©rimental et introspectif"

# Transformer la requ√™te en vecteur
query_vec = model.encode([query]).astype(np.float32)

# === Cr√©ation de l‚Äôindex vectoriel (avant le load) ===
index_params = {
    "index_type": "HNSW",  # Algorithme de recherche approximative performant
    "metric_type": "IP",   # Inner Product (cosine-like similarity)
    "params": {"M": 8, "efConstruction": 64}
}
collection.create_index("embedding", index_params)
print("‚úÖ Index cr√©√© avec succ√®s.")

# Charger la collection apr√®s indexation
collection.load()
print("‚úÖ Collection charg√©e en m√©moire pour la recherche.")

# === Recherche vectorielle ===
search_params = {"metric_type": "IP", "params": {"nprobe": 10}}
results = collection.search(
    data=query_vec,
    anns_field="embedding",
    param=search_params,
    limit=5,
    output_fields=["title", "artist"]
)

# === Affichage des r√©sultats ===
for hits in results:
    for hit in hits:
        print(f"üéß {hit.entity.get('title')} ‚Äî {hit.entity.get('artist')} (score: {hit.distance:.3f})")


‚úÖ Index cr√©√© avec succ√®s.
‚úÖ Collection charg√©e en m√©moire pour la recherche.
üéß dark matters ‚Äî k. meizter (score: 0.655)
üéß night chorus ‚Äî harvest rain (score: 0.639)
üéß endogenous ‚Äî detritus (score: 0.615)
üéß innerwar ‚Äî brighter death now (score: 0.596)
üéß songs from neuropa ‚Äî mental measuretech (score: 0.584)
