In [3]:
import os
import pandas as pd
import numpy as np
import faiss

# === Configuration des chemins ===
DATA_PATH = os.path.join("..", "scripts", "data", "processed")
DATA_FILE = os.path.join(DATA_PATH, "events_with_embeddings.csv")
INDEX_DIR = os.path.join(DATA_PATH, "index")

# Cr√©ation automatique du dossier d‚Äôindex
os.makedirs(INDEX_DIR, exist_ok=True)
print(f"Dossier d'index v√©rifi√©/cr√©√© : {INDEX_DIR}")

# === Lecture du fichier CSV ===
df = pd.read_csv(DATA_FILE)
print(f"‚úÖ Fichier charg√© : {DATA_FILE}")
print(f"Nombre de lignes : {len(df)}\n")

# === Fonction de conversion string ‚Üí array ===
def str_to_list(emb_str):
    """Convertit une cha√Æne d'embedding en liste num√©rique"""
    if pd.isna(emb_str):
        return None
    try:
        return np.array(eval(emb_str), dtype='float32')
    except Exception as e:
        print(f"‚ö†Ô∏è Erreur conversion embedding : {e}")
        return None


# === Fonction d‚Äôindexation g√©n√©rique ===
def create_faiss_index(df, column_name, output_filename):
    """Cr√©e et sauvegarde un index FAISS pour une colonne d‚Äôembeddings donn√©e"""
    print(f"\nüß† Cr√©ation de l'index pour : {column_name}")

    # Conversion et nettoyage
    embeddings_list = df[column_name].dropna().apply(str_to_list).dropna().to_list()

    if len(embeddings_list) == 0:
        print(f"‚ùå Aucune donn√©e valide dans {column_name}, index non cr√©√©.")
        return

    embeddings_array = np.vstack(embeddings_list)
    print(f"Shape embeddings ({column_name}) : {embeddings_array.shape}")

    # Cr√©ation de l‚Äôindex
    embedding_dim = embeddings_array.shape[1]
    index = faiss.IndexFlatL2(embedding_dim)
    index.add(embeddings_array)

    # Sauvegarde
    output_path = os.path.join(INDEX_DIR, output_filename)
    faiss.write_index(index, output_path)
    print(f"üíæ Index FAISS sauvegard√© dans : {output_path}")
    print(f"‚úÖ {index.ntotal} vecteurs index√©s avec succ√®s.")


# === Cr√©ation des deux index ===
create_faiss_index(df, "embedding_description", "faiss_index_description.index")
create_faiss_index(df, "embedding_description_longue", "faiss_index_description_longue.index")

print("\nüéØ Tous les index FAISS ont √©t√© cr√©√©s avec succ√®s !")


Dossier d'index v√©rifi√©/cr√©√© : ..\scripts\data\processed\index
‚úÖ Fichier charg√© : ..\scripts\data\processed\events_with_embeddings.csv
Nombre de lignes : 9973


üß† Cr√©ation de l'index pour : embedding_description
Shape embeddings (embedding_description) : (9973, 1024)
üíæ Index FAISS sauvegard√© dans : ..\scripts\data\processed\index\faiss_index_description.index
‚úÖ 9973 vecteurs index√©s avec succ√®s.

üß† Cr√©ation de l'index pour : embedding_description_longue
Shape embeddings (embedding_description_longue) : (9973, 1024)
üíæ Index FAISS sauvegard√© dans : ..\scripts\data\processed\index\faiss_index_description_longue.index
‚úÖ 9973 vecteurs index√©s avec succ√®s.

üéØ Tous les index FAISS ont √©t√© cr√©√©s avec succ√®s !
