In [13]:
!pip install faiss-cpu

!pip install openai
!pip install openpyxl


Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


In [None]:
!pip install pandas


Collecting pandas
  Downloading pandas-2.2.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.7/12.7 MB[0m [31m46.1 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25hDownloading tzdata-2025.1-py2.py3-none-any.whl (346 kB)
Installing collected packages: tzdata, pandas


In [15]:
import faiss
import numpy as np
import pandas as pd
import time
from openai import OpenAI
import pickle

# 1. Définition de la requête
query_text = "taux de change dollar états unis"

# 2. Chargement de la clé OpenAI depuis un fichier sécurisé
from credentials.keys import OPENAI_API_KEY
client = OpenAI(api_key=OPENAI_API_KEY)

# 3. Chargement du fichier Excel et préparation des données
file_path = "resultat_jointure.xlsx"  # Nom du fichier Excel
df = pd.read_excel(file_path)

df["title_fr"] = df["title_fr"].fillna("")
df["description_fr"] = df["description_fr"].fillna("")

def extract_periodicity(series_key):
    periodicity_mapping = {"D": "quotidien", "H": "hebdomadaire", "M": "mensuel", "A": "annuel", "Q": "trimestriel"}
    code = series_key.split(".")[1] if len(series_key.split(".")) > 1 else ""
    return periodicity_mapping.get(code, "")

df["periodicity"] = df["series_key"].apply(extract_periodicity)

documents = (df["description_fr"] + " " + df["title_fr"] + " " + df["periodicity"]).astype(str).tolist()

ids = df["series_key"].astype(str).tolist()

print("Taille des ids (fichier Excel) :", len(ids))

# 4. Création des embeddings et stockage dans FAISS
BATCH_SIZE = 200
total_tokens = 0

dim = 1536  # Taille des embeddings (doit être alignée avec le modèle utilisé)
index = faiss.IndexFlatL2(dim)  # Index FAISS pour la recherche par distance euclidienne

metadata = {}  # Stocker les ID et les textes associés

print("Début de la génération des embeddings par lots de 200...")

for i in range(0, len(documents), BATCH_SIZE):
    batch_texts = documents[i : i + BATCH_SIZE]
    batch_ids = ids[i : i + BATCH_SIZE]
    
    response = client.embeddings.create(input=batch_texts, model="text-embedding-3-small")
    batch_embeddings = np.array([resp.embedding for resp in response.data], dtype=np.float32)
    total_tokens += response.usage.total_tokens
    
    index.add(batch_embeddings)  # Ajout des embeddings à FAISS
    
    for doc_id, text in zip(batch_ids, batch_texts):
        metadata[doc_id] = text  # Stocker les métadonnées

    print(f"Batch {i // BATCH_SIZE + 1} : {len(batch_texts)} embeddings générés et ajoutés dans FAISS.")
    time.sleep(1)

print(f"Total de tokens consommés : {total_tokens}")

# Sauvegarde de l'index FAISS et des métadonnées
faiss.write_index(index, "faiss_index_openai.bin")
with open("metadata_openai.pkl", "wb") as f:
    pickle.dump(metadata, f)

print("Index FAISS et métadonnées sauvegardés.")

# 5. Générer l'embedding de la requête
response = client.embeddings.create(input=query_text, model="text-embedding-3-small")
query_embedding = np.array(response.data[0].embedding, dtype=np.float32).reshape(1, -1)

# 6. Recherche des voisins les plus proches
k = 10  # Nombre de résultats à récupérer
distances, indices = index.search(query_embedding, k)

# 7. Affichage des résultats
print("Phrase recherchée :", query_text)

for i, (distance, idx) in enumerate(zip(distances[0], indices[0])):
    if idx < len(metadata):  # Vérifier si l'index est valide
        doc_id = list(metadata.keys())[idx]
        text = metadata[doc_id]
        print(f"Résultat {i+1}: {doc_id} - {text} (distance: {distance})")

# 8. Vérification d'une série particulière
specific_series_key = "EXR.D.USD.EUR.SP00.A"
if specific_series_key in metadata:
    specific_embedding = np.array(response.data[0].embedding, dtype=np.float32).reshape(1, -1)
    distance = np.linalg.norm(query_embedding - specific_embedding)
    print(f"Distance entre '{specific_series_key}' et la requête : {distance}")
else:
    print(f"L'ID '{specific_series_key}' n'existe pas dans l'index FAISS.")


Taille des ids (fichier Excel) : 44371
Début de la génération des embeddings par lots de 200...
Batch 1 : 200 embeddings générés et ajoutés dans FAISS.
Batch 2 : 200 embeddings générés et ajoutés dans FAISS.
Batch 3 : 200 embeddings générés et ajoutés dans FAISS.
Batch 4 : 200 embeddings générés et ajoutés dans FAISS.
Batch 5 : 200 embeddings générés et ajoutés dans FAISS.
Batch 6 : 200 embeddings générés et ajoutés dans FAISS.
Batch 7 : 200 embeddings générés et ajoutés dans FAISS.
Batch 8 : 200 embeddings générés et ajoutés dans FAISS.
Batch 9 : 200 embeddings générés et ajoutés dans FAISS.
Batch 10 : 200 embeddings générés et ajoutés dans FAISS.
Batch 11 : 200 embeddings générés et ajoutés dans FAISS.
Batch 12 : 200 embeddings générés et ajoutés dans FAISS.
Batch 13 : 200 embeddings générés et ajoutés dans FAISS.
Batch 14 : 200 embeddings générés et ajoutés dans FAISS.
Batch 15 : 200 embeddings générés et ajoutés dans FAISS.
Batch 16 : 200 embeddings générés et ajoutés dans FAISS.
B