In [2]:
import os
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
import faiss
import pickle
import sqlite3

# Chemins
DB_PATH = "arxiv_relational.db"        # Base de donnÃ©es SQLite locale
FAISS_INDEX_PATH = "faiss_index.bin"   # Fichier d'index FAISS
ARTICLE_IDS_PATH = "article_ids.pkl"   # Mapping article_id <-> position FAISS

# 1. Chargement des articles depuis SQLite
print("ðŸ”¹ Chargement des articles depuis SQLite...")
conn = sqlite3.connect(DB_PATH)
df = pd.read_sql_query("SELECT article_id, title, abstract FROM articles", conn)
conn.close()
print(f"ðŸ”¹ Articles chargÃ©s : {len(df)}")

# 2. Nettoyage simple des textes
def preprocess_text(text):
    if pd.isna(text):
        return ""
    return text.replace('\n', ' ').strip()

texts = ((df['title'].fillna('') + ". " + df['abstract'].fillna('')).map(preprocess_text)).tolist()

# 3. Vectorisation avec Sentence Transformers
print("ðŸ”¹ Chargement du modÃ¨le SentenceTransformer...")
model = SentenceTransformer('all-MiniLM-L6-v2')

print("ðŸ”¹ Vectorisation des textes...")
embeddings = model.encode(texts, batch_size=64, show_progress_bar=True, normalize_embeddings=True)

# 4. CrÃ©ation de lâ€™index FAISS
print("ðŸ”¹ CrÃ©ation de l'index FAISS (cosine similarity)...")
dimension = embeddings.shape[1]
index = faiss.IndexFlatIP(dimension)
index.add(embeddings)

# 5. Sauvegarde de l'index et des IDs
os.makedirs("data", exist_ok=True)
faiss.write_index(index, FAISS_INDEX_PATH)
with open(ARTICLE_IDS_PATH, 'wb') as f:
    pickle.dump(df['article_id'].tolist(), f)

print("âœ… Index FAISS sauvegardÃ© :", FAISS_INDEX_PATH)
print("âœ… Liste des article_id sauvegardÃ©e :", ARTICLE_IDS_PATH)



ðŸ”¹ Chargement des articles depuis SQLite...
ðŸ”¹ Articles chargÃ©s : 3000
ðŸ”¹ Chargement du modÃ¨le SentenceTransformer...
ðŸ”¹ Vectorisation des textes...


Batches:   0%|          | 0/47 [00:00<?, ?it/s]

ðŸ”¹ CrÃ©ation de l'index FAISS (cosine similarity)...
âœ… Index FAISS sauvegardÃ© : faiss_index.bin
âœ… Liste des article_id sauvegardÃ©e : article_ids.pkl
