In [1]:
import json
import torch

from sentence_transformers import SentenceTransformer
from keybert import KeyBERT

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity as tfidf_cosine_similarity
from torch.nn.functional import cosine_similarity

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# A EXECUTER LORSQUE LES KEYWORD N'ONT JAMAIS ETE EXTRAITS
# Récupère les documents du json
# 



# documents = []
# with open("./data/documents.json", "r", encoding="utf-8") as f:
#     documents = json.load(f)
# 
# # Extraction de mots-clés
# keywords_modele = KeyBERT()
# 
# for doc in documents:
#     texte = f"{doc.get('title_s', '')} {doc.get('abstract_s', '')}"
#     keywords = keywords_modele.extract_keywords(texte, keyphrase_ngram_range=(1, 3), top_n=5) 
#     doc['extracted_keywords'] = [kw[0] for kw in keywords]  # Ajouter les mots-clés

# #Une fois les doc changé on les sauvegarde pour pas avoir a reexcuters les cellules
# with open("./data/documentsExtractedKey.json", "w", encoding="utf-8") as f:
#     json.dump(documents, f, indent=4, ensure_ascii=False)

In [3]:
# A EXECUTER LORSQUE "./data/documentsExtractedKey.json" EXISTE DEJA
# Récupère les documents du json

documents = []
with open("./data/documentsExtractedKey.json", "r", encoding="utf-8") as f:
    documents = json.load(f)
    
# Afficher un exemple de document
print(documents[0])


{'title_s': ['Fractal inverse problem: an analytical approach'], 'abstract_s': ['Fractal inverse problem: The fractal inverse problem is an important research area with a great number of potential application fields. It constists in finding a fractal model or code that generates a given object. This concept has been introduced by Barnsley with the well known collage theorem [Bar88]. When the considered object is an image, we often speak about fractal image compression. A method has been proposed by Jacquin to solve this kind of inverse problem [Jac92].'], 'authFullName_s': ['Eric Guérin', 'Eric Tosan'], 'producedDateY_i': 2004, 'keyword_s': [''], 'extracted_keywords': ['fractal inverse problem', 'inverse problem fractal', 'approach fractal inverse', 'fractal inverse', 'problem fractal inverse']}


In [4]:
# Chargement du modèle
modele = SentenceTransformer('multi-qa-mpnet-base-dot-v1')

# Extraction des informations des documents
informations = [
    f"{doc.get('title_s', '')} "  # Titre
    f"{', '.join(doc.get('keyword_s', []))} "  # Mots-clés
    f"{', '.join(doc.get('extracted_keywords', []))} "  # Mots-clés extraits
    f"Auteurs: {', '.join(doc.get('authFullName_s', []))} "  # Auteurs
    for doc in documents
]

In [5]:
# Générer les embeddings
embeddings = modele.encode(informations, convert_to_tensor=True)

# Associer chaque embedding à son document
documents_valides = [doc for doc, titre in zip(documents, informations) if titre.strip()]
documents_embeddings = [
    {"document": doc, "embedding": embedding}
    for doc, embedding in zip(documents_valides, embeddings)
]

# Calculer la similarité cosinus entre les embeddings
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 3))
tfidf_matrix = tfidf_vectorizer.fit_transform(informations)

In [6]:
# Fonction qui cherche les documents les plus pertinents pour une requête
def recherche(query, tfidf_vectorizer, tfidf_matrix, embeddings, documents, model):
    # Si la requête contient des mots-clés, on effectue une recherche par mots-clés
    if detecter_recherche_par_mots_cles(query):
        return [res[0] for res in recherche_par_mots_cles(query, documents)]
    else:
        return recherche_hybride(query, tfidf_vectorizer, tfidf_matrix, embeddings, documents, model)

# Fonction qui permet de détecter si la requête est une recherche par mots-clés
def detecter_recherche_par_mots_cles(query):
    termes_indicateurs = ["liés à", "documents sur", "articles sur", "mots-clés", "thème", "traitent de", "traitant de", "concernant", "par rapport à"]
    return any(terme in query.lower() for terme in termes_indicateurs)

# Fonction qui recherche les documents par mots-clés
def recherche_par_mots_cles(query, documents):
    resultats = []
    for doc in documents:
        mots_cles = doc.get('keyword_s', []) + doc.get('extracted_keywords', []) # On se concentre sur tous les mots-clés
        similarite = sum(1 for mot in mots_cles if mot.lower() in query.lower())
        if similarite > 0:
            resultats.append((doc, similarite))
    return sorted(resultats, key=lambda x: x[1], reverse=True)[:10]  # Trier par pertinence

# Fonction qui recherche les documents avec une combinaison de similarité sémantique et TF-IDF
def recherche_hybride(query, tfidf_vectorizer, tfidf_matrix, embeddings, documents, model):
    # Recherche sémantique avec embeddings
    query_embedding = model.encode(query, convert_to_tensor=True)
    similarites_sémantiques = cosine_similarity(query_embedding, embeddings)
    
    # Recherche TF-IDF
    tfidf_query = tfidf_vectorizer.transform([query])
    similarites_tfidf = tfidf_cosine_similarity(tfidf_query, tfidf_matrix)

    # Recherche par mots-clés
    scores_keywords = []
    for doc in documents:
        mots_cles = doc.get('keyword_s', []) + doc.get('extracted_keywords', [])
        scores_keywords.append(sum(1 for mot in mots_cles if mot.lower() in query.lower()))
    
    # Combinaison des scores
    # Attention : `similarites_tfidf` est 2D, donc on prend le vecteur [0]
    scores_combines = (0.3 * similarites_sémantiques.cpu() + 0.6 * similarites_tfidf[0] + 0.1 * torch.tensor(scores_keywords))

    # Tri des résultats par pertinence
    indices_tries = scores_combines.argsort(descending=True)  # Indices triés par score
    return [documents[i] for i in indices_tries[:10]]


In [7]:
# Exemple de requête
query = "Donne moi les documents écrit par Stéphanie Mailles-Viard Metz"
resultats = recherche_hybride(query, tfidf_vectorizer, tfidf_matrix, embeddings, documents, modele)

# Afficher les résultats
for res in resultats:
    print(f"Titre: {res['title_s']}, Mots-clés: {res['keyword_s']}, Auteurs: {res['authFullName_s']}")

Titre: ['Modèles de représentation de la sémantique des documents'], Mots-clés: [''], Auteurs: ['Sylvie Calabretto']
Titre: ['Actes du workshop « Apprentissage en Réseau et Auto-régulation » (ApRA 2013)'], Mots-clés: [''], Auteurs: ['Elise Lavoué', 'Stéphanie Mailles-Viard Metz']
Titre: ['Documents à structures multiples'], Mots-clés: [''], Auteurs: ['Rocio Abascal', 'Michel Beigbeder', 'Aurélien Bénel', 'Sylvie Calabretto', 'Bertrand Chabbat', 'Pierre-Antoine Champin', 'Noureddine Chatti', 'David Jouve', 'Yannick Prié', 'Béatrice Rumpler', 'Eric Thivant']
Titre: ['Actes de l\'Atelier ApRA "Apprentissage en Réseau et Auto-régulation'], Mots-clés: [''], Auteurs: ['Elise Lavoué', 'Stéphanie Mailles-Viard Metz']
Titre: ['Les services Web'], Mots-clés: [''], Auteurs: ['Djamal Benslimane']
Titre: ['Un système de mise en relation Image/Transcription pour les documents manuscrits'], Mots-clés: [''], Auteurs: ['Vincent Malleron', 'Véronique Eglin', 'Stéphanie Dord-Crouslé', 'Hubert Emptoz', 'P

  scores_combines = (0.3 * similarites_sémantiques.cpu() + 0.6 * similarites_tfidf[0] + 0.1 * torch.tensor(scores_keywords))


In [8]:
#on construit un prompt compréhensible pour le LLM

def build_prompt(query, results):
    prompt = f"Question utilisateur : {query}\n\n"
    prompt += "Articles pertinents trouvés :\n"
    
    for i, result in enumerate(results, start=1):
        prompt += (
            f"{i}. Titre : {result['title_s']}\n"
            f"   Abstract : {result['abstract_s']}\n"
            f"   Keywords : {', '.join(result['keyword_s'])}\n"
            f"   Auteurs : {', '.join(result['authFullName_s'])}\n\n"
        )
    prompt += "\nGénère une réponse claire et concise basée sur ces articles. Mets en avant les informations clés dans ta réponse."
    return prompt

# Crée le prompt
prompt = build_prompt(query, resultats)
print(prompt)  # Vérifie ce que le LLM recevra


Question utilisateur : Donne moi les documents écrit par Stéphanie Mailles-Viard Metz

Articles pertinents trouvés :
1. Titre : ['Modèles de représentation de la sémantique des documents']
   Abstract : ['']
   Keywords : 
   Auteurs : Sylvie Calabretto

2. Titre : ['Actes du workshop « Apprentissage en Réseau et Auto-régulation » (ApRA 2013)']
   Abstract : ["Grâce à l’évolution du Web, les acteurs de l’apprentissage (apprenants, enseignants et concepteurs) ont accès à des plateformes éducatives sociales de plus en plus perfectionnées et complexes. Après la mise en place des Campus et Universités Numériques, le mouvement actuel des MOOCs (“Massive Open Online Courses”) ouvre la voie vers de nouvelles situations d’apprentissage humain, tant dans l’utilisation des outils que dans le positionnement des acteurs. En effet, le savoir est « à la carte ». Les ressources, même si elles sont de grande qualité, sont centralisées sur des plateformes, selon des logiques variées, avec un accompagne

In [9]:
#test CUDA
def get_gpu_info():
    if torch.cuda.is_available():
        current_device = torch.cuda.current_device()
        print(f"CUDA est disponible. Utilisation du GPU: {torch.cuda.get_device_name(current_device)}")
        print(f"Nombre de GPUs disponibles : {torch.cuda.device_count()}")
        print(f"Mémoire GPU totale: {torch.cuda.get_device_properties(current_device).total_memory / 1024**3:.2f} GB")
        print(f"Mémoire GPU allouée: {torch.cuda.memory_allocated(current_device) / 1024**3:.2f} GB")
        print(f"Mémoire GPU réservée: {torch.cuda.memory_reserved(current_device) / 1024**3:.2f} GB")
    else:
        print("CUDA n'est pas disponible. PyTorch utilisera le CPU.")

# Set the device to GPU if available

get_gpu_info()
print("-----------------------------")
device = "cuda" if torch.cuda.is_available() else "cpu"
print(torch.cuda.get_device_name(torch.device('cuda:0')))
print("Used Device:", device)

CUDA est disponible. Utilisation du GPU: NVIDIA GeForce RTX 4070 Laptop GPU
Nombre de GPUs disponibles : 1
Mémoire GPU totale: 8.00 GB
Mémoire GPU allouée: 0.44 GB
Mémoire GPU réservée: 1.94 GB
-----------------------------
NVIDIA GeForce RTX 4070 Laptop GPU
Used Device: cuda


In [10]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from huggingface_hub import login


# Se connecter à Hugging Face
login(token="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")

# Charger le modèle
model_name = "meta-llama/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]Error while downloading from https://cdn-lfs.hf.co/repos/e6/37/e63723b4982e4cb6989bb5ea49da51c4109987e9aeacd25e1e07b2efe6202045/4ec71fd53e99766de38f24753b30c9e8942630e9e576a1ba27b0ec531e87be41?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model-00001-of-00002.safetensors%3B+filename%3D%22model-00001-of-00002.safetensors%22%3B&Expires=1736169152&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTczNjE2OTE1Mn19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5oZi5jby9yZXBvcy9lNi8zNy9lNjM3MjNiNDk4MmU0Y2I2OTg5YmI1ZWE0OWRhNTFjNDEwOTk4N2U5YWVhY2QyNWUxZTA3YjJlZmU2MjAyMDQ1LzRlYzcxZmQ1M2U5OTc2NmRlMzhmMjQ3NTNiMzBjOWU4OTQyNjMwZTllNTc2YTFiYTI3

KeyboardInterrupt: 

In [None]:
# Préparer l'entrée pour le modèle
inputs = tokenizer(prompt, return_tensors="pt")  # Utilise le GPU si disponible

# Générer la réponse
outputs = model.generate(
    inputs["input_ids"],
    max_new_tokens=500,  # Longueur maximale de la réponse
    num_return_sequences=1,  # Nombre de réponses générées
    temperature=0.7,  # Contrôle la créativité
)

# Étape 5 : Décoder la réponse
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)