# 1 - G√©n√©rer les Embeddings
Cette cellule effectue l'importation des biblioth√®ques `os`, `numpy`, `pandas` et `SentenceTransformer`, puis charge le mod√®le de transformation de phrases `all-MiniLM-L6-v2`. Elle lit ensuite le fichier `texte-nettoye.txt` et segmente son contenu en phrases en utilisant le point comme s√©parateur. Apr√®s avoir supprim√© les espaces inutiles et filtr√© les segments vides, elle g√©n√®re des embeddings vectoriels pour chaque phrase √† l‚Äôaide du mod√®le charg√©. Les r√©sultats sont ensuite stock√©s dans un DataFrame associant chaque phrase √† son vecteur d‚Äôembedding, puis enregistr√©s dans un fichier CSV intitul√© `embeddings.csv`. C'est le fichier que nous allons exploiter.


In [7]:
import os
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

with open("texte-nettoye.txt", "r", encoding="utf-8") as f:
    texte = f.read()

chunks = texte.split(".")  
chunks = [chunk.strip() for chunk in chunks if chunk.strip()]

embeddings = model.encode(chunks)

df = pd.DataFrame({
    "chunk": chunks,
    "embedding": embeddings.tolist()
})

df.to_csv("embeddings.csv", index=False)

print("Embeddings enregistr√©s dans embeddings.csv :)")


Embeddings enregistr√©s dans embeddings.csv :)


# 2 - Indexation FAISS 

Ici, nous utilisons la biblioth√®que `faiss` pour optimiser la recherche de similarit√© entre les embeddings. Ensuite, nous lisons le fichier `embeddings.csv` pour extraire les segments de texte ainsi que leurs embeddings, que nous convertissons en un tableau NumPy de type `float32` (format attendu par `faiss`). Nous cr√©ons un index FAISS de type `IndexFlatL2`, bas√© sur la distance euclidienne (L2), et nous y ins√©rons les embeddings. Enfin, cet index est sauvegard√© dans un fichier `faiss_index.bin`, ce qui nous permettra d'effectuer des recherches rapides sur les phrases du corpus.



In [2]:
import faiss

df = pd.read_csv("embeddings.csv")
chunks = df["chunk"].tolist()
embeddings = np.array(df["embedding"].apply(eval).tolist()).astype('float32')

index = faiss.IndexFlatL2(embeddings.shape[1])  
index.add(embeddings)

faiss.write_index(index, "faiss_index.bin")

print("Index FAISS sauvegard√© dans faiss_index.bin")


Index FAISS sauvegard√© dans faiss_index.bin


# 3 - Recherche de similarit√©

Nous chargeons uniquement la colonne `chunk` du fichier `embeddings.csv`, qui contient les segments de texte et nous r√©cup√©rons l'index √† partir du fichier `faiss_index.bin` pour effectuer des recherches directement sur les vecteurs enregistr√©s.
La fonction `rechercher_similaires(query, top_k=5)` encode la requ√™te en un vecteur `float32` et le compare aux vecteurs de l‚Äôindex FAISS √† l‚Äôaide de `.search()`, qui renvoie les indices des `top_k` segments les plus proches ainsi que leurs distances.
Enfin, nous testons le syst√®me avec la requ√™te **"Quel est le lien entre IA et philosophie ?"**. La fonction retourne les cinq segments les plus similaires avec leurs scores de distance, un score plus bas indiquant une plus grande proximit√© avec la requ√™te.




In [8]:
import faiss
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

chunks = pd.read_csv("embeddings.csv", usecols=["chunk"])["chunk"].tolist()

index = faiss.read_index("faiss_index.bin")

def rechercher_similaires(query, top_k=5):
    query_embedding = model.encode([query]).astype('float32')  
    distances, indices = index.search(query_embedding, top_k)  
    
    resultats = [(chunks[idx], distances[0][i]) for i, idx in enumerate(indices[0]) if idx != -1]
    return resultats

query = "Quel est le lien entre IA et philosophie ?"
resultats = rechercher_similaires(query)

for texte, score in resultats:
    print(f"Score: {score:.4f} - Texte: {texte}")


Score: 1.0322 - Texte: D√©fis et √âthique

Malgr√© ses nombreux avantages, l'IA pose √©galement des d√©fis importants
Score: 1.1991 - Texte: En comprenant son historique, ses applications, et ses d√©fis, nous pouvons mieux appr√©hender son potentiel et ses implications futures
Score: 1.2376 - Texte: Dans la finance, elle est utilis√©e pour d√©tecter les fraudes et optimiser les investissements
Score: 1.2548 - Texte: Applications de l'IA

L'IA est aujourd'hui utilis√©e dans divers secteurs, tels que la sant√©, la finance, et le divertissement
Score: 1.2887 - Texte: Conclusion

L'intelligence artificielle est un domaine en pleine expansion qui promet de transformer notre monde de mani√®re significative


# 4 - G√©n√©ration d'une r√©ponse avec un LLM (OpenAI)

## üîç 4.1. Recherche des passages similaires  
La fonction `rechercher_similaires(query, top_k=5)` permet de retrouver les segments de texte les plus proches d‚Äôune requ√™te donn√©e :  
- La requ√™te est convertie en embedding √† l‚Äôaide du mod√®le `SentenceTransformer`.  
- L‚Äôindex FAISS est utilis√© pour rechercher les `top_k` passages les plus similaires en fonction de la distance.  
- La fonction retourne une liste des segments correspondants avec leurs scores de similarit√©.  

## üìù 4.2. Recherche et g√©n√©ration de r√©ponse  
- L‚Äôutilisateur pose une question, ici **"cite le passage relatif √† l'√©thique et son titre ?"**.  
- La fonction `rechercher_similaires()` extrait les passages pertinents du corpus.  
- Ces passages sont combin√©s en un **contexte textuel**.  
- OpenAI (`gpt-3.5-turbo`) g√©n√®re une r√©ponse √† partir de ce contexte.  
- La r√©ponse est affich√©e √† l‚Äôutilisateur.  

üöÄ **Ce syst√®me permet d‚Äôextraire rapidement des passages pertinents et de g√©n√©rer des r√©ponses pr√©cises √† partir d‚Äôun texte.**


In [6]:
import openai
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

client = openai.OpenAI(api_key=OPENAI_API_KEY)

model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

chunks = pd.read_csv("embeddings.csv", usecols=["chunk"])["chunk"].tolist()

index = faiss.read_index("faiss_index.bin")

def rechercher_similaires(query, top_k=5):
    query_embedding = model.encode([query]).astype('float32')
    distances, indices = index.search(query_embedding, top_k)
    
    resultats = [(chunks[idx], distances[0][i]) for i, idx in enumerate(indices[0]) if idx != -1]
    return resultats

def generer_reponse(context, question):
    prompt = f"Voici des extraits pertinents : {context}\n\nR√©ponds √† cette question : {question}"
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Tu es un assistant utile."},
            {"role": "user", "content": prompt}
        ]
    )
    return response.choices[0].message.content

query = "cite le passage relatif √† l'√©thique et son titre ?"
resultats = rechercher_similaires(query)

context = "\n".join([texte for texte, _ in resultats])

reponse = generer_reponse(context, query)
print("R√©ponse g√©n√©r√©e :")
print(reponse)

R√©ponse g√©n√©r√©e :
Le passage relatif √† l'√©thique dans les extraits que vous avez fournis est le suivant :
"Il est crucial de d√©velopper des cadres √©thiques pour guider l'utilisation responsable de l'IA"
Ce passage se situe dans la section intitul√©e "D√©fis et √âthique".
