# TP : LLM, Langchain et RAG
## Installation des dépendances

### Prérequis : 
- Mettre la clé d'API OpenAI en variable d'environnement
- Installer les packages suivants : 

In [1]:
!pip install langchain openai datasets transformers PyMuPDF langchain_community langchain_openai langchain_text_splitters faiss-cpu sentence-transformers

Collecting langchain
  Downloading langchain-0.3.27-py3-none-any.whl.metadata (7.8 kB)
Collecting openai
  Downloading openai-1.109.0-py3-none-any.whl.metadata (29 kB)
Collecting datasets
  Downloading datasets-4.1.1-py3-none-any.whl.metadata (18 kB)
Collecting transformers
  Downloading transformers-4.56.2-py3-none-any.whl.metadata (40 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.1/40.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting langchain_community
  Downloading langchain_community-0.3.29-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain_openai
  Downloading langchain_openai-0.3.33-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain_text_splitters
  Downloading langchain_text_splitters-0.3.11-py3-none-any.whl.metadata (1.8 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp39-cp39-macosx_14_0_arm64.whl.metadata (5.1 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-5.1.1-py3-none-any.whl.

## LLM
### OpenAI
**Objectif** : faire une requête au modèle 'gpt4o-mini' via la librairie d'OpenAI et récupérer : 
- la réponse 
- le nombre de tokens d'entrée
- le nombre de tokens de sorties

In [1]:
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()
import os

In [None]:
def ask_gpt(question: str):
    """
    Prend une question et retourne la réponse ainsi que les KPIs d'usage
    
    Args: 
        question(str) : question à poser
    """
    pass

answer, usage = ask_gpt("Qu'est ce qu'un LLM ?")

## RAGS from Scracth
**Objectif** : Développer, from scratch, une architecture RAG en 4 modules: 
- Lecture et découpage d'un document PDF
- Générer les embeddings
- Récupérer les passages pertinents en fonction d'une requête
- Générer une réponse à partir de la question et des passages pertinents

In [None]:
from openai import OpenAI
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import PyPDF2
import os

In [None]:
# Module 1 : Lecture et découpage d’un document PDF
def read_and_split_pdf(pdf_path, chunk_size=500):
    """
    Lit un fichier PDF et découpe le contenu en morceaux de texte.
    
    Args:
    pdf_path (str): Chemin du fichier PDF.
    chunk_size (int): Taille des morceaux (en nombre de caractères).
    
    Returns:
    list: Liste des morceaux de texte.
    """
    pass

# Tester avec un fichier PDF
pdf_chunks = read_and_split_pdf("../pdf/Cours_LLM.pdf")
print(f"Nombre de morceaux générés : {len(pdf_chunks)}")
print("Extrait du premier morceau :\n", pdf_chunks[0])

In [None]:
# Module 2 : Génération des embeddings et stockage avec FAISS

def generate_embeddings(chunks):
    """
    Génère les embeddings pour chaque morceau de texte.
    
    Args:
        chunks (list): Liste des morceaux de texte.
    
    Returns:
        np.array: Tableau numpy des embeddings.
    """
    pass

def create_faiss_index(embeddings):
    """
    Crée un index FAISS à partir des embeddings.
    
    Args:
    embeddings (np.array): Tableau numpy des embeddings.
    
    Returns:
    faiss.IndexFlatL2: Index FAISS.
    """
    pass

# Générer les embeddings et créer l'index
embeddings = generate_embeddings(pdf_chunks)
faiss_index = create_faiss_index(embeddings)

In [None]:
# Module 3 : Recherche des passages pertinents avec une requête
def query_faiss_index(query, index, model, chunks, k=5):
    """
    Recherche les passages les plus pertinents dans l'index FAISS.
    
    Args:
    query (str): La requête de l'utilisateur.
    index (faiss.IndexFlatL2): L'index FAISS.
    model (SentenceTransformer): Modèle pour générer les embeddings.
    chunks (list): Liste des morceaux de texte.
    k (int): Nombre de passages à retourner.
    
    Returns:
    list: Liste des passages pertinents.
    """
    pass

# Tester avec une requête
query = "Qu'est ce qu'un RAG ?"
relevant_chunks = query_faiss_index(query, faiss_index, SentenceTransformer('all-MiniLM-L6-v2'), pdf_chunks)

In [None]:
# Module 4 : Générer une réponse avec un LLM
def generate_answer(query, relevant_chunks):
    """
    Génère une réponse à partir de la question et des passages pertinents.
    
    Args:
    query (str): La question posée.
    relevant_chunks (list): Passages pertinents.
    
    Returns:
    str: Réponse générée.
    """
    pass

# Tester la génération de réponse
response = generate_answer(query, relevant_chunks)
print("Réponse générée :")
print(response)

## Langchain
**Objectif** : faire une requête au modèle 'gpt4o-mini' via la librairie Langchain et récupérer la réponse 

In [None]:
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

In [None]:
def ask_gpt_langchain(question):
    """
    Prend une question et retourne la réponse générée via langchain
    
    Args: 
        question(str) : question à poser
    """
    pass

anwser = ask_gpt_langchain("Qu'est ce qu'un transformer ?")
print(anwser)

## Lecture d'un PDF et utilisation dans RAG avec LangChain
**Objectif** : Construire une architecture RAG avec langchain via 3 modules : 
1 - récupération du document via PyPDFLoader
2 - génération du retriever après avoir split le document
3 - Création de la chaîne de réponse à la question


In [None]:
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain
from langchain_openai import OpenAIEmbeddings

In [None]:
def get_docs(pdf_path):
    """
    Charge et extrait le contenu textuel d'un fichier PDF.

    Args:
        pdf_path (str): Chemin vers le fichier PDF à charger.

    Returns:
        list: Liste contenant le contenu textuel de chaque page du PDF.
    """
    pass

In [None]:
def get_retriever(docs):
    """
    Crée un récupérateur (retriever) basé sur les embeddings pour une recherche de similarité.

    Args:
        docs (list): Liste des documents à traiter

    Returns:
        BaseRetriever
    """
    pass

In [None]:
def generate_answer(question, retriever) :
    """
    Génère une réponse à une question en utilisant une architecture RAG.

    Args:
        question (str): La question posée.
        retriever (BaseRetriever): Un récupérateur permettant de chercher le contexte pertinent
                                   pour répondre à la question.

    Returns:
        str: La réponse générée par le modèle, basée sur le contexte récupéré. 
    """
    pass

In [None]:
docs = get_docs('../pdf/Cours_LLM.pdf')
retriever = get_retriever(docs)
results = generate_answer("Qu'est ce qu'un RAG ?", retriever)

In [None]:
print(results["answer"])

In [None]:
print(results["context"])