## 1. Installation des d√©pendances

Installation des biblioth√®ques n√©cessaires.

In [2]:
!pip install -q sentence-transformers torch numpy requests

## 2. Connexion √† Google Drive

Montage de Google Drive pour acc√©der aux documents.

In [3]:
from google.colab import drive
drive.mount('/content/drive')

# D√©finir le chemin vers vos documents dans Google Drive
# Exemple: DRIVE_DATA_DIR = '/content/drive/MyDrive/rag_documents'
DRIVE_DATA_DIR = '/content/drive/MyDrive/m1_csmi_sgdb/data'

print(f"Google Drive mont√©. R√©pertoire de donn√©es: {DRIVE_DATA_DIR}")

Mounted at /content/drive
Google Drive mont√©. R√©pertoire de donn√©es: /content/drive/MyDrive/m1_csmi_sgdb/data


## 3. Configuration des providers LLM

D√©finition des diff√©rents providers compatibles OpenAI.

In [10]:
from dataclasses import dataclass
from typing import Optional, Dict
import os

@dataclass
class ProviderConfig:
    name: str
    url: str
    model: str
    api_key_env: Optional[str] = None

    def api_key(self) -> str:
        if not self.api_key_env:
            return ""
        return os.getenv(self.api_key_env, "")

# Registre des providers connus
PROVIDERS: Dict[str, ProviderConfig] = {
    "MISTRAL_LARGE": ProviderConfig(
        name="MISTRAL_LARGE",
        url="https://api.mistral.ai/v1/chat/completions",
        model="open-mistral-nemo",
        api_key_env="MISTRAL_API_KEY",
    ),
    "MISTRAL_CODESTRAL": ProviderConfig(
        name="MISTRAL_CODESTRAL",
        url="https://codestral.mistral.ai/v1/chat/completions",
        model="codestral-latest",
        api_key_env="CODESTRAL_API_KEY",
    ),
    "LOCAL_QWEN_CODER": ProviderConfig(
        name="LOCAL_QWEN_CODER",
        url="http://127.0.0.1:8080/v1/chat/completions",
        model="qwen3-32b-instruct",
        api_key_env=None,
    ),
    "IRMA_LLMCODE": ProviderConfig(
        name="IRMA_LLMCODE",
        url="http://llmcode.math.unistra.fr:8090/v1/chat/completions",
        model="qwen2.5-coder-instruct",
        api_key_env=None,
    ),
    "PALGANIA_QWEN3": ProviderConfig(
        name="PALGANIA_QWEN3",
        url="https://palgania.ovh:8106/v1/chat/completions",
        model="Qwen3-30B",
        api_key_env="TEXTSYNTH_API_KEY",
    ),
}

#DEFAULT_PROVIDER = "MISTRAL_CODESTRAL"
DEFAULT_PROVIDER = "MISTRAL_LARGE"


def get_provider(name: Optional[str] = None,
                 override_model: Optional[str] = None,
                 override_url: Optional[str] = None,
                 api_key: Optional[str] = None) -> ProviderConfig:
    """Retourne la configuration d'un provider."""
    if name is None:
        name = DEFAULT_PROVIDER
    if name not in PROVIDERS:
        raise ValueError(f"Provider inconnu: {name}. Providers disponibles: {list(PROVIDERS.keys())}")

    base = PROVIDERS[name]
    model = override_model or base.model
    url = override_url or base.url
    key = api_key if api_key is not None else base.api_key()

    return ProviderConfig(name=name, url=url, model=model, api_key_env=base.api_key_env)

print(f"Providers disponibles: {list(PROVIDERS.keys())}")

Providers disponibles: ['MISTRAL_LARGE', 'MISTRAL_CODESTRAL', 'LOCAL_QWEN_CODER', 'IRMA_LLMCODE', 'PALGANIA_QWEN3']


## 4. Configuration des cl√©s API

D√©finissez vos cl√©s API ici (pour Colab, utilisez les secrets).

In [11]:
import os

# Pour Google Colab, vous pouvez utiliser les secrets ou d√©finir directement:
from google.colab import userdata
os.environ['CODESTRAL_API_KEY'] = userdata.get('CODESTRAL_API_KEY')
os.environ['MISTRAL_API_KEY'] = userdata.get('MISTRAL_API_KEY')

# Ou d√©finir directement (‚ö†Ô∏è ne commitez jamais vos cl√©s!):
# os.environ['MISTRAL_API_KEY'] = 'votre_cl√©_ici'
#os.environ['CODESTRAL_API_KEY'] = 'votre cl√©'
# os.environ['TEXTSYNTH_API_KEY'] = 'votre_cl√©_ici'

print("Cl√©s API configur√©es (si n√©cessaire)")

Cl√©s API configur√©es (si n√©cessaire)


## 5. Classe SimpleRAG

Impl√©mentation compl√®te du syst√®me RAG.

In [12]:
import glob
import numpy as np
from typing import List, Tuple, Optional
from sentence_transformers import SentenceTransformer
import requests
import urllib3

# D√©sactiver les avertissements SSL
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)


class SimpleRAG:
    """Syst√®me RAG minimaliste avec s√©lection modulaire de provider LLM."""

    def __init__(
        self,
        data_dir: str = "data",
        provider_name: Optional[str] = None,
        override_model: Optional[str] = None,
        override_url: Optional[str] = None,
        api_key: Optional[str] = None,
    ):
        """Initialise le syst√®me RAG."""
        self.data_dir = data_dir
        self.documents = []
        self.embeddings = []

        # Mod√®le d'embedding
        print("Chargement du mod√®le d'embedding...")
        self.embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

        # Configuration du provider LLM
        self._provider_cfg = get_provider(
            name=provider_name,
            override_model=override_model,
            override_url=override_url,
            api_key=api_key,
        )
        self.api_url = self._provider_cfg.url
        self.model = self._provider_cfg.model
        self.api_key = self._provider_cfg.api_key_env and os.getenv(self._provider_cfg.api_key_env, "") or ""

        print(f"Provider: {self._provider_cfg.name} | URL: {self.api_url} | Mod√®le: {self.model}")
        if self._provider_cfg.api_key_env:
            if not self.api_key:
                print(f"‚ö†Ô∏è Cl√© API manquante. D√©finissez '{self._provider_cfg.api_key_env}'")
            else:
                print(f"‚úì Cl√© API charg√©e")

    def load_documents(self) -> None:
        """Charge tous les fichiers markdown du r√©pertoire."""
        print(f"\nChargement des documents depuis {self.data_dir}/...")

        md_files = glob.glob(os.path.join(self.data_dir, "*.md"))

        for filepath in md_files:
            with open(filepath, 'r', encoding='utf-8') as f:
                content = f.read()
                paragraphs = [p.strip() for p in content.split('\n\n') if p.strip()]

                for para in paragraphs:
                    if len(para) > 50:
                        self.documents.append({
                            'text': para,
                            'source': os.path.basename(filepath)
                        })

        print(f"  ‚Üí {len(self.documents)} chunks charg√©s depuis {len(md_files)} fichiers")

    def create_embeddings(self) -> None:
        """G√©n√®re les embeddings pour tous les documents."""
        print("\nCr√©ation des embeddings...")

        texts = [doc['text'] for doc in self.documents]
        self.embeddings = self.embedding_model.encode(
            texts,
            show_progress_bar=True,
            convert_to_numpy=True
        )

        print(f"  ‚Üí {len(self.embeddings)} embeddings cr√©√©s (dimension: {self.embeddings.shape[1]})")

    def search(self, query: str, top_k: int = 3) -> List[Tuple[dict, float]]:
        """Recherche les documents les plus similaires √† la requ√™te."""
        query_embedding = self.embedding_model.encode(query, convert_to_numpy=True)

        similarities = np.dot(self.embeddings, query_embedding) / (
            np.linalg.norm(self.embeddings, axis=1) * np.linalg.norm(query_embedding)
        )

        top_indices = np.argsort(similarities)[-top_k:][::-1]

        results = [
            (self.documents[idx], float(similarities[idx]))
            for idx in top_indices
        ]

        return results

    def configure_provider(
        self,
        provider_name: str,
        override_model: Optional[str] = None,
        override_url: Optional[str] = None,
        api_key: Optional[str] = None,
    ) -> None:
        """Change dynamiquement la configuration du provider LLM."""
        cfg = get_provider(
            name=provider_name,
            override_model=override_model,
            override_url=override_url,
            api_key=api_key,
        )
        self._provider_cfg = cfg
        self.api_url = cfg.url
        self.model = override_model or cfg.model
        self.api_key = api_key if api_key is not None else (cfg.api_key_env and os.getenv(cfg.api_key_env, "") or "")
        print(f"Provider reconfigur√©: {provider_name} | URL: {self.api_url} | Mod√®le: {self.model}")

    def generate_with_llm(self, query: str, context_docs: List[dict]) -> str:
        """G√©n√®re une r√©ponse en utilisant l'API REST."""
        context = "\n\n".join([doc['text'] for doc in context_docs])

        prompt = f"""Bas√© sur le contexte suivant (et uniquement sur ce contexte), r√©ponds √† la question de mani√®re concise et pr√©cise.

Contexte:
{context}

Question: {query}

R√©ponse:"""

        payload = {
            "model": self.model,
            "messages": [
                {
                    "role": "user",
                    "content": prompt,
                }
            ],
            "temperature": 0.3,
            "max_tokens": 2000,
            "top_p": 0.9,
        }

        try:
            headers = {"Content-Type": "application/json"}
            if self.api_key:
                headers["Authorization"] = f"Bearer {self.api_key}"

            verify_ssl = self.api_url.startswith("https://")
            response = requests.post(
                self.api_url,
                json=payload,
                headers=headers,
                verify=verify_ssl,
                timeout=60,
            )
            response.raise_for_status()

            result = response.json()
            if "choices" in result and len(result["choices"]) > 0:
                return result["choices"][0]["message"]["content"].strip()
            else:
                return "Erreur : format de r√©ponse inattendu de l'API"

        except requests.exceptions.RequestException as e:
            return f"Erreur lors de l'appel √† l'API : {str(e)}"

print("Classe SimpleRAG d√©finie avec succ√®s!")

Classe SimpleRAG d√©finie avec succ√®s!


## 6. Initialisation du syst√®me RAG

Cr√©er une instance et charger les documents depuis Google Drive.

In [13]:
# Choisir le provider (None = DEFAULT_PROVIDER)
# Options: "MISTRAL_LARGE", "MISTRAL_CODESTRAL", "IRMA_LLMCODE", "PALGANIA_QWEN3"
PROVIDER = "MISTRAL_LARGE"  # Changez selon vos besoins

# Initialisation
rag = SimpleRAG(data_dir=DRIVE_DATA_DIR, provider_name=PROVIDER)

# Chargement et indexation
rag.load_documents()
rag.create_embeddings()

Chargement du mod√®le d'embedding...
Provider: MISTRAL_LARGE | URL: https://api.mistral.ai/v1/chat/completions | Mod√®le: open-mistral-nemo
‚úì Cl√© API charg√©e

Chargement des documents depuis /content/drive/MyDrive/m1_csmi_sgdb/data/...
  ‚Üí 1688 chunks charg√©s depuis 1 fichiers

Cr√©ation des embeddings...


Batches:   0%|          | 0/53 [00:00<?, ?it/s]

  ‚Üí 1688 embeddings cr√©√©s (dimension: 384)


## 7. Tester une recherche simple

Rechercher des documents pertinents pour une question.

In [14]:
query = "Qui Fabrice admire-t-il ?"

print(f"Question: {query}\n")
print("="*70)

results = rag.search(query, top_k=3)

for i, (doc, score) in enumerate(results, 1):
    print(f"\n[{i}] Score: {score:.4f} | Source: {doc['source']}")
    print(f"    {doc['text'][:200]}...")

Question: Qui Fabrice admire-t-il ?


[1] Score: 0.6891 | Source: chartreuse_de_parme_stendhal.md
    - Fabrice, s'√©cria-t-elle √† haute voix, est au pouvoir de ses ennemis, et peut-√™tre √† cause de moi ils lui donneront du poison!...

[2] Score: 0.6801 | Source: chartreuse_de_parme_stendhal.md
    Voil√† ton affaire, dit-elle √† Fabrice. Hol√†, ho! cria-t-elle √† celui qui √©tait √† cheval, viens donc ici boire le verre d'eau-de-vie....

[3] Score: 0.6784 | Source: chartreuse_de_parme_stendhal.md
    Fabrice n'h√©sita pas √† r√©pondre; il √©tait s√ªr de la noblesse d'√¢me de cette femme: c'est l√† le beau c√¥t√© de la France....


## 8. G√©n√©rer une r√©ponse avec le LLM

Utiliser les documents r√©cup√©r√©s pour g√©n√©rer une r√©ponse via l'API.

In [15]:
query = "Qui Fabrice admire-t-il ?"

print(f"Question: {query}\n")

# Recherche
results = rag.search(query, top_k=5)
context_docs = [doc for doc, score in results]

# G√©n√©ration
print("G√©n√©ration de la r√©ponse...\n")
response = rag.generate_with_llm(query, context_docs)

print("="*70)
print("R√âPONSE:")
print("="*70)
print(response)

Question: Qui Fabrice admire-t-il ?

G√©n√©ration de la r√©ponse...

R√âPONSE:
Fabrice admire la femme qui lui parle.


## 9. Fonction helper pour Q&A interactive

Cr√©er une fonction simple pour poser des questions.

In [None]:
import os

def ask(question: str, top_k: int = 10, show_sources: bool = True):
    """Pose une question au syst√®me RAG et affiche la r√©ponse."""
    print(f"\n{'='*70}")
    print(f"QUESTION: {question}")
    print(f"{'='*70}\n")

    # Recherche
    results = rag.search(question, top_k=top_k)

    if show_sources:
        print("üìö Sources trouv√©es:")
        for i, (doc, score) in enumerate(results[:3], 1):
            print(f"  [{i}] {doc['source']} (score: {score:.3f})")
        print("etc.")

    # G√©n√©ration
    context_docs = [doc for doc, score in results]

    # √âcrire la question et le contexte dans un fichier
    output_context_path = os.path.join(DRIVE_DATA_DIR, 'contexte.txt')
    with open(output_context_path, 'w', encoding='utf-8') as f:
        f.write(f"Question: {question}\n\n")
        f.write("Contexte utilis√©:\n")
        for doc in context_docs:
            f.write(f"---\nSource: {doc['source']}\n{doc['text']}\n")
        print(f"Question et contexte sauvegard√©s dans : {output_context_path}")

    response = rag.generate_with_llm(question, context_docs)

    print("üí¨ R√âPONSE:")
    print("-"*70)
    print(response)
    print("-"*70)

    return response

print("Fonction ask() d√©finie. Utilisez: ask('votre question')")

Fonction ask() d√©finie. Utilisez: ask('votre question')


## 10. Exemples d'utilisation

Testez le syst√®me avec diff√©rentes questions.

In [None]:
# Exemple 1
ask("Qui est Fabrice ?")


QUESTION: Qui est Fabrice ?

üìö Sources trouv√©es:
  [1] chartreuse_de_parme_stendhal.md (score: 0.706)
  [2] chartreuse_de_parme_stendhal.md (score: 0.686)
  [3] chartreuse_de_parme_stendhal.md (score: 0.685)

üí¨ R√âPONSE:
----------------------------------------------------------------------
Fabrice est un personnage dont le contexte d√©crit ses interactions sociales, ses √©motions et ses exp√©riences, notamment son amiti√© avec des camarades, son amour pour une femme, et son emprisonnement dans une cage. Il est √©galement mentionn√© qu'il a √©t√© lib√©r√© par un aum√¥nier, don Cesare, apr√®s cent trente-cinq jours de d√©tention.
----------------------------------------------------------------------


"Fabrice est un personnage dont le contexte d√©crit ses interactions sociales, ses √©motions et ses exp√©riences, notamment son amiti√© avec des camarades, son amour pour une femme, et son emprisonnement dans une cage. Il est √©galement mentionn√© qu'il a √©t√© lib√©r√© par un aum√¥nier, don Cesare, apr√®s cent trente-cinq jours de d√©tention."

In [None]:
# Exemple 2
ask("Qui est Cl√©lia ?")


QUESTION: Qui est Cl√©lia ?

üìö Sources trouv√©es:
  [1] chartreuse_de_parme_stendhal.md (score: 0.701)
  [2] chartreuse_de_parme_stendhal.md (score: 0.698)
  [3] chartreuse_de_parme_stendhal.md (score: 0.695)

Question et contexte sauvegard√©s dans : /content/drive/MyDrive/m1_csmi_sgdb/data/contexte.txt
üí¨ R√âPONSE:
----------------------------------------------------------------------
Cl√©lia est une jeune femme qui trahit son p√®re pour se marier avec le marquis Crescenzi, esp√©rant ainsi lui permettre de retrouver sa faveur √† la cour de Parme. Elle est amoureuse de Fabrice, un homme d√©guis√©, et est profond√©ment troubl√©e par ses sentiments. Son p√®re, en disgr√¢ce, est gravement malade √† Turin, et son mariage avec le marquis est crucial pour sa r√©int√©gration. Cl√©lia est aussi confront√©e √† Ludovic, un empoisonneur, et se sent coupable de ses actions.
----------------------------------------------------------------------


'Cl√©lia est une jeune femme qui trahit son p√®re pour se marier avec le marquis Crescenzi, esp√©rant ainsi lui permettre de retrouver sa faveur √† la cour de Parme. Elle est amoureuse de Fabrice, un homme d√©guis√©, et est profond√©ment troubl√©e par ses sentiments. Son p√®re, en disgr√¢ce, est gravement malade √† Turin, et son mariage avec le marquis est crucial pour sa r√©int√©gration. Cl√©lia est aussi confront√©e √† Ludovic, un empoisonneur, et se sent coupable de ses actions.'

In [None]:
# Exemple 3 - Posez votre propre question
ask("Quel est le titre du roman ?")


QUESTION: Quel est le titre du roman ?

üìö Sources trouv√©es:
  [1] chartreuse_de_parme_stendhal.md (score: 0.603)
  [2] chartreuse_de_parme_stendhal.md (score: 0.582)
  [3] chartreuse_de_parme_stendhal.md (score: 0.581)

üí¨ R√âPONSE:
----------------------------------------------------------------------
*Les Mis√©rables*
----------------------------------------------------------------------


'*Les Mis√©rables*'

## 11. Changer de provider √† la vol√©e

Vous pouvez changer de provider sans recr√©er l'instance RAG.

In [None]:
# Exemple: passer √† un autre provider
# rag.configure_provider("MISTRAL_LARGE")
# rag.configure_provider("IRMA_LLMCODE")
# rag.configure_provider("PALGANIA_QWEN3")

print("Provider actuel:", rag._provider_cfg.name)
print("Pour changer: rag.configure_provider('PROVIDER_NAME')")

## 12. Sauvegarder des r√©sultats sur Google Drive

Exemple d'√©criture de r√©sultats dans Google Drive.

In [None]:
# Cr√©er un fichier de r√©sultats dans Google Drive
output_path = '/content/drive/MyDrive/rag_results.txt'

with open(output_path, 'w', encoding='utf-8') as f:
    f.write("R√âSULTATS RAG\n")
    f.write("="*70 + "\n\n")

    # Exemple de sauvegarde d'une Q&A
    question = "Qu'est-ce que le RAG ?"
    results = rag.search(question, top_k=3)
    context_docs = [doc for doc, score in results]
    response = rag.generate_with_llm(question, context_docs)

    f.write(f"Question: {question}\n\n")
    f.write(f"R√©ponse:\n{response}\n\n")
    f.write("Sources:\n")
    for i, (doc, score) in enumerate(results, 1):
        f.write(f"  [{i}] {doc['source']} (score: {score:.3f})\n")

print(f"R√©sultats sauvegard√©s dans: {output_path}")