# üéì Spinoza Secours - Notebook Colab

**Mod√®le :** Mistral 7B + LoRA Fine-tuned  
**Prompt :** Syst√®me hybride optimis√© (~250-300 tokens)  
**API :** FastAPI + ngrok


## üì¶ Cellule 1 : Installation D√©pendances


In [None]:
!pip install -q pyngrok fastapi uvicorn transformers peft accelerate bitsandbytes torch


## üìö Cellule 2 : Imports + Configuration

**üîê Configuration des secrets (√† faire une seule fois) :**

1. Clique sur l'ic√¥ne üîë **Secrets** dans le panneau de gauche de Colab
2. Ajoute deux secrets :
   - **`ngrok`** : Ton token ngrok (https://dashboard.ngrok.com/get-started/your-authtoken)
   - **`HuggingFaceToken`** : Ton token Hugging Face (https://huggingface.co/settings/tokens)

Les tokens seront r√©cup√©r√©s automatiquement via `userdata.get()`.


In [None]:
import os
import re
import random
import threading
import torch
from typing import Dict, List, Optional
from pyngrok import ngrok
from fastapi import FastAPI
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel
import uvicorn
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import PeftModel
from google.colab import userdata

# Configuration mod√®le
BASE_MODEL = "mistralai/Mistral-7B-Instruct-v0.2"
ADAPTER_MODEL = "FJDaz/mistral-7b-philosophes-lora"

# R√©cup√©ration des tokens depuis Colab Secrets
# ‚ö†Ô∏è Configure tes secrets dans Colab : üîë Secrets ‚Üí Ajouter 'ngrok' et 'HuggingFaceToken'
try:
    NGROK_TOKEN = userdata.get('ngrok')
    print("‚úÖ Token ngrok r√©cup√©r√© depuis Colab Secrets")
except:
    print("‚ùå Token ngrok non trouv√© ! Configure le secret 'ngrok' dans Colab Secrets")
    NGROK_TOKEN = None

try:
    HF_TOKEN = userdata.get('HuggingFaceToken')
    print("‚úÖ Token Hugging Face r√©cup√©r√© depuis Colab Secrets")
except:
    print("‚ùå Token Hugging Face non trouv√© ! Configure le secret 'HuggingFaceToken' dans Colab Secrets")
    HF_TOKEN = None

# Configuration ngrok
if NGROK_TOKEN:
    ngrok.set_auth_token(NGROK_TOKEN)
else:
    print("‚ö†Ô∏è ngrok ne sera pas configur√© sans token")

# Gestion des ports : Port al√©atoire pour √©viter les conflits
PORT = random.randint(8001, 9000)
print(f"üîå Port s√©lectionn√© : {PORT}")

# Tuer processus sur le port s√©lectionn√© si existant
import subprocess
try:
    result = subprocess.run(f"lsof -ti:{PORT}", shell=True, capture_output=True, text=True)
    if result.stdout.strip():
        subprocess.run(f"kill -9 {result.stdout.strip()}", shell=True)
        print(f"üßπ Port {PORT} lib√©r√©")
except:
    pass

print("‚úÖ Imports et configuration OK")


## üéØ Cellule 3 : Prompt Syst√®me Hybride


In [None]:
# Prompt syst√®me hybride optimis√© (~250 tokens)
SYSTEM_PROMPT_SPINOZA = """Tu ES Spinoza incarn√©. Tu dialogues avec un √©l√®ve de Terminale en premi√®re personne.

STYLE SPINOZIEN :
- G√©om√©trie des affects : r√©v√®le causes n√©cessaires, d√©duis
- Dieu = Nature
- Vocabulaire : conatus, affects, puissance d'agir, servitude

SCH√àMES LOGIQUES :
- Identit√© : Libert√© = Connaissance n√©cessit√©
- Causalit√© : Tout a cause n√©cessaire
- Implication : Joie ‚Üí augmentation puissance

M√âTHODE :
1. R√©v√®le n√©cessit√© causale
2. Distingue servitude (ignorance) vs libert√© (connaissance)
3. Exemples concrets modernes

TRANSITIONS (VARIE) :
- "Donc", "mais alors", "Imagine", "Cela implique"
- "Pourtant", "Sauf que", "C'est contradictoire"

R√àGLES :
- Tutoie (tu/ton/ta)
- Concis (2-3 phrases MAX)
- Questionne au lieu d'affirmer
- Ne parle JAMAIS de toi √† la 3√®me personne. Tu ES Spinoza.
- Vocabulaire MODERNE : utilise le langage d'aujourd'hui, √©vite les archa√Øsmes
- Si tu utilises "conatus", "affects", explique-les avec des mots d'aujourd'hui"""

INSTRUCTIONS_CONTEXTUELLES = {
    "confusion": "L'√©l√®ve est confus ‚Üí Donne UNE analogie concr√®te simple en utilisant tes sch√®mes logiques.",
    "resistance": "L'√©l√®ve r√©siste ‚Üí R√©v√®le contradiction avec 'mais alors' et tes sch√®mes logiques.",
    "accord": "L'√©l√®ve est d'accord ‚Üí Valide puis AVANCE logiquement avec 'Donc' et tes sch√®mes logiques.",
    "neutre": "√âl√®ve neutre ‚Üí Pose question pour faire r√©fl√©chir en utilisant tes sch√®mes logiques."
}

INSTRUCTION_RAG = """
UTILISATION CONNAISSANCES :
- Tu connais l'√âthique de Spinoza
- Cite implicitement ("comme je l'ai montr√©...", "dans mon ≈ìuvre...")
- Reformule dans TON style (premi√®re personne, lyc√©en)
- Ne r√©cite pas : extrais id√©es et reformule naturellement
"""

def construire_prompt_complet(contexte: str, use_rag_instruction: bool = True) -> str:
    """
    Construit le prompt complet optimis√©
    
    Args:
        contexte: "accord", "confusion", "resistance", "neutre"
        use_rag_instruction: Si True, ajoute instructions RAG
    
    Returns:
        Prompt syst√®me complet (~250-300 tokens)
    """
    prompt = SYSTEM_PROMPT_SPINOZA
    
    # Ajouter instruction contextuelle
    if contexte in INSTRUCTIONS_CONTEXTUELLES:
        prompt += f"\n\n{INSTRUCTIONS_CONTEXTUELLES[contexte]}"
    
    # Ajouter instruction RAG (optionnel)
    if use_rag_instruction:
        prompt += f"\n\n{INSTRUCTION_RAG}"
    
    return prompt

print("‚úÖ Prompt syst√®me hybride charg√©")


## üîç Cellule 4 : D√©tection Contexte + Post-Processing


In [None]:
def detecter_contexte(user_input: str) -> str:
    """D√©tecte le contexte de la r√©ponse utilisateur"""
    text_lower = user_input.lower()
    
    # Accord
    if any(word in text_lower for word in ['oui', "d'accord", 'exact', 'ok', 'voil√†', 'tout √† fait']):
        return "accord"
    
    # Confusion
    if any(phrase in text_lower for phrase in ['comprends pas', 'vois pas', "c'est quoi", 'je sais pas', 'pourquoi', 'rapport']):
        return "confusion"
    
    # R√©sistance
    if any(word in text_lower for word in ['mais', 'non', "pas d'accord", 'faux', "n'importe quoi", 'je peux']):
        return "resistance"
    
    return "neutre"

def nettoyer_reponse(text: str) -> str:
    """Nettoie la r√©ponse g√©n√©r√©e"""
    text = re.sub(r'\([^)]*[Aa]ttends[^)]*\)', '', text)
    text = re.sub(r'\([^)]*[Pp]oursuis[^)]*\)', '', text)
    text = re.sub(r'\([^)]*[Dd]onne[^)]*\)', '', text)
    text = re.sub(r'[üòÄ-üôèüåÄ-üóøüöÄ-üõø]', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    text = re.sub(r'\s+([.!?])', r'\1', text)
    return text

def limiter_phrases(text: str, max_phrases: int = 4) -> str:
    """Limite le nombre de phrases"""
    phrases = re.split(r'[.!?]+\s+', text)
    phrases = [p.strip() for p in phrases if p.strip()]
    if len(phrases) <= max_phrases:
        return text
    return '. '.join(phrases[:max_phrases]) + '.'

print("‚úÖ D√©tection contexte + Post-processing OK")


## ü§ñ Cellule 5 : Chargement Mod√®le

**‚ö†Ô∏è Code reproduit exactement depuis app.py - Ne pas modifier**


In [None]:
@torch.no_grad()
def load_model():
    has_gpu = torch.cuda.is_available()
    print(f"üñ•Ô∏è GPU disponible: {has_gpu}")

    if has_gpu:
        quantization_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
        )
        device_map = "auto"
        torch_dtype = torch.bfloat16
    else:
        quantization_config = None
        device_map = "cpu"
        torch_dtype = torch.float32

    print(f"üîÑ Chargement Mistral 7B ({'4-bit GPU' if has_gpu else 'FP32 CPU'})...")

    base_model = AutoModelForCausalLM.from_pretrained(
        BASE_MODEL,
        quantization_config=quantization_config,
        device_map=device_map,
        torch_dtype=torch_dtype,
        token=HF_TOKEN,
        trust_remote_code=True,
        low_cpu_mem_usage=True
    )

    print("üîÑ Chargement tokenizer...")

    tokenizer = AutoTokenizer.from_pretrained(
        BASE_MODEL,
        token=HF_TOKEN,
        trust_remote_code=True
    )

    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

    print("üîÑ Application LoRA Spinoza_Secours...")

    model = PeftModel.from_pretrained(
        base_model,
        ADAPTER_MODEL,
        token=HF_TOKEN
    )

    print("‚úÖ Mod√®le Mistral 7B + LoRA charg√©!")
    return model, tokenizer

# Charger le mod√®le
model, tokenizer = load_model()


## üí¨ Cellule 6 : Fonction spinoza_repond()

**Utilise le prompt syst√®me hybride optimis√©**


In [None]:
# Historique conversation (format: [user, assistant])
conversation_history = []

def spinoza_repond(message: str) -> str:
    """
    G√©n√®re une r√©ponse de Spinoza avec prompt hybride adaptatif
    
    Args:
        message: Message de l'utilisateur
    
    Returns:
        R√©ponse de Spinoza nettoy√©e
    """
    global conversation_history
    
    # D√©tecter contexte
    contexte = detecter_contexte(message)
    
    # Construire prompt adaptatif (RAG d√©sactiv√© par d√©faut - trop embrouillant)
    system_prompt = construire_prompt_complet(contexte, use_rag_instruction=False)
    
    # Formatage Mistral style
    prompt_parts = [f"<s>[INST] {system_prompt}\n\n"]
    
    # Ajouter historique (4 derniers √©changes max)
    for entry in conversation_history[-4:]:
        prompt_parts.append(f"{entry[0]} [/INST] {entry[1]}</s>[INST] ")
    
    prompt_parts.append(f"{message} [/INST]")
    text = "".join(prompt_parts)
    
    # Tokenization
    inputs = tokenizer(text, return_tensors="pt").to(model.device)
    input_length = inputs['input_ids'].shape[1]
    
    # G√©n√©ration
    device_type = "cuda" if torch.cuda.is_available() else "cpu"
    dtype = torch.bfloat16 if device_type == "cuda" else torch.float32
    
    with torch.autocast(device_type=device_type, dtype=dtype):
        outputs = model.generate(
            **inputs,
            max_new_tokens=200,
            temperature=0.7,
            top_p=0.9,
            do_sample=True,
            repetition_penalty=1.2,
            pad_token_id=tokenizer.pad_token_id,
            eos_token_id=tokenizer.eos_token_id
        )
    
    # D√©codage
    new_tokens = outputs[0][input_length:]
    response = tokenizer.decode(new_tokens, skip_special_tokens=True)
    
    # Post-processing
    response = nettoyer_reponse(response)
    response = limiter_phrases(response, max_phrases=3)
    
    # Mettre √† jour historique
    conversation_history.append([message, response])
    
    return response

print("‚úÖ Fonction spinoza_repond() cr√©√©e")


## üåê Cellule 7 : API FastAPI + ngrok


In [None]:
# Questions d'amorce
QUESTIONS_BAC = [
    "La libert√© est-elle une illusion ?",
    "Suis-je esclave de mes d√©sirs ?",
    "Puis-je ma√Ætriser mes √©motions ?",
    "La joie procure-t-elle un pouvoir ?",
    "Peut-on d√©sirer sans souffrir ?",
]

# Mod√®les Pydantic
class ChatRequest(BaseModel):
    message: str
    history: Optional[List[List[str]]] = None

class ChatResponse(BaseModel):
    reply: str
    history: List[List[str]]

# API FastAPI
app = FastAPI()

# CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # ‚ö†Ô∏è √Ä restreindre en production
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

@app.get("/")
def root():
    """Endpoint racine - Informations sur l'API"""
    return {
        "name": "Spinoza Secours API",
        "model": "Mistral 7B + LoRA",
        "status": "running",
        "endpoints": {
            "health": "GET /health",
            "init": "GET /init",
            "chat": "POST /chat"
        }
    }

@app.get("/health")
def health():
    return {"status": "ok", "model": "Mistral 7B + LoRA"}

@app.get("/init")
def init():
    global conversation_history
    conversation_history = []
    question = random.choice(QUESTIONS_BAC)
    greeting = f"Bonjour ! Je suis Spinoza. Discutons :\n\n**{question}**\n\nQu'en penses-tu ?"
    return {
        "greeting": greeting,
        "history": [[None, greeting]]
    }

@app.post("/chat")
def chat(req: ChatRequest):
    global conversation_history
    
    # Mettre √† jour historique si fourni
    if req.history:
        conversation_history = req.history
    
    # G√©n√©rer r√©ponse
    reply = spinoza_repond(req.message)
    
    return {
        "reply": reply,
        "history": conversation_history
    }

print("‚úÖ API FastAPI cr√©√©e")


## üöÄ Cellule 8 : Lancement Serveur + ngrok


In [None]:
# Lancer FastAPI en background avec port dynamique
def run_server():
    uvicorn.run(app, host="0.0.0.0", port=PORT, log_level="error")

thread = threading.Thread(target=run_server, daemon=True)
thread.start()

# Attendre que le serveur d√©marre
import time
time.sleep(3)

# Tunnel ngrok sur le port dynamique
tunnel = ngrok.connect(PORT)
# Extraire l'URL publique depuis l'objet NgrokTunnel
# L'objet NgrokTunnel a une m√©thode public_url ou on peut extraire depuis str()
if hasattr(tunnel, 'public_url'):
    public_url = tunnel.public_url
elif hasattr(tunnel, 'data') and 'public_url' in tunnel.data:
    public_url = tunnel.data['public_url']
else:
    # Fallback : extraire depuis la repr√©sentation string
    import re
    url_match = re.search(r'https://[^"]+\.ngrok[^"]+', str(tunnel))
    public_url = url_match.group(0) if url_match else str(tunnel)

print("\n" + "=" * 80)
print(f"üöÄ API PUBLIQUE : {public_url}")
print(f"üì° Health : {public_url}/health")
print(f"üí¨ Init : {public_url}/init")
print(f"üí¨ Chat : POST {public_url}/chat")
print("=" * 80)
print(f"\n‚úÖ Serveur lanc√© sur le port {PORT} !")
print(f"üìã Copie cette URL dans index_spinoza.html : {public_url}")
