# 🎓 Fine-Tuning Demo - RAG Analyst

Ce notebook démontre le processus de fine-tuning d'un modèle GPT pour améliorer les performances sur des tâches spécifiques.

**Note:** Ce notebook est principalement éducatif. Le fine-tuning réel nécessite un budget et sera exécuté via l'API OpenAI.


## 1. Collecte des Données d'Entraînement

Pour fine-tuner un modèle, nous avons besoin de paires (question, réponse) de haute qualité.


In [None]:
import sys
sys.path.append('..')

import json

# Exemple de données d'entraînement
training_examples = [
    {
        "messages": [
            {"role": "system", "content": "Tu es un assistant expert en analyse de rapports financiers."},
            {"role": "user", "content": "Quel est le chiffre d'affaires de l'entreprise ?"},
            {"role": "assistant", "content": "Le chiffre d'affaires de l'entreprise est de 100 millions d'euros en 2023."}
        ]
    }
]

print(f"Exemple de format d'entraînement:")
print(json.dumps(training_examples[0], indent=2, ensure_ascii=False))


## 2. Estimation des Coûts

Le fine-tuning a un coût. Calculons-le avant de lancer.


In [None]:
def estimate_cost(training_data, model="gpt-3.5-turbo"):
    # Estimer tokens (1 token ≈ 4 caractères)
    total_chars = sum(len(json.dumps(ex)) for ex in training_data)
    estimated_tokens = total_chars / 4
    
    # Coûts OpenAI 2024
    cost_per_1k_tokens = 0.008  # GPT-3.5-turbo training
    training_cost = (estimated_tokens / 1000) * cost_per_1k_tokens * 3  # 3 epochs
    
    print(f"=== Estimation des Coûts ===")
    print(f"Exemples : {len(training_data)}")
    print(f"Tokens estimés : {estimated_tokens:,.0f}")
    print(f"Coût training (3 epochs) : ${training_cost:.2f}")
    
    return training_cost

# Exemple avec 100 conversations
mock_data = [training_examples[0]] * 100
estimate_cost(mock_data)
