In [1]:
"""
Extraction d'entit√©s (slots) depuis les commandes utilisateur
Plusieurs approches : Regex, SpaCy NER, et mod√®le seq2seq
"""

import re
import json
from typing import Dict, Any, List, Optional
import torch
from transformers import (
    CamembertTokenizerFast,  # Chang√© de CamembertTokenizer √† CamembertTokenizerFast
    CamembertForTokenClassification,
    pipeline
)
from torch.utils.data import Dataset, DataLoader

from transformers import AutoTokenizer, AutoModelForCausalLM

#Todo si erreur (windows ) : pip install "numpy<2"
# pip install transformers[torch] sentencepiece protobuf
# pip install --upgrade transformers torch


  from .autonotebook import tqdm as notebook_tqdm


In [2]:


# ============================================================================
# APPROCHE 1: R√®gles et Regex (Simple et efficace pour cas simples)
# ============================================================================

class RuleBasedSlotExtractor:
    """Extracteur bas√© sur des r√®gles pour chaque intention"""
    
    def __init__(self):
        self.patterns = {
            'export_notation': [
                (r'notation[s]?\s+(?:num√©ro\s+)?(\d+)', 'notation_id'),
                (r'n¬∞\s*(\d+)', 'notation_id'),
                (r'la\s+(\d+)', 'notation_id'),
                (r'(?:^|\s)(\d+)(?:$|\s)', 'notation_id'),  # nombre seul
            ],
            'creer_notation': [
                (r'notation\s+"([^"]+)"', 'notation_nom'),
                (r'notation\s+(.+?)(?:\s+pour|\s+sur|$)', 'notation_nom'),
            ],
            'creer_essai': [
                (r'essai\s+"([^"]+)"', 'essai_nom'),
                (r'essai\s+(.+?)(?:\s+pour|\s+sur|$)', 'essai_nom'),
            ]
        }
    
    def extract(self, text: str, intent: str) -> Dict[str, Any]:
        """Extrait les slots pour une intention donn√©e"""
        slots = {}
        
        if intent not in self.patterns:
            return slots
        
        for pattern, slot_name in self.patterns[intent]:
            match = re.search(pattern, text, re.IGNORECASE)
            if match:
                value = match.group(1)
                slots[slot_name] = value.strip()
                break  # Prend le premier match
        
        return slots


In [3]:


# ============================================================================
# APPROCHE 2: NER avec CamemBERT fine-tun√© (Plus flexible)
# ============================================================================

class NERSlotExtractor:
    """
    Extraction de slots avec un mod√®le NER (Named Entity Recognition)
    Utilise BIO tagging: B-notation_id, I-notation_id, O
    """
    
    def __init__(self):
        # Labels BIO pour chaque type d'entit√©
        self.label_list = [
            'O',  # Outside (pas une entit√©)
            'B-notation_id',  # Begin notation_id
            'B-essai_id',
            'B-nom',  # Nom g√©n√©rique
            'I-nom',  # Inside nom (continuation)
        ]
        
        self.label2id = {label: i for i, label in enumerate(self.label_list)}
        self.id2label = {i: label for i, label in enumerate(self.label_list)}
    
    def create_training_data(self):
        """Cr√©e des donn√©es d'entra√Ænement annot√©es au format BIO"""
        # Format: (texte, [(d√©but, fin, label)])
        examples = [
            ("export de la notation 123", [(22, 25, 'notation_id')]),
            ("exporter notation 456", [(18, 21, 'notation_id')]),
            ("je veux exporter la notation num√©ro 789", [(37, 40, 'notation_id')]),
            ("export notation 12", [(16, 18, 'notation_id')]),
            ("cr√©er une notation", []),
            ("cr√©er un essai test", [(17, 21, 'nom')]),
            ("nouvelle notation pour analyse", [(22, 30, 'nom')]),
        ]
        
        tokenized_examples = []
        tokenizer = CamembertTokenizerFast.from_pretrained('camembert-base')
        
        for text, entities in examples:
            # Tokenisation
            encoding = tokenizer(text, return_offsets_mapping=True, truncation=True)
            tokens = encoding.tokens()
            offsets = encoding['offset_mapping']
            
            # Cr√©ation des labels BIO
            labels = ['O'] * len(tokens)
            
            for start, end, entity_type in entities:
                # Trouve les tokens correspondants
                for idx, (token_start, token_end) in enumerate(offsets):
                    if token_start >= start and token_end <= end:
                        if token_start == start:
                            labels[idx] = f'B-{entity_type}'
                        else:
                            labels[idx] = f'I-{entity_type}'
            
            tokenized_examples.append({
                'text': text,
                'tokens': tokens,
                'labels': labels,
                'input_ids': encoding['input_ids'],
                'attention_mask': encoding['attention_mask']
            })
        
        return tokenized_examples
    
    def extract_from_bio(self, tokens: List[str], labels: List[str]) -> Dict[str, str]:
        """Convertit les labels BIO en dictionnaire de slots"""
        slots = {}
        current_entity = None
        current_value = []
        
        for token, label in zip(tokens, labels):
            if label.startswith('B-'):
                # Sauvegarde l'entit√© pr√©c√©dente si existante
                if current_entity:
                    slots[current_entity] = ' '.join(current_value)
                
                # Commence une nouvelle entit√©
                current_entity = label[2:]  # Enl√®ve "B-"
                current_value = [token]
            
            elif label.startswith('I-') and current_entity:
                # Continue l'entit√© courante
                current_value.append(token)
            
            else:  # O
                # Sauvegarde l'entit√© pr√©c√©dente si existante
                if current_entity:
                    slots[current_entity] = ' '.join(current_value)
                    current_entity = None
                    current_value = []
        
        # Sauvegarde la derni√®re entit√©
        if current_entity:
            slots[current_entity] = ' '.join(current_value)
        
        return slots



In [4]:
import os 
# ============================================================================
# APPROCHE 3: Template avec LLM (Plus puissant mais plus co√ªteux)
# ============================================================================

class MistralSlotExtractor:
    """
    Extracteur de slots utilisant Mistral-7B-Instruct en local
    Optimis√© pour l'extraction d'informations structur√©es
    """
    
    def __init__(
        self, 
        model_name: str = "mistralai/Mistral-7B-Instruct-v0.2",
        local_model_path: str = "../models/mistral-7b-instruct",  # Nouveau param√®tre
        device: str = "auto",
        load_in_8bit: bool = False,
        load_in_4bit: bool = True
    ):

        """
        Initialise le mod√®le Mistral
        
        Args:
            model_name: Nom du mod√®le sur HuggingFace
            device: Device √† utiliser ('cuda', 'cpu', ou 'auto')
            load_in_8bit: Charger en quantification 8-bit (n√©cessite bitsandbytes)
            load_in_4bit: Charger en quantification 4-bit (recommand√©, √©conomise de la VRAM)
        """
           
        # V√©rifier si le mod√®le existe d√©j√† en local
        if os.path.exists(local_model_path):
            print(f"üîÑ Chargement du mod√®le depuis {local_model_path}...")
            model_name = local_model_path
        else:
            print(f"üîÑ Chargement du mod√®le {model_name} depuis HuggingFace...")
        
        print(torch.cuda.is_available())
        self.device = device if device != "auto" else ("cuda" if torch.cuda.is_available() else "cpu")

    
        
        # Configuration de quantification pour √©conomiser la m√©moire
        kwargs = {}
        if load_in_4bit and self.device == "cuda":
            kwargs["load_in_4bit"] = True
            kwargs["device_map"] = "auto"
            print("   Using 4-bit quantization")
        elif load_in_8bit and self.device == "cuda":
            kwargs["load_in_8bit"] = True
            kwargs["device_map"] = "auto"
            print("   Using 8-bit quantization")
        else:
            kwargs["torch_dtype"] = torch.float16 if self.device == "cuda" else torch.float32
        
        # Chargement
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name, **kwargs)
        
        if not load_in_4bit and not load_in_8bit:
            self.model = self.model.to(self.device)
        
        self.model.eval()
        
        # Sauvegarder en local si ce n'est pas d√©j√† fait
        if not os.path.exists(local_model_path):
            print(f"üíæ Sauvegarde du mod√®le dans {local_model_path}...")
            os.makedirs(local_model_path, exist_ok=True)
            self.tokenizer.save_pretrained(local_model_path)
            self.model.save_pretrained(local_model_path)
            print("‚úì Mod√®le sauvegard√©")
        
        print(f"‚úì Mod√®le charg√© sur {self.device}")
        
        # D√©finition des templates pour chaque intention
        self.templates = {
            'export_notation': {
                'slots': ['notation_id'],
                'description': 'notation_id est le num√©ro/identifiant de la notation √† exporter (nombre uniquement)'
            },
            'creer_notation': {
                'slots': ['nom', 'description'],
                'description': 'nom est le nom de la nouvelle notation, description est une description optionnelle'
            },
            'creer_essai': {
                'slots': ['nom', 'type'],
                'description': "nom est le nom du nouvel essai, type est le type d'essai (optionnel)"
            },
            'modifier_essai': {
                'slots': ['essai_id', 'champ', 'valeur'],
                'description': 'essai_id est l\'identifiant de l\'essai, champ est le champ √† modifier, valeur est la nouvelle valeur'
            }
        }
    
    def build_prompt(self, text: str, intent: str) -> str:
        """
        Construit le prompt pour Mistral au format Instruct
        """
        template_info = self.templates.get(intent, {})
        slots = template_info.get('slots', [])
        description = template_info.get('description', '')
        
        # Construction du JSON de sortie attendu
        json_schema = {slot: "valeur ou null" for slot in slots}
        json_example = json.dumps(json_schema, ensure_ascii=False, indent=2)
        
        # Prompt optimis√© pour l'extraction
        user_message = f"""Extrait les informations structur√©es de la phrase suivante.

Phrase: "{text}"
Intention: {intent}

Informations √† extraire:
{description}

R√©ponds UNIQUEMENT avec un objet JSON valide, sans texte avant ou apr√®s.
Format attendu:
{json_example}

Si une information n'est pas pr√©sente dans la phrase, utilise null."""

        return user_message
    
    def format_mistral_prompt(self, user_message: str) -> str:
        """
        Formate le prompt au format Mistral Instruct
        """
        return f"<s>[INST] {user_message} [/INST]"
    
    def generate(self, prompt: str, max_new_tokens: int = 150, temperature: float = 0.1) -> str:
        """
        G√©n√®re une r√©ponse avec le mod√®le Mistral
        
        Args:
            prompt: Le prompt format√©
            max_new_tokens: Nombre maximum de tokens √† g√©n√©rer
            temperature: Temp√©rature de g√©n√©ration (plus bas = plus d√©terministe)
        """
        # Tokenisation
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        
        # G√©n√©ration
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                temperature=temperature,
                do_sample=temperature > 0,
                top_p=0.95,
                pad_token_id=self.tokenizer.eos_token_id
            )
        
        # D√©codage (enl√®ve le prompt)
        generated_text = self.tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
        return generated_text.strip()
    
    def extract_json_from_response(self, response: str) -> Optional[Dict]:
        """
        Extrait un objet JSON de la r√©ponse (g√®re les cas o√π le mod√®le ajoute du texte)
        """
        # M√©thode 1: Chercher un bloc JSON avec regex
        json_pattern = r'\{[^{}]*(?:\{[^{}]*\}[^{}]*)*\}'
        matches = re.findall(json_pattern, response, re.DOTALL)
        
        for match in matches:
            try:
                return json.loads(match)
            except json.JSONDecodeError:
                continue
        
        # M√©thode 2: Essayer de parser directement
        try:
            return json.loads(response)
        except json.JSONDecodeError:
            pass
        
        # M√©thode 3: Nettoyer et r√©essayer
        cleaned = response.strip()
        if cleaned.startswith('```json'):
            cleaned = cleaned[7:]
        if cleaned.startswith('```'):
            cleaned = cleaned[3:]
        if cleaned.endswith('```'):
            cleaned = cleaned[:-3]
        
        try:
            return json.loads(cleaned.strip())
        except json.JSONDecodeError:
            return None
    
    def extract(self, text: str, intent: str, verbose: bool = False) -> Dict[str, Any]:
        """
        Extrait les slots depuis le texte pour l'intention donn√©e
        
        Args:
            text: La phrase utilisateur
            intent: L'intention d√©tect√©e
            verbose: Affiche les d√©tails de g√©n√©ration
        
        Returns:
            Dictionnaire des slots extraits
        """
        # Construction du prompt
        user_message = self.build_prompt(text, intent)
        prompt = self.format_mistral_prompt(user_message)
        
        if verbose:
            print(f"\nüìù Prompt envoy√© au mod√®le:")
            print(f"{user_message}\n")
        
        # G√©n√©ration
        response = self.generate(prompt)
        
        if verbose:
            print(f"ü§ñ R√©ponse brute du mod√®le:")
            print(f"{response}\n")
        
        # Extraction du JSON
        slots = self.extract_json_from_response(response)
        
        if slots is None:
            if verbose:
                print("‚ö†Ô∏è  √âchec de l'extraction JSON, retour d'un dict vide")
            return {}
        
        # Nettoyage des valeurs null
        slots = {k: v for k, v in slots.items() if v is not None and v != "null"}
        
        if verbose:
            print(f"‚úì Slots extraits: {slots}")
        
        return slots
    
    def extract_batch(self, texts_and_intents: list, verbose: bool = False) -> list:
        """
        Extrait les slots pour plusieurs phrases en batch
        
        Args:
            texts_and_intents: Liste de tuples (text, intent)
            verbose: Affiche les d√©tails
        
        Returns:
            Liste de dictionnaires de slots
        """
        results = []
        for text, intent in texts_and_intents:
            if verbose:
                print(f"\n{'='*70}")
                print(f"Traitement: '{text}' (intent: {intent})")
                print('='*70)
            
            slots = self.extract(text, intent, verbose=verbose)
            results.append(slots)
        
        return results



In [5]:

# ============================================================================
# APPROCHE 4: Syst√®me hybride (Recommand√©)
# ============================================================================

class HybridSlotExtractor:
    """
    Combine plusieurs approches:
    1. Essaie d'abord les r√®gles (rapide, pr√©cis pour cas simples)
    2. Si insuffisant, utilise NER ou LLM
    """
    
    def __init__(self):
        self.rule_extractor = RuleBasedSlotExtractor()
        # self.ner_extractor = NERSlotExtractor()  # Si mod√®le entra√Æn√©
        self.llm_extractor = MistralSlotExtractor(device="cpu")
    
    def extract(self, text: str, intent: str, use_llm: bool = False) -> Dict[str, Any]:
        """
        Extrait les slots en utilisant la meilleure approche
        
        Args:
            text: La phrase utilisateur
            intent: L'intention d√©tect√©e
            use_llm: Si True, utilise le LLM pour les cas complexes
        """
        # Essaie d'abord les r√®gles
        slots = self.rule_extractor.extract(text, intent)
        
        # Si on a trouv√© des slots, c'est bon
        if slots:
            return {'method': 'rules', 'slots': slots, 'confidence': 'high'}
        
        # Sinon, utilise le LLM si demand√©
        if use_llm:
            slots = self.llm_extractor.extract(text, intent)
            return {'method': 'llm', 'slots': slots, 'confidence': 'medium'}
        
        return {'method': 'none', 'slots': {}, 'confidence': 'low'}



In [7]:

# ============================================================================
# D√âMONSTRATION
# ============================================================================

def demo():
    """D√©monstration des diff√©rentes approches"""
    
    print("="*70)
    print("D√âMONSTRATION D'EXTRACTION DE SLOTS")
    print("="*70)
    
    test_cases = [
        ("export de la notation 345", "export_notation"),
        ("je veux exporter la notation num√©ro 789", "export_notation"),
        ("exporter n¬∞ 123", "export_notation"),
        ("cr√©er une notation analyse des risques", "creer_notation"),
        ("nouveau essai de r√©sistance", "creer_essai"),
    ]
    
    # Approche 1: R√®gles
    print("\nüîß APPROCHE 1: R√àGLES ET REGEX")
    print("-" * 70)
    rule_extractor = RuleBasedSlotExtractor()
    
    for text, intent in test_cases:
        slots = rule_extractor.extract(text, intent)
        print(f"\nüìù '{text}'")
        print(f"   Intent: {intent}")
        print(f"   Slots: {slots}")
    
    # Approche 2: NER
    print("\n\nü§ñ APPROCHE 2: NER (Named Entity Recognition)")
    print("-" * 70)
    print("N√©cessite un mod√®le entra√Æn√© sur des donn√©es annot√©es BIO")
    ner_extractor = NERSlotExtractor()
    training_data = ner_extractor.create_training_data()
    print(f"Exemple de donn√©es d'entra√Ænement ({len(training_data)} exemples):")
    for i, example in enumerate(training_data[:2]):
        print(f"\n  Exemple {i+1}:")
        print(f"    Texte: {example['text']}")
        print(f"    Tokens: {example['tokens'][:10]}...")
        print(f"    Labels: {example['labels'][:10]}...")
    
    # Approche 3: LLM
    print("\n\nüß† APPROCHE 3: LLM (Large Language Model)")
    print("-" * 70)
    llm_extractor = MistralSlotExtractor()
    
    for text, intent in test_cases[:3]:
        slots = llm_extractor.extract(text, intent)
        print(f"\nüìù '{text}'")
        print(f"   Intent: {intent}")
        print(f"   Slots: {slots}")
    
    # Approche 4: Hybride
    print("\n\n‚ö° APPROCHE 4: SYST√àME HYBRIDE (RECOMMAND√â)")
    print("-" * 70)
    hybrid_extractor = HybridSlotExtractor()
    
    for text, intent in test_cases:
        result = hybrid_extractor.extract(text, intent)
        print(f"\nüìù '{text}'")
        print(f"   Intent: {intent}")
        print(f"   M√©thode: {result['method']}")
        print(f"   Confiance: {result['confidence']}")
        print(f"   Slots: {result['slots']}")
    
    # Recommandations
    print("\n\nüí° RECOMMANDATIONS")
    print("="*70)
    print("""
1. R√àGLES + REGEX (Recommand√© pour commencer):
   ‚úì Simple √† impl√©menter et maintenir
   ‚úì Tr√®s rapide (< 1ms)
   ‚úì Pr√©cis pour les patterns connus
   ‚úì Pas besoin d'entra√Ænement
   ‚úó Limit√© aux patterns pr√©d√©finis
   
2. NER (Pour cas plus complexes):
   ‚úì Plus flexible que les r√®gles
   ‚úì Peut g√©rer des variations
   ‚úì Bonne pr√©cision avec peu de donn√©es (100-200 exemples)
   ‚úó N√©cessite annotation des donn√©es
   ‚úó Temps d'entra√Ænement
   
3. LLM (Pour flexibilit√© maximale):
   ‚úì Tr√®s flexible, comprend le contexte
   ‚úì Pas besoin d'entra√Ænement
   ‚úì G√®re les cas complexes
   ‚úó Co√ªt API ou ressources GPU
   ‚úó Latence plus √©lev√©e (100-1000ms)
   ‚úó Moins pr√©dictible
   
4. HYBRIDE (Meilleur compromis):
   ‚úì Combine avantages de chaque approche
   ‚úì R√®gles pour cas simples (rapide)
   ‚úì LLM pour cas complexes (flexible)
   ‚úì Optimise co√ªt/performance
   """)

if __name__ == "__main__":
    demo()

print("end")

D√âMONSTRATION D'EXTRACTION DE SLOTS

üîß APPROCHE 1: R√àGLES ET REGEX
----------------------------------------------------------------------

üìù 'export de la notation 345'
   Intent: export_notation
   Slots: {'notation_id': '345'}

üìù 'je veux exporter la notation num√©ro 789'
   Intent: export_notation
   Slots: {'notation_id': '789'}

üìù 'exporter n¬∞ 123'
   Intent: export_notation
   Slots: {'notation_id': '123'}

üìù 'cr√©er une notation analyse des risques'
   Intent: creer_notation
   Slots: {'notation_nom': 'analyse des risques'}

üìù 'nouveau essai de r√©sistance'
   Intent: creer_essai
   Slots: {'essai_nom': 'de r√©sistance'}


ü§ñ APPROCHE 2: NER (Named Entity Recognition)
----------------------------------------------------------------------
N√©cessite un mod√®le entra√Æn√© sur des donn√©es annot√©es BIO
Exemple de donn√©es d'entra√Ænement (7 exemples):

  Exemple 1:
    Texte: export de la notation 123
    Tokens: ['<s>', '‚ñÅexport', '‚ñÅde', '‚ñÅla', '‚ñÅno

Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3/3 [03:07<00:00, 62.40s/it]


‚úì Mod√®le charg√© sur cpu

üìù 'export de la notation 345'
   Intent: export_notation
   Slots: {'notation_id': '345'}

üìù 'je veux exporter la notation num√©ro 789'
   Intent: export_notation
   Slots: {'notation_id': '789'}

üìù 'exporter n¬∞ 123'
   Intent: export_notation
   Slots: {'notation_id': '123'}


‚ö° APPROCHE 4: SYST√àME HYBRIDE (RECOMMAND√â)
----------------------------------------------------------------------
üîÑ Chargement du mod√®le mistralai/Mistral-7B-Instruct-v0.2...


Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3/3 [02:03<00:00, 41.02s/it]


‚úì Mod√®le charg√© sur cpu

üìù 'export de la notation 345'
   Intent: export_notation
   M√©thode: rules
   Confiance: high
   Slots: {'notation_id': '345'}

üìù 'je veux exporter la notation num√©ro 789'
   Intent: export_notation
   M√©thode: rules
   Confiance: high
   Slots: {'notation_id': '789'}

üìù 'exporter n¬∞ 123'
   Intent: export_notation
   M√©thode: rules
   Confiance: high
   Slots: {'notation_id': '123'}

üìù 'cr√©er une notation analyse des risques'
   Intent: creer_notation
   M√©thode: rules
   Confiance: high
   Slots: {'notation_nom': 'analyse des risques'}

üìù 'nouveau essai de r√©sistance'
   Intent: creer_essai
   M√©thode: rules
   Confiance: high
   Slots: {'essai_nom': 'de r√©sistance'}


üí° RECOMMANDATIONS

1. R√àGLES + REGEX (Recommand√© pour commencer):
   ‚úì Simple √† impl√©menter et maintenir
   ‚úì Tr√®s rapide (< 1ms)
   ‚úì Pr√©cis pour les patterns connus
   ‚úì Pas besoin d'entra√Ænement
   ‚úó Limit√© aux patterns pr√©d√©finis
   
2. NE

In [6]:
hybrid_extractor = HybridSlotExtractor()

result = hybrid_extractor.extract("Je voudrais exporter les r√©sultats de la notation 415", "export_notation")
result

üîÑ Chargement du mod√®le depuis ../models/mistral-7b-instruct...
False


`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6/6 [00:00<00:00, 54.78it/s]

‚úì Mod√®le charg√© sur cpu





{'method': 'rules', 'slots': {'notation_id': '415'}, 'confidence': 'high'}

In [12]:
result = hybrid_extractor.extract("Je voudrais exporter la notation 567", "export_notation", use_llm=True)
result

{'method': 'rules', 'slots': {'notation_id': '567'}, 'confidence': 'high'}