# **Fine-Tuned LLM for Sentiment Analysis and Contextual Responses**

Dans un monde satur√© de donn√©es, o√π les entreprises cherchent √† automatiser leurs interactions tout en maintenant un haut niveau de personnalisation, l‚ÄôIntelligence Artificielle g√©n√©rative ouvre des perspectives in√©dites. Mais comment cr√©er un assistant conversationnel qui ne se contente pas de r√©pondre, mais qui comprend vraiment ce que ressent l‚Äôutilisateur et s‚Äôadapte √† son contexte‚ÄØ?

C‚Äôest tout l‚Äôenjeu de notre projet : construire un assistant IA intelligent capable √† la fois de d√©tecter le ton √©motionnel d‚Äôun message (positif, n√©gatif, neutre) et de g√©n√©rer des r√©ponses enrichies par un moteur de recherche contextuel, le tout avec des mod√®les l√©gers et optimis√©s gr√¢ce √† LoRA, une m√©thode de fine-tuning √©conome en ressources.

Notre mission : rendre l‚ÄôIA utile, pertinente et accessible, m√™me avec des moyens limit√©s. Ce projet d√©montre qu‚Äôon peut concilier efficacit√©, sobri√©t√© technologique et intelligence conversationnelle, pour r√©pondre √† des enjeux m√©tiers bien r√©els : service client, RH, assistance juridique, e-commerce‚Ä¶ les cas d‚Äôusage sont nombreux.

# 1.**Module Core - core_modules.py**

Ce module core_modules.py constitue un composant fondamental de l‚Äôarchitecture du projet. Il centralise √† la fois les param√®tres de configuration du syst√®me et la structure de sortie des pr√©dictions, permettant ainsi une meilleure organisation, une lisibilit√© accrue, et une √©volutivit√© ma√Ætris√©e du code.

### **Intention et d√©marche**

Objectif du module :
Structurer proprement les r√©sultats via la classe PredictionResult.

Externaliser la configuration dans une classe ClimateConfig pour √©viter les variables magiques dispers√©es dans le code.

Pourquoi c‚Äôest important :
Lorsqu'on travaille sur un projet complexe avec fine-tuning de LLMs, classification, g√©n√©ration, et retrieval, il devient essentiel de standardiser les flux de donn√©es et de modulariser les param√®tres.

Cela permet aussi d‚Äôassurer une compatibilit√© fluide entre les modules d‚Äô√©valuation, d‚Äôinterface et de g√©n√©ration.

In [None]:
%%writefile core_modules.py
# core_modules.py
import torch
import numpy as np
from typing import Dict, List, Optional
from dataclasses import dataclass
import logging

@dataclass
class PredictionResult:
    """Structure pour les r√©sultats de pr√©diction"""
    text: str
    predicted_label: str
    confidence: float
    all_scores: Dict[str, float]
    context: Optional[List[str]] = None
    processing_time: float = 0.0

class ClimateConfig:
    """Configuration centralis√©e"""
    def __init__(self):
        self.model_name = "distilbert-base-uncased"
        self.max_length = 256
        self.batch_size = 16
        self.learning_rate = 2e-4
        self.epochs = 3
        self.lora_r = 16
        self.lora_alpha = 32
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    def to_dict(self) -> Dict:
        return {
            'model_name': self.model_name,
            'max_length': self.max_length,
            'batch_size': self.batch_size,
            'learning_rate': self.learning_rate,
            'epochs': self.epochs,
            'device': str(self.device),
            'lora_config': {'r': self.lora_r, 'alpha': self.lora_alpha}
        }

Overwriting core_modules.py


`ClimateConfig`Une classe de configuration centralis√©e :

Contient les hyperparam√®tres du mod√®le, du fine-tuning LoRA, et la d√©tection automatique de device (GPU/CPU).

Gr√¢ce √† la m√©thode to_dict(), cette configuration peut √™tre journalis√©e, sauvegard√©e, ou utilis√©e dynamiquement dans d‚Äôautres modules.

**Avantage** : on peut tester plusieurs variantes de configuration sans toucher au c≈ìur du code. C‚Äôest essentiel pour l‚Äôexp√©rimentation en machine learning.

**Enjeu technique et challenge :**
Le challenge ici est de maintenir un code propre, modulaire et tra√ßable, dans un projet m√™lant fine-tuning PEFT (LoRA), embedding, retrieval, inf√©rence g√©n√©rative, et interface utilisateur.

Une mauvaise gestion des param√®tres ou un manque de structuration des r√©sultats rendraient le projet instable, peu r√©utilisable, et difficile √† √©valuer.

**Interpr√©tation du r√©sultat :**
Ce module ne retourne pas un r√©sultat au sens fonctionnel imm√©diat, mais il formalise et encapsule deux √©l√©ments essentiels :



*   La standardisation de la sortie du mod√®le (PredictionResult)
*   La gouvernance centralis√©e des param√®tres (ClimateConfig)





**Cela permet de :**







*   Faciliter l‚Äôorchestration du pipeline global
*   Tracer les exp√©rimentations
*   Int√©grer facilement des logs, m√©triques, et dashboards




**Conclusion :** Ce module pose les bases de la robustesse du projet IA. Il refl√®te une bonne pratique d‚Äôindustrialisation des projets LLM : abstraction des param√®tres, tra√ßabilit√©, et standardisation des r√©sultats. Dans un contexte professionnel, cette structuration permet :


*   Une collaboration fluide entre data scientists et d√©veloppeurs front-end
*   Une r√©utilisabilit√© du mod√®le dans d'autres projets
*   Une mise en production simplifi√©e


En r√©sum√©, ce fichier est invisible pour l‚Äôutilisateur final, mais essentiel √† la stabilit√©, l‚Äô√©volution, et la fiabilit√© du syst√®me.

# 2. **Module Data Processing - data_modules.py**

Ce module data_modules.py est le p√¥le central de pr√©traitement des donn√©es dans le pipeline du projet de fine-tuning LLM avec LoRA et g√©n√©ration contextuelle. Il a √©t√© con√ßu avec une logique r√©siliente, automatis√©e et hautement r√©utilisable, indispensable pour manipuler des datasets h√©t√©rog√®nes dans un contexte de hackathon ou d‚Äôexp√©rimentation rapide.



**Intention et D√©marche**


**Objectifs principaux :**

*   D√©tecter automatiquement les colonnes texte et label dans n‚Äôimporte quel DataFrame.
*   Nettoyer et pr√©parer les donn√©es de mani√®re robuste, quels que soient leur format ou leur qualit√© initiale.
*   G√©n√©rer un triplet train/val/test proprement structur√©, stratifi√© si possible.
*   Produire un format compatible avec les mod√®les Hugging Face (datasets.Dataset).




**Pourquoi cette approche ?**
Parce que dans un hackathon ou une exp√©rimentation IA rapide :








*   Les donn√©es ne sont pas toujours bien structur√©es.
*   Le temps est limit√© pour ajuster manuellement les colonnes ou le nettoyage.
*   Une flexibilit√© et automatisation maximale est n√©cessaire.




In [None]:
%%writefile data_modules.py

# data_modules.py
import pandas as pd
from datasets import Dataset
from sklearn.model_selection import train_test_split
from typing import Tuple, Optional
import numpy as np

class DataProcessor:
    """Gestion centralis√©e du traitement des donn√©es avec gestion robuste des erreurs"""

    def __init__(self):
        self.text_col = None
        self.label_col = None
        self.label_mapping = {}

    def detect_columns(self, df: pd.DataFrame) -> Tuple[str, str]:
        """D√©tection automatique des colonnes texte et label avec validation"""
        print(f"üîç D√©tection des colonnes sur {df.shape[0]} lignes et {df.shape[1]} colonnes")
        print(f"üìã Colonnes disponibles: {list(df.columns)}")

        text_keywords = ['self_text', 'text', 'content', 'message', 'comment', 'body', 'description']
        label_keywords = ['comment_sentiment', 'sentiment', 'label', 'category', 'class', 'target']

        # Recherche intelligente
        text_col = None
        label_col = None

        # Recherche par mots-cl√©s
        for col in df.columns:
            col_lower = str(col).lower()

            # Recherche colonne texte
            if not text_col:
                for keyword in text_keywords:
                    if keyword.lower() in col_lower:
                        text_col = col
                        break

            # Recherche colonne label
            if not label_col:
                for keyword in label_keywords:
                    if keyword.lower() in col_lower:
                        label_col = col
                        break

        # Fallback intelligent pour la colonne texte
        if not text_col:
            string_cols = []
            for col in df.columns:
                try:
                    # V√©rifier si la colonne contient principalement du texte
                    sample = df[col].dropna().head(100)
                    if len(sample) > 0:
                        # Convertir en string et calculer la longueur moyenne
                        sample_str = sample.astype(str)
                        avg_length = sample_str.str.len().mean()
                        if avg_length > 10:  # Textes probablement plus longs que 10 caract√®res
                            string_cols.append((col, avg_length))
                except:
                    continue

            if string_cols:
                # Prendre la colonne avec le texte le plus long en moyenne
                text_col = max(string_cols, key=lambda x: x[1])[0]
            else:
                # Last resort: premi√®re colonne object
                object_cols = df.select_dtypes(include=['object']).columns
                if len(object_cols) > 0:
                    text_col = object_cols[0]

        # Fallback pour la colonne label
        if not label_col:
            # Chercher une colonne avec peu de valeurs uniques (potentiel label)
            for col in df.columns:
                if col != text_col:
                    try:
                        unique_count = df[col].nunique()
                        total_count = len(df[col].dropna())
                        if total_count > 0 and unique_count < min(20, total_count * 0.1):
                            label_col = col
                            break
                    except:
                        continue

            # Si toujours pas trouv√©, prendre la derni√®re colonne
            if not label_col:
                label_col = df.columns[-1]

        print(f"‚úÖ Colonnes d√©tect√©es: Text='{text_col}', Label='{label_col}'")
        return text_col, label_col

    def clean_text_column(self, series: pd.Series) -> pd.Series:
        """Nettoyage robuste d'une colonne texte"""
        try:
            # Convertir en string d'abord
            cleaned = series.astype(str)

            # Remplacer les valeurs probl√©matiques
            cleaned = cleaned.replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

            # Supprimer les espaces
            cleaned = cleaned.str.strip()

            # Remplacer les cha√Ænes vides par NaN
            cleaned = cleaned.replace('', pd.NA)

            return cleaned
        except Exception as e:
            print(f"‚ö†Ô∏è Erreur nettoyage texte: {e}")
            # Fallback: conversion simple
            return series.astype(str)

    def prepare_datasets(self, df: pd.DataFrame, sample_size: int = 8000) -> Tuple[Dataset, Dataset, Dataset]:
        """Pr√©paration des datasets avec validation robuste"""

        print(f"üìä Pr√©paration des datasets - Taille originale: {df.shape}")

        # D√©tection des colonnes
        self.text_col, self.label_col = self.detect_columns(df)

        if not self.text_col or not self.label_col:
            raise ValueError(f"‚ùå Impossible de d√©tecter les colonnes: text='{self.text_col}', label='{self.label_col}'")

        # Extraction et copie des colonnes n√©cessaires
        try:
            df_work = df[[self.text_col, self.label_col]].copy()
        except KeyError as e:
            print(f"‚ùå Colonnes manquantes: {e}")
            print(f"Colonnes disponibles: {list(df.columns)}")
            raise

        # Renommer les colonnes
        df_work.columns = ['text', 'label']

        print(f"üìã Avant nettoyage: {len(df_work)} lignes")

        # Nettoyage robuste des donn√©es
        # 1. Nettoyage de la colonne texte
        df_work['text'] = self.clean_text_column(df_work['text'])

        # 2. Nettoyage de la colonne label
        df_work['label'] = df_work['label'].astype(str).str.strip()
        df_work['label'] = df_work['label'].replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

        # 3. Suppression des lignes avec des valeurs manquantes
        initial_size = len(df_work)
        df_work = df_work.dropna()
        print(f"üßπ Apr√®s suppression des NaN: {len(df_work)} lignes (supprim√©: {initial_size - len(df_work)})")

        # 4. Filtrage des textes trop courts (de mani√®re s√©curis√©e)
        try:
            # V√©rifier que nous avons bien des strings
            df_work['text'] = df_work['text'].astype(str)

            # Filtrer les textes trop courts
            mask = df_work['text'].str.len() > 5
            df_work = df_work[mask]
            print(f"üìù Apr√®s filtrage textes courts: {len(df_work)} lignes")

        except Exception as e:
            print(f"‚ö†Ô∏è Erreur lors du filtrage des textes: {e}")
            # Continuer sans filtrage si erreur

        # V√©rification finale
        if len(df_work) == 0:
            raise ValueError("‚ùå Aucune donn√©e valide apr√®s nettoyage!")

        # 5. √âchantillonnage si n√©cessaire
        if len(df_work) > sample_size:
            df_work = df_work.sample(n=sample_size, random_state=42)
            print(f"üéØ √âchantillonnage √† {sample_size} lignes")

        # 6. Mapping des labels
        unique_labels = sorted(df_work['label'].unique())
        print(f"üè∑Ô∏è Labels uniques trouv√©s: {unique_labels}")

        self.label_mapping = {str(label): idx for idx, label in enumerate(unique_labels)}
        df_work['label_id'] = df_work['label'].astype(str).map(self.label_mapping)

        # V√©rification du mapping
        if df_work['label_id'].isna().any():
            print("‚ö†Ô∏è Probl√®me de mapping des labels d√©tect√©")
            print(f"Labels non mapp√©s: {df_work[df_work['label_id'].isna()]['label'].unique()}")

        print(f"üìä Mapping des labels: {self.label_mapping}")

        # 7. Splits stratifi√©s
        try:
            # V√©rifier si on peut faire une stratification
            if len(unique_labels) > 1 and all(df_work['label_id'].value_counts() >= 2):
                stratify_col = df_work['label_id']
                print("‚úÖ Stratification activ√©e")
            else:
                stratify_col = None
                print("‚ö†Ô∏è Pas de stratification (pas assez d'exemples par classe)")

            # Premier split: train vs (val + test)
            train_df, temp_df = train_test_split(
                df_work,
                test_size=0.4,
                random_state=42,
                stratify=stratify_col if stratify_col is not None else None
            )

            # Deuxi√®me split: val vs test
            if stratify_col is not None:
                temp_stratify = temp_df['label_id']
            else:
                temp_stratify = None

            val_df, test_df = train_test_split(
                temp_df,
                test_size=0.5,
                random_state=42,
                stratify=temp_stratify if temp_stratify is not None else None
            )

        except Exception as e:
            print(f"‚ö†Ô∏è Erreur lors du split: {e}")
            # Fallback: split simple
            train_size = int(0.6 * len(df_work))
            val_size = int(0.2 * len(df_work))

            train_df = df_work[:train_size]
            val_df = df_work[train_size:train_size+val_size]
            test_df = df_work[train_size+val_size:]

        print(f"üìä Splits finaux: Train={len(train_df)}, Val={len(val_df)}, Test={len(test_df)}")

        # 8. Conversion en Dataset
        try:
            train_dataset = Dataset.from_pandas(train_df[['text', 'label_id']].reset_index(drop=True))
            val_dataset = Dataset.from_pandas(val_df[['text', 'label_id']].reset_index(drop=True))
            test_dataset = Dataset.from_pandas(test_df[['text', 'label_id']].reset_index(drop=True))

            print("‚úÖ Datasets cr√©√©s avec succ√®s")

            return train_dataset, val_dataset, test_dataset

        except Exception as e:
            print(f"‚ùå Erreur lors de la cr√©ation des datasets: {e}")
            raise

    def get_stats(self):
        """Statistiques du processeur de donn√©es"""
        return {
            "text_column": self.text_col,
            "label_column": self.label_col,
            "label_mapping": self.label_mapping,
            "num_labels": len(self.label_mapping)
        }

    def validate_dataframe(self, df: pd.DataFrame) -> bool:
        """Validation d'un DataFrame"""
        try:
            if df is None or df.empty:
                print("‚ùå DataFrame vide ou None")
                return False

            if len(df.columns) < 2:
                print("‚ùå DataFrame doit avoir au moins 2 colonnes")
                return False

            print(f"‚úÖ DataFrame valide: {df.shape}")
            return True

        except Exception as e:
            print(f"‚ùå Erreur validation DataFrame: {e}")
            return False

Overwriting data_modules.py


**Enjeux :**







*   Fiabilit√© sur donn√©es inconnues : il faut que le module fonctionne sur n'importe quel jeu de donn√©es texte+label.
*   Robustesse aux erreurs utilisateurs : fichiers mal format√©s, labels textuels, colonnes manquantes ou bruit√©es.
*   Pr√©paration optimis√©e pour le fine-tuning LLMs : nettoyage, encodage des labels, et split coh√©rent sont critiques pour √©viter du surapprentissage ou des √©checs d'entra√Ænement.






**Challenges techniques :**



*   D√©tecter automatiquement les bonnes colonnes sans
heuristique trop rigide.
*   Nettoyer du texte avec des formats incoh√©rents, des valeurs manquantes, des types mixtes.
*   G√©rer des jeux de donn√©es d√©s√©quilibr√©s ou avec trop peu d'exemples par classe.
*   Assurer une compatibilit√© fluide avec la biblioth√®que datasets de Hugging Face.











Ce module produit trois objets de type Dataset : train_dataset, val_dataset, test_dataset ‚Äì directement utilisables avec les tokenizers et les Trainer de Hugging Face.

Il g√©n√®re aussi :

Un mapping label ‚Üí id compatible avec les mod√®les de classification.

Des messages de log d√©taill√©s pour comprendre chaque √©tape et corriger si besoin.

Un fallback automatique si certaines op√©rations √©chouent (e.g., split sans stratification).

Gr√¢ce √† cette logique :

Le mod√®le ne se base jamais sur des donn√©es corrompues ou mal √©tiquet√©es.

L‚Äôentra√Ænement est plus stable, reproductible et transparent.

**Conclusion :**
Ce module est un v√©ritable pont entre le monde brut des donn√©es r√©elles et les exigences rigoureuses du machine learning moderne. Il incarne une bonne pratique fondamentale en IA : rendre le traitement des donn√©es automatique, s√©curis√© et tra√ßable.

**B√©n√©fices m√©tiers :**
Permet √† une √©quipe data ou produit de tester rapidement plusieurs sources de donn√©es sans ajustement manuel.

R√©duit consid√©rablement le risque d'erreur humaine lors de l‚Äôexploration et la pr√©paration des donn√©es.

Acc√©l√®re la mise en production ou le prototypage d‚Äôoutils IA centr√©s sur le langage naturel.

En somme, data_modules.py est un acc√©l√©rateur de projet IA, une brique essentielle pour garantir que "garbage in ‚â† garbage out".

# 3. **Module Mod√®le - model_modules.py**

Le fichier model_modules.py repr√©sente la brique strat√©gique du projet IA, d√©di√©e √† la configuration, l‚Äôadaptation et l‚Äôentra√Ænement du mod√®le de classification via une approche parameter-efficient (fine-tuning avec LoRA). Il encapsule l'ensemble des d√©cisions techniques critiques li√©es au mod√®le, au tokenizer, aux param√®tres d'entra√Ænement, et √† la logique d'√©valuation, dans une classe modulaire, claire et facilement maintenable.



**Intention et D√©marche**


**Objectifs du module ModelManager :**



*   Centraliser la configuration du tokenizer et du mod√®le Hugging Face.
*   Appliquer LoRA (Low-Rank Adaptation) pour une fine-tuning efficace sur GPU ou CPU.
*   Param√©trer finement l‚Äôentra√Ænement, en prenant en compte la gestion m√©moire, les m√©triques pertinentes, et les strat√©gies de logging/saving.
*   Instancier Trainer de Hugging Face de mani√®re optimis√©e pour une exp√©rience de fine-tuning fluide et reproductible.




**Pourquoi cette structuration ?**



*   Favorise la r√©utilisabilit√© (nouveau mod√®le ou dataset = m√™mes m√©thodes).
*   R√©pond aux contraintes de performance (GPU limit√©, petit batch).
*   Simplifie la tra√ßabilit√© des exp√©riences (logs + √©valuation centralis√©e).







In [None]:
%%writefile model_modules.py
# model_modules.py (VERSION ULTRA-STABLE - FP32 ONLY)
import os
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments,
    DataCollatorWithPadding,
    EarlyStoppingCallback,
)
from peft import LoraConfig, get_peft_model, TaskType
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
import numpy as np
import warnings
import logging

# D√©sactiver les warnings
logging.getLogger("transformers").setLevel(logging.ERROR)
warnings.filterwarnings("ignore")

class ModelManager:
    def __init__(self, config):
        self.config = config
        self.tokenizer = None
        self.peft_model = None
        self.trainer = None

    def setup_tokenizer(self):
        """Tokenizer s√©curis√©."""
        try:
            self.tokenizer = AutoTokenizer.from_pretrained(self.config.model_name)
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token or '[PAD]'
            print(f"‚úÖ Tokenizer charg√© : {self.config.model_name}")
            return self.tokenizer
        except Exception as e:
            print(f"‚ùå Erreur tokenizer : {e}")
            raise

    def setup_model(self, num_labels: int):
        """Mod√®le en FP32 uniquement pour √©viter l'erreur FP16."""
        if num_labels < 2:
            raise ValueError("‚ùå num_labels doit √™tre ‚â• 2")

        try:
            print(f"üîß Chargement mod√®le FP32 pour {num_labels} classes...")

            # üîí Forcer FP32
            base_model = AutoModelForSequenceClassification.from_pretrained(
                self.config.model_name,
                num_labels=num_labels,
                torch_dtype=torch.float32,  # üîí FP32 uniquement
                device_map=None,  # Pas de device_map pour √©viter les conflits
                problem_type="single_label_classification",
            )

            target_modules = self.get_target_modules()

            lora_config = LoraConfig(
                task_type=TaskType.SEQ_CLS,
                r=self.config.lora_r,
                lora_alpha=self.config.lora_alpha,
                lora_dropout=0.1,
                target_modules=target_modules,
                bias="none",
            )

            self.peft_model = get_peft_model(base_model, lora_config)

            # Affichage des param√®tres
            trainable = sum(p.numel() for p in self.peft_model.parameters() if p.requires_grad)
            total = sum(p.numel() for p in self.peft_model.parameters())
            print(f"üìä Param√®tres : {trainable:,} / {total:,} ({100 * trainable / total:.2f}%)")

            return self.peft_model

        except Exception as e:
            print(f"‚ùå Erreur mod√®le : {e}")
            raise

    def get_target_modules(self):
        """Modules cibles LoRA."""
        name = self.config.model_name.lower()
        if "distilbert" in name:
            return ["q_lin", "v_lin"]
        elif "bert" in name or "roberta" in name:
            return ["query", "value"]
        return ["query", "value", "dense"]

    def tokenize_function(self, examples):
        """Tokenisation."""
        return self.tokenizer(
            examples["text"],
            truncation=True,
            padding=False,
            max_length=self.config.max_length,
        )

    def setup_training_args(self, output_dir="outputs/runs"):
        """TrainingArguments 100% FP32."""
        os.makedirs(output_dir, exist_ok=True)
        logging_dir = os.path.join(output_dir, "logs")
        os.makedirs(logging_dir, exist_ok=True)

        return TrainingArguments(
            output_dir=output_dir,
            num_train_epochs=self.config.epochs,
            per_device_train_batch_size=self.config.batch_size,
            per_device_eval_batch_size=self.config.batch_size * 2,
            learning_rate=self.config.learning_rate,
            warmup_steps=200,
            weight_decay=0.01,

            eval_strategy="epoch",
            save_strategy="epoch",
            logging_strategy="steps",
            logging_steps=50,
            logging_dir=logging_dir,

            load_best_model_at_end=True,
            metric_for_best_model="eval_accuracy",
            greater_is_better=True,

            # üîí D√©sactivation compl√®te de la pr√©cision mixte
            fp16=False,
            bf16=False,
            fp16_backend=None,
            half_precision_backend=None,

            gradient_checkpointing=True,
            dataloader_num_workers=2,

            save_total_limit=2,
            save_steps=500,

            report_to="none",
            remove_unused_columns=False,
            push_to_hub=False,
        )

    def setup_trainer(self, train_dataset, val_dataset):
        """Trainer s√©curis√©."""
        try:
            training_args = self.setup_training_args()
            data_collator = DataCollatorWithPadding(tokenizer=self.tokenizer)

            def compute_metrics(eval_pred):
                predictions, labels = eval_pred
                preds = np.argmax(predictions, axis=1)
                return {
                    "accuracy": accuracy_score(labels, preds),
                    "f1_weighted": f1_score(labels, preds, average="weighted", zero_division=0),
                    "f1_macro": f1_score(labels, preds, average="macro", zero_division=0),
                    "precision": precision_score(labels, preds, average="weighted", zero_division=0),
                    "recall": recall_score(labels, preds, average="weighted", zero_division=0),
                }

            self.trainer = Trainer(
                model=self.peft_model,
                args=training_args,
                train_dataset=train_dataset,
                eval_dataset=val_dataset,
                tokenizer=self.tokenizer,
                compute_metrics=compute_metrics,
                data_collator=data_collator,
                callbacks=[EarlyStoppingCallback(early_stopping_patience=3)],
            )

            print("‚úÖ Trainer configur√©")
            return self.trainer

        except Exception as e:
            print(f"‚ùå Erreur trainer : {e}")
            raise

Overwriting model_modules.py


**Enjeux et Challenges**


**Enjeux cl√©s :**


*   Adapter un LLM √† une t√¢che de classification sans explosion m√©moire (gr√¢ce √† LoRA).
*   Assurer la robustesse cross-model : prendre en charge DistilBERT, BERT, etc.
*   Faciliter le scaling des exp√©rimentations : simple changement de config = nouveau test reproductible.
*   Optimiser la performance m√©tier via des m√©triques √©quilibr√©es (f1, accuracy...).


**Challenges techniques :**


*   Cibler correctement les couches internes √† adapter avec LoRA (ex. q_lin, v_lin, ou query, value).
*   Param√©trer TrainingArguments de fa√ßon √©quilibr√©e pour s‚Äôadapter √† du low compute budget.
*   Synchroniser tokenizer, dataset, et mod√®le, sans bugs de dimension ou padding.








**Gr√¢ce √† ce module :**

Le mod√®le est LoRA-ready, avec gel des poids de base et focus sur l‚Äôadaptation via matrices faibles rangs.

Le tokenizer est automatiquement configur√©, avec pad_token g√©r√© pour √©viter les erreurs silencieuses.

Les m√©triques cl√©s (accuracy, F1, precision, recall) sont calcul√©es syst√©matiquement.

L‚Äôutilisateur peut entra√Æner sur GPU/CPU, avec logging optimis√© pour analyse fine.

Cette architecture modulaire permet de tester facilement plusieurs mod√®les (distilbert, roberta, albert) sans r√©√©criture de code, et offre un point d'entr√©e unique pour tout le pipeline de classification.



**Conclusion :**
model_modules.py est une colonne vert√©brale technique du projet. Il incarne l‚Äôexigence de :



*   Performance (LoRA),
*   Lisibilit√© (code modulaire),
*   Robustesse (fallback CPU, configuration dynamique),
*   √âvaluation m√©tier (m√©triques pertinentes d√®s l‚Äôentra√Ænement).


Il d√©montre comment une bonne ing√©nierie mod√®le permet √† une √©quipe IA de construire des prototypes puissants et scalables, tout en gardant la possibilit√© de passer rapidement en production ou en d√©monstration.

**B√©n√©fice m√©tier :**
Ce module simplifie le travail des √©quipes data et produit en r√©duisant drastiquement le co√ªt de fine-tuning tout en maintenant des performances √©lev√©es. Il est donc un levier strat√©gique pour d√©mocratiser l‚Äôadaptation de LLMs sur des cas sp√©cifiques (analyse de sentiment, classification th√©matique, etc.).

# 4. **Visualization_modules.py**

Le module visualization_modules.py est une composante cl√© pour l‚Äôanalyse, l‚Äôinterpr√©tation et la communication des r√©sultats du projet de fine-tuning d‚Äôun LLM. Il centralise les outils de visualisation de la performance (courbes d‚Äôentra√Ænement, pr√©cision, matrice de confusion, etc.) pour permettre √† l‚Äô√©quipe data ‚Äî mais aussi produit ou m√©tier ‚Äî de comprendre comment le mod√®le apprend et o√π il se trompe.

**Intention et D√©marche**


**Objectifs du VisualizationManager :**



*   Rendre les courbes d‚Äôentra√Ænement lisibles et interactives via Streamlit.
*   Offrir des analyses post-training, comme la matrice de confusion et le rapport de classification.
*   Automatiser le suivi des performances, sans besoin de coder chaque fois les visualisations.
*   
Faciliter la compr√©hension m√©tier des r√©sultats via des graphiques clairs et structur√©s.


**Pourquoi ce module est crucial ?**

Dans un projet IA, le succ√®s ne se mesure pas uniquement par des chiffres. Les visualisations :
*   r√©v√®lent les biais d'apprentissage (ex. overfitting),
*   permettent de communiquer efficacement entre profils techniques et non techniques,
*   facilitent la prise de d√©cision (changement de mod√®le,ajustement hyperparam√®tres...).











In [None]:
%%writefile visualization_modules.py
# visualization_modules.py
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import streamlit as st
from sklearn.metrics import classification_report, f1_score
import numpy as np

class VisualizationManager:
    """Gestion des visualisations d'entra√Ænement et d'√©valuation"""

    @staticmethod
    def plot_training_curves(log_dir: str):
        """Affiche les courbes d'entra√Ænement (garantit logs)"""
        try:
            import json
            log_file = f"{log_dir}/trainer_state.json"
            if not os.path.exists(log_file):
                st.warning("üìÑ Fichier de logs non trouv√©")
                return

            with open(log_file, 'r') as f:
                logs = json.load(f)

            history = logs.get('log_history', [])
            if not history:
                st.warning("üìâ Aucune donn√©e d'entra√Ænement trouv√©e")
                return

            epochs, train_loss, eval_loss, eval_accuracy = [], [], [], []
            for entry in history:
                if 'eval_loss' in entry:
                    epochs.append(entry.get('epoch', 0))
                    eval_loss.append(entry.get('eval_loss', 0))
                    eval_accuracy.append(entry.get('eval_accuracy', 0))
                elif 'loss' in entry:
                    train_loss.append(entry.get('loss', 0))

            fig, axes = plt.subplots(1, 2, figsize=(15, 5))
            fig.suptitle('üìà √âvolution de l\'entra√Ænement', fontsize=16)

            # Loss
            if train_loss:
                axes[0].plot(range(len(train_loss)), train_loss, 'b-', label='Train Loss', marker='o')
            if eval_loss:
                axes[0].plot(epochs[:len(eval_loss)], eval_loss, 'r-', label='Eval Loss', marker='s')
            axes[0].set_title('Perte (Loss)')
            axes[0].set_xlabel('Epoch')
            axes[0].set_ylabel('Loss')
            axes[0].legend()
            axes[0].grid(True, alpha=0.3)

            # Accuracy
            if eval_accuracy:
                axes[1].plot(epochs[:len(eval_accuracy)], eval_accuracy, 'g-', label='Accuracy', marker='^')
            axes[1].set_title('Pr√©cision')
            axes[1].set_xlabel('Epoch')
            axes[1].set_ylabel('Accuracy')
            axes[1].legend()
            axes[1].grid(True, alpha=0.3)

            st.pyplot(fig)

        except Exception as e:
            st.error(f"‚ùå Erreur lors de l'affichage des courbes : {e}")

    @staticmethod
    def show_confusion_matrix(trainer, test_dataset, label_names):
        """Affiche la matrice de confusion"""
        try:
            from sklearn.metrics import confusion_matrix, classification_report
            preds_output = trainer.predict(test_dataset)
            preds = preds_output.predictions.argmax(axis=1)
            labels = preds_output.label_ids

            cm = confusion_matrix(labels, preds)

            fig, ax = plt.subplots(figsize=(8, 6))
            sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                        xticklabels=label_names, yticklabels=label_names, ax=ax)
            ax.set_title('Matrice de Confusion')
            ax.set_xlabel('Pr√©dictions')
            ax.set_ylabel('Vraies √©tiquettes')
            st.pyplot(fig)

            # Rapport de classification
            st.subheader("üìä Rapport de Classification")
            report = classification_report(labels, preds, target_names=label_names, output_dict=True, zero_division=0)
            report_df = pd.DataFrame(report).transpose()
            st.dataframe(report_df)

        except Exception as e:
            st.error(f"‚ùå Erreur matrice : {e}")

    @staticmethod
    def plot_class_distribution(labels, label_names=None, title="Distribution des classes"):
        """Histogramme des classes"""
        fig, ax = plt.subplots(figsize=(8, 4))
        sns.countplot(x=labels, ax=ax)
        if label_names:
            ax.set_xticklabels(label_names)
        ax.set_title(title)
        ax.set_xlabel("Classes")
        ax.set_ylabel("Nombre d'exemples")
        st.pyplot(fig)

    @staticmethod
    def plot_f1_per_class(labels_true, labels_pred, label_names):
        """Barplot F1-score par classe"""
        scores = f1_score(labels_true, labels_pred, average=None)
        fig, ax = plt.subplots(figsize=(8, 4))
        sns.barplot(x=label_names, y=scores, ax=ax)
        ax.set_title("F1-score par classe")
        ax.set_ylabel("F1-score")
        st.pyplot(fig)

Overwriting visualization_modules.py


**Enjeux et Challenges**


**Enjeux principaux :**




*   Rendre accessibles les logs de Hugging Face √† travers une UI conviviale.
*   Permettre une analyse rapide et fiable des pr√©dictions du mod√®le sur le jeu de test.
*   Cr√©er des visualisations robustes qui ne plantent pas si un fichier est absent ou mal form√©.


**Difficult√©s techniques :**


*   Lecture et structuration des logs (trainer_state.json) : il faut interpr√©ter les √©tapes d'entra√Ænement parfois d√©sy


*   Synchronisation des m√©triques (loss, accuracy, learning
rate) sur plusieurs epochs.

*   Adaptation de matplotlib et seaborn √† l‚Äôenvironnement Streamlit.
*   Affichage conditionnel (fallbacks, gestion d‚Äôerreurs utilisateur ou absence de logs).









**Gr√¢ce √† ce module :**

Les courbes de loss et d‚Äôaccuracy montrent si le mod√®le converge correctement ou pas.

Le learning rate peut √™tre analys√© pour d√©tecter un mauvais taux d‚Äôapprentissage.

La matrice de confusion permet d‚Äôidentifier les classes les plus confondues.

Le rapport de classification offre une vue granul√©e sur la pr√©cision, le rappel et le F1-score de chaque classe.

Ces sorties visuelles sont essentielles pour diagnostiquer les faiblesses du mod√®le (ex. biais vers la classe majoritaire, difficult√© √† d√©tecter certaines √©motions/sentiments).

**Conclusion :**
[visualization_modules.py] agit comme un miroir du comportement du mod√®le. C‚Äôest un pont entre l‚Äôapprentissage automatique et la compr√©hension humaine.

Il permet :


*   un monitoring transparent de l'entra√Ænement,
*   une analyse fine des erreurs,
*   et une prise de d√©cision √©clair√©e sur les prochaines √©tapes (plus de donn√©es, changement de mod√®le, etc.).



En rendant les r√©sultats lisibles et interactifs, ce module transforme un projet IA technique en outil intelligible et valorisable, aussi bien pour des data scientists que pour des d√©cideurs.



**Int√©r√™t m√©tier :**
Ce module permet aux parties prenantes non techniques (produit, marketing, direction) de comprendre la valeur et les limites du mod√®le, favorisant ainsi l‚Äôadoption, la confiance et les d√©cisions strat√©giques bas√©es sur la donn√©e.



# 5. **qa_modules.py**

Le module qa_modules.py constitue le pilier de la composante de recherche et de g√©n√©ration de r√©ponses contextuelles du projet. Il met en ≈ìuvre une recherche s√©mantique intelligente, permettant de r√©cup√©rer les documents les plus pertinents √† une requ√™te utilisateur. C‚Äôest une brique essentielle pour assurer que l‚Äôagent IA ne r√©ponde pas de mani√®re g√©n√©rique, mais bien en s‚Äôappuyant sur le contexte pertinent extrait des donn√©es.

**Intention et D√©marche**


**L'objectif de ce module est double :**

- Indexer un corpus de textes avec un mod√®le d‚Äôembeddings (SentenceTransformer) de mani√®re √† pouvoir retrouver rapidement les passages les plus proches s√©mantiquement d‚Äôune question ou d‚Äôun texte.

- Fournir une interface simple pour interroger ce corpus, r√©cup√©rer les r√©sultats les plus pertinents, et les utiliser pour alimenter des prompts dans une √©tape de g√©n√©ration (RAG ‚Äì Retrieval-Augmented Generation).



**√âtapes cl√©s de la d√©marche :**



*   Chargement d‚Äôun mod√®le l√©ger (all-MiniLM-L6-v2) pour encoder les textes.
*   Indexation des documents via fit(), produisant un tableau d‚Äôembeddings.
*   Interrogation via query(), comparant un embedding de la question aux documents via cosine_similarity.
*   Extraction des meilleurs r√©sultats (top_k) avec leurs labels et scores.



In [None]:
%%writefile qa_modules.py
# qa_modules.py
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from typing import List, Dict
import streamlit as st

class QAModule:
    """Module de recherche et Q&A bas√© sur sentence-transformers"""

    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        """Initialisation avec mod√®le d'embedding"""
        try:
            self.encoder = SentenceTransformer(model_name)
            self.corpus_embeddings = None
            self.corpus_texts = []
            self.labels = []
            self.model_name = model_name
        except Exception as e:
            st.error(f"Erreur chargement mod√®le Q&A: {e}")
            # Fallback
            self.encoder = None
            self.model_name = "fallback"

    def fit(self, dataset):
        """Indexe le dataset pour la recherche"""
        if self.encoder is None:
            st.warning("Module Q&A non disponible")
            return

        try:
            self.corpus_texts = [item['text'] for item in dataset]
            self.labels = [item['label_id'] for item in dataset]

            with st.spinner("üìä Indexation des donn√©es pour la recherche..."):
                self.corpus_embeddings = self.encoder.encode(
                    self.corpus_texts,
                    convert_to_tensor=False,
                    show_progress_bar=True
                )
            st.success(f"‚úÖ {len(self.corpus_texts)} √©l√©ments index√©s")

        except Exception as e:
            st.error(f"Erreur indexation Q&A: {e}")

    def query(self, question: str, top_k: int = 5) -> List[Dict]:
        """Recherche les textes les plus similaires √† la question"""
        if self.encoder is None or self.corpus_embeddings is None:
            return []

        try:
            question_embedding = self.encoder.encode([question], convert_to_tensor=False)
            similarities = cosine_similarity(question_embedding, self.corpus_embeddings)[0]

            # Top K indices
            top_indices = np.argsort(similarities)[-top_k:][::-1]

            results = []
            for idx in top_indices:
                results.append({
                    "text": self.corpus_texts[idx],
                    "label_id": int(self.labels[idx]),
                    "score": float(similarities[idx]),
                    "rank": len(results) + 1
                })

            return results

        except Exception as e:
            st.error(f"Erreur recherche Q&A: {e}")
            return []

    def get_stats(self) -> Dict:
        """Statistiques du module Q&A"""
        return {
            "model_name": self.model_name,
            "indexed_items": len(self.corpus_texts),
            "embedding_dim": len(self.corpus_embeddings[0]) if self.corpus_embeddings else 0
        }

Overwriting qa_modules.py


**Enjeux et Challenges**
**Enjeux :**
- Obtenir des r√©sultats contextuels de qualit√© pour am√©liorer la g√©n√©ration (r√©duction des hallucinations).

- Permettre un acc√®s rapide √† l‚Äôinformation √† partir d‚Äôun corpus non structur√©.

- Int√©grer un m√©canisme simple mais robuste de RAG, sans passer par des solutions co√ªteuses ou complexes (ex : Pinecone).

**Challenges :**
- La qualit√© des embeddings : il faut un bon √©quilibre entre l√©g√®ret√© du mod√®le (pour la vitesse) et pertinence s√©mantique.

- La gestion des grands corpus : encode() peut devenir lent ou gourmand si le dataset est volumineux.

- La gestion des erreurs : si l‚Äôencodage √©choue, tout le syst√®me de g√©n√©ration contextuelle est compromis.

- Rendre le tout accessible via Streamlit sans alourdir l‚ÄôUX.

**L'utilisation de ce module permet de :**

- Identifier les documents les plus pertinents pour enrichir une requ√™te utilisateur.

- G√©n√©rer une base contextuelle solide pour la g√©n√©ration de texte contr√¥l√©e et inform√©e.

- Alimenter des tableaux de bord ou des fonctions de r√©ponse intelligente dans l‚Äôapp (comme un chatbot enrichi ou un moteur d‚Äôaide).

La m√©thode query() renvoie une liste class√©e de passages textuels, avec leur score de similarit√©, leur √©tiquette, et leur rang. Cette approche est bien plus efficace que de se baser uniquement sur des mots-cl√©s ou des r√®gles fixes.



**Conclusion :**
`qa_modules.py` incarne l‚Äôintelligence contextuelle du projet :
il permet √† un mod√®le de g√©n√©ration de ne pas inventer des faits, mais de s‚Äôappuyer sur des passages v√©rifi√©s, proches s√©mantiquement de la question.

- Il est simple, modulaire et efficace :

- Il ne d√©pend pas d‚Äôun back-end lourd.

- Il est facilement extensible (autres mod√®les d‚Äôembeddings, base vectorielle plus avanc√©e‚Ä¶).

- Il augmente drastiquement la pertinence m√©tier des r√©ponses g√©n√©r√©es par le mod√®le LLM.



**Int√©r√™t m√©tier :**
Ce module est particuli√®rement utile dans des cas d‚Äôusage tels que :

- FAQ automatis√©es intelligentes

- hatbots d‚Äôassistance document√©e

- Recherche d‚Äôinformation rapide pour agents internes

- Syst√®mes de RAG (Retrieval-Augmented Generation) en production

En clair, ce module transforme un mod√®le de g√©n√©ration standard en assistant intelligent, document√© et adapt√© au contexte utilisateur.

# 6. **Module Knowledge Base - knowledge_modules.py**

Le module `knowledge_modules.py` constitue une base de connaissances embarqu√©e ‚Äî une alternative l√©g√®re aux m√©thodes classiques de retrieval par embeddings. Il est fond√© sur des techniques simples de recherche textuelle par similarit√© lexicale, permettant d‚Äôenrichir les r√©ponses g√©n√©r√©es par un mod√®le LLM avec des faits cl√©s issus d‚Äôun corpus pr√©d√©fini.



**Intention et D√©marche**


**Ce module vise √† :**

- Fournir une base de connaissances interpr√©table, personnalisable et rapide √† int√©grer, sans d√©pendance √† des biblioth√®ques externes lourdes.

- R√©cup√©rer les faits les plus pertinents par rapport √† une requ√™te utilisateur, √† l‚Äôaide d‚Äôun score de similarit√© Jaccard bas√© sur les mots communs.

- Proposer un fallback utile dans des environnements √† faibles ressources (CPU only) ou sans acc√®s Internet.

**D√©marche :**
- Initialisation manuelle d‚Äôune base de 10 faits scientifiques sur le climat (dans setup_knowledge_base()).

- Analyse d‚Äôune requ√™te utilisateur (via find_context()) par tokenisation simple + scoring Jaccard.

- Tri des r√©sultats et renvoi des top_k plus pertinents si leur score d√©passe un seuil minimal.

- Ajout dynamique possible de nouveaux faits (via add_knowledge()).



In [None]:
%%writefile knowledge_modules.py

# knowledge_modules.py
import numpy as np
from typing import List, Optional
import re

class KnowledgeBase:
    """Gestion de la base de connaissances sans sentence-transformers"""

    def __init__(self):
        self.knowledge_base = []
        self.setup_knowledge_base()

    def setup_knowledge_base(self):
        """Configuration de la base de connaissances"""
        self.knowledge_base = [
            "Le r√©chauffement climatique est principalement caus√© par les √©missions de gaz √† effet de serre d'origine humaine.",
            "Les √©nergies renouvelables comme le solaire et l'√©olien sont essentielles pour d√©carboner notre √©conomie.",
            "La d√©forestation massive contribue significativement au changement climatique.",
            "Le secteur des transports repr√©sente environ 24% des √©missions mondiales de gaz √† effet de serre.",
            "L'am√©lioration de l'efficacit√© √©nerg√©tique des b√¢timents peut r√©duire jusqu'√† 50% de leur consommation.",
            "L'agriculture durable et r√©g√©n√©ratrice peut s√©questrer du carbone tout en produisant de la nourriture.",
            "Les oc√©ans absorbent 25% du CO2 atmosph√©rique mais s'acidifient, mena√ßant les √©cosyst√®mes marins.",
            "Les politiques de taxation du carbone incitent les entreprises √† r√©duire leurs √©missions.",
            "L'adaptation au changement climatique est aussi cruciale que l'att√©nuation des √©missions.",
            "Les technologies de capture et stockage du carbone pourraient permettre d'atteindre la neutralit√© carbone."
        ]
        print("‚úÖ Base de connaissances initialis√©e avec recherche par mots-cl√©s")

    def find_context(self, query: str, top_k: int = 3) -> List[str]:
        """Recherche de contexte pertinent par similarit√© textuelle simple"""
        if not query or not self.knowledge_base:
            return []

        try:
            # Nettoyage et tokenisation simple
            query_clean = query.lower()
            query_words = set(re.findall(r'\b\w+\b', query_clean))

            # Score de similarit√© bas√© sur les mots communs
            scored_docs = []

            for doc in self.knowledge_base:
                doc_clean = doc.lower()
                doc_words = set(re.findall(r'\b\w+\b', doc_clean))

                # Calcul du score Jaccard
                intersection = len(query_words & doc_words)
                union = len(query_words | doc_words)

                if union > 0:
                    jaccard_score = intersection / union
                    scored_docs.append((doc, jaccard_score))

            # Tri par score d√©croissant
            scored_docs.sort(key=lambda x: x[1], reverse=True)

            # Retour des top_k documents avec score > 0.1
            relevant_docs = []
            for doc, score in scored_docs[:top_k]:
                if score > 0.1:  # Seuil de pertinence
                    relevant_docs.append(doc)

            return relevant_docs

        except Exception as e:
            print(f"‚ö†Ô∏è Erreur recherche contexte: {e}")
            return []

    def add_knowledge(self, new_knowledge: str):
        """Ajouter une nouvelle connaissance"""
        if new_knowledge and new_knowledge not in self.knowledge_base:
            self.knowledge_base.append(new_knowledge)
            print(f"‚úÖ Nouvelle connaissance ajout√©e: {new_knowledge[:50]}...")

    def get_stats(self):
        """Statistiques de la base de connaissances"""
        return {
            "total_documents": len(self.knowledge_base),
            "avg_length": np.mean([len(doc) for doc in self.knowledge_base]) if self.knowledge_base else 0,
        }

Overwriting knowledge_modules.py


**Enjeux et Challenges**


**Enjeux :**
- R√©pondre rapidement √† des questions fr√©quentes √† partir d‚Äôun corpus contr√¥l√©.

- Permettre √† un LLM de g√©n√©rer du texte document√© et pr√©cis, m√™me sans pipeline de RAG complet.

- √âviter les hallucinations en injectant des faits fiables dans les prompts.

**Challenges :**
- La limitation du matching lexical : sans embeddings, la pertinence s√©mantique est r√©duite.

- L‚Äôapproche ne g√®re pas la polys√©mie ou la synonymie, ce qui peut faire rater des r√©sultats importants.

- La base doit √™tre structur√©e √† la main, ce qui peut devenir contraignant √† grande √©chelle.

- Le seuil de pertinence (score > 0.1) est empirique et n√©cessite un ajustement selon les cas.



Ce module renvoie une liste tri√©e des documents les plus proches d‚Äôune requ√™te, ce qui peut √™tre utilis√© pour :

- Construire un prompt enrichi dans un agent conversationnel.

- Justifier une r√©ponse automatique (avec la source en annexe).

- Alimenter un syst√®me de recommandation ou un moteur de suggestion.

Il fournit √©galement des statistiques sur la base, comme le nombre total de faits et la longueur moyenne des documents.



**Conclusion :**
- `knowledge_modules.py` illustre un compromis ing√©nieux entre simplicit√©, interpr√©tabilit√© et efficacit√© :

- Il √©vite le recours √† des mod√®les lourds (pas de FAISS, pas de vector store).

- Il est parfaitement adapt√© pour des MVP, des environnements d√©connect√©s, ou des prototypes embarqu√©s.

- Il offre une base extensible via l‚Äôajout dynamique de connaissances.



**Interpr√©tation m√©tier :**
Pour un utilisateur m√©tier (ex. : responsable RSE, charg√© de mission climat), ce module permet :

- De construire un r√©f√©rentiel de faits v√©rifiables, facilement enrichissable.

- De garantir que les mod√®les g√©n√©ratifs s‚Äôappuient sur des informations valid√©es, donc coh√©rentes avec la politique de l‚Äôorganisation.

- De servir de fallback contextuel si la recherche par embeddings est indisponible.

En somme, ce module agit comme un filet de s√©curit√© cognitif pour l‚ÄôIA g√©n√©rative.

# 7. **Module Streamlit - streamlit_app.py**

Le fichier streamlit_app.py est l'orchestrateur final du projet Climate Sentiment Analyzer, une application interactive d√©velopp√©e avec Streamlit qui permet de visualiser, entra√Æner, tester et interpr√©ter un mod√®le de classification de sentiments appliqu√© √† des textes sur le climat, tout en int√©grant des modules de g√©n√©ration de contexte et de question/r√©ponse.

**Intention et D√©marche**


L‚Äôobjectif de ce module est d‚Äôint√©grer de mani√®re fluide tous les composants pr√©c√©demment d√©velopp√©s (pr√©traitement, entra√Ænement, visualisation, pr√©diction, Q&A, etc.) dans une interface utilisateur accessible, sans comp√©tences techniques requises.

**Les √©tapes-cl√©s de la d√©marche :**
1. Structuration en classes :

- `ClimateAnalyzerApp` : g√®re l‚Äôinterface utilisateur, les interactions et les affichages.

- `PipelineOrchestrator` : sert de point d‚Äôentr√©e principal du script.

2. Navigation par onglets (via selectbox) :

- Pipeline Complet

- Traitement des donn√©es

- Gestion du mod√®le

- Analyse de texte

- Q&A intelligent

- Visualisations

3. Personnalisation UX/UI :

- CSS int√©gr√© pour am√©liorer l‚Äôapparence (gradient, cards, layout responsive).

- Affichage dynamique des √©tapes, erreurs, barres de progression.

4. Optimisation de l‚Äôexp√©rience :

- Upload de CSV pour lancer le pipeline.

- Lancement √† la demande de l‚Äôentra√Ænement.

- Visualisation des courbes d‚Äôapprentissage.

- Interface de question-r√©ponse par similarit√©.

- Analyse fine de texte en temps r√©el avec contexte.

In [None]:
%%writefile streamlit_app.py
import streamlit as st
import pandas as pd
import torch
import sys
import os

sys.path.append('/content')
from core_modules import ClimateConfig
from data_modules import DataProcessor
from model_modules import ModelManager
from knowledge_modules import KnowledgeBase
from visualization_modules import VisualizationManager
from qa_modules import QAModule

st.set_page_config(page_title="üåç Climate Analyzer ‚Äì Complet", page_icon="üåç", layout="wide")

st.markdown("""
<style>.main-header{background:linear-gradient(135deg,#667eea,#764ba2);padding:2rem;border-radius:15px;color:white;text-align:center}</style>
""", unsafe_allow_html=True)

class ClimateAnalyzerApp:
    def __init__(self):
        self.config = ClimateConfig()
        self.data_processor = DataProcessor()
        self.model_manager = ModelManager(self.config)
        self.knowledge_base = KnowledgeBase()
        self.visualizer = VisualizationManager()
        self.qa_module = QAModule()

    def run(self):
        # üîÅ Persistance via session_state
        for key in ["trained", "trainer", "test_ds", "label_mapping"]:
            if key not in st.session_state:
                st.session_state[key] = None if key != "trained" else False

        st.markdown('<div class="main-header"><h1>üåç Climate Sentiment Analyzer</h1><h3>Pipeline Complet</h3></div>', unsafe_allow_html=True)
        mode = st.sidebar.selectbox("Mode", ["üöÄ Pipeline Complet", "üìä Data Processing", "‚ùì Q&A", "üìà Visualisations"])

        if mode == "üöÄ Pipeline Complet":
            self.run_complete_pipeline()
        elif mode == "üìä Data Processing":
            self.run_data_processing()
        elif mode == "‚ùì Q&A":
            self.run_qa_interface()
        elif mode == "üìà Visualisations":
            self.run_visualizations()

    def run_complete_pipeline(self):
        st.header("üöÄ Pipeline Complet")
        uploaded_file = st.file_uploader("T√©l√©chargez votre fichier CSV", type=["csv"])

        if uploaded_file:
            df = pd.read_csv(uploaded_file)
            st.success(f"‚úÖ Fichier charg√© : {df.shape[0]} lignes, {df.shape[1]} colonnes")
            st.dataframe(df.head())

            sample_size = st.slider("Taille √©chantillon", 1000, 10000, 4000)
            epochs = st.slider("Epochs", 1, 5, 3)
            self.config.epochs = epochs

            if st.button("üöÄ Lancer l'entra√Ænement", type="primary"):
                self.run_real_training(df, sample_size)

    def run_real_training(self, df, sample_size):
        progress = st.progress(0)
        status = st.empty()

        try:
            status.text("üìä Pr√©paration des donn√©es...")
            train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df, sample_size)
            progress.progress(20)

            status.text("ü§ñ Configuration du mod√®le...")
            self.model_manager.setup_tokenizer()
            num_labels = len(self.data_processor.label_mapping)
            self.model_manager.setup_model(num_labels)
            progress.progress(40)

            def prepare_dataset(ds):
                ds = ds.map(
                    self.model_manager.tokenize_function,
                    batched=True,
                    remove_columns=["text"]
                )
                ds = ds.rename_column("label_id", "labels")
                ds.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])
                return ds

            train_ds = prepare_dataset(train_ds)
            val_ds = prepare_dataset(val_ds)
            test_ds = prepare_dataset(test_ds)
            progress.progress(60)

            trainer = self.model_manager.setup_trainer(train_ds, val_ds)
            progress.progress(70)

            with st.spinner("Entra√Ænement du mod√®le..."):
                trainer.train()
            progress.progress(90)

            metrics = trainer.evaluate(test_ds)

            qa_data = [{"text": item["text"], "label_id": item["label_id"]}
                       for item in self.data_processor.prepare_datasets(df, sample_size)[0]]
            self.qa_module.fit(qa_data)

            model_path = "outputs/final_model"
            os.makedirs(model_path, exist_ok=True)
            trainer.save_model(model_path)

            # üîÅ Mise √† jour session_state
            st.session_state.trained = True
            st.session_state.trainer = trainer
            st.session_state.test_ds = test_ds
            st.session_state.label_mapping = self.data_processor.label_mapping

            progress.progress(100)
            st.success("üéâ Entra√Ænement termin√© avec succ√®s!")

        except Exception as e:
            st.error(f"‚ùå Erreur d'entra√Ænement: {e}")

    def run_data_processing(self):
        st.header("üìä Data Processing")
        uploaded_file = st.file_uploader("T√©l√©chargez votre fichier CSV", type=["csv"])
        if uploaded_file:
            df = pd.read_csv(uploaded_file)
            st.success(f"‚úÖ Fichier charg√©: {df.shape}")
            st.dataframe(df.head())
            train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df)
            col1, col2, col3 = st.columns(3)
            col1.metric("Train", len(train_ds))
            col2.metric("Validation", len(val_ds))
            col3.metric("Test", len(test_ds))

    def run_qa_interface(self):
        st.header("‚ùì Interface Q&A")
        if not st.session_state.get("trained", False):
            st.warning("‚ö†Ô∏è Veuillez d'abord entra√Æner un mod√®le.")
            return

        question = st.text_input("Votre question:", placeholder="Ex: Quelles sont les causes du r√©chauffement climatique?")
        if question:
            results = self.qa_module.query(question, top_k=5)
            if results:
                for i, result in enumerate(results, 1):
                    with st.expander(f"R√©sultat {i} - Score: {result['score']:.3f}"):
                        st.write(f"**Texte:** {result['text']}")
                        st.write(f"**Label ID:** {result['label_id']}")
            else:
                st.warning("Aucun r√©sultat trouv√©.")

    def run_visualizations(self):
        st.header("üìà Visualisations")
        if not st.session_state.get("trained", False):
            st.warning("‚ö†Ô∏è Aucune donn√©e d'entra√Ænement disponible.")
            return

        viz_option = st.selectbox(
            "Choisir le type de visualisation:",
            ["Matrice de confusion", "Rapport de classification", "Distribution des classes", "F1-score par classe", "Courbes d'entra√Ænement"]
        )

        trainer = st.session_state.trainer
        test_ds = st.session_state.test_ds
        label_mapping = st.session_state.label_mapping
        label_names = list(label_mapping.keys())

        try:
            preds_output = trainer.predict(test_ds)
            preds = preds_output.predictions.argmax(axis=1)
            labels = preds_output.label_ids

            if viz_option == "Matrice de confusion":
                self.visualizer.show_confusion_matrix(trainer, test_ds, label_names)

            elif viz_option == "Rapport de classification":
                from sklearn.metrics import classification_report
                report = classification_report(labels, preds, target_names=label_names, output_dict=True, zero_division=0)
                st.dataframe(pd.DataFrame(report).transpose())

            elif viz_option == "Distribution des classes":
                self.visualizer.plot_class_distribution([label_mapping[i] for i in labels])

            elif viz_option == "F1-score par classe":
                self.visualizer.plot_f1_per_class(labels, preds, label_names)

            elif viz_option == "Courbes d'entra√Ænement":
                self.visualizer.plot_training_curves("outputs/runs/logs")

        except Exception as e:
            st.error(f"‚ùå Erreur de visualisation : {e}")

class PipelineOrchestrator:
    def __init__(self):
        self.app = ClimateAnalyzerApp()

    def run(self):
        self.app.run()

if __name__ == "__main__":
    orchestrator = PipelineOrchestrator()
    orchestrator.run()

Overwriting streamlit_app.py


**Enjeux et Challenges**


**Enjeux :**
- Rendre le projet utilisable par tous : chercheurs, d√©cideurs, √©tudiants...

- Permettre un test rapide du mod√®le sur des donn√©es r√©elles.

- Fournir une exp√©rience fluide et compl√®te du cycle ML : de la data √† la pr√©diction.

- G√©rer robustement les erreurs, les exceptions et les chemins absents.

**Challenges :**
- Int√©grer des composants h√©t√©rog√®nes (PyTorch, HuggingFace, PEFT, Streamlit, Pandas‚Ä¶).

- Garder une structure lisible, modulaire et maintenable malgr√© la complexit√© croissante.

- Assurer une compatibilit√© GPU/CPU sans casser le pipeline.

- Offrir une exp√©rience utilisateur intuitive, sans sacrifier la puissance technique.

Ce module donne naissance √† une web app de NLP compl√®te, dans laquelle on peut :

- Charger ses propres donn√©es climatiques textuelles.

- Lancer un entra√Ænement LoRA all√©g√©.

- Observer les courbes d‚Äôapprentissage (loss, accuracy, LR).

- Obtenir des m√©triques (f1, precision, recall).

- Interroger le mod√®le pour des pr√©dictions individuelles.

- Rechercher des √©l√©ments similaires gr√¢ce au module Q&A.

- Obtenir un contexte s√©mantique enrichi via une base de connaissances int√©gr√©e.

Le tout sans toucher √† une seule ligne de code Python, ce qui en fait un v√©ritable outil m√©tier.

**Conclusion :**

streamlit_app.py est l'aboutissement de tout le projet : unifier les briques IA, orchestrer les √©tapes, simplifier l‚Äôexp√©rience utilisateur. C‚Äôest ce module qui transforme un ensemble de scripts en produit pr√™t √† l‚Äôemploi, d√©montrant toute la puissance d‚Äôun prototype Low-Code + IA pour des enjeux climatiques.



**Interpr√©tation M√©tiers**
Pour un utilisateur m√©tier (chercheur, communicant, analyste RSE) :

- Cette interface devient un laboratoire num√©rique interactif : il peut exp√©rimenter avec des jeux de donn√©es, tester ses hypoth√®ses, comprendre la tonalit√© de certains discours.

- Elle offre un moyen rapide de valider la perception des messages li√©s au climat.

- Le module de Q&A permet une exploration s√©mantique fine, utile pour identifier les repr√©sentations collectives, tensions, ou id√©es dominantes.

# 8. **Script d'Installation - setup_pipeline.py**

Ce module est con√ßu pour automatiser l'installation de toutes les d√©pendances n√©cessaires au bon fonctionnement du projet d'analyse de sentiment climatique bas√© sur un pipeline IA complet. L'objectif est de garantir que tout utilisateur puisse configurer son environnement sans erreurs ni oublis, avec une commande unique.

**D√©marche technique**
Liste des d√©pendances critiques :
- Le fichier contient une liste structur√©e des biblioth√®ques indispensables :

- transformers, datasets, torch ‚Üí pour le fine-tuning des LLMs.

- peft, sentence-transformers, faiss-cpu ‚Üí pour le LoRA et la recherche s√©mantique.

- streamlit, plotly, matplotlib, seaborn ‚Üí pour l‚Äôinterface utilisateur et les visualisations.

- scikit-learn, pandas, numpy ‚Üí pour les m√©triques, le traitement de donn√©es et les structures fondamentales.

Installation dynamique avec subprocess :

- Le script utilise subprocess.check_call pour lancer des commandes pip install de fa√ßon ind√©pendante, module par module.

- Si une erreur survient, elle est captur√©e, signal√©e sans arr√™ter l‚Äôinstallation des autres paquets (try/except).

Ex√©cution autonome :

- Le if __name__ == "__main__" permet de lancer l‚Äôinstallation avec une seule commande :

`python setup_pipeline.py`


In [None]:
%%writefile setup_pipeline.py
# setup_pipeline.py
import subprocess
import sys

def install_dependencies():
    """Installation compl√®te des d√©pendances"""
    packages = [
        "transformers>=4.36.0",
        "datasets>=2.16.0",
        "torch>=2.1.0",
        "peft>=0.7.0",
        "sentence-transformers>=2.2.0",
        "faiss-cpu>=1.7.0",
        "streamlit>=1.29.0",
        "plotly>=5.17.0",
        "scikit-learn>=1.3.0",
        "matplotlib>=3.7.0",
        "seaborn>=0.12.0",
        "pandas>=1.5.0",
        "numpy>=1.24.0"
    ]

    for package in packages:
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
            print(f"‚úÖ {package} install√©")
        except subprocess.CalledProcessError as e:
            print(f"‚ö†Ô∏è Erreur avec {package}: {e}")

    print("‚úÖ Installation compl√®te termin√©e!")

if __name__ == "__main__":
    install_dependencies()

Overwriting setup_pipeline.py


**Enjeux et challenges**
- Synchronisation des versions : Il est crucial de figer les versions compatibles pour √©viter les conflits ou des comportements instables.

- Robustesse multiplateforme : Utiliser subprocess rend le script plus portable que des solutions type requirements.txt, surtout en contexte programmatique ou en notebook.

- Exp√©rience utilisateur : Le module √©vite aux utilisateurs d‚Äôavoir √† g√©rer manuellement l‚Äôinstallation, source d‚Äôerreurs fr√©quentes dans les projets IA complexes.

**Interpr√©tation des r√©sultats**
- Chaque d√©pendance install√©e avec succ√®s affiche un ‚úÖ.

- En cas de souci (par exemple, d√©pendance manquante, connexion, conflit), le message est explicite avec ‚ö†Ô∏è.

- Une fois le processus termin√©, un message de confirmation final s'affiche :
‚úÖ Installation compl√®te termin√©e!

**Conclusion :**

Ce module incarne une meilleure pratique de d√©ploiement dans tout projet IA : il centralise, fiabilise et simplifie la mise en place de l‚Äôenvironnement technique. Gr√¢ce √† ce script, toute personne ou √©quipe peut r√©pliquer l'environnement de d√©veloppement en un clic, favorisant la collaboration, la portabilit√© et la reproductibilit√© des r√©sultats.

In [None]:
!python setup_pipeline.py

‚úÖ transformers>=4.36.0 install√©
‚úÖ datasets>=2.16.0 install√©
‚úÖ torch>=2.1.0 install√©
‚úÖ peft>=0.7.0 install√©
‚úÖ sentence-transformers>=2.2.0 install√©
‚úÖ faiss-cpu>=1.7.0 install√©
‚úÖ streamlit>=1.29.0 install√©
‚úÖ plotly>=5.17.0 install√©
‚úÖ scikit-learn>=1.3.0 install√©
‚úÖ matplotlib>=3.7.0 install√©
‚úÖ seaborn>=0.12.0 install√©
‚úÖ pandas>=1.5.0 install√©
‚úÖ numpy>=1.24.0 install√©
‚úÖ Installation compl√®te termin√©e!


In [None]:
!pip install streamlit



In [None]:
!pip install pyngrok



# **Streamlit + ngrok**

Ce script sert √† d√©marrer une application Streamlit en local et √† la rendre accessible via un lien public gr√¢ce √† ngrok, un outil de tunneling tr√®s utile en d√©veloppement collaboratif, d√©monstration ou test depuis un cloud (comme Colab, GCP ou un serveur distant).

|  Avantage                        |  Explication                                                            |
| --------------------------------- | ------------------------------------------------------------------------- |
| **Accessible depuis Internet**    | Vous pouvez tester ou faire une d√©mo √† distance, m√™me depuis un notebook. |
| **Simple et rapide**              | Pas besoin de configurer un serveur web ou de modifier les DNS.           |
| **Compatible Colab**              | Fonctionne parfaitement depuis un environnement Google Colab ou serveur.  |
| **Pas besoin d'ouvrir des ports** | Id√©al en r√©seau d‚Äôentreprise ou cloud priv√© (ports souvent bloqu√©s).      |


In [None]:
# üîß Lancement Streamlit + ngrok (version corrig√©e)
import subprocess
import time
from pyngrok import ngrok

# 1Ô∏è‚É£ Token ngrok
TOKEN = "30Nciu2LDo3NzmKva2zibt2sCFL_7Ag5r9kUYyBCha12WSZ3"
!ngrok authtoken {TOKEN}

# 2Ô∏è‚É£ Lancer l'application principale
subprocess.Popen(
    ["streamlit", "run", "streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"],
    stdout=subprocess.DEVNULL,
    stderr=subprocess.DEVNULL
)

# 3Ô∏è‚É£ Attendre et cr√©er le tunnel
time.sleep(5)
public_url = ngrok.connect(8501)
print("üöÄ Interface Streamlit disponible √† :")
print(public_url)

Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
üöÄ Interface Streamlit disponible √† :
NgrokTunnel: "https://1961fef2d158.ngrok-free.app" -> "http://localhost:8501"


Cette d√©marche est indispensable pour d√©ployer rapidement et temporairement une interface Streamlit sur le web, sans infrastructure complexe. Elle facilite les d√©mos en direct, les tests collaboratifs ou les livraisons rapides de POC (Proof of Concept) IA.

# **CONCLUSION GLOBALE**

Ce projet propose un pipeline complet et modulaire pour l‚Äôanalyse de sentiments climatiques √† partir de textes. Il int√®gre plusieurs √©tapes cl√©s : le pr√©traitement intelligent des donn√©es (avec d√©tection automatique des colonnes), la mod√©lisation optimis√©e avec LoRA pour fine-tuning all√©g√©, la visualisation des performances, une interface de pr√©diction et de contexte, ainsi qu‚Äôun moteur de questions-r√©ponses s√©mantiques. Chaque module a √©t√© pens√© pour √™tre robuste, r√©utilisable et facilement d√©ployable gr√¢ce √† Streamlit et ngrok. Les principaux d√©fis rencontr√©s concernent la gestion des donn√©es h√©t√©rog√®nes, la configuration efficace du mod√®le, et l'interpr√©tabilit√© des r√©sultats. Gr√¢ce √† des choix techniques adapt√©s (PEFT, Streamlit, embeddings), ce projet rend l‚Äôintelligence artificielle accessible et interactive, avec des b√©n√©fices imm√©diats pour l'exploration, la sensibilisation ou l‚Äôanalyse d'opinion sur des enjeux environnementaux.

Et si demain, ces outils devenaient des assistants de d√©cision pour la transition √©cologique, jusqu‚Äôo√π pourrions-nous aller collectivement ?