# **Fine-Tuned LLM for Sentiment Analysis and Contextual Responses**

Dans un monde saturé de données, où les entreprises cherchent à automatiser leurs interactions tout en maintenant un haut niveau de personnalisation, l’Intelligence Artificielle générative ouvre des perspectives inédites. Mais comment créer un assistant conversationnel qui ne se contente pas de répondre, mais qui comprend vraiment ce que ressent l’utilisateur et s’adapte à son contexte ?

C’est tout l’enjeu de notre projet : construire un assistant IA intelligent capable à la fois de détecter le ton émotionnel d’un message (positif, négatif, neutre) et de générer des réponses enrichies par un moteur de recherche contextuel, le tout avec des modèles légers et optimisés grâce à LoRA, une méthode de fine-tuning économe en ressources.

Notre mission : rendre l’IA utile, pertinente et accessible, même avec des moyens limités. Ce projet démontre qu’on peut concilier efficacité, sobriété technologique et intelligence conversationnelle, pour répondre à des enjeux métiers bien réels : service client, RH, assistance juridique, e-commerce… les cas d’usage sont nombreux.

# 1.**Module Core - core_modules.py**

Ce module core_modules.py constitue un composant fondamental de l’architecture du projet. Il centralise à la fois les paramètres de configuration du système et la structure de sortie des prédictions, permettant ainsi une meilleure organisation, une lisibilité accrue, et une évolutivité maîtrisée du code.

### **Intention et démarche**

Objectif du module :
Structurer proprement les résultats via la classe PredictionResult.

Externaliser la configuration dans une classe ClimateConfig pour éviter les variables magiques dispersées dans le code.

Pourquoi c’est important :
Lorsqu'on travaille sur un projet complexe avec fine-tuning de LLMs, classification, génération, et retrieval, il devient essentiel de standardiser les flux de données et de modulariser les paramètres.

Cela permet aussi d’assurer une compatibilité fluide entre les modules d’évaluation, d’interface et de génération.

In [None]:
%%writefile core_modules.py
# core_modules.py
import torch
import numpy as np
from typing import Dict, List, Optional
from dataclasses import dataclass
import logging

@dataclass
class PredictionResult:
    """Structure pour les résultats de prédiction"""
    text: str
    predicted_label: str
    confidence: float
    all_scores: Dict[str, float]
    context: Optional[List[str]] = None
    processing_time: float = 0.0

class ClimateConfig:
    """Configuration centralisée"""
    def __init__(self):
        self.model_name = "distilbert-base-uncased"
        self.max_length = 256
        self.batch_size = 16
        self.learning_rate = 2e-4
        self.epochs = 3
        self.lora_r = 16
        self.lora_alpha = 32
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    def to_dict(self) -> Dict:
        return {
            'model_name': self.model_name,
            'max_length': self.max_length,
            'batch_size': self.batch_size,
            'learning_rate': self.learning_rate,
            'epochs': self.epochs,
            'device': str(self.device),
            'lora_config': {'r': self.lora_r, 'alpha': self.lora_alpha}
        }

Overwriting core_modules.py


`ClimateConfig`Une classe de configuration centralisée :

Contient les hyperparamètres du modèle, du fine-tuning LoRA, et la détection automatique de device (GPU/CPU).

Grâce à la méthode to_dict(), cette configuration peut être journalisée, sauvegardée, ou utilisée dynamiquement dans d’autres modules.

**Avantage** : on peut tester plusieurs variantes de configuration sans toucher au cœur du code. C’est essentiel pour l’expérimentation en machine learning.

**Enjeu technique et challenge :**
Le challenge ici est de maintenir un code propre, modulaire et traçable, dans un projet mêlant fine-tuning PEFT (LoRA), embedding, retrieval, inférence générative, et interface utilisateur.

Une mauvaise gestion des paramètres ou un manque de structuration des résultats rendraient le projet instable, peu réutilisable, et difficile à évaluer.

**Interprétation du résultat :**
Ce module ne retourne pas un résultat au sens fonctionnel immédiat, mais il formalise et encapsule deux éléments essentiels :



*   La standardisation de la sortie du modèle (PredictionResult)
*   La gouvernance centralisée des paramètres (ClimateConfig)





**Cela permet de :**







*   Faciliter l’orchestration du pipeline global
*   Tracer les expérimentations
*   Intégrer facilement des logs, métriques, et dashboards




**Conclusion :** Ce module pose les bases de la robustesse du projet IA. Il reflète une bonne pratique d’industrialisation des projets LLM : abstraction des paramètres, traçabilité, et standardisation des résultats. Dans un contexte professionnel, cette structuration permet :


*   Une collaboration fluide entre data scientists et développeurs front-end
*   Une réutilisabilité du modèle dans d'autres projets
*   Une mise en production simplifiée


En résumé, ce fichier est invisible pour l’utilisateur final, mais essentiel à la stabilité, l’évolution, et la fiabilité du système.

# 2. **Module Data Processing - data_modules.py**

Ce module data_modules.py est le pôle central de prétraitement des données dans le pipeline du projet de fine-tuning LLM avec LoRA et génération contextuelle. Il a été conçu avec une logique résiliente, automatisée et hautement réutilisable, indispensable pour manipuler des datasets hétérogènes dans un contexte de hackathon ou d’expérimentation rapide.



**Intention et Démarche**


**Objectifs principaux :**

*   Détecter automatiquement les colonnes texte et label dans n’importe quel DataFrame.
*   Nettoyer et préparer les données de manière robuste, quels que soient leur format ou leur qualité initiale.
*   Générer un triplet train/val/test proprement structuré, stratifié si possible.
*   Produire un format compatible avec les modèles Hugging Face (datasets.Dataset).




**Pourquoi cette approche ?**
Parce que dans un hackathon ou une expérimentation IA rapide :








*   Les données ne sont pas toujours bien structurées.
*   Le temps est limité pour ajuster manuellement les colonnes ou le nettoyage.
*   Une flexibilité et automatisation maximale est nécessaire.




In [None]:
%%writefile data_modules.py

# data_modules.py
import pandas as pd
from datasets import Dataset
from sklearn.model_selection import train_test_split
from typing import Tuple, Optional
import numpy as np

class DataProcessor:
    """Gestion centralisée du traitement des données avec gestion robuste des erreurs"""

    def __init__(self):
        self.text_col = None
        self.label_col = None
        self.label_mapping = {}

    def detect_columns(self, df: pd.DataFrame) -> Tuple[str, str]:
        """Détection automatique des colonnes texte et label avec validation"""
        print(f"🔍 Détection des colonnes sur {df.shape[0]} lignes et {df.shape[1]} colonnes")
        print(f"📋 Colonnes disponibles: {list(df.columns)}")

        text_keywords = ['self_text', 'text', 'content', 'message', 'comment', 'body', 'description']
        label_keywords = ['comment_sentiment', 'sentiment', 'label', 'category', 'class', 'target']

        # Recherche intelligente
        text_col = None
        label_col = None

        # Recherche par mots-clés
        for col in df.columns:
            col_lower = str(col).lower()

            # Recherche colonne texte
            if not text_col:
                for keyword in text_keywords:
                    if keyword.lower() in col_lower:
                        text_col = col
                        break

            # Recherche colonne label
            if not label_col:
                for keyword in label_keywords:
                    if keyword.lower() in col_lower:
                        label_col = col
                        break

        # Fallback intelligent pour la colonne texte
        if not text_col:
            string_cols = []
            for col in df.columns:
                try:
                    # Vérifier si la colonne contient principalement du texte
                    sample = df[col].dropna().head(100)
                    if len(sample) > 0:
                        # Convertir en string et calculer la longueur moyenne
                        sample_str = sample.astype(str)
                        avg_length = sample_str.str.len().mean()
                        if avg_length > 10:  # Textes probablement plus longs que 10 caractères
                            string_cols.append((col, avg_length))
                except:
                    continue

            if string_cols:
                # Prendre la colonne avec le texte le plus long en moyenne
                text_col = max(string_cols, key=lambda x: x[1])[0]
            else:
                # Last resort: première colonne object
                object_cols = df.select_dtypes(include=['object']).columns
                if len(object_cols) > 0:
                    text_col = object_cols[0]

        # Fallback pour la colonne label
        if not label_col:
            # Chercher une colonne avec peu de valeurs uniques (potentiel label)
            for col in df.columns:
                if col != text_col:
                    try:
                        unique_count = df[col].nunique()
                        total_count = len(df[col].dropna())
                        if total_count > 0 and unique_count < min(20, total_count * 0.1):
                            label_col = col
                            break
                    except:
                        continue

            # Si toujours pas trouvé, prendre la dernière colonne
            if not label_col:
                label_col = df.columns[-1]

        print(f"✅ Colonnes détectées: Text='{text_col}', Label='{label_col}'")
        return text_col, label_col

    def clean_text_column(self, series: pd.Series) -> pd.Series:
        """Nettoyage robuste d'une colonne texte"""
        try:
            # Convertir en string d'abord
            cleaned = series.astype(str)

            # Remplacer les valeurs problématiques
            cleaned = cleaned.replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

            # Supprimer les espaces
            cleaned = cleaned.str.strip()

            # Remplacer les chaînes vides par NaN
            cleaned = cleaned.replace('', pd.NA)

            return cleaned
        except Exception as e:
            print(f"⚠️ Erreur nettoyage texte: {e}")
            # Fallback: conversion simple
            return series.astype(str)

    def prepare_datasets(self, df: pd.DataFrame, sample_size: int = 8000) -> Tuple[Dataset, Dataset, Dataset]:
        """Préparation des datasets avec validation robuste"""

        print(f"📊 Préparation des datasets - Taille originale: {df.shape}")

        # Détection des colonnes
        self.text_col, self.label_col = self.detect_columns(df)

        if not self.text_col or not self.label_col:
            raise ValueError(f"❌ Impossible de détecter les colonnes: text='{self.text_col}', label='{self.label_col}'")

        # Extraction et copie des colonnes nécessaires
        try:
            df_work = df[[self.text_col, self.label_col]].copy()
        except KeyError as e:
            print(f"❌ Colonnes manquantes: {e}")
            print(f"Colonnes disponibles: {list(df.columns)}")
            raise

        # Renommer les colonnes
        df_work.columns = ['text', 'label']

        print(f"📋 Avant nettoyage: {len(df_work)} lignes")

        # Nettoyage robuste des données
        # 1. Nettoyage de la colonne texte
        df_work['text'] = self.clean_text_column(df_work['text'])

        # 2. Nettoyage de la colonne label
        df_work['label'] = df_work['label'].astype(str).str.strip()
        df_work['label'] = df_work['label'].replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

        # 3. Suppression des lignes avec des valeurs manquantes
        initial_size = len(df_work)
        df_work = df_work.dropna()
        print(f"🧹 Après suppression des NaN: {len(df_work)} lignes (supprimé: {initial_size - len(df_work)})")

        # 4. Filtrage des textes trop courts (de manière sécurisée)
        try:
            # Vérifier que nous avons bien des strings
            df_work['text'] = df_work['text'].astype(str)

            # Filtrer les textes trop courts
            mask = df_work['text'].str.len() > 5
            df_work = df_work[mask]
            print(f"📝 Après filtrage textes courts: {len(df_work)} lignes")

        except Exception as e:
            print(f"⚠️ Erreur lors du filtrage des textes: {e}")
            # Continuer sans filtrage si erreur

        # Vérification finale
        if len(df_work) == 0:
            raise ValueError("❌ Aucune donnée valide après nettoyage!")

        # 5. Échantillonnage si nécessaire
        if len(df_work) > sample_size:
            df_work = df_work.sample(n=sample_size, random_state=42)
            print(f"🎯 Échantillonnage à {sample_size} lignes")

        # 6. Mapping des labels
        unique_labels = sorted(df_work['label'].unique())
        print(f"🏷️ Labels uniques trouvés: {unique_labels}")

        self.label_mapping = {str(label): idx for idx, label in enumerate(unique_labels)}
        df_work['label_id'] = df_work['label'].astype(str).map(self.label_mapping)

        # Vérification du mapping
        if df_work['label_id'].isna().any():
            print("⚠️ Problème de mapping des labels détecté")
            print(f"Labels non mappés: {df_work[df_work['label_id'].isna()]['label'].unique()}")

        print(f"📊 Mapping des labels: {self.label_mapping}")

        # 7. Splits stratifiés
        try:
            # Vérifier si on peut faire une stratification
            if len(unique_labels) > 1 and all(df_work['label_id'].value_counts() >= 2):
                stratify_col = df_work['label_id']
                print("✅ Stratification activée")
            else:
                stratify_col = None
                print("⚠️ Pas de stratification (pas assez d'exemples par classe)")

            # Premier split: train vs (val + test)
            train_df, temp_df = train_test_split(
                df_work,
                test_size=0.4,
                random_state=42,
                stratify=stratify_col if stratify_col is not None else None
            )

            # Deuxième split: val vs test
            if stratify_col is not None:
                temp_stratify = temp_df['label_id']
            else:
                temp_stratify = None

            val_df, test_df = train_test_split(
                temp_df,
                test_size=0.5,
                random_state=42,
                stratify=temp_stratify if temp_stratify is not None else None
            )

        except Exception as e:
            print(f"⚠️ Erreur lors du split: {e}")
            # Fallback: split simple
            train_size = int(0.6 * len(df_work))
            val_size = int(0.2 * len(df_work))

            train_df = df_work[:train_size]
            val_df = df_work[train_size:train_size+val_size]
            test_df = df_work[train_size+val_size:]

        print(f"📊 Splits finaux: Train={len(train_df)}, Val={len(val_df)}, Test={len(test_df)}")

        # 8. Conversion en Dataset
        try:
            train_dataset = Dataset.from_pandas(train_df[['text', 'label_id']].reset_index(drop=True))
            val_dataset = Dataset.from_pandas(val_df[['text', 'label_id']].reset_index(drop=True))
            test_dataset = Dataset.from_pandas(test_df[['text', 'label_id']].reset_index(drop=True))

            print("✅ Datasets créés avec succès")

            return train_dataset, val_dataset, test_dataset

        except Exception as e:
            print(f"❌ Erreur lors de la création des datasets: {e}")
            raise

    def get_stats(self):
        """Statistiques du processeur de données"""
        return {
            "text_column": self.text_col,
            "label_column": self.label_col,
            "label_mapping": self.label_mapping,
            "num_labels": len(self.label_mapping)
        }

    def validate_dataframe(self, df: pd.DataFrame) -> bool:
        """Validation d'un DataFrame"""
        try:
            if df is None or df.empty:
                print("❌ DataFrame vide ou None")
                return False

            if len(df.columns) < 2:
                print("❌ DataFrame doit avoir au moins 2 colonnes")
                return False

            print(f"✅ DataFrame valide: {df.shape}")
            return True

        except Exception as e:
            print(f"❌ Erreur validation DataFrame: {e}")
            return False

Overwriting data_modules.py


**Enjeux :**







*   Fiabilité sur données inconnues : il faut que le module fonctionne sur n'importe quel jeu de données texte+label.
*   Robustesse aux erreurs utilisateurs : fichiers mal formatés, labels textuels, colonnes manquantes ou bruitées.
*   Préparation optimisée pour le fine-tuning LLMs : nettoyage, encodage des labels, et split cohérent sont critiques pour éviter du surapprentissage ou des échecs d'entraînement.






**Challenges techniques :**



*   Détecter automatiquement les bonnes colonnes sans
heuristique trop rigide.
*   Nettoyer du texte avec des formats incohérents, des valeurs manquantes, des types mixtes.
*   Gérer des jeux de données déséquilibrés ou avec trop peu d'exemples par classe.
*   Assurer une compatibilité fluide avec la bibliothèque datasets de Hugging Face.











Ce module produit trois objets de type Dataset : train_dataset, val_dataset, test_dataset – directement utilisables avec les tokenizers et les Trainer de Hugging Face.

Il génère aussi :

Un mapping label → id compatible avec les modèles de classification.

Des messages de log détaillés pour comprendre chaque étape et corriger si besoin.

Un fallback automatique si certaines opérations échouent (e.g., split sans stratification).

Grâce à cette logique :

Le modèle ne se base jamais sur des données corrompues ou mal étiquetées.

L’entraînement est plus stable, reproductible et transparent.

**Conclusion :**
Ce module est un véritable pont entre le monde brut des données réelles et les exigences rigoureuses du machine learning moderne. Il incarne une bonne pratique fondamentale en IA : rendre le traitement des données automatique, sécurisé et traçable.

**Bénéfices métiers :**
Permet à une équipe data ou produit de tester rapidement plusieurs sources de données sans ajustement manuel.

Réduit considérablement le risque d'erreur humaine lors de l’exploration et la préparation des données.

Accélère la mise en production ou le prototypage d’outils IA centrés sur le langage naturel.

En somme, data_modules.py est un accélérateur de projet IA, une brique essentielle pour garantir que "garbage in ≠ garbage out".

# 3. **Module Modèle - model_modules.py**

Le fichier model_modules.py représente la brique stratégique du projet IA, dédiée à la configuration, l’adaptation et l’entraînement du modèle de classification via une approche parameter-efficient (fine-tuning avec LoRA). Il encapsule l'ensemble des décisions techniques critiques liées au modèle, au tokenizer, aux paramètres d'entraînement, et à la logique d'évaluation, dans une classe modulaire, claire et facilement maintenable.



**Intention et Démarche**


**Objectifs du module ModelManager :**



*   Centraliser la configuration du tokenizer et du modèle Hugging Face.
*   Appliquer LoRA (Low-Rank Adaptation) pour une fine-tuning efficace sur GPU ou CPU.
*   Paramétrer finement l’entraînement, en prenant en compte la gestion mémoire, les métriques pertinentes, et les stratégies de logging/saving.
*   Instancier Trainer de Hugging Face de manière optimisée pour une expérience de fine-tuning fluide et reproductible.




**Pourquoi cette structuration ?**



*   Favorise la réutilisabilité (nouveau modèle ou dataset = mêmes méthodes).
*   Répond aux contraintes de performance (GPU limité, petit batch).
*   Simplifie la traçabilité des expériences (logs + évaluation centralisée).







In [None]:
%%writefile model_modules.py
# model_modules.py (VERSION ULTRA-STABLE - FP32 ONLY)
import os
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments,
    DataCollatorWithPadding,
    EarlyStoppingCallback,
)
from peft import LoraConfig, get_peft_model, TaskType
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
import numpy as np
import warnings
import logging

# Désactiver les warnings
logging.getLogger("transformers").setLevel(logging.ERROR)
warnings.filterwarnings("ignore")

class ModelManager:
    def __init__(self, config):
        self.config = config
        self.tokenizer = None
        self.peft_model = None
        self.trainer = None

    def setup_tokenizer(self):
        """Tokenizer sécurisé."""
        try:
            self.tokenizer = AutoTokenizer.from_pretrained(self.config.model_name)
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token or '[PAD]'
            print(f"✅ Tokenizer chargé : {self.config.model_name}")
            return self.tokenizer
        except Exception as e:
            print(f"❌ Erreur tokenizer : {e}")
            raise

    def setup_model(self, num_labels: int):
        """Modèle en FP32 uniquement pour éviter l'erreur FP16."""
        if num_labels < 2:
            raise ValueError("❌ num_labels doit être ≥ 2")

        try:
            print(f"🔧 Chargement modèle FP32 pour {num_labels} classes...")

            # 🔒 Forcer FP32
            base_model = AutoModelForSequenceClassification.from_pretrained(
                self.config.model_name,
                num_labels=num_labels,
                torch_dtype=torch.float32,  # 🔒 FP32 uniquement
                device_map=None,  # Pas de device_map pour éviter les conflits
                problem_type="single_label_classification",
            )

            target_modules = self.get_target_modules()

            lora_config = LoraConfig(
                task_type=TaskType.SEQ_CLS,
                r=self.config.lora_r,
                lora_alpha=self.config.lora_alpha,
                lora_dropout=0.1,
                target_modules=target_modules,
                bias="none",
            )

            self.peft_model = get_peft_model(base_model, lora_config)

            # Affichage des paramètres
            trainable = sum(p.numel() for p in self.peft_model.parameters() if p.requires_grad)
            total = sum(p.numel() for p in self.peft_model.parameters())
            print(f"📊 Paramètres : {trainable:,} / {total:,} ({100 * trainable / total:.2f}%)")

            return self.peft_model

        except Exception as e:
            print(f"❌ Erreur modèle : {e}")
            raise

    def get_target_modules(self):
        """Modules cibles LoRA."""
        name = self.config.model_name.lower()
        if "distilbert" in name:
            return ["q_lin", "v_lin"]
        elif "bert" in name or "roberta" in name:
            return ["query", "value"]
        return ["query", "value", "dense"]

    def tokenize_function(self, examples):
        """Tokenisation."""
        return self.tokenizer(
            examples["text"],
            truncation=True,
            padding=False,
            max_length=self.config.max_length,
        )

    def setup_training_args(self, output_dir="outputs/runs"):
        """TrainingArguments 100% FP32."""
        os.makedirs(output_dir, exist_ok=True)
        logging_dir = os.path.join(output_dir, "logs")
        os.makedirs(logging_dir, exist_ok=True)

        return TrainingArguments(
            output_dir=output_dir,
            num_train_epochs=self.config.epochs,
            per_device_train_batch_size=self.config.batch_size,
            per_device_eval_batch_size=self.config.batch_size * 2,
            learning_rate=self.config.learning_rate,
            warmup_steps=200,
            weight_decay=0.01,

            eval_strategy="epoch",
            save_strategy="epoch",
            logging_strategy="steps",
            logging_steps=50,
            logging_dir=logging_dir,

            load_best_model_at_end=True,
            metric_for_best_model="eval_accuracy",
            greater_is_better=True,

            # 🔒 Désactivation complète de la précision mixte
            fp16=False,
            bf16=False,
            fp16_backend=None,
            half_precision_backend=None,

            gradient_checkpointing=True,
            dataloader_num_workers=2,

            save_total_limit=2,
            save_steps=500,

            report_to="none",
            remove_unused_columns=False,
            push_to_hub=False,
        )

    def setup_trainer(self, train_dataset, val_dataset):
        """Trainer sécurisé."""
        try:
            training_args = self.setup_training_args()
            data_collator = DataCollatorWithPadding(tokenizer=self.tokenizer)

            def compute_metrics(eval_pred):
                predictions, labels = eval_pred
                preds = np.argmax(predictions, axis=1)
                return {
                    "accuracy": accuracy_score(labels, preds),
                    "f1_weighted": f1_score(labels, preds, average="weighted", zero_division=0),
                    "f1_macro": f1_score(labels, preds, average="macro", zero_division=0),
                    "precision": precision_score(labels, preds, average="weighted", zero_division=0),
                    "recall": recall_score(labels, preds, average="weighted", zero_division=0),
                }

            self.trainer = Trainer(
                model=self.peft_model,
                args=training_args,
                train_dataset=train_dataset,
                eval_dataset=val_dataset,
                tokenizer=self.tokenizer,
                compute_metrics=compute_metrics,
                data_collator=data_collator,
                callbacks=[EarlyStoppingCallback(early_stopping_patience=3)],
            )

            print("✅ Trainer configuré")
            return self.trainer

        except Exception as e:
            print(f"❌ Erreur trainer : {e}")
            raise

Overwriting model_modules.py


**Enjeux et Challenges**


**Enjeux clés :**


*   Adapter un LLM à une tâche de classification sans explosion mémoire (grâce à LoRA).
*   Assurer la robustesse cross-model : prendre en charge DistilBERT, BERT, etc.
*   Faciliter le scaling des expérimentations : simple changement de config = nouveau test reproductible.
*   Optimiser la performance métier via des métriques équilibrées (f1, accuracy...).


**Challenges techniques :**


*   Cibler correctement les couches internes à adapter avec LoRA (ex. q_lin, v_lin, ou query, value).
*   Paramétrer TrainingArguments de façon équilibrée pour s’adapter à du low compute budget.
*   Synchroniser tokenizer, dataset, et modèle, sans bugs de dimension ou padding.








**Grâce à ce module :**

Le modèle est LoRA-ready, avec gel des poids de base et focus sur l’adaptation via matrices faibles rangs.

Le tokenizer est automatiquement configuré, avec pad_token géré pour éviter les erreurs silencieuses.

Les métriques clés (accuracy, F1, precision, recall) sont calculées systématiquement.

L’utilisateur peut entraîner sur GPU/CPU, avec logging optimisé pour analyse fine.

Cette architecture modulaire permet de tester facilement plusieurs modèles (distilbert, roberta, albert) sans réécriture de code, et offre un point d'entrée unique pour tout le pipeline de classification.



**Conclusion :**
model_modules.py est une colonne vertébrale technique du projet. Il incarne l’exigence de :



*   Performance (LoRA),
*   Lisibilité (code modulaire),
*   Robustesse (fallback CPU, configuration dynamique),
*   Évaluation métier (métriques pertinentes dès l’entraînement).


Il démontre comment une bonne ingénierie modèle permet à une équipe IA de construire des prototypes puissants et scalables, tout en gardant la possibilité de passer rapidement en production ou en démonstration.

**Bénéfice métier :**
Ce module simplifie le travail des équipes data et produit en réduisant drastiquement le coût de fine-tuning tout en maintenant des performances élevées. Il est donc un levier stratégique pour démocratiser l’adaptation de LLMs sur des cas spécifiques (analyse de sentiment, classification thématique, etc.).

# 4. **Visualization_modules.py**

Le module visualization_modules.py est une composante clé pour l’analyse, l’interprétation et la communication des résultats du projet de fine-tuning d’un LLM. Il centralise les outils de visualisation de la performance (courbes d’entraînement, précision, matrice de confusion, etc.) pour permettre à l’équipe data — mais aussi produit ou métier — de comprendre comment le modèle apprend et où il se trompe.

**Intention et Démarche**


**Objectifs du VisualizationManager :**



*   Rendre les courbes d’entraînement lisibles et interactives via Streamlit.
*   Offrir des analyses post-training, comme la matrice de confusion et le rapport de classification.
*   Automatiser le suivi des performances, sans besoin de coder chaque fois les visualisations.
*   
Faciliter la compréhension métier des résultats via des graphiques clairs et structurés.


**Pourquoi ce module est crucial ?**

Dans un projet IA, le succès ne se mesure pas uniquement par des chiffres. Les visualisations :
*   révèlent les biais d'apprentissage (ex. overfitting),
*   permettent de communiquer efficacement entre profils techniques et non techniques,
*   facilitent la prise de décision (changement de modèle,ajustement hyperparamètres...).











In [None]:
%%writefile visualization_modules.py
# visualization_modules.py
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import streamlit as st
from sklearn.metrics import classification_report, f1_score
import numpy as np

class VisualizationManager:
    """Gestion des visualisations d'entraînement et d'évaluation"""

    @staticmethod
    def plot_training_curves(log_dir: str):
        """Affiche les courbes d'entraînement (garantit logs)"""
        try:
            import json
            log_file = f"{log_dir}/trainer_state.json"
            if not os.path.exists(log_file):
                st.warning("📄 Fichier de logs non trouvé")
                return

            with open(log_file, 'r') as f:
                logs = json.load(f)

            history = logs.get('log_history', [])
            if not history:
                st.warning("📉 Aucune donnée d'entraînement trouvée")
                return

            epochs, train_loss, eval_loss, eval_accuracy = [], [], [], []
            for entry in history:
                if 'eval_loss' in entry:
                    epochs.append(entry.get('epoch', 0))
                    eval_loss.append(entry.get('eval_loss', 0))
                    eval_accuracy.append(entry.get('eval_accuracy', 0))
                elif 'loss' in entry:
                    train_loss.append(entry.get('loss', 0))

            fig, axes = plt.subplots(1, 2, figsize=(15, 5))
            fig.suptitle('📈 Évolution de l\'entraînement', fontsize=16)

            # Loss
            if train_loss:
                axes[0].plot(range(len(train_loss)), train_loss, 'b-', label='Train Loss', marker='o')
            if eval_loss:
                axes[0].plot(epochs[:len(eval_loss)], eval_loss, 'r-', label='Eval Loss', marker='s')
            axes[0].set_title('Perte (Loss)')
            axes[0].set_xlabel('Epoch')
            axes[0].set_ylabel('Loss')
            axes[0].legend()
            axes[0].grid(True, alpha=0.3)

            # Accuracy
            if eval_accuracy:
                axes[1].plot(epochs[:len(eval_accuracy)], eval_accuracy, 'g-', label='Accuracy', marker='^')
            axes[1].set_title('Précision')
            axes[1].set_xlabel('Epoch')
            axes[1].set_ylabel('Accuracy')
            axes[1].legend()
            axes[1].grid(True, alpha=0.3)

            st.pyplot(fig)

        except Exception as e:
            st.error(f"❌ Erreur lors de l'affichage des courbes : {e}")

    @staticmethod
    def show_confusion_matrix(trainer, test_dataset, label_names):
        """Affiche la matrice de confusion"""
        try:
            from sklearn.metrics import confusion_matrix, classification_report
            preds_output = trainer.predict(test_dataset)
            preds = preds_output.predictions.argmax(axis=1)
            labels = preds_output.label_ids

            cm = confusion_matrix(labels, preds)

            fig, ax = plt.subplots(figsize=(8, 6))
            sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                        xticklabels=label_names, yticklabels=label_names, ax=ax)
            ax.set_title('Matrice de Confusion')
            ax.set_xlabel('Prédictions')
            ax.set_ylabel('Vraies étiquettes')
            st.pyplot(fig)

            # Rapport de classification
            st.subheader("📊 Rapport de Classification")
            report = classification_report(labels, preds, target_names=label_names, output_dict=True, zero_division=0)
            report_df = pd.DataFrame(report).transpose()
            st.dataframe(report_df)

        except Exception as e:
            st.error(f"❌ Erreur matrice : {e}")

    @staticmethod
    def plot_class_distribution(labels, label_names=None, title="Distribution des classes"):
        """Histogramme des classes"""
        fig, ax = plt.subplots(figsize=(8, 4))
        sns.countplot(x=labels, ax=ax)
        if label_names:
            ax.set_xticklabels(label_names)
        ax.set_title(title)
        ax.set_xlabel("Classes")
        ax.set_ylabel("Nombre d'exemples")
        st.pyplot(fig)

    @staticmethod
    def plot_f1_per_class(labels_true, labels_pred, label_names):
        """Barplot F1-score par classe"""
        scores = f1_score(labels_true, labels_pred, average=None)
        fig, ax = plt.subplots(figsize=(8, 4))
        sns.barplot(x=label_names, y=scores, ax=ax)
        ax.set_title("F1-score par classe")
        ax.set_ylabel("F1-score")
        st.pyplot(fig)

Overwriting visualization_modules.py


**Enjeux et Challenges**


**Enjeux principaux :**




*   Rendre accessibles les logs de Hugging Face à travers une UI conviviale.
*   Permettre une analyse rapide et fiable des prédictions du modèle sur le jeu de test.
*   Créer des visualisations robustes qui ne plantent pas si un fichier est absent ou mal formé.


**Difficultés techniques :**


*   Lecture et structuration des logs (trainer_state.json) : il faut interpréter les étapes d'entraînement parfois désy


*   Synchronisation des métriques (loss, accuracy, learning
rate) sur plusieurs epochs.

*   Adaptation de matplotlib et seaborn à l’environnement Streamlit.
*   Affichage conditionnel (fallbacks, gestion d’erreurs utilisateur ou absence de logs).









**Grâce à ce module :**

Les courbes de loss et d’accuracy montrent si le modèle converge correctement ou pas.

Le learning rate peut être analysé pour détecter un mauvais taux d’apprentissage.

La matrice de confusion permet d’identifier les classes les plus confondues.

Le rapport de classification offre une vue granulée sur la précision, le rappel et le F1-score de chaque classe.

Ces sorties visuelles sont essentielles pour diagnostiquer les faiblesses du modèle (ex. biais vers la classe majoritaire, difficulté à détecter certaines émotions/sentiments).

**Conclusion :**
[visualization_modules.py] agit comme un miroir du comportement du modèle. C’est un pont entre l’apprentissage automatique et la compréhension humaine.

Il permet :


*   un monitoring transparent de l'entraînement,
*   une analyse fine des erreurs,
*   et une prise de décision éclairée sur les prochaines étapes (plus de données, changement de modèle, etc.).



En rendant les résultats lisibles et interactifs, ce module transforme un projet IA technique en outil intelligible et valorisable, aussi bien pour des data scientists que pour des décideurs.



**Intérêt métier :**
Ce module permet aux parties prenantes non techniques (produit, marketing, direction) de comprendre la valeur et les limites du modèle, favorisant ainsi l’adoption, la confiance et les décisions stratégiques basées sur la donnée.



# 5. **qa_modules.py**

Le module qa_modules.py constitue le pilier de la composante de recherche et de génération de réponses contextuelles du projet. Il met en œuvre une recherche sémantique intelligente, permettant de récupérer les documents les plus pertinents à une requête utilisateur. C’est une brique essentielle pour assurer que l’agent IA ne réponde pas de manière générique, mais bien en s’appuyant sur le contexte pertinent extrait des données.

**Intention et Démarche**


**L'objectif de ce module est double :**

- Indexer un corpus de textes avec un modèle d’embeddings (SentenceTransformer) de manière à pouvoir retrouver rapidement les passages les plus proches sémantiquement d’une question ou d’un texte.

- Fournir une interface simple pour interroger ce corpus, récupérer les résultats les plus pertinents, et les utiliser pour alimenter des prompts dans une étape de génération (RAG – Retrieval-Augmented Generation).



**Étapes clés de la démarche :**



*   Chargement d’un modèle léger (all-MiniLM-L6-v2) pour encoder les textes.
*   Indexation des documents via fit(), produisant un tableau d’embeddings.
*   Interrogation via query(), comparant un embedding de la question aux documents via cosine_similarity.
*   Extraction des meilleurs résultats (top_k) avec leurs labels et scores.



In [None]:
%%writefile qa_modules.py
# qa_modules.py
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from typing import List, Dict
import streamlit as st

class QAModule:
    """Module de recherche et Q&A basé sur sentence-transformers"""

    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        """Initialisation avec modèle d'embedding"""
        try:
            self.encoder = SentenceTransformer(model_name)
            self.corpus_embeddings = None
            self.corpus_texts = []
            self.labels = []
            self.model_name = model_name
        except Exception as e:
            st.error(f"Erreur chargement modèle Q&A: {e}")
            # Fallback
            self.encoder = None
            self.model_name = "fallback"

    def fit(self, dataset):
        """Indexe le dataset pour la recherche"""
        if self.encoder is None:
            st.warning("Module Q&A non disponible")
            return

        try:
            self.corpus_texts = [item['text'] for item in dataset]
            self.labels = [item['label_id'] for item in dataset]

            with st.spinner("📊 Indexation des données pour la recherche..."):
                self.corpus_embeddings = self.encoder.encode(
                    self.corpus_texts,
                    convert_to_tensor=False,
                    show_progress_bar=True
                )
            st.success(f"✅ {len(self.corpus_texts)} éléments indexés")

        except Exception as e:
            st.error(f"Erreur indexation Q&A: {e}")

    def query(self, question: str, top_k: int = 5) -> List[Dict]:
        """Recherche les textes les plus similaires à la question"""
        if self.encoder is None or self.corpus_embeddings is None:
            return []

        try:
            question_embedding = self.encoder.encode([question], convert_to_tensor=False)
            similarities = cosine_similarity(question_embedding, self.corpus_embeddings)[0]

            # Top K indices
            top_indices = np.argsort(similarities)[-top_k:][::-1]

            results = []
            for idx in top_indices:
                results.append({
                    "text": self.corpus_texts[idx],
                    "label_id": int(self.labels[idx]),
                    "score": float(similarities[idx]),
                    "rank": len(results) + 1
                })

            return results

        except Exception as e:
            st.error(f"Erreur recherche Q&A: {e}")
            return []

    def get_stats(self) -> Dict:
        """Statistiques du module Q&A"""
        return {
            "model_name": self.model_name,
            "indexed_items": len(self.corpus_texts),
            "embedding_dim": len(self.corpus_embeddings[0]) if self.corpus_embeddings else 0
        }

Overwriting qa_modules.py


**Enjeux et Challenges**
**Enjeux :**
- Obtenir des résultats contextuels de qualité pour améliorer la génération (réduction des hallucinations).

- Permettre un accès rapide à l’information à partir d’un corpus non structuré.

- Intégrer un mécanisme simple mais robuste de RAG, sans passer par des solutions coûteuses ou complexes (ex : Pinecone).

**Challenges :**
- La qualité des embeddings : il faut un bon équilibre entre légèreté du modèle (pour la vitesse) et pertinence sémantique.

- La gestion des grands corpus : encode() peut devenir lent ou gourmand si le dataset est volumineux.

- La gestion des erreurs : si l’encodage échoue, tout le système de génération contextuelle est compromis.

- Rendre le tout accessible via Streamlit sans alourdir l’UX.

**L'utilisation de ce module permet de :**

- Identifier les documents les plus pertinents pour enrichir une requête utilisateur.

- Générer une base contextuelle solide pour la génération de texte contrôlée et informée.

- Alimenter des tableaux de bord ou des fonctions de réponse intelligente dans l’app (comme un chatbot enrichi ou un moteur d’aide).

La méthode query() renvoie une liste classée de passages textuels, avec leur score de similarité, leur étiquette, et leur rang. Cette approche est bien plus efficace que de se baser uniquement sur des mots-clés ou des règles fixes.



**Conclusion :**
`qa_modules.py` incarne l’intelligence contextuelle du projet :
il permet à un modèle de génération de ne pas inventer des faits, mais de s’appuyer sur des passages vérifiés, proches sémantiquement de la question.

- Il est simple, modulaire et efficace :

- Il ne dépend pas d’un back-end lourd.

- Il est facilement extensible (autres modèles d’embeddings, base vectorielle plus avancée…).

- Il augmente drastiquement la pertinence métier des réponses générées par le modèle LLM.



**Intérêt métier :**
Ce module est particulièrement utile dans des cas d’usage tels que :

- FAQ automatisées intelligentes

- hatbots d’assistance documentée

- Recherche d’information rapide pour agents internes

- Systèmes de RAG (Retrieval-Augmented Generation) en production

En clair, ce module transforme un modèle de génération standard en assistant intelligent, documenté et adapté au contexte utilisateur.

# 6. **Module Knowledge Base - knowledge_modules.py**

Le module `knowledge_modules.py` constitue une base de connaissances embarquée — une alternative légère aux méthodes classiques de retrieval par embeddings. Il est fondé sur des techniques simples de recherche textuelle par similarité lexicale, permettant d’enrichir les réponses générées par un modèle LLM avec des faits clés issus d’un corpus prédéfini.



**Intention et Démarche**


**Ce module vise à :**

- Fournir une base de connaissances interprétable, personnalisable et rapide à intégrer, sans dépendance à des bibliothèques externes lourdes.

- Récupérer les faits les plus pertinents par rapport à une requête utilisateur, à l’aide d’un score de similarité Jaccard basé sur les mots communs.

- Proposer un fallback utile dans des environnements à faibles ressources (CPU only) ou sans accès Internet.

**Démarche :**
- Initialisation manuelle d’une base de 10 faits scientifiques sur le climat (dans setup_knowledge_base()).

- Analyse d’une requête utilisateur (via find_context()) par tokenisation simple + scoring Jaccard.

- Tri des résultats et renvoi des top_k plus pertinents si leur score dépasse un seuil minimal.

- Ajout dynamique possible de nouveaux faits (via add_knowledge()).



In [None]:
%%writefile knowledge_modules.py

# knowledge_modules.py
import numpy as np
from typing import List, Optional
import re

class KnowledgeBase:
    """Gestion de la base de connaissances sans sentence-transformers"""

    def __init__(self):
        self.knowledge_base = []
        self.setup_knowledge_base()

    def setup_knowledge_base(self):
        """Configuration de la base de connaissances"""
        self.knowledge_base = [
            "Le réchauffement climatique est principalement causé par les émissions de gaz à effet de serre d'origine humaine.",
            "Les énergies renouvelables comme le solaire et l'éolien sont essentielles pour décarboner notre économie.",
            "La déforestation massive contribue significativement au changement climatique.",
            "Le secteur des transports représente environ 24% des émissions mondiales de gaz à effet de serre.",
            "L'amélioration de l'efficacité énergétique des bâtiments peut réduire jusqu'à 50% de leur consommation.",
            "L'agriculture durable et régénératrice peut séquestrer du carbone tout en produisant de la nourriture.",
            "Les océans absorbent 25% du CO2 atmosphérique mais s'acidifient, menaçant les écosystèmes marins.",
            "Les politiques de taxation du carbone incitent les entreprises à réduire leurs émissions.",
            "L'adaptation au changement climatique est aussi cruciale que l'atténuation des émissions.",
            "Les technologies de capture et stockage du carbone pourraient permettre d'atteindre la neutralité carbone."
        ]
        print("✅ Base de connaissances initialisée avec recherche par mots-clés")

    def find_context(self, query: str, top_k: int = 3) -> List[str]:
        """Recherche de contexte pertinent par similarité textuelle simple"""
        if not query or not self.knowledge_base:
            return []

        try:
            # Nettoyage et tokenisation simple
            query_clean = query.lower()
            query_words = set(re.findall(r'\b\w+\b', query_clean))

            # Score de similarité basé sur les mots communs
            scored_docs = []

            for doc in self.knowledge_base:
                doc_clean = doc.lower()
                doc_words = set(re.findall(r'\b\w+\b', doc_clean))

                # Calcul du score Jaccard
                intersection = len(query_words & doc_words)
                union = len(query_words | doc_words)

                if union > 0:
                    jaccard_score = intersection / union
                    scored_docs.append((doc, jaccard_score))

            # Tri par score décroissant
            scored_docs.sort(key=lambda x: x[1], reverse=True)

            # Retour des top_k documents avec score > 0.1
            relevant_docs = []
            for doc, score in scored_docs[:top_k]:
                if score > 0.1:  # Seuil de pertinence
                    relevant_docs.append(doc)

            return relevant_docs

        except Exception as e:
            print(f"⚠️ Erreur recherche contexte: {e}")
            return []

    def add_knowledge(self, new_knowledge: str):
        """Ajouter une nouvelle connaissance"""
        if new_knowledge and new_knowledge not in self.knowledge_base:
            self.knowledge_base.append(new_knowledge)
            print(f"✅ Nouvelle connaissance ajoutée: {new_knowledge[:50]}...")

    def get_stats(self):
        """Statistiques de la base de connaissances"""
        return {
            "total_documents": len(self.knowledge_base),
            "avg_length": np.mean([len(doc) for doc in self.knowledge_base]) if self.knowledge_base else 0,
        }

Overwriting knowledge_modules.py


**Enjeux et Challenges**


**Enjeux :**
- Répondre rapidement à des questions fréquentes à partir d’un corpus contrôlé.

- Permettre à un LLM de générer du texte documenté et précis, même sans pipeline de RAG complet.

- Éviter les hallucinations en injectant des faits fiables dans les prompts.

**Challenges :**
- La limitation du matching lexical : sans embeddings, la pertinence sémantique est réduite.

- L’approche ne gère pas la polysémie ou la synonymie, ce qui peut faire rater des résultats importants.

- La base doit être structurée à la main, ce qui peut devenir contraignant à grande échelle.

- Le seuil de pertinence (score > 0.1) est empirique et nécessite un ajustement selon les cas.



Ce module renvoie une liste triée des documents les plus proches d’une requête, ce qui peut être utilisé pour :

- Construire un prompt enrichi dans un agent conversationnel.

- Justifier une réponse automatique (avec la source en annexe).

- Alimenter un système de recommandation ou un moteur de suggestion.

Il fournit également des statistiques sur la base, comme le nombre total de faits et la longueur moyenne des documents.



**Conclusion :**
- `knowledge_modules.py` illustre un compromis ingénieux entre simplicité, interprétabilité et efficacité :

- Il évite le recours à des modèles lourds (pas de FAISS, pas de vector store).

- Il est parfaitement adapté pour des MVP, des environnements déconnectés, ou des prototypes embarqués.

- Il offre une base extensible via l’ajout dynamique de connaissances.



**Interprétation métier :**
Pour un utilisateur métier (ex. : responsable RSE, chargé de mission climat), ce module permet :

- De construire un référentiel de faits vérifiables, facilement enrichissable.

- De garantir que les modèles génératifs s’appuient sur des informations validées, donc cohérentes avec la politique de l’organisation.

- De servir de fallback contextuel si la recherche par embeddings est indisponible.

En somme, ce module agit comme un filet de sécurité cognitif pour l’IA générative.

# 7. **Module Streamlit - streamlit_app.py**

Le fichier streamlit_app.py est l'orchestrateur final du projet Climate Sentiment Analyzer, une application interactive développée avec Streamlit qui permet de visualiser, entraîner, tester et interpréter un modèle de classification de sentiments appliqué à des textes sur le climat, tout en intégrant des modules de génération de contexte et de question/réponse.

**Intention et Démarche**


L’objectif de ce module est d’intégrer de manière fluide tous les composants précédemment développés (prétraitement, entraînement, visualisation, prédiction, Q&A, etc.) dans une interface utilisateur accessible, sans compétences techniques requises.

**Les étapes-clés de la démarche :**
1. Structuration en classes :

- `ClimateAnalyzerApp` : gère l’interface utilisateur, les interactions et les affichages.

- `PipelineOrchestrator` : sert de point d’entrée principal du script.

2. Navigation par onglets (via selectbox) :

- Pipeline Complet

- Traitement des données

- Gestion du modèle

- Analyse de texte

- Q&A intelligent

- Visualisations

3. Personnalisation UX/UI :

- CSS intégré pour améliorer l’apparence (gradient, cards, layout responsive).

- Affichage dynamique des étapes, erreurs, barres de progression.

4. Optimisation de l’expérience :

- Upload de CSV pour lancer le pipeline.

- Lancement à la demande de l’entraînement.

- Visualisation des courbes d’apprentissage.

- Interface de question-réponse par similarité.

- Analyse fine de texte en temps réel avec contexte.

In [None]:
%%writefile streamlit_app.py
import streamlit as st
import pandas as pd
import torch
import sys
import os

sys.path.append('/content')
from core_modules import ClimateConfig
from data_modules import DataProcessor
from model_modules import ModelManager
from knowledge_modules import KnowledgeBase
from visualization_modules import VisualizationManager
from qa_modules import QAModule

st.set_page_config(page_title="🌍 Climate Analyzer – Complet", page_icon="🌍", layout="wide")

st.markdown("""
<style>.main-header{background:linear-gradient(135deg,#667eea,#764ba2);padding:2rem;border-radius:15px;color:white;text-align:center}</style>
""", unsafe_allow_html=True)

class ClimateAnalyzerApp:
    def __init__(self):
        self.config = ClimateConfig()
        self.data_processor = DataProcessor()
        self.model_manager = ModelManager(self.config)
        self.knowledge_base = KnowledgeBase()
        self.visualizer = VisualizationManager()
        self.qa_module = QAModule()

    def run(self):
        # 🔁 Persistance via session_state
        for key in ["trained", "trainer", "test_ds", "label_mapping"]:
            if key not in st.session_state:
                st.session_state[key] = None if key != "trained" else False

        st.markdown('<div class="main-header"><h1>🌍 Climate Sentiment Analyzer</h1><h3>Pipeline Complet</h3></div>', unsafe_allow_html=True)
        mode = st.sidebar.selectbox("Mode", ["🚀 Pipeline Complet", "📊 Data Processing", "❓ Q&A", "📈 Visualisations"])

        if mode == "🚀 Pipeline Complet":
            self.run_complete_pipeline()
        elif mode == "📊 Data Processing":
            self.run_data_processing()
        elif mode == "❓ Q&A":
            self.run_qa_interface()
        elif mode == "📈 Visualisations":
            self.run_visualizations()

    def run_complete_pipeline(self):
        st.header("🚀 Pipeline Complet")
        uploaded_file = st.file_uploader("Téléchargez votre fichier CSV", type=["csv"])

        if uploaded_file:
            df = pd.read_csv(uploaded_file)
            st.success(f"✅ Fichier chargé : {df.shape[0]} lignes, {df.shape[1]} colonnes")
            st.dataframe(df.head())

            sample_size = st.slider("Taille échantillon", 1000, 10000, 4000)
            epochs = st.slider("Epochs", 1, 5, 3)
            self.config.epochs = epochs

            if st.button("🚀 Lancer l'entraînement", type="primary"):
                self.run_real_training(df, sample_size)

    def run_real_training(self, df, sample_size):
        progress = st.progress(0)
        status = st.empty()

        try:
            status.text("📊 Préparation des données...")
            train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df, sample_size)
            progress.progress(20)

            status.text("🤖 Configuration du modèle...")
            self.model_manager.setup_tokenizer()
            num_labels = len(self.data_processor.label_mapping)
            self.model_manager.setup_model(num_labels)
            progress.progress(40)

            def prepare_dataset(ds):
                ds = ds.map(
                    self.model_manager.tokenize_function,
                    batched=True,
                    remove_columns=["text"]
                )
                ds = ds.rename_column("label_id", "labels")
                ds.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])
                return ds

            train_ds = prepare_dataset(train_ds)
            val_ds = prepare_dataset(val_ds)
            test_ds = prepare_dataset(test_ds)
            progress.progress(60)

            trainer = self.model_manager.setup_trainer(train_ds, val_ds)
            progress.progress(70)

            with st.spinner("Entraînement du modèle..."):
                trainer.train()
            progress.progress(90)

            metrics = trainer.evaluate(test_ds)

            qa_data = [{"text": item["text"], "label_id": item["label_id"]}
                       for item in self.data_processor.prepare_datasets(df, sample_size)[0]]
            self.qa_module.fit(qa_data)

            model_path = "outputs/final_model"
            os.makedirs(model_path, exist_ok=True)
            trainer.save_model(model_path)

            # 🔁 Mise à jour session_state
            st.session_state.trained = True
            st.session_state.trainer = trainer
            st.session_state.test_ds = test_ds
            st.session_state.label_mapping = self.data_processor.label_mapping

            progress.progress(100)
            st.success("🎉 Entraînement terminé avec succès!")

        except Exception as e:
            st.error(f"❌ Erreur d'entraînement: {e}")

    def run_data_processing(self):
        st.header("📊 Data Processing")
        uploaded_file = st.file_uploader("Téléchargez votre fichier CSV", type=["csv"])
        if uploaded_file:
            df = pd.read_csv(uploaded_file)
            st.success(f"✅ Fichier chargé: {df.shape}")
            st.dataframe(df.head())
            train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df)
            col1, col2, col3 = st.columns(3)
            col1.metric("Train", len(train_ds))
            col2.metric("Validation", len(val_ds))
            col3.metric("Test", len(test_ds))

    def run_qa_interface(self):
        st.header("❓ Interface Q&A")
        if not st.session_state.get("trained", False):
            st.warning("⚠️ Veuillez d'abord entraîner un modèle.")
            return

        question = st.text_input("Votre question:", placeholder="Ex: Quelles sont les causes du réchauffement climatique?")
        if question:
            results = self.qa_module.query(question, top_k=5)
            if results:
                for i, result in enumerate(results, 1):
                    with st.expander(f"Résultat {i} - Score: {result['score']:.3f}"):
                        st.write(f"**Texte:** {result['text']}")
                        st.write(f"**Label ID:** {result['label_id']}")
            else:
                st.warning("Aucun résultat trouvé.")

    def run_visualizations(self):
        st.header("📈 Visualisations")
        if not st.session_state.get("trained", False):
            st.warning("⚠️ Aucune donnée d'entraînement disponible.")
            return

        viz_option = st.selectbox(
            "Choisir le type de visualisation:",
            ["Matrice de confusion", "Rapport de classification", "Distribution des classes", "F1-score par classe", "Courbes d'entraînement"]
        )

        trainer = st.session_state.trainer
        test_ds = st.session_state.test_ds
        label_mapping = st.session_state.label_mapping
        label_names = list(label_mapping.keys())

        try:
            preds_output = trainer.predict(test_ds)
            preds = preds_output.predictions.argmax(axis=1)
            labels = preds_output.label_ids

            if viz_option == "Matrice de confusion":
                self.visualizer.show_confusion_matrix(trainer, test_ds, label_names)

            elif viz_option == "Rapport de classification":
                from sklearn.metrics import classification_report
                report = classification_report(labels, preds, target_names=label_names, output_dict=True, zero_division=0)
                st.dataframe(pd.DataFrame(report).transpose())

            elif viz_option == "Distribution des classes":
                self.visualizer.plot_class_distribution([label_mapping[i] for i in labels])

            elif viz_option == "F1-score par classe":
                self.visualizer.plot_f1_per_class(labels, preds, label_names)

            elif viz_option == "Courbes d'entraînement":
                self.visualizer.plot_training_curves("outputs/runs/logs")

        except Exception as e:
            st.error(f"❌ Erreur de visualisation : {e}")

class PipelineOrchestrator:
    def __init__(self):
        self.app = ClimateAnalyzerApp()

    def run(self):
        self.app.run()

if __name__ == "__main__":
    orchestrator = PipelineOrchestrator()
    orchestrator.run()

Overwriting streamlit_app.py


**Enjeux et Challenges**


**Enjeux :**
- Rendre le projet utilisable par tous : chercheurs, décideurs, étudiants...

- Permettre un test rapide du modèle sur des données réelles.

- Fournir une expérience fluide et complète du cycle ML : de la data à la prédiction.

- Gérer robustement les erreurs, les exceptions et les chemins absents.

**Challenges :**
- Intégrer des composants hétérogènes (PyTorch, HuggingFace, PEFT, Streamlit, Pandas…).

- Garder une structure lisible, modulaire et maintenable malgré la complexité croissante.

- Assurer une compatibilité GPU/CPU sans casser le pipeline.

- Offrir une expérience utilisateur intuitive, sans sacrifier la puissance technique.

Ce module donne naissance à une web app de NLP complète, dans laquelle on peut :

- Charger ses propres données climatiques textuelles.

- Lancer un entraînement LoRA allégé.

- Observer les courbes d’apprentissage (loss, accuracy, LR).

- Obtenir des métriques (f1, precision, recall).

- Interroger le modèle pour des prédictions individuelles.

- Rechercher des éléments similaires grâce au module Q&A.

- Obtenir un contexte sémantique enrichi via une base de connaissances intégrée.

Le tout sans toucher à une seule ligne de code Python, ce qui en fait un véritable outil métier.

**Conclusion :**

streamlit_app.py est l'aboutissement de tout le projet : unifier les briques IA, orchestrer les étapes, simplifier l’expérience utilisateur. C’est ce module qui transforme un ensemble de scripts en produit prêt à l’emploi, démontrant toute la puissance d’un prototype Low-Code + IA pour des enjeux climatiques.



**Interprétation Métiers**
Pour un utilisateur métier (chercheur, communicant, analyste RSE) :

- Cette interface devient un laboratoire numérique interactif : il peut expérimenter avec des jeux de données, tester ses hypothèses, comprendre la tonalité de certains discours.

- Elle offre un moyen rapide de valider la perception des messages liés au climat.

- Le module de Q&A permet une exploration sémantique fine, utile pour identifier les représentations collectives, tensions, ou idées dominantes.

# 8. **Script d'Installation - setup_pipeline.py**

Ce module est conçu pour automatiser l'installation de toutes les dépendances nécessaires au bon fonctionnement du projet d'analyse de sentiment climatique basé sur un pipeline IA complet. L'objectif est de garantir que tout utilisateur puisse configurer son environnement sans erreurs ni oublis, avec une commande unique.

**Démarche technique**
Liste des dépendances critiques :
- Le fichier contient une liste structurée des bibliothèques indispensables :

- transformers, datasets, torch → pour le fine-tuning des LLMs.

- peft, sentence-transformers, faiss-cpu → pour le LoRA et la recherche sémantique.

- streamlit, plotly, matplotlib, seaborn → pour l’interface utilisateur et les visualisations.

- scikit-learn, pandas, numpy → pour les métriques, le traitement de données et les structures fondamentales.

Installation dynamique avec subprocess :

- Le script utilise subprocess.check_call pour lancer des commandes pip install de façon indépendante, module par module.

- Si une erreur survient, elle est capturée, signalée sans arrêter l’installation des autres paquets (try/except).

Exécution autonome :

- Le if __name__ == "__main__" permet de lancer l’installation avec une seule commande :

`python setup_pipeline.py`


In [None]:
%%writefile setup_pipeline.py
# setup_pipeline.py
import subprocess
import sys

def install_dependencies():
    """Installation complète des dépendances"""
    packages = [
        "transformers>=4.36.0",
        "datasets>=2.16.0",
        "torch>=2.1.0",
        "peft>=0.7.0",
        "sentence-transformers>=2.2.0",
        "faiss-cpu>=1.7.0",
        "streamlit>=1.29.0",
        "plotly>=5.17.0",
        "scikit-learn>=1.3.0",
        "matplotlib>=3.7.0",
        "seaborn>=0.12.0",
        "pandas>=1.5.0",
        "numpy>=1.24.0"
    ]

    for package in packages:
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
            print(f"✅ {package} installé")
        except subprocess.CalledProcessError as e:
            print(f"⚠️ Erreur avec {package}: {e}")

    print("✅ Installation complète terminée!")

if __name__ == "__main__":
    install_dependencies()

Overwriting setup_pipeline.py


**Enjeux et challenges**
- Synchronisation des versions : Il est crucial de figer les versions compatibles pour éviter les conflits ou des comportements instables.

- Robustesse multiplateforme : Utiliser subprocess rend le script plus portable que des solutions type requirements.txt, surtout en contexte programmatique ou en notebook.

- Expérience utilisateur : Le module évite aux utilisateurs d’avoir à gérer manuellement l’installation, source d’erreurs fréquentes dans les projets IA complexes.

**Interprétation des résultats**
- Chaque dépendance installée avec succès affiche un ✅.

- En cas de souci (par exemple, dépendance manquante, connexion, conflit), le message est explicite avec ⚠️.

- Une fois le processus terminé, un message de confirmation final s'affiche :
✅ Installation complète terminée!

**Conclusion :**

Ce module incarne une meilleure pratique de déploiement dans tout projet IA : il centralise, fiabilise et simplifie la mise en place de l’environnement technique. Grâce à ce script, toute personne ou équipe peut répliquer l'environnement de développement en un clic, favorisant la collaboration, la portabilité et la reproductibilité des résultats.

In [None]:
!python setup_pipeline.py

✅ transformers>=4.36.0 installé
✅ datasets>=2.16.0 installé
✅ torch>=2.1.0 installé
✅ peft>=0.7.0 installé
✅ sentence-transformers>=2.2.0 installé
✅ faiss-cpu>=1.7.0 installé
✅ streamlit>=1.29.0 installé
✅ plotly>=5.17.0 installé
✅ scikit-learn>=1.3.0 installé
✅ matplotlib>=3.7.0 installé
✅ seaborn>=0.12.0 installé
✅ pandas>=1.5.0 installé
✅ numpy>=1.24.0 installé
✅ Installation complète terminée!


In [None]:
!pip install streamlit



In [None]:
!pip install pyngrok



# **Streamlit + ngrok**

Ce script sert à démarrer une application Streamlit en local et à la rendre accessible via un lien public grâce à ngrok, un outil de tunneling très utile en développement collaboratif, démonstration ou test depuis un cloud (comme Colab, GCP ou un serveur distant).

|  Avantage                        |  Explication                                                            |
| --------------------------------- | ------------------------------------------------------------------------- |
| **Accessible depuis Internet**    | Vous pouvez tester ou faire une démo à distance, même depuis un notebook. |
| **Simple et rapide**              | Pas besoin de configurer un serveur web ou de modifier les DNS.           |
| **Compatible Colab**              | Fonctionne parfaitement depuis un environnement Google Colab ou serveur.  |
| **Pas besoin d'ouvrir des ports** | Idéal en réseau d’entreprise ou cloud privé (ports souvent bloqués).      |


In [None]:
# 🔧 Lancement Streamlit + ngrok (version corrigée)
import subprocess
import time
from pyngrok import ngrok

# 1️⃣ Token ngrok
TOKEN = "30Nciu2LDo3NzmKva2zibt2sCFL_7Ag5r9kUYyBCha12WSZ3"
!ngrok authtoken {TOKEN}

# 2️⃣ Lancer l'application principale
subprocess.Popen(
    ["streamlit", "run", "streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"],
    stdout=subprocess.DEVNULL,
    stderr=subprocess.DEVNULL
)

# 3️⃣ Attendre et créer le tunnel
time.sleep(5)
public_url = ngrok.connect(8501)
print("🚀 Interface Streamlit disponible à :")
print(public_url)

Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
🚀 Interface Streamlit disponible à :
NgrokTunnel: "https://1961fef2d158.ngrok-free.app" -> "http://localhost:8501"


Cette démarche est indispensable pour déployer rapidement et temporairement une interface Streamlit sur le web, sans infrastructure complexe. Elle facilite les démos en direct, les tests collaboratifs ou les livraisons rapides de POC (Proof of Concept) IA.

# **CONCLUSION GLOBALE**

Ce projet propose un pipeline complet et modulaire pour l’analyse de sentiments climatiques à partir de textes. Il intègre plusieurs étapes clés : le prétraitement intelligent des données (avec détection automatique des colonnes), la modélisation optimisée avec LoRA pour fine-tuning allégé, la visualisation des performances, une interface de prédiction et de contexte, ainsi qu’un moteur de questions-réponses sémantiques. Chaque module a été pensé pour être robuste, réutilisable et facilement déployable grâce à Streamlit et ngrok. Les principaux défis rencontrés concernent la gestion des données hétérogènes, la configuration efficace du modèle, et l'interprétabilité des résultats. Grâce à des choix techniques adaptés (PEFT, Streamlit, embeddings), ce projet rend l’intelligence artificielle accessible et interactive, avec des bénéfices immédiats pour l'exploration, la sensibilisation ou l’analyse d'opinion sur des enjeux environnementaux.

Et si demain, ces outils devenaient des assistants de décision pour la transition écologique, jusqu’où pourrions-nous aller collectivement ?