1️⃣ Module Core - core_modules.py

In [None]:
%%writefile core_modules.py
# core_modules.py
import torch
import numpy as np
from typing import Dict, List, Optional
from dataclasses import dataclass
import logging

@dataclass
class PredictionResult:
    """Structure pour les résultats de prédiction"""
    text: str
    predicted_label: str
    confidence: float
    all_scores: Dict[str, float]
    context: Optional[List[str]] = None
    processing_time: float = 0.0

class ClimateConfig:
    """Configuration centralisée"""
    def __init__(self):
        self.model_name = "distilbert-base-uncased"
        self.max_length = 256
        self.batch_size = 16
        self.learning_rate = 2e-4
        self.epochs = 3
        self.lora_r = 16
        self.lora_alpha = 32
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    def to_dict(self) -> Dict:
        return {
            'model_name': self.model_name,
            'max_length': self.max_length,
            'batch_size': self.batch_size,
            'learning_rate': self.learning_rate,
            'epochs': self.epochs,
            'device': str(self.device),
            'lora_config': {'r': self.lora_r, 'alpha': self.lora_alpha}
        }

Overwriting core_modules.py


2️⃣ Module Data Processing - data_modules.py

In [None]:
%%writefile data_modules.py

# data_modules.py
import pandas as pd
from datasets import Dataset
from sklearn.model_selection import train_test_split
from typing import Tuple, Optional
import numpy as np

class DataProcessor:
    """Gestion centralisée du traitement des données avec gestion robuste des erreurs"""

    def __init__(self):
        self.text_col = None
        self.label_col = None
        self.label_mapping = {}

    def detect_columns(self, df: pd.DataFrame) -> Tuple[str, str]:
        """Détection automatique des colonnes texte et label avec validation"""
        print(f"🔍 Détection des colonnes sur {df.shape[0]} lignes et {df.shape[1]} colonnes")
        print(f"📋 Colonnes disponibles: {list(df.columns)}")

        text_keywords = ['self_text', 'text', 'content', 'message', 'comment', 'body', 'description']
        label_keywords = ['comment_sentiment', 'sentiment', 'label', 'category', 'class', 'target']

        # Recherche intelligente
        text_col = None
        label_col = None

        # Recherche par mots-clés
        for col in df.columns:
            col_lower = str(col).lower()

            # Recherche colonne texte
            if not text_col:
                for keyword in text_keywords:
                    if keyword.lower() in col_lower:
                        text_col = col
                        break

            # Recherche colonne label
            if not label_col:
                for keyword in label_keywords:
                    if keyword.lower() in col_lower:
                        label_col = col
                        break

        # Fallback intelligent pour la colonne texte
        if not text_col:
            string_cols = []
            for col in df.columns:
                try:
                    # Vérifier si la colonne contient principalement du texte
                    sample = df[col].dropna().head(100)
                    if len(sample) > 0:
                        # Convertir en string et calculer la longueur moyenne
                        sample_str = sample.astype(str)
                        avg_length = sample_str.str.len().mean()
                        if avg_length > 10:  # Textes probablement plus longs que 10 caractères
                            string_cols.append((col, avg_length))
                except:
                    continue

            if string_cols:
                # Prendre la colonne avec le texte le plus long en moyenne
                text_col = max(string_cols, key=lambda x: x[1])[0]
            else:
                # Last resort: première colonne object
                object_cols = df.select_dtypes(include=['object']).columns
                if len(object_cols) > 0:
                    text_col = object_cols[0]

        # Fallback pour la colonne label
        if not label_col:
            # Chercher une colonne avec peu de valeurs uniques (potentiel label)
            for col in df.columns:
                if col != text_col:
                    try:
                        unique_count = df[col].nunique()
                        total_count = len(df[col].dropna())
                        if total_count > 0 and unique_count < min(20, total_count * 0.1):
                            label_col = col
                            break
                    except:
                        continue

            # Si toujours pas trouvé, prendre la dernière colonne
            if not label_col:
                label_col = df.columns[-1]

        print(f"✅ Colonnes détectées: Text='{text_col}', Label='{label_col}'")
        return text_col, label_col

    def clean_text_column(self, series: pd.Series) -> pd.Series:
        """Nettoyage robuste d'une colonne texte"""
        try:
            # Convertir en string d'abord
            cleaned = series.astype(str)

            # Remplacer les valeurs problématiques
            cleaned = cleaned.replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

            # Supprimer les espaces
            cleaned = cleaned.str.strip()

            # Remplacer les chaînes vides par NaN
            cleaned = cleaned.replace('', pd.NA)

            return cleaned
        except Exception as e:
            print(f"⚠️ Erreur nettoyage texte: {e}")
            # Fallback: conversion simple
            return series.astype(str)

    def prepare_datasets(self, df: pd.DataFrame, sample_size: int = 8000) -> Tuple[Dataset, Dataset, Dataset]:
        """Préparation des datasets avec validation robuste"""

        print(f"📊 Préparation des datasets - Taille originale: {df.shape}")

        # Détection des colonnes
        self.text_col, self.label_col = self.detect_columns(df)

        if not self.text_col or not self.label_col:
            raise ValueError(f"❌ Impossible de détecter les colonnes: text='{self.text_col}', label='{self.label_col}'")

        # Extraction et copie des colonnes nécessaires
        try:
            df_work = df[[self.text_col, self.label_col]].copy()
        except KeyError as e:
            print(f"❌ Colonnes manquantes: {e}")
            print(f"Colonnes disponibles: {list(df.columns)}")
            raise

        # Renommer les colonnes
        df_work.columns = ['text', 'label']

        print(f"📋 Avant nettoyage: {len(df_work)} lignes")

        # Nettoyage robuste des données
        # 1. Nettoyage de la colonne texte
        df_work['text'] = self.clean_text_column(df_work['text'])

        # 2. Nettoyage de la colonne label
        df_work['label'] = df_work['label'].astype(str).str.strip()
        df_work['label'] = df_work['label'].replace(['nan', 'NaN', 'None', 'null', ''], pd.NA)

        # 3. Suppression des lignes avec des valeurs manquantes
        initial_size = len(df_work)
        df_work = df_work.dropna()
        print(f"🧹 Après suppression des NaN: {len(df_work)} lignes (supprimé: {initial_size - len(df_work)})")

        # 4. Filtrage des textes trop courts (de manière sécurisée)
        try:
            # Vérifier que nous avons bien des strings
            df_work['text'] = df_work['text'].astype(str)

            # Filtrer les textes trop courts
            mask = df_work['text'].str.len() > 5
            df_work = df_work[mask]
            print(f"📝 Après filtrage textes courts: {len(df_work)} lignes")

        except Exception as e:
            print(f"⚠️ Erreur lors du filtrage des textes: {e}")
            # Continuer sans filtrage si erreur

        # Vérification finale
        if len(df_work) == 0:
            raise ValueError("❌ Aucune donnée valide après nettoyage!")

        # 5. Échantillonnage si nécessaire
        if len(df_work) > sample_size:
            df_work = df_work.sample(n=sample_size, random_state=42)
            print(f"🎯 Échantillonnage à {sample_size} lignes")

        # 6. Mapping des labels
        unique_labels = sorted(df_work['label'].unique())
        print(f"🏷️ Labels uniques trouvés: {unique_labels}")

        self.label_mapping = {str(label): idx for idx, label in enumerate(unique_labels)}
        df_work['label_id'] = df_work['label'].astype(str).map(self.label_mapping)

        # Vérification du mapping
        if df_work['label_id'].isna().any():
            print("⚠️ Problème de mapping des labels détecté")
            print(f"Labels non mappés: {df_work[df_work['label_id'].isna()]['label'].unique()}")

        print(f"📊 Mapping des labels: {self.label_mapping}")

        # 7. Splits stratifiés
        try:
            # Vérifier si on peut faire une stratification
            if len(unique_labels) > 1 and all(df_work['label_id'].value_counts() >= 2):
                stratify_col = df_work['label_id']
                print("✅ Stratification activée")
            else:
                stratify_col = None
                print("⚠️ Pas de stratification (pas assez d'exemples par classe)")

            # Premier split: train vs (val + test)
            train_df, temp_df = train_test_split(
                df_work,
                test_size=0.4,
                random_state=42,
                stratify=stratify_col if stratify_col is not None else None
            )

            # Deuxième split: val vs test
            if stratify_col is not None:
                temp_stratify = temp_df['label_id']
            else:
                temp_stratify = None

            val_df, test_df = train_test_split(
                temp_df,
                test_size=0.5,
                random_state=42,
                stratify=temp_stratify if temp_stratify is not None else None
            )

        except Exception as e:
            print(f"⚠️ Erreur lors du split: {e}")
            # Fallback: split simple
            train_size = int(0.6 * len(df_work))
            val_size = int(0.2 * len(df_work))

            train_df = df_work[:train_size]
            val_df = df_work[train_size:train_size+val_size]
            test_df = df_work[train_size+val_size:]

        print(f"📊 Splits finaux: Train={len(train_df)}, Val={len(val_df)}, Test={len(test_df)}")

        # 8. Conversion en Dataset
        try:
            train_dataset = Dataset.from_pandas(train_df[['text', 'label_id']].reset_index(drop=True))
            val_dataset = Dataset.from_pandas(val_df[['text', 'label_id']].reset_index(drop=True))
            test_dataset = Dataset.from_pandas(test_df[['text', 'label_id']].reset_index(drop=True))

            print("✅ Datasets créés avec succès")

            return train_dataset, val_dataset, test_dataset

        except Exception as e:
            print(f"❌ Erreur lors de la création des datasets: {e}")
            raise

    def get_stats(self):
        """Statistiques du processeur de données"""
        return {
            "text_column": self.text_col,
            "label_column": self.label_col,
            "label_mapping": self.label_mapping,
            "num_labels": len(self.label_mapping)
        }

    def validate_dataframe(self, df: pd.DataFrame) -> bool:
        """Validation d'un DataFrame"""
        try:
            if df is None or df.empty:
                print("❌ DataFrame vide ou None")
                return False

            if len(df.columns) < 2:
                print("❌ DataFrame doit avoir au moins 2 colonnes")
                return False

            print(f"✅ DataFrame valide: {df.shape}")
            return True

        except Exception as e:
            print(f"❌ Erreur validation DataFrame: {e}")
            return False

Overwriting data_modules.py


3️⃣ Module Modèle - model_modules.py

In [None]:
%%writefile model_modules.py
# model_modules.py
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from peft import LoraConfig, get_peft_model, TaskType
from typing import Dict, Any
from pathlib import Path
import json

class ModelManager:
    """Gestion du modèle et de l'entraînement avec logs avancés"""

    def __init__(self, config):
        self.config = config
        self.tokenizer = None
        self.model = None
        self.peft_model = None
        self.trainer = None

    def setup_tokenizer(self):
        """Configuration du tokenizer"""
        self.tokenizer = AutoTokenizer.from_pretrained(self.config.model_name)
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        return self.tokenizer

    def setup_model(self, num_labels: int):
        """Configuration du modèle avec LoRA"""
        base_model = AutoModelForSequenceClassification.from_pretrained(
            self.config.model_name,
            num_labels=num_labels,
            torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
            device_map="auto" if torch.cuda.is_available() else None
        )

        lora_config = LoraConfig(
            task_type=TaskType.SEQ_CLS,
            r=self.config.lora_r,
            lora_alpha=self.config.lora_alpha,
            lora_dropout=0.1,
            target_modules=["q_lin", "v_lin"] if "distilbert" in self.config.model_name.lower() else ["query", "value"]
        )

        self.peft_model = get_peft_model(base_model, lora_config)
        return self.peft_model

    def tokenize_function(self, examples):
        """Tokenisation des exemples"""
        return self.tokenizer(
            examples["text"],
            truncation=True,
            padding="max_length",
            max_length=self.config.max_length,
            return_tensors="pt"
        )

    def setup_training_args(self, output_dir="outputs/runs"):
        """Configuration complète des TrainingArguments avec logs"""
        return TrainingArguments(
            output_dir=output_dir,
            num_train_epochs=self.config.epochs,
            per_device_train_batch_size=self.config.batch_size,
            per_device_eval_batch_size=self.config.batch_size * 2,
            learning_rate=self.config.learning_rate,
            warmup_steps=200,
            weight_decay=0.01,
            evaluation_strategy="epoch",
            save_strategy="epoch",
            logging_strategy="epoch",
            logging_dir=output_dir + "/logs",
            load_best_model_at_end=True,
            metric_for_best_model="accuracy",
            fp16=torch.cuda.is_available(),
            gradient_checkpointing=True,
            report_to="none",
            save_total_limit=2,
            logging_steps=50,
            eval_steps=1,
            save_steps=1
        )

    def setup_trainer(self, train_dataset, val_dataset):
        """Configuration du trainer avec arguments optimisés"""
        training_args = self.setup_training_args()

        self.trainer = Trainer(
            model=self.peft_model,
            args=training_args,
            train_dataset=train_dataset,
            eval_dataset=val_dataset,
            tokenizer=self.tokenizer,
            compute_metrics=self.compute_metrics
        )
        return self.trainer

    @staticmethod
    def compute_metrics(eval_pred):
        """Calcul des métriques"""
        from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
        predictions, labels = eval_pred
        predictions = torch.argmax(torch.tensor(predictions), dim=-1).numpy()

        return {
            "accuracy": accuracy_score(labels, predictions),
            "f1_weighted": f1_score(labels, predictions, average="weighted"),
            "f1_macro": f1_score(labels, predictions, average="macro"),
            "precision": precision_score(labels, predictions, average="weighted"),
            "recall": recall_score(labels, predictions, average="weighted")
        }

Overwriting model_modules.py


4. visualization_modules.py

In [None]:
%%writefile visualization_modules.py
# visualization_modules.py
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
import streamlit as st
from sklearn.metrics import confusion_matrix, classification_report
import json
import os
from pathlib import Path
import plotly.express as px
import plotly.graph_objects as go

class VisualizationManager:
    """Gestion des visualisations d'entraînement et d'évaluation"""

    @staticmethod
    def plot_training_curves(log_dir: str):
        """Affiche les courbes d'entraînement depuis les logs"""
        try:
            # Chemin vers le fichier de logs
            log_file = Path(log_dir) / "trainer_state.json"

            if not log_file.exists():
                st.warning("Fichier de logs non trouvé")
                return

            # Chargement des logs
            with open(log_file, 'r') as f:
                logs = json.load(f)

            # Extraction des métriques
            history = logs.get('log_history', [])
            if not history:
                st.warning("Aucune donnée d'entraînement trouvée")
                return

            # Préparation des données
            epochs = []
            train_loss = []
            eval_loss = []
            eval_accuracy = []
            learning_rates = []

            for entry in history:
                if 'eval_loss' in entry:
                    epochs.append(entry.get('epoch', 0))
                    eval_loss.append(entry.get('eval_loss', 0))
                    eval_accuracy.append(entry.get('eval_accuracy', 0))
                    learning_rates.append(entry.get('learning_rate', 0))
                elif 'loss' in entry:
                    train_loss.append(entry.get('loss', 0))

            # Création des graphiques
            fig, axes = plt.subplots(2, 2, figsize=(15, 10))
            fig.suptitle('📈 Évolution de l\'entraînement', fontsize=16)

            # Loss
            if train_loss:
                axes[0, 0].plot(range(len(train_loss)), train_loss, 'b-', label='Train Loss', marker='o')
            if eval_loss:
                axes[0, 0].plot(epochs[:len(eval_loss)], eval_loss, 'r-', label='Eval Loss', marker='s')
            axes[0, 0].set_title('Perte (Loss)')
            axes[0, 0].set_xlabel('Epoch')
            axes[0, 0].set_ylabel('Loss')
            axes[0, 0].legend()
            axes[0, 0].grid(True, alpha=0.3)

            # Accuracy
            if eval_accuracy:
                axes[0, 1].plot(epochs[:len(eval_accuracy)], eval_accuracy, 'g-', label='Accuracy', marker='^')
            axes[0, 1].set_title('Précision')
            axes[0, 1].set_xlabel('Epoch')
            axes[0, 1].set_ylabel('Accuracy')
            axes[0, 1].legend()
            axes[0, 1].grid(True, alpha=0.3)

            # Learning Rate
            if learning_rates:
                axes[1, 0].plot(epochs[:len(learning_rates)], learning_rates, 'orange', marker='d')
            axes[1, 0].set_title('Learning Rate')
            axes[1, 0].set_xlabel('Epoch')
            axes[1, 0].set_ylabel('LR')
            axes[1, 0].grid(True, alpha=0.3)

            # Résumé
            if eval_accuracy:
                axes[1, 1].text(0.1, 0.5,
                               f"Dernière précision: {eval_accuracy[-1]:.4f}\n"
                               f"Meilleure précision: {max(eval_accuracy):.4f}\n"
                               f"Epoch: {len(epochs)}",
                               fontsize=12, verticalalignment='center')
            axes[1, 1].set_title('Résumé')
            axes[1, 1].axis('off')

            plt.tight_layout()
            st.pyplot(fig)

        except Exception as e:
            st.error(f"Erreur lors de l'affichage des courbes: {e}")

    @staticmethod
    def show_confusion_matrix(trainer, test_dataset, label_names):
        """Affiche la matrice de confusion"""
        try:
            # Prédictions
            preds_output = trainer.predict(test_dataset)
            preds = preds_output.predictions.argmax(axis=1)
            labels = preds_output.label_ids

            # Calcul de la matrice
            cm = confusion_matrix(labels, preds)

            # Affichage avec seaborn
            fig, ax = plt.subplots(figsize=(10, 8))
            sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                       xticklabels=label_names, yticklabels=label_names, ax=ax)
            ax.set_title('Matrice de Confusion')
            ax.set_xlabel('Prédictions')
            ax.set_ylabel('Vraies étiquettes')

            st.pyplot(fig)

            # Rapport de classification
            st.subheader("📊 Rapport de Classification")
            report = classification_report(labels, preds, target_names=label_names, output_dict=True)
            report_df = pd.DataFrame(report).transpose()
            st.dataframe(report_df)

        except Exception as e:
            st.error(f"Erreur matrice de confusion: {e}")

5. qa_modules.py

In [None]:
%%writefile qa_modules.py
# qa_modules.py
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from typing import List, Dict
import streamlit as st

class QAModule:
    """Module de recherche et Q&A basé sur sentence-transformers"""

    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        """Initialisation avec modèle d'embedding"""
        try:
            self.encoder = SentenceTransformer(model_name)
            self.corpus_embeddings = None
            self.corpus_texts = []
            self.labels = []
            self.model_name = model_name
        except Exception as e:
            st.error(f"Erreur chargement modèle Q&A: {e}")
            # Fallback
            self.encoder = None
            self.model_name = "fallback"

    def fit(self, dataset):
        """Indexe le dataset pour la recherche"""
        if self.encoder is None:
            st.warning("Module Q&A non disponible")
            return

        try:
            self.corpus_texts = [item['text'] for item in dataset]
            self.labels = [item['label_id'] for item in dataset]

            with st.spinner("📊 Indexation des données pour la recherche..."):
                self.corpus_embeddings = self.encoder.encode(
                    self.corpus_texts,
                    convert_to_tensor=False,
                    show_progress_bar=True
                )
            st.success(f"✅ {len(self.corpus_texts)} éléments indexés")

        except Exception as e:
            st.error(f"Erreur indexation Q&A: {e}")

    def query(self, question: str, top_k: int = 5) -> List[Dict]:
        """Recherche les textes les plus similaires à la question"""
        if self.encoder is None or self.corpus_embeddings is None:
            return []

        try:
            question_embedding = self.encoder.encode([question], convert_to_tensor=False)
            similarities = cosine_similarity(question_embedding, self.corpus_embeddings)[0]

            # Top K indices
            top_indices = np.argsort(similarities)[-top_k:][::-1]

            results = []
            for idx in top_indices:
                results.append({
                    "text": self.corpus_texts[idx],
                    "label_id": int(self.labels[idx]),
                    "score": float(similarities[idx]),
                    "rank": len(results) + 1
                })

            return results

        except Exception as e:
            st.error(f"Erreur recherche Q&A: {e}")
            return []

    def get_stats(self) -> Dict:
        """Statistiques du module Q&A"""
        return {
            "model_name": self.model_name,
            "indexed_items": len(self.corpus_texts),
            "embedding_dim": len(self.corpus_embeddings[0]) if self.corpus_embeddings else 0
        }

4️⃣ Module Knowledge Base - knowledge_modules.py

In [None]:
%%writefile knowledge_modules.py

# knowledge_modules.py
import numpy as np
from typing import List, Optional
import re

class KnowledgeBase:
    """Gestion de la base de connaissances sans sentence-transformers"""

    def __init__(self):
        self.knowledge_base = []
        self.setup_knowledge_base()

    def setup_knowledge_base(self):
        """Configuration de la base de connaissances"""
        self.knowledge_base = [
            "Le réchauffement climatique est principalement causé par les émissions de gaz à effet de serre d'origine humaine.",
            "Les énergies renouvelables comme le solaire et l'éolien sont essentielles pour décarboner notre économie.",
            "La déforestation massive contribue significativement au changement climatique.",
            "Le secteur des transports représente environ 24% des émissions mondiales de gaz à effet de serre.",
            "L'amélioration de l'efficacité énergétique des bâtiments peut réduire jusqu'à 50% de leur consommation.",
            "L'agriculture durable et régénératrice peut séquestrer du carbone tout en produisant de la nourriture.",
            "Les océans absorbent 25% du CO2 atmosphérique mais s'acidifient, menaçant les écosystèmes marins.",
            "Les politiques de taxation du carbone incitent les entreprises à réduire leurs émissions.",
            "L'adaptation au changement climatique est aussi cruciale que l'atténuation des émissions.",
            "Les technologies de capture et stockage du carbone pourraient permettre d'atteindre la neutralité carbone."
        ]
        print("✅ Base de connaissances initialisée avec recherche par mots-clés")

    def find_context(self, query: str, top_k: int = 3) -> List[str]:
        """Recherche de contexte pertinent par similarité textuelle simple"""
        if not query or not self.knowledge_base:
            return []

        try:
            # Nettoyage et tokenisation simple
            query_clean = query.lower()
            query_words = set(re.findall(r'\b\w+\b', query_clean))

            # Score de similarité basé sur les mots communs
            scored_docs = []

            for doc in self.knowledge_base:
                doc_clean = doc.lower()
                doc_words = set(re.findall(r'\b\w+\b', doc_clean))

                # Calcul du score Jaccard
                intersection = len(query_words & doc_words)
                union = len(query_words | doc_words)

                if union > 0:
                    jaccard_score = intersection / union
                    scored_docs.append((doc, jaccard_score))

            # Tri par score décroissant
            scored_docs.sort(key=lambda x: x[1], reverse=True)

            # Retour des top_k documents avec score > 0.1
            relevant_docs = []
            for doc, score in scored_docs[:top_k]:
                if score > 0.1:  # Seuil de pertinence
                    relevant_docs.append(doc)

            return relevant_docs

        except Exception as e:
            print(f"⚠️ Erreur recherche contexte: {e}")
            return []

    def add_knowledge(self, new_knowledge: str):
        """Ajouter une nouvelle connaissance"""
        if new_knowledge and new_knowledge not in self.knowledge_base:
            self.knowledge_base.append(new_knowledge)
            print(f"✅ Nouvelle connaissance ajoutée: {new_knowledge[:50]}...")

    def get_stats(self):
        """Statistiques de la base de connaissances"""
        return {
            "total_documents": len(self.knowledge_base),
            "avg_length": np.mean([len(doc) for doc in self.knowledge_base]) if self.knowledge_base else 0,
        }

Overwriting knowledge_modules.py


5️⃣ Module Streamlit - streamlit_app.py

In [None]:
%%writefile streamlit_app.py

# streamlit_app.py
import streamlit as st
import pandas as pd
import numpy as np
import sys
import os
from pathlib import Path
import time
import torch

# Import des modules
sys.path.append('/content')
from core_modules import ClimateConfig, PredictionResult
from data_modules import DataProcessor
from model_modules import ModelManager
from knowledge_modules import KnowledgeBase
from visualization_modules import VisualizationManager
from qa_modules import QAModule

# Configuration Streamlit
st.set_page_config(
    page_title="🌍 Climate Analyzer - Pipeline Complet",
    page_icon="🌍",
    layout="wide"
)

# CSS personnalisé
st.markdown("""
<style>
    .main-header {
        background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
        padding: 2rem;
        border-radius: 15px;
        color: white;
        text-align: center;
        margin-bottom: 2rem;
        box-shadow: 0 10px 30px rgba(0,0,0,0.3);
    }
    .metric-card {
        background: linear-gradient(135deg, #f093fb 0%, #f5576c 100%);
        padding: 1.5rem;
        border-radius: 12px;
        color: white;
        text-align: center;
        margin: 1rem 0;
        box-shadow: 0 5px 15px rgba(0,0,0,0.2);
    }
    .stage-card {
        background: #f8f9fa;
        border-left: 4px solid #007bff;
        padding: 1rem;
        border-radius: 8px;
        margin: 1rem 0;
    }
    .success-box {
        background: #d4edda;
        border: 1px solid #c3e6cb;
        border-radius: 8px;
        padding: 1rem;
        margin: 1rem 0;
    }
</style>
""", unsafe_allow_html=True)

class ClimateAnalyzerApp:
    """Application Streamlit principale"""

    def __init__(self):
        self.config = ClimateConfig()
        self.data_processor = DataProcessor()
        self.model_manager = ModelManager(self.config)
        self.knowledge_base = KnowledgeBase()
        self.visualizer = VisualizationManager()
        self.qa_module = QAModule()
        self.trained = False
        self.trainer = None

    def run(self):
        """Exécution principale de l'application"""

        # Header
        st.markdown("""
        <div class="main-header">
            <h1>🌍 Climate Sentiment Analyzer</h1>
            <h3>Pipeline Complet avec Visualisations et Q&A</h3>
            <p>Analyse de sentiment climatique avec entraînement, courbes et recherche intelligente</p>
        </div>
        """, unsafe_allow_html=True)

        # Sidebar
        st.sidebar.header("🎛️ Navigation")

        # Navigation principale
        app_mode = st.sidebar.selectbox(
            "Mode d'application",
            ["🚀 Pipeline Complet", "📊 Data Processing", "🤖 Modèle", "🔍 Analyse", "❓ Q&A", "📈 Visualisations"]
        )

        # Configuration rapide
        with st.sidebar.expander("⚙️ Configuration"):
            sample_size = st.slider("Taille échantillon", 1000, 10000, 4000)
            epochs = st.slider("Epochs", 1, 5, 3)
            show_details = st.checkbox("Détails d'exécution", True)

        # Exécution selon le mode
        if app_mode == "🚀 Pipeline Complet":
            self.run_complete_pipeline(sample_size, epochs, show_details)
        elif app_mode == "📊 Data Processing":
            self.run_data_processing()
        elif app_mode == "🤖 Modèle":
            self.run_model_management()
        elif app_mode == "🔍 Analyse":
            self.run_analysis()
        elif app_mode == "❓ Q&A":
            self.run_qa_interface()
        elif app_mode == "📈 Visualisations":
            self.run_visualizations()

    def run_complete_pipeline(self, sample_size, epochs, show_details):
        """Pipeline complet avec toutes les fonctionnalités"""

        st.header("🚀 Pipeline Complet avec Entraînement Réel")

        # Configuration des epochs
        self.config.epochs = epochs

        uploaded_file = st.file_uploader(
            "Choisissez un fichier CSV",
            type=['csv'],
            key="pipeline_upload"
        )

        if uploaded_file:
            try:
                df = pd.read_csv(uploaded_file)
                st.success(f"✅ Fichier chargé: {df.shape[0]} lignes, {df.shape[1]} colonnes")

                with st.expander("👀 Aperçu des données"):
                    st.dataframe(df.head())

                if st.button("🚀 Lancer l'entraînement complet", type="primary"):
                    self.run_real_training(df, sample_size)

            except Exception as e:
                st.error(f"❌ Erreur lors du chargement: {e}")

    def run_real_training(self, df, sample_size):
        """Entraînement réel avec toutes les fonctionnalités"""

        progress_bar = st.progress(0)
        status_text = st.empty()

        try:
            # Étape 1: Data Processing
            status_text.text("📊 Préparation des données...")
            train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df, sample_size)
            progress_bar.progress(20)

            # Étape 2: Configuration modèle
            status_text.text("🤖 Configuration du modèle...")
            self.model_manager.setup_tokenizer()
            self.model_manager.setup_model(len(self.data_processor.label_mapping))
            progress_bar.progress(40)

            # Étape 3: Entraînement
            status_text.text("🎯 Entraînement en cours...")
            self.trainer = self.model_manager.setup_trainer(train_ds, val_ds)
            self.trainer.train()
            progress_bar.progress(70)

            # Étape 4: Évaluation
            status_text.text("📊 Évaluation du modèle...")
            metrics = self.trainer.evaluate(test_ds)
            progress_bar.progress(85)

            # Étape 5: Configuration Q&A
            status_text.text("🔍 Configuration Q&A...")
            self.qa_module.fit(train_ds)
            progress_bar.progress(100)

            # Affichage des résultats
            self.display_training_results(metrics, test_ds)
            self.trained = True

        except Exception as e:
            st.error(f"❌ Erreur dans le pipeline: {str(e)}")
            st.code(str(e))

    def display_training_results(self, metrics, test_dataset):
        """Affichage des résultats d'entraînement"""

        st.markdown("""
        <div class="success-box">
            <h3>🎉 Entraînement terminé avec succès!</h3>
        </div>
        """, unsafe_allow_html=True)

        # Métriques principales
        col1, col2, col3, col4 = st.columns(4)

        with col1:
            st.metric("📊 Accuracy", f"{metrics['eval_accuracy']:.4f}")
        with col2:
            st.metric("🎯 F1-Score", f"{metrics['eval_f1_weighted']:.4f}")
        with col3:
            st.metric("📏 Precision", f"{metrics['eval_precision']:.4f}")
        with col4:
            st.metric("🔍 Recall", f"{metrics['eval_recall']:.4f}")

        # Visualisations
        st.subheader("📈 Courbes d'entraînement")
        self.visualizer.plot_training_curves("outputs/runs")

        # Matrice de confusion
        label_names = list(self.data_processor.label_mapping.keys())
        st.subheader("🔍 Matrice de Confusion")
        self.visualizer.show_confusion_matrix(self.trainer, test_dataset, label_names)

        # Sauvegarde
        model_path = "outputs/final_model"
        self.trainer.save_model(model_path)
        st.success(f"📦 Modèle sauvegardé dans `{model_path}`")

    def run_qa_interface(self):
        """Interface de recherche Q&A"""
        st.header("❓ Module Questions-Réponses")

        if not self.trained:
            st.warning("⚠️ Veuillez d'abord entraîner un modèle pour utiliser la recherche Q&A")
            return

        question = st.text_input(
            "Posez votre question sur le climat :",
            placeholder="Ex: Quels sont les impacts du réchauffement climatique ?"
        )

        if question:
            results = self.qa_module.query(question, top_k=5)

            if results:
                st.markdown("### 🔍 Résultats les plus pertinents :")
                for i, res in enumerate(results, 1):
                    st.markdown(f"""
                    <div class="stage-card">
                        <h4>{i}. Score: {res['score']:.3f}</h4>
                        <p><strong>Texte:</strong> {res['text'][:300]}...</p>
                        <p><strong>Label:</strong> {res['label_id']}</p>
                    </div>
                    """, unsafe_allow_html=True)
            else:
                st.info("Aucun résultat trouvé. Essayez avec des mots-clés différents.")

    def run_data_processing(self):
        """Interface de data processing"""
        st.header("📊 Module Data Processing")

        uploaded_file = st.file_uploader(
            "Choisissez un fichier CSV",
            type=['csv'],
            key="data_upload"
        )

        if uploaded_file:
            df = pd.read_csv(uploaded_file)
            st.success(f"📊 Données chargées: {df.shape}")

            # Détection automatique
            text_col, label_col = self.data_processor.detect_columns(df)
            st.info(f"🔍 Colonnes détectées: Texte='{text_col}', Label='{label_col}'")

            # Prévisualisation
            with st.expander("👀 Aperçu des données"):
                st.dataframe(df.head(10))

            if st.button("📊 Préparer les données"):
                with st.spinner("Préparation en cours..."):
                    train_ds, val_ds, test_ds = self.data_processor.prepare_datasets(df)

                    col1, col2, col3 = st.columns(3)
                    with col1:
                        st.metric("🎯 Train", len(train_ds))
                    with col2:
                        st.metric("🔍 Validation", len(val_ds))
                    with col3:
                        st.metric("📊 Test", len(test_ds))

                    # Distribution des labels
                    st.subheader("📈 Distribution des labels")
                    label_dist = pd.Series([item['label_id'] for item in train_ds]).value_counts()
                    st.bar_chart(label_dist)

    def run_model_management(self):
        """Interface de gestion du modèle"""
        st.header("🤖 Module Gestion Modèle")

        if st.button("🔧 Configurer le modèle"):
            with st.spinner("Configuration..."):
                self.model_manager.setup_tokenizer()

                st.success("✅ Tokenizer configuré!")

                col1, col2 = st.columns(2)

                with col1:
                    st.subheader("📋 Configuration")
                    config_dict = self.config.to_dict()
                    st.json(config_dict)

                with col2:
                    st.subheader("🔍 Informations")
                    st.info("🤖 Modèle: " + self.config.model_name)
                    st.info("📏 Longueur max: " + str(self.config.max_length))
                    st.info("🎯 Batch size: " + str(self.config.batch_size))

    def run_analysis(self):
        """Interface d'analyse"""
        st.header("🔍 Module Analyse")

        if not self.trained:
            st.warning("⚠️ Veuillez d'abord entraîner un modèle")
            return

        # Charger le modèle sauvegardé
        model_path = "outputs/final_model"
        if os.path.exists(model_path):
            self.model_manager.peft_model = self.model_manager.setup_model(len(self.data_processor.label_mapping))
            self.model_manager.peft_model.load_adapter(model_path)

        text_input = st.text_area(
            "Texte à analyser:",
            height=100,
            placeholder="Entrez votre texte climatique ici...",
            value="Le réchauffement climatique est un problème urgent qui nécessite une action immédiate."
        )

        if st.button("🔍 Prédire", type="primary"):
            if text_input.strip():
                with st.spinner("Analyse en cours..."):
                    result = self.predict_with_saved_model(text_input)
                    self.display_analysis_result(result)

    def predict_with_saved_model(self, text: str) -> PredictionResult:
        """Prédiction avec le modèle entraîné"""
        start_time = time.time()

        # Tokenisation
        inputs = self.model_manager.tokenizer(text, return_tensors="pt", truncation=True, padding=True)

        # Prédiction
        with torch.no_grad():
            outputs = self.model_manager.peft_model(**inputs)
            probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
            predicted_class = torch.argmax(probs, dim=1).item()
            confidence = probs[0][predicted_class].item()

        # Mapping inverse
        inv_label_map = {v: k for k, v in self.data_processor.label_mapping.items()}
        predicted_label = inv_label_map.get(predicted_class, f"Classe {predicted_class}")

        # Tous les scores
        all_scores = {inv_label_map.get(i, f"Class {i}"): float(prob) for i, prob in enumerate(probs[0])}

        # Contexte
        context = self.knowledge_base.find_context(text)

        return PredictionResult(
            text=text,
            predicted_label=predicted_label,
            confidence=confidence,
            all_scores=all_scores,
            context=context,
            processing_time=time.time() - start_time
        )

    def display_analysis_result(self, result: PredictionResult):
        """Affichage des résultats d'analyse"""

        col1, col2, col3 = st.columns(3)

        with col1:
            st.markdown(f"""
            <div class="metric-card">
                <h3>🎯 Sentiment</h3>
                <h2>{result.predicted_label.title()}</h2>
            </div>
            """, unsafe_allow_html=True)

        with col2:
            st.markdown(f"""
            <div class="metric-card">
                <h3>📊 Confiance</h3>
                <h2>{result.confidence:.1%}</h2>
            </div>
            """, unsafe_allow_html=True)

        with col3:
            st.markdown(f"""
            <div class="metric-card">
                <h3>⏱️ Temps</h3>
                <h2>{result.processing_time:.2f}s</h2>
            </div>
            """, unsafe_allow_html=True)

        # Scores détaillés
        st.subheader("📊 Scores détaillés")
        scores_df = pd.DataFrame([
            {"Sentiment": k.title(), "Score": f"{v:.2%}"}
            for k, v in result.all_scores.items()
        ])
        st.dataframe(scores_df, use_container_width=True)

        # Contexte
        if result.context:
            st.subheader("💡 Contexte Pertinent")
            for i, ctx in enumerate(result.context, 1):
                st.markdown(f"**{i}.** {ctx}")

    def run_visualizations(self):
        """Interface de visualisations"""
        st.header("📈 Module Visualisations")

        if not self.trained:
            st.warning("⚠️ Veuillez d'abord entraîner un modèle pour voir les visualisations")
            return

        # Visualisations disponibles
        viz_option = st.selectbox(
            "Choisir une visualisation",
            ["📈 Courbes d'entraînement", "🔍 Matrice de confusion", "📊 Métriques"]
        )

        if viz_option == "📈 Courbes d'entraînement":
            self.visualizer.plot_training_curves("outputs/runs")
        elif viz_option == "🔍 Matrice de confusion":
            label_names = list(self.data_processor.label_mapping.keys())
            self.visualizer.show_confusion_matrix(self.trainer, self.trainer.eval_dataset, label_names)
        elif viz_option == "📊 Métriques":
            if self.trainer:
                metrics = self.trainer.evaluate()
                st.json(metrics)

# ========== ORCHESTRATEUR PRINCIPAL ==========
class PipelineOrchestrator:
    """Orchestrateur principal du pipeline"""

    def __init__(self):
        self.app = ClimateAnalyzerApp()

    def run(self):
        """Lancement de l'application"""
        self.app.run()

# ========== UTILISATION ==========
if __name__ == "__main__":
    orchestrator = PipelineOrchestrator()
    orchestrator.run()

Overwriting streamlit_app.py


6️⃣ Script d'Installation - setup_pipeline.py

In [None]:
%%writefile setup_pipeline.py
# setup_pipeline.py
import subprocess
import sys

def install_dependencies():
    """Installation complète des dépendances"""
    packages = [
        "transformers>=4.36.0",
        "datasets>=2.16.0",
        "torch>=2.1.0",
        "peft>=0.7.0",
        "sentence-transformers>=2.2.0",
        "faiss-cpu>=1.7.0",
        "streamlit>=1.29.0",
        "plotly>=5.17.0",
        "scikit-learn>=1.3.0",
        "matplotlib>=3.7.0",
        "seaborn>=0.12.0",
        "pandas>=1.5.0",
        "numpy>=1.24.0"
    ]

    for package in packages:
        try:
            subprocess.check_call([sys.executable, "-m", "pip", "install", package])
            print(f"✅ {package} installé")
        except subprocess.CalledProcessError as e:
            print(f"⚠️ Erreur avec {package}: {e}")

    print("✅ Installation complète terminée!")

if __name__ == "__main__":
    install_dependencies()

✅ transformers==4.36.2 installé
✅ datasets==2.16.1 installé
✅ torch==2.1.2 installé
✅ peft==0.7.1 installé
✅ sentence-transformers==2.2.2 installé
✅ faiss-cpu==1.7.4 installé
✅ streamlit==1.29.0 installé
✅ plotly==5.17.0 installé
✅ scikit-learn==1.3.2 installé
✅ Installation terminée!


In [None]:
!python setup_pipeline.py

python3: can't open file '/content/setup_pipeline.py': [Errno 2] No such file or directory


In [None]:
!pip install streamlit



In [None]:
!pip install pyngrok



In [None]:
# 🔧 Lancement Streamlit + ngrok (version corrigée)
import subprocess
import time
from pyngrok import ngrok

# 1️⃣ Token ngrok
TOKEN = "30Nciu2LDo3NzmKva2zibt2sCFL_7Ag5r9kUYyBCha12WSZ3"
!ngrok authtoken {TOKEN}

# 2️⃣ Lancer l'application principale
subprocess.Popen(
    ["streamlit", "run", "streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"],
    stdout=subprocess.DEVNULL,
    stderr=subprocess.DEVNULL
)

# 3️⃣ Attendre et créer le tunnel
time.sleep(5)
public_url = ngrok.connect(8501)
print("🚀 Interface Streamlit disponible à :")
print(public_url)

Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
🚀 Interface Streamlit disponible à :
NgrokTunnel: "https://640c5f983024.ngrok-free.app" -> "http://localhost:8501"
