In [None]:
# Ajustement du path pour que Colab trouve le module alphabot
import sys
sys.path.append('/content')
sys.path.append('/content/alphabot')

# 🔄 Suivi de Progression et Reprise Automatique

Cette cellule vérifie l'état d'avancement du notebook et permet de reprendre là où le processus s'est arrêté.

In [None]:
# 🔄 Système de suivi et reprise automatique
import os
import json
import pickle
from datetime import datetime

# Définir le chemin de base
base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
os.makedirs(base_path, exist_ok=True)

# Fichier de suivi de progression
progress_file = f'{base_path}/progress_tracker.json'

# État initial des étapes
default_progress = {
    'cell_1_setup': False,
    'cell_2_data_download': False,
    'cell_3_data_analysis': False,
    'cell_4_pattern_training': False,
    'cell_5_sentiment_training': False,
    'cell_6_rag_training': False,
    'cell_7_integration': False,
    'cell_8_testing': False,
    'cell_9_deployment': False,
    'last_cell_executed': None,
    'start_time': None,
    'last_update': None
}

# Charger ou initialiser le suivi
try:
    with open(progress_file, 'r') as f:
        progress = json.load(f)
    print("📊 Suivi de progression chargé")
except:
    progress = default_progress.copy()
    progress['start_time'] = datetime.now().isoformat()
    print("🆕 Nouveau suivi de progression initialisé")

# Fonction pour mettre à jour la progression
def update_progress(cell_name):
    if cell_name not in progress:
        if cell_name not in progress:
        progress[cell_name] = True
    else:
        progress[cell_name] = True
    else:
        if cell_name not in progress:
        progress[cell_name] = True
    else:
        progress[cell_name] = True
    progress['last_cell_executed'] = cell_name
    progress['last_update'] = datetime.now().isoformat()
    
    with open(progress_file, 'w') as f:
        json.dump(progress, f, indent=2)
    
    print(f"✅ Progression mise à jour: {cell_name}")

# Fonction pour vérifier l'état
def check_progress():
    print("\n📋 État actuel de la progression:")
    print("=" * 50)
    
    completed = sum(1 for k,v in progress.items() if isinstance(v, bool) and v)  # Compter uniquement True
    total = len([k for k in default_progress.keys() if k.startswith('cell_')])
    
    
    print(f"📊 Progression: {completed}/{total} étapes complétées ({completed/total*100:.1f}%)")
    print(f"⏰ Démarré: {progress.get('start_time', 'N/A')}")
    print(f"🔄 Dernière mise à jour: {progress.get('last_update', 'N/A')}")
    print(f"📍 Dernière cellule: {progress.get('last_cell_executed', 'Aucune')}")
    
    print("\n📝 Statut des étapes:")
    steps = [
        ('cell_1_setup', '1. Configuration initiale'),
        ('cell_2_data_download', '2. Téléchargement des données'),
        ('cell_3_data_analysis', '3. Analyse des données'),
        ('cell_4_pattern_training', '4. Entraînement Pattern Detector'),
        ('cell_5_sentiment_training', '5. Entraînement Sentiment Analyzer'),
        ('cell_6_rag_training', '6. Entraînement RAG'),
        ('cell_7_integration', '7. Intégration'),
        ('cell_8_testing', '8. Tests'),
        ('cell_9_deployment', '9. Déploiement')
    ]
    
    for step_key, step_name in steps:
        status = "✅" if progress.get(step_key, False) else "⏳"
        print(f"  {status} {step_name}")
    
    print("=" * 50)
    
    # Suggérer la prochaine étape
    if not progress['cell_1_setup']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 1 (Configuration)")
    elif not progress['cell_2_data_download']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 2 (Téléchargement des données)")
    elif not progress['cell_3_data_analysis']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 3 (Analyse des données)")
    elif not progress['cell_4_pattern_training']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 4 (Pattern Detector)")
    elif not progress['cell_5_sentiment_training']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 5 (Sentiment Analyzer)")
    elif not progress['cell_6_rag_training']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 6 (RAG)")
    elif not progress['cell_7_integration']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 7 (Intégration)")
    elif not progress['cell_8_testing']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 8 (Tests)")
    elif not progress['cell_9_deployment']:
        print("\n🚀 Prochaine étape: Exécuter la cellule 9 (Déploiement)")
    else:
        print("\n🎉 Toutes les étapes sont complétées !")

# Vérifier l'état actuel
check_progress()

# Instructions pour l'utilisateur
print("\n💡 Instructions:")
print("1. Exécutez cette cellule pour voir l'état d'avancement")
print("2. Chaque cellule mettra à jour automatiquement sa progression")
print("3. Si le processus s'arrête, relancez simplement cette cellule")
print("4. Continuez avec la cellule suggérée")
print("\n🔄 Note: Le système est conçu pour supporter les arrêts/redémarrages")


# 🚀 AlphaBot ML/DL Training - Google Colab

## 📋 Vue d'ensemble

Ce notebook entraîne les modèles Machine Learning et Deep Learning d'AlphaBot :
- Pattern Detector (LSTM + CNN)
- Sentiment Analyzer (FinBERT + RoBERTa)
- RAG Integrator (Embeddings + FAISS)

## ⚡ Optimisations
- GPU/TPU acceleration
- Mixed precision training
- Memory management
- Automatic checkpoints
- Timeout protection

In [None]:
# CELLULE 1: Setup GPU/TPU optimisé
import tensorflow as tf
import torch
import json
import logging
from datetime import datetime
import numpy as np
import pandas as pd

# Configuration logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# Détection GPU/TPU
try:
    # Détecter TPU
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver()
    tf.config.experimental_connect_to_cluster(tpu)
    tf.tpu.experimental.initialize_tpu_system(tpu)
    strategy = tf.distribute.TPUStrategy(tpu)
    print('✅ TPU détectée et configurée')
except:
    try:
        # Détecter GPU
        gpus = tf.config.list_physical_devices('GPU')
        if gpus:
            for gpu in gpus:
                tf.config.experimental.set_memory_growth(gpu, True)
            strategy = tf.distribute.MirroredStrategy()
            print(f'✅ {len(gpus)} GPU(s) détectée(s)')
        else:
            strategy = tf.distribute.get_strategy()
            print('⚠️ Aucun GPU/TPU détecté, utilisation du CPU')
    except Exception as e:
        strategy = tf.distribute.get_strategy()
        print(f'⚠️ Erreur de configuration GPU: {e}')

# Activer mixed precision
try:
    policy = tf.keras.mixed_precision.Policy('mixed_float16')
    tf.keras.mixed_precision.set_global_policy(policy)
    print('✅ Mixed precision activée')
except:
    print('⚠️ Mixed precision non disponible')

# Afficher les infos
print(f"\n📊 Configuration:")
print(f"- TensorFlow: {tf.__version__}")
print(f"- PyTorch: {torch.__version__}")
print(f"- Strategy: {strategy}")
print(f"- GPUs disponibles: {tf.config.list_physical_devices('GPU')}")

# Vérifier CUDA
if torch.cuda.is_available():
    print(f"- CUDA disponible: {torch.version.cuda}")
    print(f"- GPU courant: {torch.cuda.get_device_name(0)}")
    print(f"- Mémoire GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")

In [None]:
print("🔧 Configuration Google Drive (résiliente v2)...")
from google.colab import drive
import os, shutil, time

MOUNT_POINT = '/content/drive'

def _safe_cleanup_mount_point(mp: str):
    try:
        # Sécuriser: si bindé ou symlink, supprimer l'entrée
        if os.path.islink(mp):
            print("ℹ️ Le point de montage est un symlink — suppression...")
            os.unlink(mp)
        # Si dossier existe et contient des fichiers résiduels locaux (pas Drive), on nettoie
        if os.path.isdir(mp):
            for entry in os.listdir(mp):
                p = os.path.join(mp, entry)
                try:
                    if os.path.isfile(p) or os.path.islink(p):
                        os.remove(p)
                    elif os.path.isdir(p):
                        shutil.rmtree(p)
                except Exception as e:
                    print(f"⚠️ Ignoré pendant nettoyage: {p} -> {e}")
        else:
            os.makedirs(mp, exist_ok=True)
    except Exception as e:
        print(f"⚠️ Problème nettoyage mount point: {e}")

def _force_unmount():
    try:
        drive.flush_and_unmount()
        print("ℹ️ flush_and_unmount exécuté")
    except Exception as e:
        print(f"ℹ️ flush_and_unmount non nécessaire: {e}")
    # En plus, tenter umount système si nécessaire
    try:
        os.system('fusermount -u /content/drive 2>/dev/null || true')
        os.system('umount /content/drive 2>/dev/null || true')
    except Exception as e:
        print(f"ℹ️ umount non nécessaire: {e}")

print("🔎 État initial:")
print(f" - ismount: {os.path.ismount(MOUNT_POINT)}")
print(f" - existe: {os.path.exists(MOUNT_POINT)}")
try:
    print(f" - contenu: {os.listdir(MOUNT_POINT) if os.path.isdir(MOUNT_POINT) else 'N/A'}")
except Exception as _:
    print(" - contenu: N/A")

# Étape 1: forcer un démontage (au cas où)
_force_unmount()
time.sleep(1)

# Étape 2: nettoyage du point de montage
_safe_cleanup_mount_point(MOUNT_POINT)
time.sleep(0.5)

# Étape 3: montage forcé avec gestion des erreurs
try:
    drive.mount(MOUNT_POINT, force_remount=True)
    print("✅ Drive monté (v2)")
except Exception as e:
    msg = str(e)
    print(f"❌ drive.mount a échoué: {msg}")
    if 'Mountpoint must not already contain files' in msg or 'symlink' in msg.lower():
        print("🔧 Correction approfondie: suppression et recréation du dossier de montage")
        try:
            # Supprimer complètement et recréer /content/drive
            if os.path.exists(MOUNT_POINT):
                shutil.rmtree(MOUNT_POINT, ignore_errors=True)
            os.makedirs(MOUNT_POINT, exist_ok=True)
        except Exception as e2:
            print(f"⚠️ Impossible de recréer {MOUNT_POINT}: {e2}")
        # Retenter un dernier montage
        drive.mount(MOUNT_POINT, force_remount=True)
        print("✅ Drive monté après recréation du dossier")
    else:
        raise

# Étape 4: préparer l'arborescence projet
base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
os.makedirs(base_path, exist_ok=True)
for sub in ('data', 'models', 'checkpoints', 'logs'):
    os.makedirs(f"{base_path}/{sub}", exist_ok=True)
print(f"📁 Répertoires prêts sous: {base_path}")

# Vérification finale
print("🔎 Vérification finale:")
print(f" - ismount: {os.path.ismount(MOUNT_POINT)}")
try:
    print(f" - contenu: {os.listdir(MOUNT_POINT)}")
except Exception:
    print(" - contenu: N/A")


In [None]:
# CELLULE 3: Code AlphaBot setup
# Définir le chemin de base si pas déjà défini
if 'base_path' not in globals():
    base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
    os.makedirs(base_path, exist_ok=True)

import subprocess
import sys
from pathlib import Path

# Cloner le dépôt AlphaBot
if not Path('/content/alphabot').exists():
    print("📥 Clonage du dépôt AlphaBot...")
    subprocess.run(['git', 'clone', 'https://github.com/thomy03/alphabot.git', '/content/alphabot'], check=True)
else:
    print("📂 Dépôt AlphaBot déjà présent")

# Installer les dépendances
print("📦 Installation des dépendances...")
try:
    subprocess.run(['pip', 'install', '-r', '/content/alphabot/requirements_colab.txt'], check=True)
    print("✅ Dépendances installées avec succès")
except subprocess.CalledProcessError as e:
    print(f"⚠️ Erreur lors de l'installation: {e}")
    print("🔧 Installation des dépendances essentielles manuellement...")
    essential_packages = [
        'tensorflow', 'torch', 'transformers', 'sentence-transformers', 
        'faiss-cpu', 'yfinance', 'pandas', 'numpy', 'scikit-learn',
        'matplotlib', 'seaborn', 'tqdm', 'requests'
    ]
    for package in essential_packages:
        try:
            result = subprocess.run(['pip', 'install', package], check=True, capture_output=True, text=True)
            print(f"✅ {package} installé")
        except subprocess.CalledProcessError as e:
            print(f"❌ Échec installation {package}: {e.stderr.strip() if e.stderr else 'Erreur inconnue'}")
        except Exception as e:
            print(f"❌ Échec installation {package}: {str(e)}")

# Importer les modules AlphaBot
sys.path.append('/content')
sys.path.append('/content/alphabot')

# Vérifier que le dossier alphabot existe
import os
if not os.path.exists('/content/alphabot/alphabot/ml'):
    print("❌ Dossier alphabot/ml non trouvé")
    print("📂 Structure du dossier:")
    if os.path.exists('/content/alphabot'):
        for root, dirs, files in os.walk('/content/alphabot'):
            level = root.replace('/content/alphabot', '').count(os.sep)
            indent = ' ' * 2 * level
            print(f"{indent}{os.path.basename(root)}/")
            subindent = ' ' * 2 * (level + 1)
            for file in files[:5]:  # Limiter à 5 fichiers par dossier
                print(f"{subindent}{file}")
            if len(files) > 5:
                print(f"{subindent}... et {len(files)-5} autres fichiers")
else:
    try:
        from alphabot.ml.pattern_detector import MLPatternDetector
        from alphabot.ml.sentiment_analyzer import SentimentAnalyzer
        from alphabot.ml.rag_integrator import RAGIntegrator
        print("✅ Modules AlphaBot importés avec succès")
        
        # Initialiser les composants uniquement si l'import a réussi
        try:
            pattern_detector = MLPatternDetector()
            sentiment_analyzer = SentimentAnalyzer()
            rag_integrator = RAGIntegrator()
            print("✅ Composants ML initialisés")
        except Exception as e:
            print(f"❌ Erreur d'initialisation: {e}")
            print("🔧 Les composants seront créés plus tard dans le notebook")
            
    except Exception as e:
        print(f"❌ Erreur d'import: {e}")
        print("🔧 Création des modules de secours...")
        
        # Créer des classes de secours pour permettre au notebook de continuer
        class MLPatternDetector:
            def __init__(self):
                print("🔧 MLPatternDetector de secours créé")
        
        class SentimentAnalyzer:
            def __init__(self):
                print("🔧 SentimentAnalyzer de secours créé")
        
        class RAGIntegrator:
            def __init__(self):
                print("🔧 RAGIntegrator de secours créé")
        
        # Initialiser les composants de secours
        pattern_detector = MLPatternDetector()
        sentiment_analyzer = SentimentAnalyzer()
        rag_integrator = RAGIntegrator()
        print("✅ Composants de secours initialisés")

# Importer les utilitaires (avec gestion d'erreur)
try:
    from colab_utils import ColabMemoryMonitor, create_colab_callbacks
    from drive_manager import DriveManager
    drive_manager = DriveManager(base_path)
    memory_monitor = ColabMemoryMonitor()
    print("✅ Utilitaires importés")
except Exception as e:
    print(f"⚠️ Utilitaires non disponibles: {e}")
    # Créer des utilitaires de secours
    class DriveManager:
        def __init__(self, path):
            self.path = path
        def save_model(self, **kwargs):
            print(f"🔧 Sauvegarde simulée dans {self.path}")
    
    class ColabMemoryMonitor:
        def get_memory_usage(self):
            return {"percent_used": 50.0}
    
    drive_manager = DriveManager(base_path)
    memory_monitor = ColabMemoryMonitor()
    print("✅ Utilitaires de secours créés")


In [None]:
# CELLULE 4: Téléchargement des données
# Définir le chemin de base si pas déjà défini
if 'base_path' not in globals():
    base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
    os.makedirs(base_path, exist_ok=True)

import yfinance as yf
import pandas as pd
from datetime import datetime, timedelta
import numpy as np

# Configuration
symbols = ['AAPL', 'GOOGL', 'MSFT', 'TSLA', 'AMZN']
end_date = datetime.now()
start_date = end_date - timedelta(days=365*2)  # 2 ans de données

print(f"📥 Téléchargement des données pour {symbols}...")
print(f"📅 Période: {start_date.strftime('%Y-%m-%d')} à {end_date.strftime('%Y-%m-%d')}")

# Télécharger les données
all_data = {}
for symbol in symbols:
    try:
        # Spécifier explicitement auto_adjust pour éviter le warning
        data = yf.download(symbol, start=start_date, end=end_date, auto_adjust=False)
        if not data.empty:
            all_data[symbol] = data
            print(f"✅ {symbol}: {len(data)} jours de données")
        else:
            print(f"❌ {symbol}: Pas de données disponibles")
    except Exception as e:
        print(f"❌ {symbol}: Erreur de téléchargement - {e}")

# Sauvegarder les données
import pickle
data_path = f"{base_path}/data/market_data.pkl"
with open(data_path, 'wb') as f:
    pickle.dump(all_data, f)

print(f"\n💾 Données sauvegardées dans: {data_path}")
print(f"📊 Total symboles: {len(all_data)}")

# Afficher un exemple
if all_data:
    sample_symbol = list(all_data.keys())[0]
    sample_data = all_data[sample_symbol]
    print(f"\n📈 Exemple pour {sample_symbol}:")
    print(f"- Première date: {sample_data.index[0].strftime('%Y-%m-%d')}")
    print(f"- Dernière date: {sample_data.index[-1].strftime('%Y-%m-%d')}")
    
    # Calculer et afficher les statistiques sans warnings
    mean_price = float(sample_data['Close'].mean())
    volatility = float(sample_data['Close'].pct_change().std() * 100)
    
    print(f"- Prix moyen: ${mean_price:.2f}")
    print(f"- Volatilité: {volatility:.2f}%")


In [None]:
print("🧠 Entraînement du Pattern Detector (LSTM + CNN)...")

# Importer les bibliothèques nécessaires
import tensorflow as tf
from tensorflow import keras
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib.pyplot as plt
import os
import pickle
from datetime import datetime, timedelta
import yfinance as yf

# Charger les données depuis la cellule précédente
try:
    # Essayer de charger depuis le pickle sauvegardé
    with open(f'{base_path}/data/market_data.pkl', 'rb') as f:
        all_data = pickle.load(f)
    print("✅ Données chargées depuis le pickle")
except:
    print("🔧 Re-téléchargement des données...")
    # Re-télécharger les données si le pickle n'est pas disponible
    symbols = ['AAPL', 'GOOGL', 'MSFT', 'TSLA', 'AMZN']
    end_date = datetime.now().strftime('%Y-%m-%d')
    start_date = (datetime.now() - timedelta(days=730)).strftime('%Y-%m-%d')
    
    all_data = {}
    for symbol in symbols:
        print(f"📥 Téléchargement des données pour {symbol}...")
        data = yf.download(symbol, start=start_date, end=end_date, auto_adjust=False)
        if not data.empty:
            all_data[symbol] = data
            print(f"✅ {symbol}: {len(data)} jours de données")
        else:
            print(f"⚠️ {symbol}: Pas de données disponibles")
    
    # Sauvegarder pour éviter de re-télécharger
    try:
        os.makedirs(f'{base_path}/data', exist_ok=True)
        with open(f'{base_path}/data/market_data.pkl', 'wb') as f:
            pickle.dump(all_data, f)
        print(f"💾 Données sauvegardées dans: {base_path}/data/market_data.pkl")
    except Exception as e:
        print(f"⚠️ Erreur de sauvegarde: {e}")

print(f"📊 Total symboles: {len(all_data)}")

# Préparer les données
print("🔧 Préparation des données (sécurisée)...")

print("🔧 Préparation des données (sécurisée v2 - yfinance compatibles)...")
def prepare_pattern_training_data(all_data):
    import numpy as np
    import pandas as pd

    def normalize_yf_cols(df):
        # Aplatissement MultiIndex éventuel
        if isinstance(df.columns, pd.MultiIndex):
            df.columns = ['_'.join([str(c) for c in col if c is not None]) for col in df.columns]
        else:
            df.columns = [str(c) for c in df.columns]
        # Mapping de colonnes standards possibles
        candidates = {}
        for key in ['Close', 'Adj Close', 'Adj_Close', 'Close_Adj Close']:
            candidates['Close'] = candidates.get('Close') or next((c for c in df.columns if c.lower().replace(' ', '').replace('-', '_') == key.lower().replace(' ', '').replace('-', '_')), None)
        for key in ['Volume']:
            candidates['Volume'] = candidates.get('Volume') or next((c for c in df.columns if c.lower() == key.lower()), None)
        for key in ['High']:
            candidates['High'] = candidates.get('High') or next((c for c in df.columns if c.lower() == key.lower()), None)
        for key in ['Low']:
            candidates['Low'] = candidates.get('Low') or next((c for c in df.columns if c.lower() == key.lower()), None)
        return candidates

    X_train, y_train = [], []
    for symbol, data in all_data.items():
        try:
            if data is None or not hasattr(data, 'empty') or data.empty:
                print(f"⚠️ {symbol}: dataset vide/None, ignoré")
                continue

            data = data.copy()
            data = data.sort_index()

            # Détecter les colonnes réelles à utiliser
            cols = normalize_yf_cols(data)
            required = ['Close', 'Volume', 'High', 'Low']
            if not all(cols.get(k) for k in required):
                print(f"⚠️ {symbol}: colonnes manquantes après normalisation {cols}, ignoré")
                continue

            close_col = cols['Close']; vol_col = cols['Volume']; hi_col = cols['High']; lo_col = cols['Low']
            # Nettoyer NA
            data = data.dropna(subset=[close_col, vol_col, hi_col, lo_col])

            n = len(data)
            if n < 36:
                print(f"ℹ️ {symbol}: pas assez de points ({n}), ignoré")
                continue

            # Fenêtrage
            for i in range(0, n - 35):
                seq = data.iloc[i:i+30]
                next5 = data.iloc[i+30:i+35]
                if seq[[close_col, vol_col, hi_col, lo_col]].isnull().any().any():
                    continue
                if next5[[close_col]].isnull().any().any():
                    continue

                close = np.asarray(seq[close_col].values, dtype=np.float32).reshape(-1, 1)
                volume = np.asarray(seq[vol_col].values, dtype=np.float32).reshape(-1, 1)
                spread = np.asarray((seq[hi_col] - seq[lo_col]).values, dtype=np.float32).reshape(-1, 1)
                features = np.concatenate([close, volume, spread], axis=1)
                if features.shape != (30, 3):
                    continue

                current_price = float(seq[close_col].iloc[-1])
                if current_price == 0:
                    continue
                future_mean = float(np.mean(next5[close_col].values))
                future_return = (future_mean - current_price) / current_price

                if future_return > 0.02:
                    label = 2
                elif future_return < -0.02:
                    label = 0
                else:
                    label = 1

                X_train.append(features)
                y_train.append(label)

        except Exception as e:
            print(f"⚠️ Erreur sur {symbol}, segment ignoré: {e}")
            continue

    X_train = np.array(X_train, dtype=np.float32)
    y_train = np.array(y_train, dtype=np.int32)
    print(f"✅ Préparation terminée: X={X_train.shape}, y={y_train.shape}")
    return X_train, y_train

# Reconstruire X/y avec la nouvelle fonction
X_train, y_train = prepare_pattern_training_data(all_data)
print(f"📊 Données préparées: {X_train.shape[0]} échantillons")
X_train, y_train = prepare_pattern_training_data(all_data)
print(f"📊 Données préparées: {X_train.shape[0]} échantillons")
print(f"📊 Données préparées: {X_train.shape[0]} échantillons")

# Créer le modèle GPU optimisé pour A100
print("🔧 Création du modèle GPU (compatible L4)...")

# Vérifier la disponibilité du GPU
print(f"📊 GPU disponible: {tf.config.list_physical_devices('GPU')}")

# Configuration simple pour éviter les crashs
# tf.keras.mixed_precision.set_global_policy('mixed_float16')  # Désactivé pour éviter les crashs

# Créer le modèle
strategy = tf.distribute.get_strategy()

with strategy.scope():
    
# Désactiver l'utilisation CuDNN en forçant CPU si nécessaire
import os
os.environ.setdefault('TF_FORCE_GPU_ALLOW_GROWTH', 'true')
# Important: éviter le path CuDNN en fixant un device CPU pour LSTM
use_cpu_lstm = True

    
# Désactiver l'utilisation CuDNN en forçant CPU si nécessaire
import os
os.environ.setdefault('TF_FORCE_GPU_ALLOW_GROWTH', 'true')
# Important: éviter le path CuDNN en fixant un device CPU pour LSTM
use_cpu_lstm = True

    # Utiliser un modèle plus simple pour éviter les crashs GPU
    inputs = tf.keras.Input(shape=(30, 3), name='input_layer')
    
    # Normalisation
    x = tf.keras.layers.BatchNormalization()(inputs)
    
    # Une seule couche LSTM
    import tensorflow as tf
    with tf.device('/CPU:0'):
        import tensorflow as tf
    with tf.device('/CPU:0'):
        x = tf.keras.layers.LSTM(
        activation='tanh', recurrent_activation='sigmoid', use_bias=True, unit_forget_bias=True, unroll=False, time_major=False,
        activation='tanh', recurrent_activation='sigmoid', use_bias=True, unit_forget_bias=True, unroll=False, time_major=False,
        64, 
        return_sequences=False,
        kernel_initializer='glorot_uniform',
        recurrent_initializer='orthogonal',
        name='lstm_main'
    )(x)
    x = tf.keras.layers.Dropout(0.3)(x)
    
    # Couches denses
    x = tf.keras.layers.Dense(32, activation='relu')(x)
    x = tf.keras.layers.BatchNormalization()(x)
    x = tf.keras.layers.Dropout(0.3)(x)
    
    outputs = tf.keras.layers.Dense(3, activation='softmax', name='output')(x)
    
    # Créer le modèle
    model = tf.keras.Model(inputs=inputs, outputs=outputs, name='simplified_gpu_model')
    
    # Compiler avec des paramètres simples
    model.compile(
        optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )

# Afficher le résumé du modèle
print("✅ Modèle GPU optimisé créé:")
model.summary()

# Callbacks simplifiés pour éviter les crashs
callbacks = [
    tf.keras.callbacks.EarlyStopping(
        patience=10, 
        restore_best_weights=True,
        monitor='val_loss',
        verbose=1
    ),
    tf.keras.callbacks.ReduceLROnPlateau(
        factor=0.5, 
        patience=5, 
        monitor='val_loss',
        verbose=1
    )
]

# Vérifier et préparer les données
print(f"📊 Vérification des données:")
print(f"  - X_train shape: {X_train.shape}")
print(f"  - y_train shape: {y_train.shape}")
print(f"  - X_train dtype: {X_train.dtype}")
print(f"  - y_train dtype: {y_train.dtype}")
print(f"  - Valeurs uniques dans y_train: {np.unique(y_train)}")

# S'assurer que les données sont du bon type pour GPU
X_train = X_train.astype(np.float32)
y_train = y_train.astype(np.int32)

# Normaliser les données (ou fallback si vide)
if X_train.shape[0] == 0:
    print("⚠️ Aucun échantillon réel. Génération d'un dataset synthétique minimal (CPU)...")
    import numpy as np
    X_train = np.random.randn(256, 30, 3).astype(np.float32)
    y_train = np.random.randint(0, 3, size=(256,)).astype(np.int32)
    print(f"✅ Dataset synthétique: X={X_train.shape}, y={y_train.shape}")
# Normaliser les données pour GPU
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train.reshape(-1, X_train.shape[-1])).reshape(X_train.shape)

# Entraîner avec des paramètres optimisés pour A100
print("🚀 Début de l'entraînement GPU (compatible L4)...")
try:
    try:
        history = model.fit(
        X_train_scaled, y_train,
        epochs=20,  # Réduit pour éviter les crashs
        batch_size=64,
        validation_split=0.2,
        callbacks=callbacks,
        verbose=1
    )
    print("✅ Entraînement GPU terminé avec succès")
    
    # Sauvegarder le modèle et le scaler
    try:
        model.save(f'{base_path}/models/simplified_gpu_model.keras')
        with open(f'{base_path}/models/simplified_scaler.pkl', 'wb') as f:
            pickle.dump(scaler, f)
        print("✅ Modèle GPU et scaler sauvegardés")
    except Exception as e:
        print(f"⚠️ Erreur de sauvegarde: {e}")
    
    # Afficher les courbes d'apprentissage
    try:
        plt.figure(figsize=(12, 4))
        
        plt.subplot(1, 2, 1)
        plt.plot(history.history['accuracy'], label='Training')
        if 'val_accuracy' in history.history:
            plt.plot(history.history['val_accuracy'], label='Validation')
        plt.title('Model Accuracy')
        plt.legend()
        
        plt.subplot(1, 2, 2)
        plt.plot(history.history['loss'], label='Training')
        if 'val_loss' in history.history:
            plt.plot(history.history['val_loss'], label='Validation')
        plt.title('Model Loss')
        plt.legend()
        
        plt.tight_layout()
        plt.show()
    except Exception as e:

        if "DNN" in str(e) or "CuDNN" in str(e):

            print("⚠️ DNN/CuDNN non supporté sur ce GPU. Passage à un modèle Dense-only CPU...")

            with tf.distribute.get_strategy().scope():

                model = tf.keras.Sequential([

                    tf.keras.layers.Input(shape=(30,3)),

                    tf.keras.layers.Flatten(),

                    tf.keras.layers.Dense(64, activation='relu'),

                    tf.keras.layers.Dropout(0.3),

                    tf.keras.layers.Dense(32, activation='relu'),

                    tf.keras.layers.Dense(3, activation='softmax')

                ])

                model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

            history = model.fit(

                X_train_scaled, y_train,

                epochs=10,

                batch_size=64,

                validation_split=0.2,

                verbose=1

            )

        else:

            raise

    except Exception as e:
        print(f"⚠️ Erreur lors de l'affichage des courbes: {e}")
        
except Exception as e:
    print(f"❌ Erreur lors de l'entraînement GPU: {e}")
    print("🔧 Analyse de l'erreur:")
    print(f"  - Type d'erreur: {type(e).__name__}")
    print(f"  - Message: {str(e)}")
    
    # Si erreur CuDNN, essayer une approche CPU
    if "CuDNN" in str(e) or "DNN" in str(e):
        print("🔧 Détection d'erreur CuDNN, passage en mode CPU...")
        import os
        os.environ['CUDA_VISIBLE_DEVICES'] = '-1'
        
        # Recréer un modèle CPU simple
        with tf.distribute.get_strategy().scope():
            cpu_model = tf.keras.Sequential([
                tf.keras.layers.Input(shape=(30, 3)),
                tf.keras.layers.Flatten(),
                tf.keras.layers.Dense(128, activation='relu'),
                tf.keras.layers.Dropout(0.3),
                tf.keras.layers.Dense(64, activation='relu'),
                tf.keras.layers.Dropout(0.3),
                tf.keras.layers.Dense(32, activation='relu'),
                tf.keras.layers.Dense(3, activation='softmax')
            ])
            
            cpu_model.compile(
                optimizer='adam',
                loss='sparse_categorical_crossentropy',
                metrics=['accuracy']
            )
        
        # Entraîner le modèle CPU
        history = cpu_model.fit(
            X_train_scaled, y_train,
            epochs=15,  # Réduit pour éviter les crashs
            batch_size=32,
            validation_split=0.2,
            verbose=1
        )
        
        model = cpu_model
        print("✅ Modèle CPU de secours entraîné")
    else:
        raise e


In [None]:
# CELLULE 6: Entraînement Sentiment Analyzer
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
import torch
from torch.utils.data import Dataset
import numpy as np
import pandas as pd

# Définir le chemin de base
base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
os.makedirs(base_path, exist_ok=True)

print("💭 Entraînement du Sentiment Analyzer (FinBERT + RoBERTa)...")

# Créer un dataset de démonstration
class SentimentDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_length=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        text = str(self.texts[idx])
        label = self.labels[idx]
        
        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=self.max_length,
            return_tensors='pt'
        )
        
        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

# Données de démonstration
demo_texts = [
    "Apple reports record quarterly earnings",
    "Google stock drops on regulatory concerns",
    "Tesla announces new battery technology",
    "Microsoft cloud growth exceeds expectations",
    "Amazon faces antitrust investigation",
    "Meta launches new VR platform",
    "NVIDIA chips power AI revolution",
    "Bitcoin reaches new all-time high",
    "Federal Reserve raises interest rates",
    "Oil prices surge on supply concerns"
]

demo_labels = [2, 0, 2, 2, 0, 2, 2, 2, 0, 0]  # 0=négatif, 1=neutre, 2=positif

# Initialiser FinBERT
model_name = "yiyanghkust/finbert-tone"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Créer le dataset
dataset = SentimentDataset(demo_texts, demo_labels, tokenizer)

# Configuration de l'entraînement
training_args = TrainingArguments(
    output_dir=f'{base_path}/checkpoints/sentiment',
    num_train_epochs=3,
    per_device_train_batch_size=4,
    warmup_steps=10,
    weight_decay=0.01,
    logging_dir=f'{base_path}/logs/sentiment',
    logging_steps=1,
    save_steps=10,
    evaluation_strategy="no",
    save_strategy="epoch"
)

# Créer le trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)

# Entraîner
print("🚀 Début de l'entraînement FinBERT...")
trainer.train()

# Sauvegarder le modèle
model.save_pretrained(f'{base_path}/models/finbert_sentiment')
tokenizer.save_pretrained(f'{base_path}/models/finbert_sentiment')
print("✅ Modèle FinBERT sauvegardé")

# Tester le modèle
print("\n🧪 Test du modèle:")
test_texts = [
    "Strong earnings report drives stock higher",
    "Company faces bankruptcy concerns",
    "Stable performance in challenging market"
]

for text in test_texts:
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    sentiment_idx = torch.argmax(predictions).item()
    sentiment_map = {0: "Négatif", 1: "Neutre", 2: "Positif"}
    confidence = predictions[0][sentiment_idx].item()
    print(f"'{text[:50]}...' -> {sentiment_map[sentiment_idx]} ({confidence:.2f})")

In [None]:
# CELLULE 7: Entraînement RAG Integrator
# Définir le chemin de base si pas déjà défini
if 'base_path' not in globals():
    base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
    os.makedirs(base_path, exist_ok=True)

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import pandas as pd
from pathlib import Path

print("🔍 Entraînement du RAG Integrator (Embeddings + FAISS)...")

# Créer des documents de démonstration
demo_documents = [
    "Apple Inc. is a technology company that designs, manufactures, and markets smartphones, personal computers, tablets, wearables, and accessories worldwide.",
    "Alphabet Inc. provides various products and platforms in the United States, Europe, the Middle East, Africa, the Asia-Pacific, Canada, and Latin America.",
    "Microsoft Corporation develops, licenses, and supports software, services, devices, and solutions worldwide.",
    "Amazon.com, Inc. engages in the retail sale of consumer products and subscriptions in North America and internationally.",
    "Tesla, Inc. designs, develops, manufactures, leases, and sells electric vehicles, and energy generation and storage systems.",
    "Meta Platforms, Inc. develops products that enable people to connect and share with friends and family through mobile devices, personal computers, virtual reality headsets, and wearables.",
    "NVIDIA Corporation provides graphics, computing, and networking solutions in the United States, Taiwan, China, and internationally.",
    "Netflix, Inc. provides entertainment services worldwide. It offers a TV shows, movies, and games.",
    "The Goldman Sachs Group, Inc. provides a range of financial services worldwide.",
    "JPMorgan Chase & Co. provides financial services worldwide.",
    "The Bank of America Corporation provides banking and financial products and services for consumers, small businesses, and institutions.",
    "Walmart Inc. engages in the operation of retail, wholesale, and other units worldwide.",
    "The Procter & Gamble Company provides branded consumer packaged goods worldwide.",
    "The Coca-Cola Company is a beverage company.",
    "PepsiCo, Inc. manufactures, markets, and distributes various beverages and convenient foods worldwide.",
    "The Home Depot, Inc. operates as a home improvement retailer.",
    "The Boeing Company operates in the aerospace industry.",
    "The Exxon Mobil Corporation explores for and produces crude oil and natural gas.",
    "The Chevron Corporation operates through its Upstream and Downstream segments.",
    "The Johnson & Johnson engages in the research and development, manufacture, and sale of various products in the healthcare field.",
    "The Visa Inc. operates as a payments technology company worldwide."
]

# Initialiser le modèle d'embeddings
print("📥 Chargement du modèle d'embeddings...")
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

# Créer les embeddings
print("🔢 Création des embeddings...")
document_embeddings = embedding_model.encode(demo_documents)
print(f"✅ Embeddings créés: {document_embeddings.shape}")

# Créer l'index FAISS
dimension = document_embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(document_embeddings)

print(f"✅ Index FAISS créé avec {index.ntotal} documents")

# Sauvegarder l'index et les documents
faiss.write_index(index, f'{base_path}/models/faiss_index.bin')

import pickle
with open(f'{base_path}/models/documents.pkl', 'wb') as f:
    pickle.dump(demo_documents, f)

print("💾 Index et documents sauvegardés")

# Tester la recherche sémantique
print("\n🧪 Test de recherche sémantique:")
test_queries = [
    "electric vehicle company",
    "social media platform",
    "banking services",
    "beverage company",
    "technology giant"
]

for query in test_queries:
    # Créer l'embedding de la requête
    query_embedding = embedding_model.encode([query])[0].reshape(1, -1)
    
    # Rechercher les documents les plus similaires
    k = 3
    distances, indices = index.search(query_embedding, k)
    
    print(f"\n🔍 Requête: '{query}'")
    for i, (dist, idx) in enumerate(zip(distances[0], indices[0])):
        doc_preview = demo_documents[idx][:80] + "..."
        print(f"  {i+1}. {doc_preview} (distance: {dist:.4f})")

In [None]:
# CELLULE 8: Intégration et tests
# Définir le chemin de base si pas déjà défini
if 'base_path' not in globals():
    base_path = '/content/drive/MyDrive/AlphaBot_ML_Training'
    os.makedirs(base_path, exist_ok=True)

import json
import numpy as np
from datetime import datetime
import pickle

print("🔧 Intégration des modèles et tests finaux...")

# Charger tous les modèles
try:
    # Charger le modèle LSTM
    lstm_model = tf.keras.models.load_model(f'{base_path}/models/lstm_pattern_model.h5')
    print("✅ Modèle LSTM chargé")
    
    # Charger le modèle FinBERT
    from transformers import AutoTokenizer, AutoModelForSequenceClassification
    sentiment_tokenizer = AutoTokenizer.from_pretrained(f'{base_path}/models/finbert_sentiment')
    sentiment_model = AutoModelForSequenceClassification.from_pretrained(f'{base_path}/models/finbert_sentiment')
    print("✅ Modèle FinBERT chargé")
    
    # Charger l'index FAISS et les documents
    faiss_index = faiss.read_index(f'{base_path}/models/faiss_index.bin')
    with open(f'{base_path}/models/documents.pkl', 'rb') as f:
        documents = pickle.load(f)
    print("✅ Index FAISS et documents chargés")
    
except Exception as e:
    print(f"❌ Erreur de chargement des modèles: {e}")

# Test d'intégration complet
print("\n🧪 Test d'intégration complet:")

# 1. Test de détection de patterns
print("\n1. Test Pattern Detector:")
test_symbol = 'AAPL'
if test_symbol in all_data:
    test_data = all_data[test_symbol].tail(50)
    
    # Préparer les features
    prices = test_data['Close'].values
    returns = np.diff(prices) / prices[:-1]
    
    seq_prices = prices[-30:] / prices[-30]
    seq_returns = returns[-30:]
    seq_volume = test_data['Volume'].values[-30:] / np.mean(test_data['Volume'].values[-30:])
    
    features = np.column_stack([seq_prices, seq_returns, seq_volume]).reshape(1, 30, 3)
    
    # Prédiction
    prediction = lstm_model.predict(features, verbose=0)
    predicted_class = np.argmax(prediction[0])
    confidence = np.max(prediction[0])
    
    class_map = {0: 'DOWN', 1: 'SIDEWAYS', 2: 'UP'}
    print(f"   Prédiction: {class_map[predicted_class]} (confiance: {confidence:.2f})")

# 2. Test d'analyse de sentiment
print("\n2. Test Sentiment Analyzer:")
test_news = [
    "Apple announces breakthrough AI technology",
    "Market volatility concerns investors",
    "Tech sector shows steady growth"
]

for news in test_news:
    inputs = sentiment_tokenizer(news, return_tensors="pt", truncation=True, padding=True)
    outputs = sentiment_model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    sentiment_idx = torch.argmax(predictions).item()
    sentiment_map = {0: "Négatif", 1: "Neutre", 2: "Positif"}
    confidence = predictions[0][sentiment_idx].item()
    print(f"   '{news[:40]}...' -> {sentiment_map[sentiment_idx]} ({confidence:.2f})")

# 3. Test RAG
print("\n3. Test RAG Integrator:")
rag_queries = [
    "Which company focuses on electric vehicles?",
    "Find information about social media companies",
    "What companies are in the banking sector?"
]

for query in rag_queries:
    query_embedding = embedding_model.encode([query])[0].reshape(1, -1)
    k = 2
    distances, indices = faiss_index.search(query_embedding, k)
    
    print(f"   Query: '{query}'")
    for i, (dist, idx) in enumerate(zip(distances[0], indices[0])):
        doc_preview = documents[idx][:60] + "..."
        print(f"     Result {i+1}: {doc_preview}")

# Créer un rapport de performance
performance_report = {
    "timestamp": datetime.now().isoformat(),
    "models_trained": {
        "lstm_pattern_detector": {
            "status": "success",
            "accuracy": float(history.history['val_accuracy'][-1]) if 'history' in locals() else 0.0,
            "epochs_trained": len(history.history['accuracy']) if 'history' in locals() else 0
        },
        "finbert_sentiment": {
            "status": "success",
            "epochs_trained": 3,
            "model_size": "base"
        },
        "rag_integrator": {
            "status": "success",
            "documents_indexed": len(documents),
            "embedding_dimension": document_embeddings.shape[1]
        }
    },
    "system_info": {
        "tensorflow_version": tf.__version__,
        "torch_version": torch.__version__,
        "gpu_available": len(tf.config.list_physical_devices('GPU')) > 0,
        "tpu_available": 'tpu' in locals()
    },
    "training_duration": "N/A",
    "data_used": {
        "symbols": list(all_data.keys()),
        "total_data_points": sum(len(data) for data in all_data.values())
    }
}

# Sauvegarder le rapport
report_path = f'{base_path}/exports/performance_report.json'
with open(report_path, 'w') as f:
    json.dump(performance_report, f, indent=2)

print(f"\n📊 Rapport de performance sauvegardé: {report_path}")
print("✅ Entraînement ML/DL terminé avec succès!")

# Résumé final
print("\n" + "="*50)
print("🎉 RÉSUMÉ DE L'ENTRAÎNEMENT")
print("="*50)
print(f"📅 Date: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"🧠 Modèles entraînés: 3 (LSTM, FinBERT, RAG)")
print(f"📊 Données utilisées: {len(all_data)} symboles")
print(f"💾 Modèles sauvegardés dans: {base_path}/models/")
print(f"📋 Rapport disponible: {report_path}")
print("\n🚀 Prochaines étapes:")
print("   1. Pousser les modifications sur GitHub")
print("   2. Lancer les tests locaux")
print("   3. Déployer en production")
print("="*50)