In [1]:
"""
Notebook de diagnostic - Environnement SageMaker
Projet : Système de Recommandation MovieLens
Auteur : Gninninmaguignon Silué
Date : Octobre 2025
"""

# ============================================
# PARTIE 1 : VÉRIFICATION DE L'ENVIRONNEMENT
# ============================================

import sys
import boto3
import sagemaker
import torch
import pandas as pd
import numpy as np
from datetime import datetime

print("=" * 60)
print("🔍 DIAGNOSTIC DE L'ENVIRONNEMENT SAGEMAKER")
print("=" * 60)

# --- Version Python ---
print(f"\n✅ Python version: {sys.version}")

# --- Versions des bibliothèques ---
print(f"\n📦 Bibliothèques installées :")
print(f"  - boto3 (AWS SDK): {boto3.__version__}")
print(f"  - sagemaker: {sagemaker.__version__}")
print(f"  - PyTorch: {torch.__version__}")
print(f"  - pandas: {pd.__version__}")
print(f"  - numpy: {np.__version__}")

# --- Vérification GPU ---
print(f"\n🖥️ GPU disponible: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"  - Nom du GPU: {torch.cuda.get_device_name(0)}")
    print(f"  - Nombre de GPUs: {torch.cuda.device_count()}")
else:
    print("  ⚠️ Mode CPU (normal pour le développement)")

# ============================================
# PARTIE 2 : CONFIGURATION AWS
# ============================================

print("\n" + "=" * 60)
print("☁️ CONFIGURATION AWS")
print("=" * 60)

# --- Session SageMaker ---
sagemaker_session = sagemaker.Session()
region = sagemaker_session.boto_region_name
role = sagemaker.get_execution_role()

print(f"\n✅ Région AWS: {region}")
print(f"✅ Role IAM: {role}")

# --- Bucket S3 par défaut ---
default_bucket = sagemaker_session.default_bucket()
print(f"\n✅ Bucket S3 par défaut: s3://{default_bucket}")

# --- Informations sur le compte ---
sts_client = boto3.client('sts')
account_info = sts_client.get_caller_identity()
print(f"\n✅ Account ID: {account_info['Account']}")
print(f"✅ User ARN: {account_info['Arn']}")

# ============================================
# PARTIE 3 : STRUCTURE DU PROJET
# ============================================

print("\n" + "=" * 60)
print("📁 CRÉATION DE LA STRUCTURE DU PROJET")
print("=" * 60)

import os

# Créer la structure de dossiers
folders = [
    'data/raw',
    'data/processed',
    'data/sample',
    'models/saved_models',
    'models/checkpoints',
    'outputs/metrics',
    'outputs/plots',
    'outputs/logs',
    'src'
]

for folder in folders:
    os.makedirs(folder, exist_ok=True)
    print(f"✅ Créé: {folder}/")

# ============================================
# PARTIE 4 : TEST DE CONNEXION S3
# ============================================

print("\n" + "=" * 60)
print("🗄️ TEST DE CONNEXION S3")
print("=" * 60)

s3_client = boto3.client('s3')

# Créer un fichier test
test_file = 'outputs/logs/test_connection.txt'
with open(test_file, 'w') as f:
    f.write(f"Test de connexion S3 - {datetime.now()}\n")
    f.write(f"Projet: Système de Recommandation MovieLens\n")
    f.write(f"Région: {region}\n")

# Upload vers S3
s3_prefix = 'recommender-system-project'
s3_path = f"s3://{default_bucket}/{s3_prefix}/logs/test_connection.txt"

try:
    sagemaker_session.upload_data(
        path=test_file,
        bucket=default_bucket,
        key_prefix=f"{s3_prefix}/logs"
    )
    print(f"✅ Fichier test uploadé avec succès vers S3")
    print(f"   Chemin: {s3_path}")
except Exception as e:
    print(f"❌ Erreur lors de l'upload vers S3: {e}")

# ============================================
# PARTIE 5 : RÉSUMÉ ET PROCHAINES ÉTAPES
# ============================================

print("\n" + "=" * 60)
print("📊 RÉSUMÉ DU DIAGNOSTIC")
print("=" * 60)

print("\n✅ ENVIRONNEMENT PRÊT POUR LE PROJET")
print("\n📋 Informations importantes à noter :")
print(f"  1. Bucket S3: {default_bucket}")
print(f"  2. Région: {region}")
print(f"  3. Préfixe S3 du projet: {s3_prefix}")
print(f"  4. Role IAM: {role}")

print("\n🚀 PROCHAINES ÉTAPES :")
print("  1. ✅ Télécharger le dataset MovieLens vers S3")
print("  2. ⏳ Exploration des données (EDA)")
print("  3. ⏳ Preprocessing et feature engineering")
print("  4. ⏳ Entraînement du modèle")
print("  5. ⏳ Déploiement sur SageMaker Endpoint")

# Sauvegarder les configurations
config = {
    'bucket': default_bucket,
    'region': region,
    'role': role,
    's3_prefix': s3_prefix,
    'date': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
}

import json
with open('outputs/logs/config.json', 'w') as f:
    json.dump(config, f, indent=2)

print("\n✅ Configuration sauvegardée dans: outputs/logs/config.json")
print("\n" + "=" * 60)
print("✨ DIAGNOSTIC TERMINÉ AVEC SUCCÈS !")
print("=" * 60)

sagemaker.config INFO - Fetched defaults config from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/sagemaker-user/.config/sagemaker/config.yaml
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3Bucket
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3ObjectKeyPrefix
🔍 DIAGNOSTIC DE L'ENVIRONNEMENT SAGEMAKER

✅ Python version: 3.11.11 | packaged by conda-forge | (main, Dec  5 2024, 14:17:24) [GCC 13.3.0]

📦 Bibliothèques installées :
  - boto3 (AWS SDK): 1.39.11
  - sagemaker: 2.245.0
  - PyTorch: 2.6.0
  - pandas: 2.3.1
  - numpy: 1.26.4

🖥️ GPU disponible: False
  ⚠️ Mode CPU (normal pour le développement)

☁️ CONFIGURATION AWS
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Session.DefaultS3Bucket
sagemaker.config INFO - Applied value from config key = SageMaker.PythonSDK.Modules.Ses