In [2]:
# Cellule 1 : Configuration AWS et Définition des Chemins (CORRIGÉE)

import sagemaker
# Note : Nous importons sagemaker.inputs pour éviter l'erreur de majuscule
from sagemaker.pytorch import PyTorch
import os

# 1. Configuration de Session et Rôle IAM
sagemaker_session = sagemaker.Session()
try:
    # Obtenir le rôle d'exécution (doit être un rôle SageMaker - Execution)
    role = sagemaker.get_execution_role()
except ValueError:
    print("Erreur : Le rôle d'exécution n'a pas pu être obtenu. Veuillez le remplacer manuellement.")
    # À remplacer manuellement si l'obtention automatique échoue (décommenter la ligne suivante)
    role = 'arn:aws:iam::837520753042:role/service-role/AmazonSageMaker-ExecutionRole-20251009T161933'

# 2. Définition des Chemins S3
# Données Roboflow stockées ici
S3_DATA_PATH = 's3://car-damage-3051-images-raw/roboflow-car-damage-yolov11/' 
# Chemin de sortie pour le modèle
S3_OUTPUT_PATH = f's3://car-damage-3051-images-raw/output/yolo11-training/' 

# 3. Définition des Inputs (CORRECTION DE LA MAJUSCULE)
inputs = {
    'training': sagemaker.inputs.TrainingInput(s3_data=S3_DATA_PATH)
}

print(f"Rôle d'exécution : {role}")
print(f"Données lues depuis : {S3_DATA_PATH}")
print(f"Modèle sauvegardé vers : {S3_OUTPUT_PATH}")



# -------------------------------------------------

estimator = PyTorch(
    entry_point='train.py',              
    source_dir='../../src',                 
    role=role,                           
    framework_version='2.1',             
    py_version='py310',                  
    instance_count=1,
    instance_type='ml.g4dn.xlarge',      
    output_path=S3_OUTPUT_PATH,          
    
    # !!! NOUVEAUX PARAMÈTRES POUR LE SPOT TRAINING !!!
    use_spot_instances=True,             
    max_wait=36000,                      
    max_run=10800,                       
    # --------------------------------------------------
    
    hyperparameters={
        'epochs': 50,                   
        'imgsz': 640,                    
        'model': 'yolo11n.pt',           
        'batch': 16,                     
        'data': 'data.yaml'              
    },
    disable_profiler=True
)

# Lancement de la tâche (wait=False permet au notebook de ne pas bloquer)
estimator.fit(inputs=inputs, wait=False)

print("\nLa tâche d'entraînement YOLOv11 est lancée en mode SPOT !")
print(f"Nom de la tâche d'entraînement : {estimator.latest_training_job.job_name}")
print("Le statut peut rester sur 'Pending' quelques minutes en attendant l'instance Spot.")


Couldn't call 'get_role' to get Role ARN from role name vs-code to get Role path.


Erreur : Le rôle d'exécution n'a pas pu être obtenu. Veuillez le remplacer manuellement.
Rôle d'exécution : arn:aws:iam::837520753042:role/service-role/AmazonSageMaker-ExecutionRole-20251009T161933
Données lues depuis : s3://car-damage-3051-images-raw/roboflow-car-damage-yolov11/
Modèle sauvegardé vers : s3://car-damage-3051-images-raw/output/yolo11-training/


INFO:sagemaker.image_uris:image_uri is not presented, retrieving image_uri based on instance_type, framework etc.
INFO:sagemaker:Creating training-job with name: pytorch-training-2025-10-29-18-59-50-557



La tâche d'entraînement YOLOv11 est lancée en mode SPOT !
Nom de la tâche d'entraînement : pytorch-training-2025-10-29-18-59-50-557
Le statut peut rester sur 'Pending' quelques minutes en attendant l'instance Spot.


In [23]:

# -------------------------------------------------

estimator = PyTorch(
    entry_point='train.py',              
    source_dir='../../src',                 
    role=role,                           
    framework_version='2.1',             
    py_version='py310',                  
    instance_count=1,
    instance_type='ml.g4dn.xlarge',      
    output_path=S3_OUTPUT_PATH,          
    
    # !!! NOUVEAUX PARAMÈTRES POUR LE SPOT TRAINING !!!
    use_spot_instances=True,             
    max_wait=36000,                      
    max_run=10800,                       
    # --------------------------------------------------
    
    hyperparameters={
        'epochs': 50,                   
        'imgsz': 640,                    
        'model': 'yolo11n.pt',           
        'batch': 16,                     
        'data': 'data.yaml'              
    },
    disable_profiler=True
)

# Lancement de la tâche (wait=False permet au notebook de ne pas bloquer)
estimator.fit(inputs=inputs, wait=False)

print("\nLa tâche d'entraînement YOLOv11 est lancée en mode SPOT !")
print(f"Nom de la tâche d'entraînement : {estimator.latest_training_job.job_name}")
print("Le statut peut rester sur 'Pending' quelques minutes en attendant l'instance Spot.")


INFO:sagemaker.telemetry.telemetry_logging:SageMaker Python SDK will collect telemetry to help us better understand our user's needs, diagnose issues, and deliver additional features.
To opt out of telemetry, please disable via TelemetryOptOut parameter in SDK defaults config. For more information, refer to https://sagemaker.readthedocs.io/en/stable/overview.html#configuring-and-using-defaults-with-the-sagemaker-python-sdk.
INFO:sagemaker.image_uris:image_uri is not presented, retrieving image_uri based on instance_type, framework etc.
INFO:sagemaker.image_uris:image_uri is not presented, retrieving image_uri based on instance_type, framework etc.
INFO:sagemaker:Creating training-job with name: pytorch-training-2025-10-28-15-35-11-410
ERROR:sagemaker:Please check the troubleshooting guide for common errors: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-python-sdk-troubleshooting.html#sagemaker-python-sdk-troubleshooting-create-training-job
