#Utilitario para construir modelos de Machine Learning y Deep Learning


In [1]:
import sagemaker

sagemaker.config INFO - Not applying SDK defaults from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/sagemaker-user/.config/sagemaker/config.yaml


In [2]:
#Iniciamos sesión en el servicio de SageMaker
sesion =  sagemaker.Session()

In [3]:
#Obtenemos la ejecución en donde estamos trabajando
region = sesion.boto_region_name

In [4]:
#Verificamos
print(region)

us-east-1


In [5]:
#Obtenemos el rol de ejecución de SageMaker
#El rol de ejecución permite a SageMaker usar otros servicios de AWS
rol =  sagemaker.get_execution_role()

In [6]:
#Utilitario para leer archivos de datos
from sagemaker.inputs import TrainingInput

In [9]:
#Bucket en donde se encuentran los archivos
#IMPORTANTE: REEMPLAZAR "XXX" POR TUS INICIALES
bucket = "datasetsbdajac"

In [10]:
#Lectura de datos de entrenamiento
dataTrain = TrainingInput(
    f"s3://{bucket}/data/insurance_train/", #Ruta del archivo
    content_type = "text/csv", #Formato del archivo
    distribution = "FullyReplicated", #El archivo será copiado en todos los servidores
    s3_data_type = "S3Prefix", #Desde donde se lee el archivo (S3)
    input_mode = "File", #Los registros se encuentran dentro de archivos
    record_wrapping = "None" #Envoltorio de optimización
)

In [11]:
#Lectura de datos de validación
dataTest = TrainingInput(
    f"s3://{bucket}/data/insurance_train/", #Ruta del archivo
    content_type = "text/csv", #Formato del archivo
    distribution = "FullyReplicated", #El archivo será copiado en todos los servidores
    s3_data_type = "S3Prefix", #Desde donde se lee el archivo (S3)
    input_mode = "File", #Los registros se encuentran dentro de archivos
    record_wrapping = "None" #Envoltorio de optimización
)

In [12]:
#Definimos el nombre para nuestro job de entrenamiento
nombreDeJobDeEntrenamiento = "entrenamiento-prediccion-numerica"

In [13]:
#Definimos el algoritmo que queremos usar
algoritmo = "linear-learner"

In [14]:
#Definimos el tipo de predicción que hará el algoritmo
#Para una predicción numérica debemos definir "regressor"
tipoDePrediccion = "regressor"

In [15]:
#Definimos la cantidad de servidores
#Con 1, nuestro algoritmo se ejecutará en 1 servidor
#Con más de 1, nuestro algoritmo se ejecutará en un clúster de varios servidores
numeroDeServidores = 1

In [16]:
#Definimos el tipo de servidor
tipoDeServidor = "ml.m5.large"

In [17]:
#Cantidad de features
cantidadDeFeatures = 11

In [18]:
#Importamos el utilitario para definir el entrenador del algoritmo
from sagemaker.estimator import Estimator

In [19]:
#Definimos el entrenador del algoritmo
entrenador = Estimator(
    image_uri = sagemaker.image_uris.retrieve(algoritmo, region), #Descargamos la implementación del algoritmo desde la región donde trabajamos
    role = rol, #Rol que ejecuta servicios sobre AWS
    instance_count = numeroDeServidores, #Cantidad de servidores de entrenamiento
    instance_type = tipoDeServidor, #Tipo de servidor de entrenamiento
    predictor_type = tipoDePrediccion, #Tipo de predicción del algoritmo
    sagemaker_session = sesion, #Sesión de SageMaker
    base_job_name = nombreDeJobDeEntrenamiento #Nombre del job de entrenamiento
)

In [20]:
#Configuramos los parametros del algoritmo
entrenador.set_hyperparameters(
    feature_dim = cantidadDeFeatures, #Cantidad de features
    predictor_type = tipoDePrediccion, #Indicamos que tipo de predicción es
    normalize_data = "true", #Normalizamos los features
    normalize_label = "true" #Normalizamos el label
)

In [21]:
#Entrenamos y validamos el modelo
#MIENTRAS SE ENTRENA EL MODELO: En SageMaker, en la sección "Jobs", en la opción "Training" podemos ver cómo el modelo se entrena
#TIEMPO DE ENTRENAMIENTO: 5 MINUTOS
entrenador.fit({"train": dataTrain, "validation": dataTest})

INFO:sagemaker:Creating training-job with name: entrenamiento-prediccion-numerica-2024-09-23-22-27-49-720


2024-09-23 22:27:51 Starting - Starting the training job...
2024-09-23 22:28:06 Starting - Preparing the instances for training...
2024-09-23 22:28:37 Downloading - Downloading input data...
2024-09-23 22:29:18 Downloading - Downloading the training image........Docker entrypoint called with argument(s): train
Running default environment configuration script
[09/23/2024 22:30:38 INFO 140537669908288] Reading default configuration from /opt/amazon/lib/python3.8/site-packages/algorithm/resources/default-input.json: {'mini_batch_size': '1000', 'epochs': '15', 'feature_dim': 'auto', 'use_bias': 'true', 'binary_classifier_model_selection_criteria': 'accuracy', 'f_beta': '1.0', 'target_recall': '0.8', 'target_precision': '0.8', 'num_models': 'auto', 'num_calibration_samples': '10000000', 'init_method': 'uniform', 'init_scale': '0.07', 'init_sigma': '0.01', 'init_bias': '0.0', 'optimizer': 'auto', 'loss': 'auto', 'margin': '1.0', 'quantile': '0.5', 'loss_insensitivity': '0.01', 'huber_delta':

In [22]:
#Librería para manipular los servicios de AWS
import boto3

In [23]:
#Nos conectamos al servicio de SageMaker
sagemakerCliente = boto3.client("sagemaker")

In [24]:
#Obtenemos el nombre del último entrenamiento realizado
nombreDeEntrenamiento = entrenador.latest_training_job.name

#Verificamos
print(nombreDeEntrenamiento)

entrenamiento-prediccion-numerica-2024-09-23-22-27-49-720


In [25]:
#Obtenemos la descripción del entrenamiento
descripcionDeEntrenamiento = sagemakerCliente.describe_training_job(TrainingJobName = nombreDeEntrenamiento)

In [26]:
#Vemos toda la descripción de entrenamiento
descripcionDeEntrenamiento

{'TrainingJobName': 'entrenamiento-prediccion-numerica-2024-09-23-22-27-49-720',
 'TrainingJobArn': 'arn:aws:sagemaker:us-east-1:767828747956:training-job/entrenamiento-prediccion-numerica-2024-09-23-22-27-49-720',
 'ModelArtifacts': {'S3ModelArtifacts': 's3://sagemaker-us-east-1-767828747956/entrenamiento-prediccion-numerica-2024-09-23-22-27-49-720/output/model.tar.gz'},
 'TrainingJobStatus': 'Completed',
 'SecondaryStatus': 'Completed',
 'HyperParameters': {'feature_dim': '11',
  'normalize_data': 'true',
  'normalize_label': 'true',
  'predictor_type': 'regressor'},
 'AlgorithmSpecification': {'TrainingImage': '382416733822.dkr.ecr.us-east-1.amazonaws.com/linear-learner:1',
  'TrainingInputMode': 'File',
  'MetricDefinitions': [{'Name': 'train:progress',
    'Regex': '#progress_metric: host=\\S+, completed (\\S+) %'},
   {'Name': 'validation:mae',
    'Regex': '#quality_metric: host=\\S+, validation mae <loss>=(\\S+)'},
   {'Name': 'train:objective_loss',
    'Regex': '#quality_metr

In [27]:
#Dentro de la sub-variable "FinalMetricDataList" tenemos las métricas del modelo
#El error cuadrático medio se encuentra en "validation:mse"
#El r2 (error "porcentual") se encuentra en "validation:r2"
#IMPORTANTE: En SageMaker, en la sección "Jobs", en la opción "Training" podemos ver las estadísticas del modelo
descripcionDeEntrenamiento["FinalMetricDataList"]

[{'MetricName': 'train:progress',
  'Value': 100.0,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'validation:mae',
  'Value': 3853.564208984375,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'train:objective_loss',
  'Value': 0.6096424460411072,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'validation:objective_loss',
  'Value': 103315256.0,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'validation:objective_loss:final',
  'Value': 43044688.0,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'validation:rmse',
  'Value': 6560.84521484375,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'MetricName': 'validation:mse',
  'Value': 43044688.0,
  'Timestamp': datetime.datetime(2024, 9, 23, 22, 30, 43, tzinfo=tzlocal())},
 {'