In [3]:
# Importé las bibliotecas necesarias
import boto3  # Para interactuar con AWS (Amazon Web Services)
import pandas as pd  # Para el análisis de datos
from io import StringIO  # Para leer y escribir cadenas como archivos

# Creé una instancia del cliente de S3
s3_client = boto3.client('s3')  # Inicialicé el cliente de S3 para interactuar con el servicio de almacenamiento de Amazon S3

# Descargué el archivo CSV desde S3
csv_file = s3_client.get_object(Bucket='modelaciondk', Key='tickitdb/merge_data.csv')['Body'].read().decode('utf-8')
# Utilicé el cliente de S3 para obtener el objeto (archivo) desde el bucket 'modelaciondk' y la clave 'tickitdb/merge_data.csv'
# Leí el contenido del archivo, lo decodifiqué del formato binario y lo almacené en la variable csv_file

# Convertí el CSV a DataFrame con nombres de columnas asignados
column_names = ['User', 'LastName', 'Email', 'EventName', 'EventLocation', 'EventDate', 'Quantity', 'TotalSold']
df = pd.read_csv(StringIO(csv_file), header=None, names=column_names)
# Utilicé pandas para leer el contenido del archivo CSV almacenado en csv_file
# Asigné nombres a las columnas del DataFrame según la lista column_names

# Aseguré de que la columna de fecha fuera del tipo datetime
df['EventDate'] = pd.to_datetime(df['EventDate'])
# Convertí la columna 'EventDate' del DataFrame al tipo de dato datetime, facilitando el manejo de fechas en análisis posteriores

In [4]:
!pip install boto3



In [12]:
import pandas as pd
import boto3
import time
import sagemaker
from sagemaker import get_execution_role
from sagemaker import Session
from sagemaker import image_uris

# Definir las credenciales de AWS
AWS_ACCESS_KEY = 'AKIAVISDIRYZU7LYYR45'
AWS_SECRET_KEY = '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'
AWS_REGION = 'us-east-1'  # Cambia a tu región

# Configurar el rol de ejecución de SageMaker
role = get_execution_role()

# Crear cliente de SageMaker
sagemaker_client = boto3.client('sagemaker', aws_access_key_id=AWS_ACCESS_KEY, aws_secret_access_key=AWS_SECRET_KEY, region_name=AWS_REGION)

# Nombre del dataset
dataset_name = 'sales_forecast_dataset'

# Crear el dataset para SageMaker Forecast
df['start'] = df['EventDate'].dt.strftime('%Y-%m-%dT%H:%M:%SZ')
df['target'] = df['TotalSold'].apply(lambda x: [x])
df[['start', 'target']].to_json('sales_data.json', orient='records', lines=True)

# Modificar el archivo JSON para eliminar la información de la zona horaria
with open('sales_data.json', 'r') as file:
    data = file.readlines()

# Eliminar la información de la zona horaria
data = [line.replace('Z', '') for line in data]

# Guardar el archivo modificado
with open('sales_data.json', 'w') as file:
    file.writelines(data)

# Crear una instancia del cliente de S3
s3_client = boto3.client('s3')

# Subir el archivo de datos a S3
s3_client.upload_file('sales_data.json', 'modelaciondk', 'forecast/sales_data.json')

# Configuración del predictor
image_uri = image_uris.retrieve('forecasting-deepar', AWS_REGION, version='1.0')
container = f'{image_uri}'

# Crear el estimador de SageMaker Forecast
estimator = sagemaker.estimator.Estimator(
    container,
    role,
    instance_count=1,
    instance_type='ml.m4.xlarge',
    sagemaker_session=Session(),
)

# Configurar el nombre del trabajo de entrenamiento de manera personalizada
training_job_name = f'sales-forecast-training-job-{int(time.time())}'

# Definir las configuraciones del modelo
estimator.set_hyperparameters(
    time_freq='D',
    context_length=10,
    num_cells=50,
    num_layers=2,
    likelihood='gaussian',
    epochs=10,
    prediction_length=5
)

# Entrenar el modelo
estimator.fit({'train': f's3://modelaciondk/forecast/sales_data.json'}, job_name=training_job_name)

# Crear el predictor
predictor = estimator.deploy(
    initial_instance_count=1,
    instance_type='ml.m4.xlarge',
    endpoint_name='forecast-endpoint'
)

# Realizar predicciones para los próximos 7 días
start_date = df['start'].max()
end_date = pd.to_datetime(start_date) + pd.DateOffset(days=7)

# Preparar los datos para la predicción
prediction_data = {
    'instances': [
        {
            'start': start_date.strftime('%Y-%m-%dT%H:%M:%SZ'),
            'target': df['TotalSold'].tolist()
        }
    ]
}

# Realizar la predicción
result = predictor.predict(prediction_data)
forecast_df = pd.DataFrame(result['predictions'][0]['quantiles']['0.5'], columns=['TotalSold'])
forecast_df.index = pd.date_range(start=start_date, periods=7, freq='D')
forecast_df.head()


INFO:sagemaker.image_uris:Same images used for training and inference. Defaulting to image scope: inference.
INFO:sagemaker.image_uris:Ignoring unnecessary instance type: None.
INFO:sagemaker:Creating training-job with name: sales-forecast-training-job-1705800173


2024-01-21 01:22:54 Starting - Starting the training job...
2024-01-21 01:23:18 Starting - Preparing the instances for training.........
2024-01-21 01:24:47 Downloading - Downloading input data...
2024-01-21 01:25:17 Downloading - Downloading the training image.....................
2024-01-21 01:28:34 Training - Training image download completed. Training in progress..[34mDocker entrypoint called with argument(s): train[0m
[34mRunning default environment configuration script[0m
[34mRunning custom environment configuration script[0m
  if num_device is 1 and 'dist' not in kvstore:[0m
[34m[01/21/2024 01:28:59 INFO 139938889799488] Reading default configuration from /opt/amazon/lib/python3.8/site-packages/algorithm/resources/default-input.json: {'_kvstore': 'auto', '_num_gpus': 'auto', '_num_kv_servers': 'auto', '_tuning_objective_metric': '', 'cardinality': 'auto', 'dropout_rate': '0.10', 'early_stopping_patience': '', 'embedding_dimension': '10', 'learning_rate': '0.001', 'likeli

UnexpectedStatusException: Error for Training job sales-forecast-training-job-1705800173: Failed. Reason: ClientError: You have configured context_length=10 and prediction_length=5, but the average time series length in the data is only 1.0. Consider decreasing the context and/or prediction length such that average time series length is larger than the sum of context length and prediction length., exit code: 2