# Implementation with Step Functions

Ahora que tenemos nuestro proyecto de ciencia de datos construido, queremos implementarlo de una manera sólida y repetible. Para esto, implementaremos el ETL usando AWS Glue, y luego entrenaremos y transformaremos por lotes la entrada usando la integración de SageMaker con Amazon Step Functions.

Este cuaderno lo guiará a través de este proceso paso a paso.

Pero primero debe crear o configurar su propio cubo. El SDK de SageMaker es una buena forma de empezar.

## 1. Subiendo archivos al bucket S3 external

In [1]:
import boto3, os

In [2]:
account_id = boto3.client("sts").get_caller_identity()["Account"]



In [4]:
#ses = sagemaker.Session()
bucket = "fashionstore-datalake-external-" + str(account_id)

In [5]:
boto3.Session().resource('s3').Bucket(bucket).Object(os.path.join('data','billing', 'billing_sm.csv')).upload_file('../data/billing_sm.csv')
boto3.Session().resource('s3').Bucket(bucket).Object(os.path.join('data','reseller', 'reseller_sm.csv')).upload_file('../data/reseller_sm.csv')

## 2. Creando un Crawler en Glue (creará 2 tablas en el esquema fashion_external)

Para usar esta información en csv en el contexto de un ETL en Glue, primero se deben crear las tablas en Glue Data Catalog, para ello se crea un crawler en Glue que apunte a la carpeta data del bucket external en S3. El crawler intentará averiguar los tipos de datos de cada columna. 

Accedemos a Glue a la opción Crawler.
Clic el enlace <a href='https://us-east-1.console.aws.amazon.com/glue/home?region=us-east-1#/v2/data-catalog/crawlers'> Link </a>       

Clic en Create crawler.

Asignamos el siguiente nombre : data_external y Next.

<img src='img/c1.png' style='width:500px' />

Clic en la opción Add a data source.

<img src='img/c2.png' style='width:500px' />

Seleccionamos la opción <br>
Data Source : S3 <br>
S3 path ingresamos : **s3://fashionstore-datalake-external-TUACCOUNTID/data/**

Clic en Add an S3 data source.

<img src='img/c3.png' style='width:300px' />

Clic en Next.

<img src='img/c20.png' style='width:500px' />

Seleccionamos el rol : RoleGlue-fashionstore y clic en Next.

<img src='img/c5.png' style='width:500px' />

Seleccionamos el esquema donde se van a crear las tablas : fashion_external.

<img src='img/c6.png' style='width:500px' />

Clic en Create crawler.

<img src='img/c7.png' style='width:500px' />

Seleccionamos el crawler creado y clic en la opción Run.

<img src='img/c8.png' style='width:500px' />

<img src='img/c9.png' style='width:500px' />

Después de un minuto, se deben haber creado 2 tablas en el esquema fashion_external.

<img src='img/c10.png' style='width:500px' />

## 4. Create Glue Job

Para crear un job en Glue, clic en el siguiente enlace.

 <a href='https://us-east-1.console.aws.amazon.com/gluestudio/home?region=us-east-1#/jobs'> Link</a> 


Seleccionar : Spark script editor y clic en Create.

<img src='img/c11.png' style='width:700px' />

Asignamos el nombre al job : ETL_PIPELINE
Y pegamos el contenido el código : ETL_PIPELINE.py

<img src='img/c15.png' style='width:700px' />

Clic en Job details y seleccionamos el rol : RoleGlue-fashionstore, y clic en Save.

<img src='img/c13.png' style='width:700px' />    

## 3. Crear un nuevo Step Machine en Step Function

El rol ya debe estar creado.

First you need to create a role that can be assumed by AWS Step Functions and have enough permissions to create and use for inference SageMaker models and run Glue Jobs. 
First, we are going to create a role that can be assumed by the service Step Functions and then we are going to modify it to add Administrator Access. You can name this role StepFunctionsAdmin

<img src='img/iamstep.png' />


In [6]:
from sagemaker import get_execution_role
your_role = get_execution_role()

In [8]:
definition = open('step_function.json', 'r').read().replace('your_role', your_role).replace('account_id', account_id)
print(definition)

{
  "Comment": "ML Pipeline",
  "StartAt": "Start Glue Job",
  "States": {
    "Start Glue Job": {
      "Type": "Task",
      "Resource": "arn:aws:states:::glue:startJobRun.sync",
      "Parameters": {
        "JobName": "ETL_PIPELINE"
      },
      "Next": "Train model (XGBoost)"
    },
    "Train model (XGBoost)": {
      "Resource": "arn:aws:states:::sagemaker:createTrainingJob.sync",
      "Parameters": {
        "AlgorithmSpecification": {
          "TrainingImage": "811284229777.dkr.ecr.us-east-1.amazonaws.com/xgboost:latest",
          "TrainingInputMode": "File"
        },
        "OutputDataConfig": {
          "S3OutputPath": "s3://fashionstore-datalake-sm-971489366207/models"
        },
        "StoppingCondition": {
          "MaxRuntimeInSeconds": 86400
        },
        "ResourceConfig": {
          "InstanceCount": 1,
          "InstanceType": "ml.m4.xlarge",
          "VolumeSizeInGB": 30
        },
        "RoleArn": "arn:aws:iam::971489366207:role/StackFashionDataL

Ir al servicio de Step functions y crear un nuevo state machine.

Clic el enlace <a href='https://us-east-1.console.aws.amazon.com/states/home?region=us-east-1#/statemachines'> Link </a> 

Clic en Create state machine

Seleccionar : Write your workflow in code
Y pegamos el json en el bloque Definition.

Clic en Next.

<img src='img/c100.png' style='width:500px' />

Asignamos un nombre : **sf-external-fashionstore-ml**

Elegir el rol : RoleSM-fashionstore-datalake.




Ejecutamos el state machine creado, clic en Start execution.

<img src='img/c21.png' style='width:500px' />

Y se empieza a ejecutar el pipeline.

<img src='img/c101.png' style='width:500px' />

Si nos vamos a Glue la opción Jobs, vemos que se ha iniciado la ejecución.

<img src='img/c102.png' style='width:500px' />

Check <a href='https://console.aws.amazon.com/glue/home?region=us-east-1#etl:tab=jobs'> Glue </a> for job logs and
<a href='https://console.aws.amazon.com/sagemaker/home?region=us-east-1#/jobs'> SageMaker </a> to see the training job, the model that you created and the batch transform process. 

After you step function finishes the execution, you should see the graph turning to green:

<img src='img/step.png' style='width:500px' />

Ahora podemos revisar las predicciones en S3.
<a href='https://s3.console.aws.amazon.com/s3/home?region=us-east-1'>S3</a>.