# Productivizacion modelo ML

### Introducción

Partimos con los siguientes elementos:

- La carpeta traincontainer donde se almacenan los archivos clave.
- Dentro de esta carpeta, tenemos un Dockerfile con el que construiremos la imagen que será enviada a Google Container Registry (GCR) para su uso en el entrenamiento.
- También hay una carpeta llamada trainer, donde se encuentra el código de entrenamiento.
- Dentro de nuestro bucket se almacenará el modelo entrenado, para llevar a producción

In [1]:
!tree 

[01;34m.[00m
├── 02_customtrain.ipynb
└── [01;34mtraincontainer[00m
    ├── Dockerfile
    └── [01;34mtrainer[00m
        └── train.py

2 directories, 3 files


## 1. Entrenamiento custom: Docker

### 1.1. Dockerfile

### Revisión de dockerfile y código de entrenamiento

Veamos lo que tiene la imagen:

In [14]:
!cat traincontainer/Dockerfile

FROM gcr.io/deeplearning-platform-release/sklearn-cpu.0-23
WORKDIR /

# Copies the trainer code to the docker image.
COPY trainer /trainer

RUN pip install scikit-learn google-cloud-bigquery joblib pandas google-cloud-storage kfp

# Sets up the entry point to invoke the trainer.
ENTRYPOINT ["python", "-m", "trainer.train"]


Lo único que hace es copiar el código de entrenamiento para poder ejecutarlo desde ahí e instalar algunas dependencias. Otro punto para destacar es que el FROM parte de una imagen ya preparada por Google, que en este caso es bastante sencilla. La lista completa se encuentra aquí: https://cloud.google.com/deep-learning-containers/docs/choosing-container

Veamos a continuación el código de entrenamiento:

### 1.2. Definición del modelo

**Importante:** El código que está subido al repo es de aplicación genérica y si quieres obtener información de tu propio bucket reemplaza esto "productivizacion_modelo_ml_bucket" por el nombre de tu bucket y el nombre de tu tabla.

In [3]:
!cat traincontainer/trainer/train.py

from sklearn.tree import DecisionTreeClassifier
from joblib import dump
from sklearn.model_selection import train_test_split
import os
import pandas as pd

# Importar las bibliotecas necesarias para trabajar con GCP
from google.cloud import storage

# Crea un cliente de almacenamiento GCS
storage_client = storage.Client()

# Ubicación del archivo CSV en GCS
gcs_csv_uri = 'gs://productivizacion_modelo_ml_bucket/iris_dataset.csv'

# Lee el archivo CSV directamente desde GCS a un DataFrame de Pandas
df = pd.read_csv(gcs_csv_uri, sep=';')

# Separa tus datos en características (X) y etiquetas (y)
X = df.drop('target', axis=1)
y = df['target']

# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define y entrena tu modelo en el conjunto de entrenamiento
skmodel = DecisionTreeClassifier()
skmodel.fit(X_train, y_train)

# Evalúa el modelo en el conjunto de prueba (calcula la precisión)
accuracy 

### 1.3. Obtención de PROJECT_ID

In [5]:
import os
PROJECT_ID = ""
if not os.getenv("IS_TESTING"):
    shell_output=!gcloud config list --format 'value(core.project)' 2>/dev/null
    PROJECT_ID = shell_output[0]

### 1.4. Construir la imagen

En este paso tenemos que construir el contenedor de Docker, usando para ello el Dockerfile y el código que acabamos de modificar.

En el contexto de GCP, el microservicio dedicado al almacenamiento y manejo de imágenes de Docker se llama Google Container Registry (GCR) y es ahí donde tenemos que subir lo que vamos a construir.

Veamos la URI donde se alojará:

Vamos a hacer el build de la imagen desde una terminal. Primero necesitamos armar el DOCKER_IMAGE_URI, que es donde quedará la imagen.

In [15]:
DOCKER_IMAGE_URI = f'gcr.io/{PROJECT_ID}/workshop-sklearn-beans:v1'
f'La uri de la imagen es: {DOCKER_IMAGE_URI}'

'La uri de la imagen es: gcr.io/productivizacion-modelo-ml/workshop-sklearn-beans:v1'

La próxima celda ejecuta código bash para subir la imagen a GCR. Lo que vas a ver en la ejecución de la celda es mi resultado: lo que tenés que hacer es descomentar la celda y ejecutarla **solo una vez**, de forma tal que quede tu imagen que contiene las especificaciones de tu bucket quede alojada en el registro.

In [16]:
#!docker build ./traincontainer/ -t $DOCKER_IMAGE_URI

Sending build context to Docker daemon  9.216kB
Step 1/5 : FROM gcr.io/deeplearning-platform-release/sklearn-cpu.0-23
 ---> 3b7bb510cd2e
Step 2/5 : WORKDIR /
 ---> Using cache
 ---> cfe93966fb9c
Step 3/5 : COPY trainer /trainer
 ---> Using cache
 ---> c247f0251073
Step 4/5 : RUN pip install scikit-learn google-cloud-bigquery joblib pandas google-cloud-storage kfp
 ---> Running in 1aa0a362a4b2
Collecting kfp
  Downloading kfp-2.1.3.tar.gz (372 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 372.4/372.4 kB 8.8 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting docstring-parser<1,>=0.7.3 (from kfp)
  Downloading docstring_parser-0.15-py3-none-any.whl (36 kB)
Collecting kfp-pipeline-spec==0.2.2 (from kfp)
  Downloading kfp_pipeline_spec-0.2.2-py3-none-any.whl (20 kB)
Collecting kfp-server-api<2.1.0,>=2.0.0 (from kfp)
  Downloading kfp-server-api-2.0.1.tar.gz (63 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Usamos un poco más de bash para subir la imagen de Docker cuyo nombre acabamos de generar. Aplica lo mismo que arriba: se corre **sólo una vez**, para subir tu imagen a tu repositorio.

In [17]:
 #!docker push $DOCKER_IMAGE_URI

The push refers to repository [gcr.io/productivizacion-modelo-ml/workshop-sklearn-beans]

[1Bc50e7989: Preparing 
[1Bd7c69556: Preparing 
[1B640f94d4: Preparing 
[1Bb945b486: Preparing 
[1B2001452c: Preparing 
[1B8df3ecaf: Preparing 
[1B561372ae: Preparing 
[1B28e35d43: Preparing 
[1B27439f5f: Preparing 
[1B16aec5bc: Preparing 
[1B22fb107f: Preparing 
[1B1c1d0d06: Preparing 
[1B5662acff: Preparing 
[1Be9d7c2ff: Preparing 
[1Bfdb4bf7f: Preparing 
[1Bebd9a5b1: Preparing 
[1Ba6a0193c: Preparing 
[1B44bbff66: Preparing 
[1B29d2230d: Preparing 
[1Bbf18a086: Preparing 
[1Bb4134c81: Preparing 
[3Bbf18a086: Preparing 
[1B04701469: Preparing 
[1B3a649476: Preparing 
[25B50e7989: Pushed   32.72MB/31.08MB[20A[2K[25A[2K[12A[2K[25A[2K[7A[2K[2A[2K[25A[2K[25A[2K[25A[2K[25A[2K[25A[2K[25A[2K[25A[2K[25A[2Kv1: digest: sha256:f682d8e2b1bcbe51b84f26ce0b0e7df58be6ddc43251bb350f9a937244396894 size: 5757


Si todo salió bien, deberíamos poder ver la imagen en el listado de las que están en GCR. Pueden buscar el servicio y revisarlo, como vemos a continuación:

![image.png](attachment:633535f0-21bd-4a06-b03b-84b21965e1f1.png)

## 2. Configurar la predicción batch

Obtenemos data iris_dataset.csv desde nuestro bucket

In [11]:
from google.cloud import storage

# Especifica el nombre de tu proyecto y el nombre del bucket
project_id = 'productivizacion-modelo-ml'
bucket_name = 'productivizacion_modelo_ml_bucket'
blob_name = 'iris_dataset.csv'  # Nombre del archivo que deseas descargar
destination_file_path = 'iris_dataset.csv'  # Ruta local donde guardarás el archivo

# Crea una instancia del cliente de almacenamiento de Google Cloud
client = storage.Client(project=project_id)

# Obtiene una referencia al bucket
bucket = client.bucket(bucket_name)

# Obtiene una referencia al objeto (archivo) en el bucket
blob = bucket.blob(blob_name)

# Descarga el archivo a la ruta local
blob.download_to_filename(destination_file_path)

print(f'Archivo descargado a {destination_file_path}')


Archivo descargado a iris_dataset.csv


## 3. Armado del pipeline

Este pipeline sencillo va hacer tres cosas:
- Crear un dataset de Vertex AI
- Correr un training job usando el container custom que armamos
- Correr un batch prediction job con el modelo entrenado.

En este caso, vamos a estar utilizando componentes preconstruidos de Kubeflow así que tenemos el camino un poco más allanado.

In [29]:
#!pip install kfp
#!pip install --upgrade google-cloud-aiplatform google-cloud-pipeline-components

In [2]:
import os
PROJECT_ID = ""

# Get your Google Cloud project ID from gcloud
if not os.getenv("IS_TESTING"):
    shell_output=!gcloud config list --format 'value(core.project)' 2>/dev/null
    PROJECT_ID = shell_output[0]
    print("Project ID: ", PROJECT_ID)
    
BUCKET_NAME = 'gs://productivizacion_modelo_ml_bucket'

PATH=%env PATH
%env PATH={PATH}:/home/jupyter/.local/bin
REGION="us-central1"

PIPELINE_ROOT = f"{BUCKET_NAME}/pipeline_root/"
PIPELINE_ROOT

from kfp.v2 import compiler
from kfp.v2.dsl import pipeline

from google.cloud import aiplatform
#from google_cloud_pipeline_components import aiplatform as gcc_aip
from datetime import datetime


TIMESTAMP = datetime.now().strftime("%Y%m%d%H%M%S")

PIPELINE_NAME = "pipeline-vertex-customtraining"
PACKAGE_PATH = f"pipeline-vertex-customtraining.json"
DISPLAY_RUN_NAME = f'{PIPELINE_NAME}-{TIMESTAMP}'


Project ID:  productivizacion-modelo-ml
env: PATH=/usr/local/cuda/bin:/opt/conda/bin:/opt/conda/condabin:/usr/local/bin:/usr/bin:/bin:/usr/local/games:/usr/games:/home/jupyter/.local/bin


Con todo esto, ahora sí podemos crear el pipeline.

In [3]:
@pipeline(
    name=PIPELINE_NAME,
    pipeline_root=PIPELINE_ROOT
)
def pipeline(
    bq_source: str = "gs://productivizacion_modelo_ml_bucket/iris_dataset.csv",
    bucket: str = BUCKET_NAME,
    project: str = PROJECT_ID,
    gcp_region: str = REGION,
    bq_dest: str = "",
    container_uri: str = "",
    batch_destination: str = "productivizacion-modelo-ml.dataset_ouput.tabla_output"
):
    dataset_create_op = gcc_aip.TabularDatasetCreateOp(
        display_name="tabular-beans-dataset",
        bq_source=bq_source,
        project=project,
        location=gcp_region
    )

    training_op = gcc_aip.CustomContainerTrainingJobRunOp(
        display_name=DISPLAY_RUN_NAME,
        container_uri=container_uri,
        project=project,
        location=gcp_region,
        dataset=dataset_create_op.outputs["dataset"],
        staging_bucket=bucket,
        training_fraction_split=0.8,
        validation_fraction_split=0.1,
        test_fraction_split=0.1,
        bigquery_destination=bq_dest,
        model_serving_container_image_uri="us-docker.pkg.dev/vertex-ai/prediction/sklearn-cpu.0-24:latest",
        model_display_name="scikit-beans-model-pipeline",
        machine_type="n1-standard-4",
    )
    batch_predict_op = gcc_aip.ModelBatchPredictOp(
        project=project,
        location=gcp_region,
        job_display_name=f"{PIPELINE_NAME}-predict",
        model=training_op.outputs["model"],
        gcs_source_uris=["{0}/iris_dataset.csv".format(BUCKET_NAME)],
        instances_format="csv",
        gcs_destination_output_uri_prefix=batch_destination,
        machine_type="n1-standard-4"
    )


Este es el esqueleto básico del pipeline. Hay un par de variables que se le pasan desde la ejecución del pipeline (por ejemplo, el container_uri de la imagen que tiene el modelo adentro). Con esta definición, el próximo paso es compilarlo:

In [4]:
compiler.Compiler().compile(
    pipeline_func=pipeline, package_path=PACKAGE_PATH
)




Esto nos deja preparado un json que podemos reutilizar en otras ocasiones.

Vamos a capturar el timestamp actual y usarlo también como argumento en la definición del job del pipeline:

In [5]:
pipeline_job = aiplatform.PipelineJob(
    display_name=PIPELINE_NAME,
    template_path=PACKAGE_PATH,
    job_id=f'{PIPELINE_NAME}-{TIMESTAMP}',
    parameter_values={
        "project": PROJECT_ID,
        "bucket": BUCKET_NAME,
        "bq_dest": "bq://{0}".format(PROJECT_ID),
        "container_uri": "gcr.io/{0}/workshop-sklearn-beans:v1".format(PROJECT_ID),
        "batch_destination": "{0}/batchpredresults".format(BUCKET_NAME)
    },
    enable_caching=True,
)


Por último, sólo queda submitear el job:

In [10]:
pipeline_job.submit()

### Analizando los componentes

![image.png](attachment:aa3feffc-60bb-4d5e-bdee-48a80dc9984c.png)

Dentro de Bigquery se creo la tabla donde almacena los resultados del modelo entrenado

![image.png](attachment:ba82cad0-725f-431f-9240-d33b83166605.png)

En la parte de Vertex -> Models podemos ver nuestro modelo ya preparado. 

![image.png](attachment:c858fca4-54c1-49ab-ab65-ca551825d317.png)

Revisamos el Bucket donde se encuentra almacenado la data inicial y otros

![image.png](attachment:4a0e2c08-72be-4a72-930c-3ada330a455c.png)

In [8]:
#!pip install google-cloud-secret-manager


### 4. Obtenemos los secretos

In [9]:
from google.cloud import secretmanager_v1
from google.oauth2 import service_account

# Carga las credenciales del servicio (puede variar según tu configuración)
credentials = service_account.Credentials.from_service_account_file(
    'archivo_de_credenciales.json'
)

# Crea un cliente de Secret Manager
client = secretmanager_v1.SecretManagerServiceClient(credentials=credentials)

# ID del proyecto y el nombre del secreto
project_id = 'productivizacion-modelo-ml'
secret_id = 'secret_manager'

# Recupera el valor del secreto
response = client.access_secret_version(name=f'projects/{project_id}/secrets/{secret_id}/versions/latest')

# Obtiene el valor del secreto
secret_value = response.payload.data.decode('UTF-8')
