# 3 - Despliegue de modelos

**Sumario**

1. Introducción
2. Despliegue de modelos mediante una API
3. Despliegue de modelos mediante operaciones
4. Despliegue de modelos en dispositivos

## 3.1 - Introducción

El proceso de construcción de modelos de razonamiento basados en Machine Learning (ML) o en Deep Learning (DL) está dirigido a construir modelos que puedan ser utilizados en diferentes tipos de entornos mediante el proceso de inferencia. Este proceso de uso se conoce como **despliegue de modelos** y, en el caso de que estos sean desplegados en un entorno de tipo productivo, se suele denominar **productivización de modelos**.

Como ya hemos estudiado, el ciclo de vida de los modelos consta de dos fases:
1. **Fase de entrenamiento**.
2. **Fase de inferencia**.

<table>
    <tr>
        <td><img src="images_3/fases.png" width="600" data-align="center"></td>
    </tr>
</table>

A la hora de definir el proceso de puesta en producción de los modelos, hay que considerar dos factores que
pueden influir significativamente en cómo se concreta tanto la fase de entrenamiento como la fase de inferencia:
1. El **modo de puesta en producción** que se va a realizar.
2. El **entorno donde se va a productivizar**.

El **modo de puesta en producción o despliegue** se suele llevar a cabo de dos maneras:

* **Productivización o despliegue manual**. Consiste en poner en funcionamiento un modelo mediante la realización manual de todo el proceso. En la mayoría de los casos, los mismos equipos de ingeniería que desarrollan los modelos son los encargados de desplegarlos, lo que garantiza un proceso de despliegue manual preciso.

* **Productivización automática**. Consiste poner en funcionamiento un modelo a través de la automatización de varias operaciones. Esto permite que el modelo pueda entrenarse y desplegarse en producción de manera completamente automática, sin la intervención de ningún ingeniero o ingeniera fuera del proceso de diseño, desarrollo y automatización de las operaciones.

Una vez definido el modo de productivización, es importante identificar dónde se va a desplegar nuestro modelo. se pueden utilizar tres tipos de entornos de despliegue diferentes:

* **Entorno *cloud* público.** Suele ser el entorno más común y consiste en desplegar los modelos mediante los diferentes sistemas de computación disponibles, que van desde la utilización de instancias de ejecución tradicionales -que se corresponden con un sistema operativo donde ejecutamos algún tipo de servidor que nos permite solicitar predicciones a nuestro modelos- hasta el empleo de clústeres de Kubernetes, donde podemos desplegar contenedores que permiten realizar predicciones.
    * [Amazon Web Services (AWS).](https://aws.amazon.com/es/)
    * [Microsoft Azure.](https://azure.microsoft.com/es-es)
    * [Google Cloud Plataform (GCP).](https://cloud.google.com/?hl=es)
    * [IBM Cloud](https://www.ibm.com/es-es/cloud)

* **Entorno *cloud* privado.** Es similar al entorno público, pero ofrece un menor número de herramientas para la productivización de modelos a nivel automático, ya que muchas de las nuevas herramientas de automatización solo están implementadas en ciertos entornos de tipo cloud público a nivel nativo.
    * [OpenStack.](https://www.openstack.org/)
    * [Azure Stack.](https://azure.microsoft.com/es-es/products/azure-stack)
    * [Red Hat OpenShift.](https://www.redhat.com/en/technologies/cloud-computing/openshift)

* **Entorno *edge*.** Modelo híbrido donde la mayor parte de la computación y el almacenamiento se realiza de forma local o muy cercana al lugar de aplicación. Surgen principalmente por consideraciones de seguridad y por la alta capacidad de computación de los dispositivos actuales. Aplicaciones:
    * Internet of Things.
    * Industria 4.0.
    * Vehículos autónomos.
    
A lo largo de esta unidad, nos ocuparemos de aquellos conceptos básicos asociados a los procesos de productivización de modelos, tanto a nivel manual como a nivel automático. Además, describiremos las diferentes herramientas disponibles para el despliegue de los modelos, tanto en entornos cloud como en entornos de tipo *edge*. 

## 3.2 - Despliegue de modelos mediante una API

El término API es una abreviatura de **Application Programming Interfaces**, que en español significa "interfaz de
programación de aplicaciones". Las API son un conjunto de "reglas" destinadas a permitir la comunicación entre dos o más aplicaciones de software independientes a través de un protocolo de comunicaciones (e.g., HTTP).

La productivización de modelos mediante las API se trata, probablemente, de la forma más extendida de utilizar
modelos **con independencia del tipo de *framework* de desarrollo que empleemos para su entrenamiento**.

En algunos casos, los propios frameworks de ML/DL ofrecen funcionalidades para la construcción automática de estos servicios, como es el caso de TensorFlow, que proporciona ciertas funcionalidades para el servicio de modelos; sin embargo, en otras ocasiones, **resulta más sencillo crear una API de tipo genérico destinada a productivizar modelos de cualquier tipo**.

La utilización de las API permite la creación de servicios independientes para acceder a las diferentes funcionalidades que ofrecen los modelos, tanto en lo relativo a la predicción como a la inserción de nuevos ejemplos de entrenamiento que puedan llegar a desencadenar nuevos procesos.

Actualmente, los modelos de API mas utilizados son:

* REST
* GraphQL

<table>
    <tr>
        <td><img src="images_3/api_models.jpg" width="600" data-align="center"></td>
    </tr>
</table>

A continuación, describiremos cómo funcionan diferentes tipos de API y cómo podemos utilizarlas para productivizar
los modelos de razonamiento basados en aprendizaje profundo que hemos construido en los anteriores capítulos.

### 3.2.1 - REST


El término REST (Representational State Transfer) fue definido en el año 2000 por Roy Fielding, uno de los creadores de la especificación HTTP. **Un servicio REST es un conjunto de reglas que sirven para crear aplicaciones web mediante el protocolo HTTP**.

Las principales características de un servicio REST son:

* **Bajo acomplamiento entre cliente y servidor.** El cliente no tiene que saber los detalles de implementación del servidor y viceversa.

* **Sin estado.** Cualquier petición que reciba el servidor debe ser independiente, esto es, no es necesario mantener ningún tipo de sesión con respecto a la petición, aunque es posible definir una sesión para controlar el acceso a los diferentes recursos.

* **Interfaz uniforme.** Cada recurso del servicio REST debe contar con una única dirección mediante una “URI”.

* **Cacheable.** Los recursos pueden ser cacheados de tal forma que las sucesivas peticiones a un mismo recurso no generen exceso de computación.

#### Funcionamiento

[**Ejemplo de API REST**](https://reqres.in/)

Para entender el funcionamiento de una API de tipo REST sobre el protocolo HTTP, vamos a describir cómo
funcionaría una API que ofreciera información sobre los usuarios de una red social de manera que pudiera acceder a tres conjuntos de datos:

<table>
    <tr>
        <th>Información de los usuarios</th>
    </tr>
    <tr>
        <td><img src="images_3/rest_users.png" width="600" data-align="center"></td>
    </tr> 
</table>

<table>
    <tr>
        <th>Información sobre las publicaciones de cada usuario</th>
    </tr>
    <tr>
        <td><img src="images_3/rest_posts.png" width="600" data-align="center"></td>
    </tr> 
</table>

<table>
    <tr>
        <th>Información sobre los seguidores de cada usuario</th>
    </tr>
    <tr>
        <td><img src="images_3/rest_followers.png" width="600" data-align="center"></td>
    </tr> 
</table>

#### Definición de las URI (nombrado)

Las **URI** (Uniform Resource Identifier) son **cadenas de caracteres que identifican los recursos forma
unívoca**. 

Las URL (Uniform Resource Locator) son un tipo especifico de URI que se utiliza para localizar y acceder a un recurso en particular a través de una red, como internet. La URL proporciona la ubicación exacta del recurso y el protocolo utilizado para acceder a él, como HTTP, HTTPS, FTP, etc. 

Existe un conjunto de reglas básicas para definir el nombrado a la URI de un recurso:
* Los nombres de las URI no deben implicar una acción; por lo tanto, debemos evitar usar verbos en ellos.
* Han de ser únicas, esto es, no debemos disponer de más de una URI para identificar un mismo recurso.
* Deben ser independientes de formato.
* Deben mantener una jerarquía lógica.
* No deben implicar acciones.
* Los filtrados de información de un recurso no se hacen en la URI.

#### Protocolo de comunicaciones (métodos)

El protocolo de comunicaciones HTTP soporta el funcionamiento de las API REST. Para las diferentes funcionalidades
que puede ofrecer un recurso, se basa en los métodos disponibles del protocolo HTTP:

* **GET** para consultar y obtener información de los usuarios y las usuarias.
* **POST** para crear un nuevo usuario o una nueva usuaria.
* **PUT** para editar o actualizar usuarios y usuarias.
* **DELETE** para eliminar usuarios y usuarias.
* **PATCH** para editar partes de un recurso como, por ejemplo, un conjunto de atributos.

Así, por ejemplo, para crear un recurso basado en el ejemplo anterior, dispondríamos de las siguientes acciones:
* `GET /users`, que nos permite obtener al listado de usuarios y usuarias.
* `GET / users /1`, que nos permite obtener la información del usuario o usuaria con identificador 1.
* `POST /users /?id=1`, que nos permite crear un nuevo usuario o usuaria con identificador (id) 1.
* `DELETE /users /1`, que nos permite eliminar al usuario o usuaria con identificador (id) 1.

#### Gestión de códigos de estado (definición)

Existen diferentes maneras de definir los códigos de estado en un sistema REST. El régimen general se basa en los del protocolo HTTP. [**Lista de códigos de estado HTTP.**](https://es.wikipedia.org/wiki/Anexo:C%C3%B3digos_de_estado_HTTP)



###  3.2.2 - GraphQL

[**GraphQL**](https://graphql.org/) es un lenguaje de consultas (Query Language) similar a [PL-SQL](https://www.oracle.com/es/database/technologies/appdev/plsql.html) que permite la generación de consultas
específicas sobre los datos.

**Este sistema está basado en consultas complejas que no siguen un patrón definido por recursos**. 

La creación de las API mediante GraphQL ofrece acceso a la descripción de los datos, permitiendo realizar consultas específicas sobre estos y, por tanto, minimizar la cantidad de información superflua en las consultas. De este modo, se facilita el acceso a los datos al proporcionar una mayor capacidad a los desarrolladores y las desarrolladoras.

<table>
    <tr>
        <td><img src="images_3/graphql.png" width="600" data-align="center"></td>
    </tr> 
</table>

Este sistema de construcción de las API no es tan común a la hora de desplegar modelos, pero **podría ser una
alternativa en caso de contar con múltiples modelos similares**.

### 3.2.3 - Construyendo una API de tipo REST

Para poder entender por completo cual es el funcionamiento de una API de tipo REST, vamos a crear una muy sencilla mediante el [***framework* Flask**](https://flask.palletsprojects.com/en/2.3.x/)y la [**extensión Swagger 3.0**](https://swagger.io/docs/specification/about/) mediante el paquete [**Connexion**](https://connexion.readthedocs.io/en/latest/index.html).

#### Aprendizaje del modelo

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import tensorflow as tf

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data", header=None)
data.columns = [
    "Sample_code_number",
    "Clump_Thickness",
    "Uniformity_of_Cell_Size",
    "Uniformity_of_Cell_Shape",
    "Marginal_Adhesion",
    "Single_Epithelial_Cell_Size",
    "Bare_Nuclei",
    "Bland_Chromatin",
    "Normal_Nucleoli",
    "Mitoses",
    "Class"
]

Una vez realizada la carga de los datos, debemos llevar a cabo una serie de transformaciones y modificaciones en la información del conjunto de datos con el objetivo de adecuarlos y poder construir nuestra red de neuronas:

In [2]:
# Eliminación de la columna que contiene el id de las muestras 
data.drop("Sample_code_number", axis="columns", inplace=True)

# Modificación de los valores ? que existen en la columna Bare Nuclei (en este caso por el valor -1)
data["Bare_Nuclei"] = data['Bare_Nuclei'].replace('?', '-1').astype(int)

# Modificación de las etiquetas para que los valores sean 0 y 1 
data["Class"] = data["Class"].map(lambda x: 1 if x == 4 else 0)

# Generación de los conjuntos de entrenamiento y test split_handler (en este caso no vamos a generar de validación aqui, lo haremos mas adelante)
# split proportion: 0.88 train, 0.12 test
train_set, test_set = train_test_split(data, test_size=0.12, random_state=0, stratify=data["Class"])

# Transformación del conjunto de entrenamiento en tensores 
X_train = tf.convert_to_tensor(train_set.iloc[:, :9], np.int32) 
y_train = tf.convert_to_tensor(train_set.iloc[:, 9:], np.int8)

# Transformación del conjunto de test en tensores 
X_test = tf.convert_to_tensor(test_set.iloc[:, :9], np.float32)
y_test = tf.convert_to_tensor(test_set.iloc[:, 9:], np.int8)

Una vez preparados los datos, podemos construir nuestra red de neuronas. Para ello, vamos a crear una red formada por tres capas mediante Keras:

* Una capa de entrada que acepte tensores unidimensionales de tamaño 9. Para ello vamos a usar `keras.layers.Flatten`.
* Una capa densa con 18 neuronas cuya función de activación sea una ReLU.
* Una capa densa con una sola neurona con una función de activación de tipo sigmoidea, de manera que nos devuelva un valor comprendido entre 0 y 1 que se corresponderá con una de las dos clases que podemos obtener.

In [3]:
from tensorflow import keras

# Creación de las capas que forman la estructura de la red
layers = [keras.layers.Flatten(input_shape=(9,)),
          keras.layers.Dense(18, activation=tf.nn.relu),
          keras.layers.Dense(1, activation=tf.nn.sigmoid),
         ]

# Compilación de la red de neuronas, agrupando las diferentas capas de forma secuencial
model = keras.Sequential(layers, name="binary_classification_model")

# Configuración del algoritmo de optimización y de la función de loss
model.compile(optimizer="sgd",
              loss="binary_crossentropy",
              metrics=["accuracy"]
             )

model.summary()

Model: "binary_classification_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 9)                 0         
                                                                 
 dense (Dense)               (None, 18)                180       
                                                                 
 dense_1 (Dense)             (None, 1)                 19        
                                                                 
Total params: 199
Trainable params: 199
Non-trainable params: 0
_________________________________________________________________


Una vez compilada nuestra red de neuronas, podemos abordar el proceso de entrenamiento mediante la función `fit`. En este caso, hemos seleccionado las siguientes opciones:
* Número de iteraciones (*epochs*): 25
* Tamaño del batch de entrenamiento: 100 ejemplos
* Tamaño del conjunto de validación: 8% del conjunto de entrenamiento

In [4]:
import datetime
from time import time
from keras.callbacks import TensorBoard

# Definición de los callback de TF Board
tensorboard_callback = TensorBoard(log_dir="logs")

# Ejecución del proceso de aprendizaje
model.fit(
    X_train,
    y_train,
    epochs=20, # Numero de iteraciones
    batch_size=50, # Tamaño de los batches
    validation_split=0.08, # Tamaño del conjunto de validación
    callbacks=[tensorboard_callback]
)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x2223e8b6f40>

In [5]:
# Evaluación del modelo mediante el conjunto de test
test_loss, test_acc = model.evaluate(X_test, y_test)



Una vez hemos aprendido nuestro modelo y estamos satisfechos con nuestro resultado, lo exportamos para poder posteriormente desplegarlo:

In [6]:
model.save("bcw_model")

Si queremos cargar este modelo, seria tan simple como:

In [11]:
bcw_model = keras.models.load_model("bcw_model")



Ahora podemos usarlo para inferencia:

In [19]:
index = 0

print(test_set.iloc[index])

predictions = bcw_model.predict(X_test)
print(f"\nPredicción: {predictions[index]}")
print(f"Real: {y_test[index]}")

Clump_Thickness                2
Uniformity_of_Cell_Size        1
Uniformity_of_Cell_Shape       1
Marginal_Adhesion              1
Single_Epithelial_Cell_Size    2
Bare_Nuclei                    1
Bland_Chromatin                2
Normal_Nucleoli                1
Mitoses                        1
Class                          0
Name: 429, dtype: int64

Predicción: [0.22428124]
Real: [0]


#### Programación de la API

Una vez aprendido nuestro modelo, podemos crear una pequeña aplicación Flask con una API REST que llame al modelo para generar predicciones. Como resultado tendriamos:

<table>
    <tr>
        <td><img src="images_3/app_home.PNG" width="600" data-align="center"></td>
    </tr> 
</table>

<table>
    <tr>
        <td><img src="images_3/swagger_api_ui.PNG" width="600" data-align="center"></td>
    </tr> 
</table>

## 3.3 - Despliegue de modelos mediante operaciones

El proceso de productivización de modelos es más complejo de lo que comúnmente se cree. Para poder productivizar un modelo, es decir, para ponerlo
en producción de cara a su uso, resulta necesario desplegar un amplio número de sistemas y servicios entre los cuales el proceso de entrenamiento suele ser el más sencillo (desde un punto de vista de ingenieria).

<table>
    <tr>
        <td><img src="images_3/mlops_1.jpg" width="600" data-align="center"></td>
    </tr> 
</table>

Los sistemas basados en Machine Learning o Deep Learning poseen la denominada **“deuda técnica oculta”** derivada
del elevado número de componentes que se requieren para ponerlos en producción de manera correcta. De este modo, el proceso de automatización de la productivización de modelos de razonamiento resulta aún más complicado dada la **gran cantidad de sistemas que deben ser orquestados y los diferentes componentes que han de ejecutarse para entrenar y desplegar los modelos.**

Para poder automatizar todos los procesos u operaciones que forman parte del ciclo de vida de los modelos,
surgieron las denominadas ***Machine Learning Operations* (MLOps)**, que intentaban paliar las deficiencias que
presentaban dichos procesos en el software tradicional basado en el modelo **DevOps**, donde se automatiza
todo el proceso de compilación, evaluación y despliegue de manera automática:

<table>
    <tr>
        <td><img src="images_3/mlops_2.jpg" width="400" data-align="center"></td>
    </tr> 
</table>

Este proceso de automatización del ciclo de vida de las aplicaciones tradicionales no era suficiente para cubrir
las necesidades del ciclo de vida de las aplicaciones basadas en Machine Learning, ya que **no incluían los procesos relacionados con los datos que se utilizaban para construir y evaluar los modelos de razonamiento o con los propios modelos**. Además, era necesario automatizar tanto el código del software para el procesamiento y la
transformación de los datos como el código para el entrenamiento, el despliegue y la monitorización de los modelos.

<table>
    <tr>
        <td><img src="images_3/mlops_3.jpg" width="420" data-align="center"></td>
    </tr> 
</table>

Las aplicaciones software basadas en Machine Learning poseen tres componentes básicos (código, datos y modelos). En consecuencia, es necesario incluir operaciones relacionadas con los siguientes procesos:

* Datos (preparación, análisis y tratamiento).
* Validación de datos.
* Entrenamiento.
* Validación del modelo.
* Empaquetado del modelo.
* Entrega (despliegue) del modelo.
* Monitorización del modelo.

Para poder incluir estas nuevas operaciones, fue necesario añadir un nuevo ciclo dentro del ciclo de DevOps,
dando lugar a lo que se conoce como el **ciclo MLOps**:

<table>
    <tr>
        <td><img src="images_3/mlops_4.jpg" width="550" data-align="center"></td>
    </tr> 
</table>

En este nuevo ciclo, además de las operaciones tradicionales del ciclo DevOps, se incluyen cinco nuevas operaciones relacionadas con los procesos de ML:

* **Entrenamiento**. Esta fase se corresponde con todas las operaciones de extracción (preparación de datos), transformación, limpieza y ejecución del proceso de entrenamiento de manera reproducible. 

* **Empaquetado**. Se corresponde con la creación de un paquete desplegable para llevar a cabo el proceso de inferencia. Este paquete debe incorporar todo el software necesario para la correcta ejecución del modelo.

* **Evaluación**. Esta fase se corresponde con la evaluación del funcionamiento del modelo (inferencia) utilizando el conjunto de test a nivel funcional y de acceso.

* **Despliegue (inferencia)**. Se corresponde con el despliegue del paquete en el entorno de ejecución (cloud, edge) para su uso en tiempo real, en streaming o en batch (inferencia). 

* **Monitorización**. Se corresponde con el despliegue y con el proceso de monitorización de toda la información del modelo a nivel de comportamiento y negocio.

### 3.3.1 - Niveles de automatización

Un sistema puede estar mas o menos automatizado **dependiendo del nivel automatización de las diferentes operaciones descritas anteriormente en base a tres características principales**:

* **Integración continua (IC)**. Este proceso implica la comprobación de todos los componentes involucrados en el proceso de entrenamiento y despliegue del modelo:
    - Comprobar y validar el código fuente y los componentes.
    - Comprobar y validar los datos utilizados durante el proceso de entrenamiento.
    - Comprobar y validar los modelos.
<br></br>
* **Entrega continua (EC)**. El proceso de entrega es mucho más complejo que en los sistemas de generación de software tradicionales, donde solo se debe entregar un paquete de software, pues, en este caso, han de entregarse diferentes elementos:
    - Modelo que se genera a través de una canalización de entrenamiento.
    - Servicio que debe desplegar el modelo mediante un sistema de entrega fiable.
<br></br>
* **Entrenamiento incremental (EI)**. Se trata del proceso de mejora continua del modelo basado en aprendizaje automático. Las aplicaciones software fundamentadas en ML deben permitir mejorar de manera incremental los modelos creados previamente ejecutando de nuevo procesos de entrenamiento con información parcial y manteniendo todo lo aprendido en las iteraciones previas.

**Dependiendo de cómo se apliquen estas tres características sobre las diferentes operaciones del ciclo de vida
de los modelos, podremos identificar diferentes niveles de automatización.**

#### Nivel de automatización 0

El nivel de automatización 0, el más básico de todos, **constituye un proceso manual, interactivo y controlado
por medio de secuencias de comandos** ejecutadas por el equipo científico de datos o por el de ingeniería de
aprendizaje automático.

Cada parte del proceso se ejecuta de forma manual, de manera que el equipo de ingeniería que ejecuta la fase de entrenamiento (preparación, entrenamiento y evaluación) entrega manualmente el modelo al equipo de ingeniería de operaciones, que se encarga de realizar el despliegue, generalmente también de manera manual.

<table>
    <tr>
        <td><img src="images_3/auto_1.png" width="800" data-align="center"></td>
    </tr> 
</table>

Se pueden identificar las siguientes características del nivel:
* Ejecución manual de cada paso (operación).
* Desconexión entre las fases de entrenamiento y despliegue.
* Bajo nivel de actualización (no hay versionado de modelos).
* No existe integración continua (IC).
* No existe entrega continua (EC).
* Registro de modelos (no suele existir).
* No existe monitorización.
* No se almacenan metadatos.

En ocasiones, en este nivel existen pequeños procesos de automatización dentro de algunos de los procesos, pero estos últimos son ejecutados de manera manual. **Este nivel de automatización es el más extendido actualmente a nivel comercial e industrial.**

#### Nivel de automatización 1

El nivel de automatización 1 es el primer nivel en el que **se incluyen automatizaciones parciales o totales de algunas de las operaciones del ciclo de vida de los modelos en la fase de aprendizaje**. Así, se produce un proceso de definición y orquestación del pipeline de aprendizaje, lo que facilita la ejecución de múltiples procesos de aprendizaje con el objetivo de generar diferentes versiones de los modelos.

Por tanto, en este nivel de automatización se realiza un **entrenamiento incremental** (EI) del modelo mediante la automatización del pipeline de aprendizaje automático, de manera que **se automatizan los procesos de construcción y entrega del modelo** introduciendo nuevos componentes:

<table>
    <tr>
        <td><img src="images_3/auto_2.jpg" width="900" data-align="center"></td>
    </tr> 
</table>

Se pueden identificar las siguientes características del nivel:

* Ejecución automática del proceso de entrenamiento.
* Simetría experimental-operacional.
* Código modularizado para componentes y pipelines.
* No existe integración continua (IC).
* Existe entrega continua (EC) de modelos.
* Existe entrenamiento incremental (EI) de modelos.
* Registro de modelos (versionado).
* Existe monitorización a nivel de entrenamiento.
* Se pueden almacenar metadatos.

#### Nivel de automatización 2

El nivel de automatización 2 es el nivel de mayor automatización, pues se produce una automatización absoluta de todas las operaciones del ciclo de vida de los modelos y se incluyen las tres características básicas de la automatización sobre todos los componentes en los que se pueden aplicar.

Por tanto, **se trata de un proceso completamente automatizado de la gestión del código de todos los pipelines (datos, entrenamiento y despliegue), así como del proceso de entrenamiento y del posterior despliegue de modelos**.

La inclusión de este grado de automatización implica la incorporación de nuevos componentes relacionados con la compilación y el testeo del código fuente, así como el despliegue de los modelos de ML o DL:

<table>
    <tr>
        <td><img src="images_3/auto_3.jpg" width="900" data-align="center"></td>
    </tr> 
</table>

Se pueden identificar las siguientes características del nivel:
* Ejecución automática del proceso de compilación, entrenamiento y despliegue.
* Simetría experimental-operacional.
* Código modularizado para componentes y pipelines.
* Integración continua (IC) para el código a nivel general y para pipelines (datos, entrenamiento y despliegue).
* Entrega continua (EC) de modelos y de código.
* Entrenamiento incremental (EI) de modelos.
* Registro de modelos (versionado).
* Monitorización a nivel de entrenamiento y despliegue.
* Almacenamiento y gestión de metadatos.

### 3.3.2 - Tecnologías

Existen diferentes tecnologías para aplicar los procesos de automatización del ciclo de vida de los modelos. Éstas se suelen dividir en dos grandes grupos:

* **Tecnologías de entorno *cloud***. Se despliegan en un entorno cloud de tipo público y ofrecen tecnología nativa para la automatización de todas las posibles operaciones que se lleven a cabo durante el ciclo de vida de los modelos. Las más comunes son las correspondientes a cada una de las tres grandes nubes públicas ([TensorFlow Extender](https://www.tensorflow.org/tfx), [Amazon SageMaker](https://aws.amazon.com/es/sagemaker/) y [Azure Machine Learning](https://azure.microsoft.com/es-es/products/machine-learning)). En ocasiones, estos frameworks se pueden combinar con otras herramientas capaces de automatizar y/o ejecutar algunas de las operaciones como, por ejemplo, [Seldon](https://www.seldon.io/), que permite la automatización del proceso de despliegue de los modelos sobre Kubernetes u OpenShift.

* **Tecnologías entorno *On-Premise***. Permiten automatizar parcial o completamente algunas de las operaciones del ciclo de vida de los modelos en entornos de tipo cloud privados o híbridos. Si bien en algunos casos se pueden desplegar en entornos de cloud público, esto no es lo más común. Muchos de estos frameworks no disponen de tecnología nativa de MLOps y deben utilizar componentes externos como [MLFlow](https://mlflow.org/) o [Seldon](https://www.seldon.io/).

<table>
    <tr>
        <td><img src="images_3/entornos_mlops.png" width="600" data-align="center"></td>
    </tr> 
</table>

## 3.4 - Despliegue de modelos en dispositivos

Nuevos entornos de despliegue han surgido como consecuencia de la proliferación exponencial de dispositivos relacionados con la IoT (Internet of Things) que, actualmente, utilizamos para realizar diferentes tipos de tareas de carácter automático o semiautomático. Por ejemplo: 

* La recogida de información a través de sensores
* Los electrodomésticos inteligentes como las lavadoras o las aspiradoras
* Los futuros robots asistenciales

<table>
    <tr>
        <td><img src="images_3/dispositivos.jpg" width="600" data-align="center"></td>
    </tr> 
</table>

Estos dispositivos suelen tener capacidades computacioneles limitadas que hace que muchas veces solo sera posible desplegar la fase inferencia. Sin embargo tienen ciertas características muy importantes:

* **Disminución de la latencia en las peticiones de predicción**. Ahora, el modelo se ejecuta de manera nativa en el propio dispositivo, es decir, ya no es necesario que realice peticiones al entorno *cloud* para obtener una predicción. 

* **Incremento de la privacidad y la seguridad**. Los datos recogidos por los dispositivos no son enviados y almacenados en el *cloud*, solo se recogen y se utilizan para ejecutar el proceso local de inferencia, por lo que posteriormente son destruidos o sobreescritos. Este aspecto es muy relevante sobretodo cuando se utilizan aplicaciones basadas en visión por computador, en cuyas imágenes se recoge información del tipo personal que permitiría identificar personas o, incluso, patrones de actuación.

Podemos distinguir dos tipos de entornos específicos que entran dentro de este espectro:
* **Entorno *edge* (borde)**. Se trata del entorno propio de los dispositivos, de manera que las aplicaciones se ejecutan sin ningun tipo de uso de las capacidades computacionales de la nube. Se suele utilizar principalmente para inferencia.

* **Entorno *fog* (niebla)**. Se situa entre los dispositivos y el entorno *cloud*, tratándose, por tanto, de un entorno intermedio, normalmente privado, donde se conectan los dispositivos para acceder a los recursos del propio entorno y en algunos caso de la nube. Se pueden utilizar los diferentes servidores del entorno para realizar el entrenamiento de modelos en caso de que no pueda llevarse a cabo en los dispositivos.

<table>
    <tr>
        <td><img src="images_3/entornos_dispositivos.png" width="600" data-align="center"></td>
    </tr> 
</table>

El despliegue de modelos en entornos edge está resultando tan útil que incluso se han desarrollado diferentes dispositivos de bajo coste, como los que se muestra en la Figura , que pueden conectarse de manera sencilla a otros dispositivos y sensores y ejecutar la fase de inferencia, permitiendo así que los dispositivos con bajas capacidades computacionales funcionen como dispositivos inteligentes capaces de ejecutar modelos de razonamiento de manera “nativa”, es decir, sin recurrir al cloud.

<table>
    <tr>
        <td><img src="images_3/edge_examples.png" width="600" data-align="center"></td>
    </tr> 
</table>

[**Repositorio con enlaces informativos sobre edge computing**](https://github.com/Bisonai/awesome-edge-machine-learning)

### 3.4.1 - Construcción de modelos Lite

Con el objetivo de minimizar el coste computacional de la ejecución de los modelos y que esta pueda realizarse en dispositivos móviles o de IoT (como los descritos anteriormente), Google diseñó una variante de su libreria para la **representación de modelos de menor tamaño** llamado [TFLite (i.e., TensorFlow Lite)](https://www.tensorflow.org/lite). Mediante TFLite, podemos construir modelos cuyo proceso de inferencia puede ejecutarse en dispositivos de baja capacidad como smartphones. Ejemplos:

* [Clasificación de imágenes](https://www.tensorflow.org/lite/examples/image_classification/overview)
* [Detección de objetos](https://www.tensorflow.org/lite/examples/object_detection/overview)
* [Recuperación de información sobre documentos](https://www.tensorflow.org/lite/examples/bert_qa/overview)

El conjunto de herramientas disponibles en TFLite se divide en dos componentes principales:
* **El intérprete de TFLite**, que permite la ejecución de modelos especialmente optimizados en varios tipos de *hardware*, entre los que se incluyen:
    * Smartphones
    * Dispositivos embebidos
    * Microcontroladores
<br></br>    
* **El conversor de TFLite**, que permite convertir  los modelos de TensorFlow tradicional a un formato eficiente para que pueda usarlos el intérprete. Además, puede implementar optimizaciones para mejorar el tamaño y el rendimiento de los objetos binarios.

La construcción de los modelos en formato comprimido o *Lite* se denomina **cuantización** y reduce la precisión de las operaciones del modelo (por ejemplo, utilizando una precisión de 8 bits en lugar de una precisión de 32 bits flotantes). **Este proceso puede reducir el tamaño de los modelos en más de cuatro veces**, dependiendo de la precisión deseada.

<table>
    <tr>
        <td><img src="images_3/tflite_process.png" width="600" data-align="center"></td>
    </tr> 
</table>

Los modelos comprimidos (TFLite) pueden ejecutarse en dispositivos móviles y en los aceleradores de tipo EdgeTPU y NNapi. Sin embargo, este proceso no asegura una compresión completa, pues existen ciertas operaciones que, actualmente, no pueden ser “comprimidas”. Por consiguiente, parte de las operaciones del modelo deben ejecutarse en un CPU.

El proceso de compresión organiza las operaciones en dos grupos:
1. Las **operaciones compatibles con TensorFlow Lite**
2. Las **operaciones no compatibles**.

De este modo, cuando se comprime un modelo, se agrupan las operaciones de manera secuencial de forma que todas aquellas que puedan ser ejecutadas en
una secuencia lineal completa en la TPU se agruparán para ser ejecutadas en esta, mientras que el resto de las operaciones se ejecutarán en la CPU.

<table>
    <tr>
        <td><img src="images_3/operaciones_compatibles_tflite.png" width="600" data-align="center"></td>
    </tr> 
</table>

