# Machine Learning DevOps

Este notebook es un resumen del siguiente artículo: [Martin Fowler CD4ML](https://martinfowler.com/articles/cd4ml.html)

#### INDICE

- I. Introducción.
- II. Principios.
- III. Machine learning ejemplo de app.
- IV. Machine learning pipeline.
- V. Cómo consumir los modelos.
- VI. Testear productos de machine learning.
- VII. Monitorización de modelos en producción.
- Recursos.

# I. Introducción

Un proyecto de software de Machine Learning es en muchos aspectos comparable con un proyecto de software tradicional. Sin embargo hay una complejidad añadida al proyecto de ML, **tiene más ejes sobre los que prestar atención.**

En un proyecto de software tradicional hay que lidiar solo con lo relacionado al código, sin embargo para un proyecto de machine learning tenemos:
- **Código**: Donde hay que tener en cuenta configuraciones, bugs, necesidades de negocio, etc.
- **Datos**: El esquema de los datos, la volumetría de los datos, la variación con respecto al tiempo, etc.
- **Modelo**: Algoritmos, métricas, experimentos, etc.

Esto hace que un proyecto de ML sea más complejo de testear.

## II. Principios

Para ser lo más riguroso posible a la hora de trabajar en un proyecto de estas características debemos de tener el cuenta lo siguiente:

- Afrontar el problema con lo que nos aporta el DevOps tradicional. Control de versiones, desarrollos, etc.
- Que cada equipo se dedique a la parte que corresponde.
- Producir software basado en código, datos y modelos.
- Buscar acabar el proyecto paso a paso, con cambios pequeños que permitan adaptarse rápido a posibles cambios en contraposición con acabar algo completo de inicio a fin. "Metodología Agile".
- En cada puesta a producción buscar que el producto esté testeado y sea fiable. Test unitarios de aplicación, código, modelo y datos.

<div>
<img src="./images/devops.png" width="500"/>
</div>

## III. Machine learning ejemplo de app

<div>
<img src="./images/ml-app.png" width="900"/>
</div>

De aquí podemos ver las diferentes partes que puede tener un ejemplo de aplicación de machine learning y como diferentes perfiles profesionales se dedican a diferentes partes.

## IV. Machine learning pipeline

<div>
<img src="./images/ml-pipe.png" width="900"/>
</div>

De esta imagen podemos ver lo que sería el pipeline de trabajo de un proyecto de machine learning.

1. Extracción de datos: csv, bases de datos, webscrapping, etc.
2. Split de datos en train, test, validación de la manera más idónea.
3. Evaluar los diferentes modelos para extraer uno y monitorizar sus métricas.

Herramienta para monitorizar modelos: [MLFlow](https://mlflow.org/)

Herramiento de control de versiones para ciencia de datos (alternativa a git): [dvc](https://dvc.org/)

## V. Cómo consumir los modelos

Existen diferentes formas de consumir modelos cada una con una finalidad y con sus ventajas e inconvenientes, vamos a ver las principales:

- **Modelo Embebido**: Esta forma de consumir un modelo es creandolo por fuera del producto y añadiéndolo a una carpeta dentro del proyecto como una parte más del mismo. **Pros**: Es una manera muy sencilla de consumir el modelo. Rápido el proceso de predicción. **Contras**: El versionado de modelo y de código no se diferencian, cada vez que cambias algo en alguna de las partes cambias la versión de todo el producto. Producto pesado en tamaño por el tamaño del modelo guardado.

- **Modelo como servicio**: Esta manera de consumir un modelo requiere de dos partes, una primera donde creas el servicio de consumo (vía API) donde puedes añadir características como el de entrenar el modelo previamente. Y otra segunda parte donde conectas tu proyecto con ese servicio para pedirle que te prediga los resultados. **Pros**: Separas las versiones de modelo con las versiones de código. **Contras**: Hay que tener en cuenta que en la aplicación hay que añadir la conexión a la API. Posible delay en el tiempo de respuesta de la conexión por lo que la predicción va a ser más lenta.

- **Modelo como datos**: Esta manera de consumir los modelos es estática, es decir cuando llegan datos nuevos el modelo los predice y lo que nos devuelve es el resultado que es lo que vemos. **Pros**: El proyecto queda más simple. **Contras**: No podemos interaccionar con el modelo dado que queda oculto para los ojos de un usuario.

## VI. Testear productos de machine learning

Hay que tener en cuenta las tres patas de las que hemos hablado previamente y testearlas:
- Datos: Validar el esquema, validar rangos de las columnas, escalas, si usamos OneHotEncoder validarlo, posibles outliers, etc.
- Validar las componentes del código: Si nos conectamos a una API o a una base de datos hay que validar la conexión y tener capturados posibles errores.
- Calidad del modelo: Monitorizar ratios de error, matrices de confusión, curva ROC, métricas, etc.
- Analizar el bias del modelo.

<div>
<img src="./images/ml-test.png" width="800"/>
</div>

## VII. Monitorización de modelos en producción

- Monitorizar datos de inputs.
- Monitorizar los outputs y la interpretabilidad de estos: Necesario para identificar sobre-entrenamiento y para arrojar luz sobre cómo está funcionando el modelo por dentro.
- Monitorizar las posibles decisiones con los outputs: Comprobar cómo iría el problema de negocio si se sigue al pie de la letra el modelo.

Posibles herramientas para la monitorización: [Kibana](https://www.elastic.co/es/kibana?ultron=B-Stack-Trials-EMEA-S-Exact&gambit=Elasticsearch-Kibana&blade=adwords-s&hulk=cpc&Device=c&thor=kibana&gclid=Cj0KCQjwyN-DBhCDARIsAFOELTmgYiM0f5EOyrm8ryl-522E8BKGE8OY9ffpB6chEYFLCndqIYdsJIcaAgAWEALw_wcB), [ElasticSearch](https://www.elastic.co/es/about/free-and-open?ultron=fao-believes-in-open-adcopy&gambit=Elasticsearch-Core&blade=adwords-s&hulk=cpc&Device=c&thor=elasticsearch&gclid=Cj0KCQjwyN-DBhCDARIsAFOELTlpdScI-tVXlRa9aslXdgyK4GzD1w3NrbEigO7KWTToknS9FX4ak2YaAq6-EALw_wcB), [Fluentd](https://www.fluentd.org/).

WorkShop para practicar: [cd4ml](https://github.com/ThoughtWorksInc/cd4ml-workshop)

## Recursos

Lectura del archivo **rules_of_ml.pdf**