# Machine Learning Engineering (MLE)


[MLE](http://mlebook.com/) se refiere al diseño y construcción de software que incluye componentes basados en modelos de Machine Learning (ML). En este sentido, MLE se puede considerar como una extensión de la [ingeniería de software](https://es.wikipedia.org/wiki/Ingenier%C3%ADa_de_software) tradicional

Hasta ahora nos hemos concentrado en presentar los aspectos más científicos de como entrenar y evaluar modelos de ML. MLE concierne no sólo el entrenamiento sino también aspectos relacionados a la colección y corrección de datos y al monitoreo y mantenimiendo de los modelos

## Ciclo de vida de un proyecto de ML

Las tareas para desarrollar un sofware que utiliza ML pueden dividirse en

1. Recolección y preparación de datos
1. Ingeniería de *features* (atributos)
1. Entrenamiento de modelos
1. Evaluación de modelos
1. Deployment de modelos
1. Servir modelos (*on premise* o utilizando *cloud*)
1. Monitoreo de modelos
1. Mantenimiento de modelos

Donde además se asume como "paso 0" la definición de uno o más objetivos, que vienen a ser los requisitos del software

:::{important}

El objetivo debe definir las entradas y salidas del modelo. El objetivo también debe definir el criterio o métrica con la que se medirá que tan exitoso es el modelo

:::

:::{note}

El movimiento entre los pasos anteriores puede ser "hacia atrás", por ejemplo ante una mala evaluación del modelo o errores detectados en el monitoreo, podríamos retroceder a recolectar nuevos datos y reetrenar el modelo

:::

Los pasos 3 y 4 han sido revisados en detalle para diversos modelos (regresión logística, SVM, árboles, etc). A continuación revisaremos los demás pasos del flujo anterior. Pero antes respondamos la siguiente pregunta:


**¿Cuándo incorporar ML en mi software?**

ML provee herramientas para aprender modelos de predicción automáticamente a partir de datos. Antes de implementar corresponde preguntar si:

- El problema no puede resolverse en base a heurísticas o reglas que puedan programarse "a mano" (o se necesita una cantidad de reglas demasiado grande) 
- El costo (monetario o horas humanas) de obtener y etiquetar los datos necesarios no es demasiado alto
- El problema tiene un objetivo simple y bien específicado
- El problema puede admitir algunas respuestas erróneas (accuracy no necesita ser 100%)

Si alguna de las anteriores no se cumple, deberíamos cuestionar el uso de ML en nuestro sofware 

Otro indicio importante es si el problema en cuestion está relacionado a percepción humana, por ejemplo reconocimiento de patrones en imágenes (visión) o sonido (audición). En esos casos ML es en general la mejor solución




## Recolección y preparación de datos



Antes de entrenar un modelo se necesitan datos. Antes de iniciar una campaña de recolección de datos que permitan cumplir el objetivo deberíamos investigar si:

- hay datos existentes que pueden utilizarse 
- los datos son suficientes para todas las clases/eventos de interés
- los datos son relativamente actuales (no están obsoletos)
- los datos tienen calidad suficiente 

Los problemas típicamente encontrados en datasets de baja calidad son:

- Ruido en los datos
- Ruido en las etiquetas: Etiquetadores inconsistentes
- Datos faltantes (*missing data*)
- Sesgos de selección, muestreo, variables omitidas, etc
- Presencia de *outliers*: Ejemplos muy alejados de la distribución que pueden afectar el entrenamiento
- *data leakage*: La variable objetivo (etiqueta) está oculta en alguna de las variables

Algunos de estos problemas puede resolverse mediante

- Adecuado particionamiento de los datos
- Inputación: Se refiere a rellenar datos faltantes utilizando reglas simples
- Balanceo de clases mediante submuestreo (aleatorio o clustering), sobremuestreo (repetición) o aumentación sintética
- Aumentación: Se refiere a crear sintéticamente nuevos datos basados en los existentes


:::{seealso}

Para trabajar con datos desbalanceados utilizando los esquemas mencionados sugiero la librería [imbalanced-learn](https://labelstud.io/)

:::

De lo contrario puede ser necesario recolectar datos propios o re-etiquetar los datos existentes

:::{seealso}

En caso de necesitar etiquetar datos de series de tiempo, texto, audio, imágenes recomiendo el software [LabelStudio](https://labelstud.io/)

:::

Si los datos cambian con cierta frecuencia, viven en distintos servidores y/o necesitan ser compartidos y coordinados en un equipo conviene utilizar **versionamiento**

El versionamiento de datos es un concepto reciente, muy similar al versionamiento de código:

- Cada cambio en nuestros datos es anotado mediante un *commit*
- Los cambios hechos por distintas personas pueden coordinarse de forma centralizada
- Se puede revisar fácilmente la historia de cambios y retroceder a un cambio anterior si es necesario

:::{seealso}

Para realizar versionanamiento de datos sugiero la [Data Version Control](https://dvc.org/) (DVC), la cual está basada en git

:::

## Ingeniería de *features* (atributos)



Pendiente

## Herramientas de MLOps

Un concepto que se utiliza bastante hoy en día es [Machine Learning Operations](https://docs.microsoft.com/es-es/azure/machine-learning/concept-model-management-and-deployment) (MLOPs). MLOps se refiere a la implementación de prácticas de Development Operations (DevOps) en problemas de Machine Learning, entre ellas

- Integración y Entrega continuas (CI/CD)
- Flujos automáticos de trabajo (workflows)
- Control de versiones (códigos, datos y modelos)
- Empaquetado de soluciones
- Orquestación de carga

MLOps está relacionado a los últimos 4 pasos del esquema MLE