# Patrones de diseño para aplicaciones de Machine Learning escalables


## Recordemos...
La clase pasada hablamos de dos requerimientos importantes:

- Escalabilidad
- Alta disponibilidad (Redundancia)

¿Qué eran?

¿Cómo podemos obtener ambos?
.

.

.

.

.

.

.

.

.

.

.

.

.

.

### ESCALAMIENTO HORIZONTAL


## 1. Escalamiento horizontal vs escalamiento vertical

![](https://www.webairy.com/wp-content/uploads/2019/07/hvsv.jpg)

### 1.1 Escalamiento vertical
- Reemplazar un "servidor" (instancia) por uno de mayor "tamaño"
- Incrementar el número de procesadores
- Aumentar el tamaño de la memoria RAM
- Agregar más memoria persistente

Las primeras bases de datos eran aplicaciones con escalamiento vertical

### 1.2 Escalamiento horizontal
- Agregar "servidores" (instancias) a un clúster (o un conjunto distribuido de servidores)
- La mayoría (o todos) los servidores corren el mismo software
- A veces existe un nodo `controlador` que administra la ejecución de los demás clúster
- Las instancias o clúster se agregan cuando la carga de trabajo aumenta (Qué significa que la carga de trabajo aumente?)

### 1.3 Demanda pico
- Con el escalamiento vertical, se necesita un plan para la demanda pico.
- Considerar cuál será dicha demanda.
- Se debe pagar por el procesador, memoria y almacenamiento incluso cuando no esté en uso.
- Con el escalamiento horizontal, se puede adaptar las instancias a la demanda: Cloud services.

![](Ec2_prices.png)

## 2. Ejecutando modelos como servicios

### 2.1 Servicio
- Es un término común cuando se habla de arquitectura y cómputo distribuido
- Servicios, son una abstracción de software para describir la ejecución de programas que comparten características en común.
- Esto incluye:
- Servicio (o software) sea accesible sobre la red
- Pueda ser invocado (llamado) usando protocolos estándar (HTTP)
- Desempeñan una sola función
- No (deben) toman mucho tiempo en ejecutarse, ya que son operaciones rápidas
- Se pueden desplegar en paralelo
- Pueden ser distinguidos en cómo comparten o intercambian los datos, por ejemplo: RestFul services comparten estructuras json

### 2.2 Modelo como servicio
- El foco del curso, es ejecutar modelos de Machine Learning como servicios.
- Configurar nuestros programas de Machine Learning para que sean llamados por otros programas (en la red)
- Muy diferente de ejecutar un modelo en un cuaderno de Jupyter (o Rstudio)
- Se necesita empaquetar el modelo en un `script` o programa que nos permita invocar funciones (predict) desde una API.

![](model_AaS.png)

- Cuando el servicio se está ejecutando, este recibe llamados API a través del servidor web

![](web_application.png)

## 3. APIs para ML model services
- Las API son parte esencial de la arquitectura para escalar modelos de Machine Learning.

### Ejemplo simple de un llamado de una API
- **URL:**
https://scalablemodels.com/listpredictors
- **Operación HTTP:**
    - GET
    - PUT
    - POST
    - DELETE


Como estamos trabajando con modelos de ML, debemos enfocarnos en un conjunto de parámetros (de entrada) y regresar un objeto json.

### Ejemplo simple para ML models: Clasificador de flores Iris.
Clasificar el tipo de planta iris, según el tamaño de sus pétalos y sépalos.

- **URL:**
https://scalablemodels.com/api/v01/classify
    - `api`
    - `v01`

- **Características:**
    - Largo del pétalo `pl`: 5.1
    - Ancho del pétalo  `pw`: 3.5
    - Largo del sépalo `sl`: 1.4
    - Ancho del sépalo `sw`: 0.4

**Pregunta: Cómo podríamos ingresar esos parámetros a nuestro modelo (usando la API)?**

Respuesta en la siguiente celda:

- Parámetros de ruta: (Suponiendo que el endpoint es api/v01/classify/{pl}/{pw}/{sl}/{sw} )
https://scalablemodels.com/api/v01/classify/5.1/3.5/1.4/0.4

- Parámetros de query:
https://scalablemodels.com/api/v01/classify?pl=5.1&pw=3.5&sw=0.4&sl=1.4

- Parámetros de body:
https://scalablemodels.com/api/v01/classify

{
"pl": "5.1",
"pw": "3.5",
"sl": "1.4",
"sw": "0.4"
}

La respuesta que nos debería dar la API con esos parámetros debería ser algo por el estilo:

`{"specie": "Iris Setosa"}`

Obviamente junto a su respectivo código de estatus.

## 4. Balanceando cargas
Cuando estamos usando un cluster (de instancias), o un grupo de servidores para ejecutar nuestro modelo, necesitamos una manera de distribuir el trabajo en las instancias.

![](load_balancer.png)

Cuando queremos distribuir ese trabajo en un conjunto de servidores, debes verificar y optimizar los siguientes puntos:

- Distribuir de manera equitativa
- Detectar instancias no saludables
- El balanceador debe estar configurado para tener alta disponibilidad
- Suplir con la demanda

### 4.1 Métodos para distribuir la carga
- Balanceo del lado del cliente
![](client_side.png)

- Random choice
![](random_choice.png)

- Round-robin
![](round_robin.png)
- Menos conexiones
- Menos carga

### 4.2 Características adicionales
- Health checks
- HTTP compression
- Firewall
- Detección y prevención de intrusos