# Clase 27: Puesta en Marcha

**MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos**

**Profesor: Pablo Badilla**

- Comprender los distintos componentes de los sistemas basados en ML como la arquitectura cliente-servidor, URL, HTTP, APIs REST, etc...
- Introducir el despliegue de modelos usando `FastAPI`.


## Puesta en Marcha


La puesta en marcha o _despliegue_ consiste en el flujo de trabajo necesario para hacer que una aplicaci√≥n pasa de un estado de desarrollo experimental (prueba de concepto) a ser una versi√≥n de _producci√≥n_ donde los usuarios finales tendr√° acceso.

Para poner en marcha nuestros proyectos de ciencia de datos, haremos uso de _aplicaciones web_. Estas consisten programas dise√±ados para ejecutarse desde un servidor web. Esta aproximaci√≥n nos permitir√° facilitar resultados y visualizaciones a una amplia variedad de sistemas.


### Arquitectura Cliente-Servidor

Seg√∫n [Wikipedia](https://es.wikipedia.org/wiki/Cliente-servidor):

> La arquitectura cliente-servidor es un modelo de dise√±o de software en el que las tareas se reparten entre los proveedores de recursos o servicios, llamados servidores, y los demandantes, llamados clientes. Un cliente realiza peticiones a otro programa, el servidor, quien le da respuesta.


<div align='center'>
<img alt='Arquitectura Cliente Servidor' src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/cliente_servidor.png' width=800/>
</div>


#### Cliente

Demanda alg√∫n servicio. Sus caracter√≠sticas principales son:

- Inicia solicitudes (peticiones) y espera respuestas del servidor.
- Puede ser a trav√©s de una _interfaz de programaci√≥n de aplicaciones (API en ingl√©s) o una interfaz gr√°fica_ (como el navegador o un juego ejecutable).


#### Servidor

Provee de servicios. Sus caracter√≠sticas principales son:

- Reciben las solicitudes de los clientes, las procesan y luego env√≠an una respuesta.
- Pueden aceptar varias solicitudes de distintos clientes a la vez.


### Caracter√≠sticas de esta arquitectura

Una de las principales ventajas es que permite centralizar la informaci√≥n y las responsabilidades de proveer servicios.
Es decir, solo el servidor ser√° el encargado de manejar las solicitudes, acceder y modificar a las bases de datos, procesar dicha informaci√≥n y responder a sus clientes. Es decir, ser√° _la √∫nica fuente de verdad_.


### Opciones y Frameworks


Seg√∫n [Wikipedia](https://es.wikipedia.org/wiki/Framework):

> _Framework_: Un entorno de trabajo es un conjunto estandarizado de conceptos, pr√°cticas y criterios para resolver un tipo de problem√°tica particular y que sirve como referencia, para enfrentar y resolver nuevos problemas de √≠ndole similar.

_¬°Ya han estado utilizando un framework todo este tiempo!: `scikit-learn` y sus famosos `fit` y `predict`._

Existe una gigantezca variedad de frameworks (y combinaciones de estos) que implementan esta arquitectura.

##### Servidor (y ocasionalmente tambi√©n clientes):

- `Django`
- `Flask`
- `FastAPI`

##### Clientes (Interfaces Gr√°ficas) (la mayor√≠a en JavaScript):

- `React`
- `Vue`

Una combinaci√≥n de estas tecnolog√≠as se denomina _stack tecnol√≥gico_.

> **Pregunta**: ¬øConocen alguno de estos?¬øEn que consisten?

Visiten los siguientes links para ver buenas comparativas entre estos frameworks:

- https://www.section.io/engineering-education/choosing-between-django-flask-and-fastapi/
- https://www.analyticsvidhya.com/blog/2020/11/fastapi-the-right-replacement-for-flask/

En nuestro caso en particular, veremos el framework (de moda) `FastAPI`.

> **Pregunta:** ¬øQu√© es una API?


---

## Interfaz de Programaci√≥n de Aplicaciones / Application Programming Interface (API)

Es el conjunto se funciones que expone una librer√≠a para interactuar con ella.
<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/pandas_api.png' width=800/>
</div>

<div align='center'>
<p>Ejemplo de una API: la API de pandas</p>
</div>

---

En el caso en particular de los servidores web, la API (tambi√©n conocidas como **Endpoints**) es el conjunto de funciones que nos permiten interactuar con el servidor. Comunmente esto se hace a trav√©s de **URLs** parametrizadas:

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/api_maps.png' width=800/>
</div>

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/api_maps_2.png' width=800/>
</div>

<div align='center'>
Ejemplo de una web API: La API de <a href='https://developers.google.com/maps/documentation/urls/get-started/'>Google Maps</a>
</div>


### URL

Una Localizador de recursos uniforme o Uniform Resource Locator (URL) es simplemente un localizador de un recurso web m√°s un protocolo que permite acceder a este.

Ejemplo:

De: https://en.wikipedia.org/wiki/URL

- Protocolo: `https`
- Direcci√≥n del recurso: `en.wikipedia.org`
- Archivo: `URL` (que se interpreta como html)

#### Sintaxis de una URI

<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/sintaxis_uri.png' />

<div align='center'>
Fuente:  <a href='https://en.wikipedia.org/wiki/URL' />URL en Wikipedia</a>
</div>


### Protocolo de transferencia de hipertexto o HTTP y HTTPS

[Protocolo de Comunicaciones seg√∫n Wikipedia](https://es.wikipedia.org/wiki/Protocolo_de_comunicaciones):

> Es un sistema de reglas que permiten que dos o m√°s entidades (computadoras, tel√©fonos celulares, etc.) de un sistema de comunicaci√≥n se comuniquen entre ellas con el fin de transmitir informaci√≥n por medio de cualquier tipo de variaci√≥n de una magnitud f√≠sica.

> Se trata de las reglas o el est√°ndar que define la sintaxis, sem√°ntica y sincronizaci√≥n de la comunicaci√≥n, as√≠ como tambi√©n los posibles m√©todos de recuperaci√≥n de errores

HTTP permite la transmisi√≥n de informaci√≥n a trav√©s de archivos html y otros formatos.
Esta especifica en los mensajes:

- Cabeceras (Headers) que indican el protocolo.
- M√©todo de petici√≥n (`GET`, `POST`, `PUT`, `DELETE`, `HEAD`, `OPTION`, etc...)

  - `GET`: Solicitud para pedir datos.
  - `POST`: Enviar datos (en el cuerpo de la solicitud) comunmente para ser procesados y guardados.
  - `DELETE`: Elimina un dato.
  - `PUT`: Actualiza un dato.

- C√≥digos de respuesta (https://http.cat/)
  - `1xx` - Respuestas informativas
  - `2xx` - Respuestas satisfactorias
  - `3xx` - Redirecciones
  - `4xx` - Errores de los clientes
  - `5xx` - Errores de los servidores
- Cuerpo del mensaje

#### Ejemplo:

Petici√≥n del Cliente:

     GET /index.html HTTP/1.1
     Host: www.example.com
     Referer: www.google.com
     User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0
     Connection: keep-alive

Respuesta del Servidor:

    HTTP/1.1 200 OK
    Date: Fri, 31 Dec 2003 23:59:59 GMT
    Content-Type: text/html
    Content-Length: 1221

    <html lang="eo">
    <head>
    <meta charset="utf-8">
    <title>T√≠tulo del sitio</title>
    </head>
    <body>
    <h1>P√°gina principal de tuHost</h1>
    (Contenido)
      .
      .
      .
    </body>
    </html>

HTTPS indica que el protocolo es seguro mediante cifrado de la informaci√≥n.


### API REST

Lo √∫ltimo antes de empezar a ver c√≥digo es hacer una recapitulaci√≥n de todo lo que hemos visto, lo que puede ser agrupado dentro de un c√≥modo conjunto de principios llamado **Transferencia de estado representacional o representational state transfer (REST)**.

Seg√∫n [Wikipedia](https://es.wikipedia.org/wiki/Protocolo_de_transferencia_de_hipertexto), es un conjunto de principios para dise√±ar aplicaciones web:

- **Un protocolo cliente/servidor sin estado:** cada mensaje HTTP contiene toda la informaci√≥n necesaria para comprender la petici√≥n. Como resultado, ni el cliente ni el servidor necesitan recordar ning√∫n estado de las comunicaciones entre mensajes. En la pr√°ctica, muchas aplicaciones utilizan cookies y otros mecanismos para mantener el estado de la sesi√≥n.

- Un conjunto de operaciones bien definidas que se aplican a todos los recursos de informaci√≥n: HTTP en s√≠ define un conjunto peque√±o de operaciones, las m√°s importantes son **POST, GET, PUT y DELETE**. Con frecuencia estas operaciones se equiparan a las operaciones **CRUD en bases de datos** (CLAB en castellano: crear,leer,actualizar,borrar) que se requieren para la persistencia de datos.

- **Una sintaxis universal para identificar los recursos.** En un sistema REST, cada recurso es direccionable √∫nicamente a trav√©s de su **URI**.

- El **uso de hipermedios**, tanto para la informaci√≥n de la aplicaci√≥n como para las transiciones de estado de la aplicaci√≥n: la representaci√≥n de este estado en un sistema REST son t√≠picamente **HTML o XML**. Como resultado de esto, es posible navegar de un recurso REST a muchos otros, simplemente siguiendo enlaces sin requerir el uso de registros u otra infraestructura adicional.


---

## `FastAPI`

<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/fastapi.png'/>

En palabras simples, `FastAPI` es un framework moderno y de alto rendimiento para crear APIs en python (tipado üëÄ).

Su documentaci√≥n se encuenta en la p√°gina oficial: https://fastapi.tiangolo.com/es/

Una de las grandes ventajas es que genera interfaces interactivas y documentaci√≥n con la que podemos interactuar.


## Tipos en Python

Desde python 3.6 existe un soporte para tipo de datos. Es decir, anotaciones que indican con que dato estamos trabajando.
Esto permite (a trav√©s de linters como `mypy` o `pyre`, etc...) darle m√°s robustez al c√≥digo que estamos creando.


In [1]:
# ejecuten esto (en el archivo ejemplo_tipos.py) con en un editor de texto
# que tenga soporte de tipos (mypy, pyre, etc...)


def unir_nombre(primer_nombre, apellido):
    return primer_nombre + " " + apellido


def unir_nombre_tipado(primer_nombre: str, apellido: str):
    return primer_nombre + " " + apellido


def unir_nombre_edad(primer_nombre: str, apellido: str, edad):
    return primer_nombre + apellido + edad


def unir_nombre_edad(primer_nombre: str, apellido: str, edad: int):
    return primer_nombre + apellido + str(edad)


def unir_nombre_edad(primer_nombre: str, apellido: str, edad: int) -> str:
    return primer_nombre + apellido + str(edad)

#### Tipos simples permitidos en python

- `int`
- `float`
- `bool`
- `bytes`
- `str`


#### Subtipos y Gen√©ricos

Permiten definir estructuras que se basan en ciertos tipos, como listas de strings, etc...

- `List[str]` # lista de strings
- `List[float]` # lista de floats
- `List[Union[int, float]]` # lista de enteros y flotantes.
- `Tuple[str, str, str]` # tupla de 3 strings.
- `Optional[str]` # la variable puede ser str o None.
- `Set[str]` # conjunto de strings.
- `Dict[str, Any]` # definici√≥n de un diccionario con llaves str y valores cualquiera.

Se importan desde el paquete `typing` a trav√©s `from typing import List, Any`


### Primeros pasos con `FastAPI`

La clase continuar√° en la ejecuci√≥n de los distintos scripts que contienen servidores implementados en FastApi.


In [2]:
# instalarlo en caso que no est√©
import sys

!{sys.executable} -m pip install fastapi[all]



## Peque√±o ejemplo con Iris

![Iris Dataset](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/iris.png)


In [6]:
from sklearn.datasets import load_iris

In [7]:
iris_df = load_iris(as_frame=True)

In [8]:
X = iris_df["data"]
X

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [10]:
y = iris_df["target"].replace({0: "setosa", 1: "versicolor", 2: "virginica"})
y

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

In [11]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

gnb = GaussianNB().fit(X_train, y_train)

y_pred = gnb.predict(X_test)

In [6]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        11
  versicolor       0.93      1.00      0.97        14
   virginica       1.00      0.95      0.97        20

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45



### Persistencia de Modelos

Podemos guardar un modelo de scikit-learn (ya sea un modelo simple o un pipeline con muchas transformaciones incluidas) usando `joblib`.


In [12]:
gnb

### Guardar el modelo

In [13]:
from joblib import dump, load

# guardamos usando dump
dump(gnb, "iris_naive_bayes.joblib")

['iris_naive_bayes.joblib']

### Cargar el modelo


> **Pregunta ‚ùì: ¬øQu√© consecuencia tendr√° guardar el modelo en un computador y cargarlo en otro?**

> **Pregunta ‚ùì**: ¬øQu√© pasa si solo guardo el modelo y no una etapa anterior, como un `ColumnTransformer`?¬øCu√°l es la importancia del pipeline?

In [14]:
# cargamos usando load
gnb_cargado = load("iris_naive_bayes.joblib")
gnb_cargado

Podemos ver que tanto el objeto como las m√©tricas de evaluaci√≥n son las mismas.

In [15]:
from sklearn.metrics import classification_report


y_pred = gnb_cargado.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        15
  versicolor       0.92      1.00      0.96        12
   virginica       1.00      0.94      0.97        18

    accuracy                           0.98        45
   macro avg       0.97      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45



In [16]:
sample = X_test.sample(1)
sample

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
44,5.1,3.8,1.9,0.4


In [17]:
y_test[sample.index]

44    setosa
Name: target, dtype: object

In [19]:
gnb_cargado.predict(sample)

array(['setosa'], dtype='<U10')

In [14]:
X_test.sample(10).values.tolist()

[[5.0, 3.0, 1.6, 0.2],
 [5.5, 4.2, 1.4, 0.2],
 [5.7, 2.8, 4.1, 1.3],
 [6.4, 2.8, 5.6, 2.2],
 [5.1, 3.7, 1.5, 0.4],
 [5.7, 2.8, 4.5, 1.3],
 [5.0, 3.4, 1.5, 0.2],
 [6.7, 3.1, 4.7, 1.5],
 [5.4, 3.9, 1.3, 0.4],
 [5.8, 4.0, 1.2, 0.2]]

## Depurador o Debugger


Son programas destinados a insepccionar y resolver errores en otros programas.
Su caracter√≠stica fundamental es permitir detener el c√≥digo en alguna linea espec√≠fica mientras este se est√° ejecutando.


Para ejemplificar esto, usaremos el servidor descrito en `main_1` en vscode a trav√©s del debugger.
Aqu√≠: 

1. Definiremos un archivo de configuraci√≥n para el debugger.
2. Ejecutaremos una llamada con algunos datos y veremos las variables que est√°n definidas al ejecutar cierta linea de c√≥digo.



---

## Contenedores

> Primero, pensemos que es un contenedor:

<div align='center'/>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/contenedores.jpg' width=400/>
</div>

Un **contenedor de aplicaci√≥n** permite **aislar** la aplicaci√≥n y sus dependencias de el sistema operativo en donde este se ejecuta.
Dentro de las cosas que aisla (el entorno de desarrollo) podemos nombrar:

- Librer√≠as.
- Entorno de ejecuci√≥n (Sistema operativo, interpretes o compiladores, etc...).
- Configuraci√≥n del entorno.
- El mismo c√≥digo de la aplicaci√≥n.
- etc...

> **Pregunta**: ¬øQu√© ventaja puede implicar el aislamiento de estas variables?

Una de las grandes ventajas de usar contenedores es que al aislar todas estas variables, se facilita el intercambio del c√≥digo entre los desarrolladores al garantizar que todos tengan el mismo entorno en el cual se est√° desarrollando.

### `Docker`

<div align='center'/>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/docker.png' width=400/>
</div>

[`Docker`](https://www.docker.com/) es la tecnolog√≠a para crear, dise√±ar y gestionar contenedores.
Esta basado en **im√°genes**. Una imagen es simplemente una instantanea de un contenedor, es decir, algo que almacena todos los puntos que vimos anteriormente.



### Virtualizaci√≥n vs Contenedores

La virtualizaci√≥n es un conjunto de t√©cnicas para simular la existencia de un recurso tecnol√≥gico (como un sistema operativo) sobre otro.

Para aislar aplicaciones, el enfoque antiguo era virtualizar peque√±os sistemas operativos montados sobre el sistema operativo principal. Esto obviamente no es muy eficiente: ocupa una gran cantidad de RAM y CPU y en la pr√°ctica, no era c√≥modo para trabajar.

En cambio, el enfoque moderno de `Docker` es crear ambientes aislados en Linux.

<div align='center'/>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/27_puesta_en_produccion/virtualizacion_vs_contenedores.png' width=800/>
</div>

La idea de un contenedor es que se aislen los procesos a trav√©s `namespaces` que limita los archivos, recursos de red, etc... que los procesos del contenedor pueden usar y de `CGroups` que limita los recursos f√≠sicos (CPU, red, RAM, etc...) que el contenedor puede ocupar.

Nota: En Windows, primero monta un nucleo Linux a trav√©s `Windows Subsystem for Linux` (`WSL`) antes de trabajar.




A continuaci√≥n veremos 2 ejemplos: 
    
1. Usaremos una imagen que nos entrega r√°pidamente muchas herramientas simples de data science.
2. Crearemos una imagen para nuestro servidor `FastAPI` predictor de iris.


### scipy-notebook




Ejemplo: https://jupyter-docker-stacks.readthedocs.io/en/latest/using/selecting.html#core-stacks


https://hub.docker.com/r/jupyter/scipy-notebook

```bash
docker pull jupyter/scipy-notebook
```