# Clase 25: Puesta en Marcha

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesores: Matías Rojas - Mauricio Araneda**

- Comprender los distintos componentes de los sistemas basados en ML como la arquitectura cliente-servidor, URL, HTTP, APIs REST, etc...
- Introducir el despliegue de modelos usando `FastAPI`.

## Data Scientist vs Machine Learning Engineer y Otros

> **Pregunta: ❓** ¿Cuáles son las diferencias entre estas areas?

<div align='center'>
<img src='https://i.ibb.co/F5btNWP/ml-engineer.png' />
</div>

<div align='center'>
Fuente: <a href='https://medium.com/@meightpc_14421/data-scientist-vs-data-analysis-vs-ml-engineer-which-job-is-most-suited-for-you-def7b12b3256/'>Data Scientist vs Data Analysis vs ML Engineer : Which job is most suited for you ?</a>
</div>


## Puesta en Marcha

La puesta en marcha o *despliegue* consiste en el flujo de trabajo necesario para hacer que una aplicación pasa de un estado de desarrollo experimental (prueba de concepto) a ser una versión de *producción* donde los usuarios finales tendrá acceso. 

Para poner en marcha nuestros proyectos de ciencia de datos, haremos uso de *aplicaciones web*. Estas consisten programas diseñados para ejecutarse desde un servidor web. Esta aproximación nos permitirá facilitar resultados y visualizaciones a una amplia variedad de sistemas. 

### Arquitectura Cliente-Servidor

Según [Wikipedia](https://es.wikipedia.org/wiki/Cliente-servidor):

> La arquitectura cliente-servidor es un modelo de diseño de software en el que las tareas se reparten entre los proveedores de recursos o servicios, llamados servidores, y los demandantes, llamados clientes. Un cliente realiza peticiones a otro programa, el servidor, quien le da respuesta. 

<div align='center'>
<img alt='Arquitectura Cliente Servidor' src='https://i.ibb.co/z7HZCJg/cliente-servidor.png' width=800/>
</div>

#### Cliente 

Demanda algún servicio. Sus características principales son:

- Inicia solicitudes (peticiones) y espera respuestas del servidor.
- Puede ser a través de una *interfaz de programación de aplicaciones (API en inglés) o una interfaz gráfica* (como el navegador o un juego ejecutable).

#### Servidor

Provee de servicios. Sus características principales son:

- Reciben las solicitudes de los clientes, las procesan y luego envían una respuesta.
- Pueden aceptar varias solicitudes de distintos clientes a la vez.


### Características de esta arquitectura

Una de las principales ventajas es que permite centralizar la información y las responsabilidades de proveer servicios.
Es decir, solo el servidor será el encargado de manejar las solicitudes, acceder y modificar a las bases de datos, procesar dicha información y responder a sus clientes. Es decir, será *la única fuente de verdad*.


### Opciones y Frameworks

Según [Wikipedia](https://es.wikipedia.org/wiki/Framework): 

> *Framework*: Un entorno de trabajo es un conjunto estandarizado de conceptos, prácticas y criterios para resolver un tipo de problemática particular y que sirve como referencia, para enfrentar y resolver nuevos problemas de índole similar. 

*¡Ya han estado utilizando un framework todo este tiempo!: `scikit-learn` y sus famosos `fit` y `predict`.*


Existe una gigantezca variedad de frameworks (y combinaciones de estos) que implementan esta arquitectura.

##### Servidor (y ocasionalmente también clientes):

- `Django`
- `Flask`
- `FastAPI`


##### Clientes (Interfaces Gráficas) (la mayoría en JavaScript): 

- `React`
- `Vue`


Una combinación de estas tecnologías se denomina *stack tecnológico*.


> **Pregunta**: ¿Conocen alguno de estos?¿En que consisten?

Visiten los siguientes links para ver buenas comparativas entre estos frameworks: 

- https://www.section.io/engineering-education/choosing-between-django-flask-and-fastapi/
- https://www.analyticsvidhya.com/blog/2020/11/fastapi-the-right-replacement-for-flask/


En nuestro caso en particular, veremos el framework (de moda) `FastAPI`.

> **Pregunta:** ¿Qué es una API?

---

## Interfaz de Programación de Aplicaciones / Application Programming Interface (API)

Es el conjunto se funciones que expone una librería para interactuar con ella.
<div align='center'>
<img src='https://i.ibb.co/sWkdskG/pandas-api.png' width=800/>
</div>

<div align='center'>
<p>Ejemplo de una API: la API de pandas</p>
</div>

---

En el caso en particular de los servidores web, la API (también conocidas como **Endpoints**) es el conjunto de funciones que nos permiten interactuar con el servidor. Comunmente esto se hace a través de **URLs** parametrizadas:

<div align='center'>
<img src='https://i.ibb.co/3vwJ65T/api-maps.png' width=800/>
</div>

<div align='center'>
<img src='https://i.ibb.co/ZMgXKkT/api-maps-2.png' width=800/>
</div>

<div align='center'>
Ejemplo de una web API: La API de <a href='https://developers.google.com/maps/documentation/urls/get-started/'>Google Maps</a>
</div>

### URL

Una Localizador de recursos uniforme o Uniform Resource Locator (URL) es simplemente un localizador de un recurso web más un protocolo que permite acceder a este.

Ejemplo: 

De: https://en.wikipedia.org/wiki/URL

- Protocolo: `https`
- Dirección del recurso: `en.wikipedia.org`
- Archivo: `URL` (que se interpreta como html)


#### Sintaxis de una URI

<img src='https://i.ibb.co/Kq1wpBy/sintaxis-uri.png' />


<div align='center'>
Fuente:  <a href='https://en.wikipedia.org/wiki/URL' />URL en Wikipedia</a>
</div>



### Protocolo de transferencia de hipertexto o HTTP y HTTPS

[Protocolo de Comunicaciones según Wikipedia](https://es.wikipedia.org/wiki/Protocolo_de_comunicaciones):

> Es un sistema de reglas que permiten que dos o más entidades (computadoras, teléfonos celulares, etc.) de un sistema de comunicación se comuniquen entre ellas con el fin de transmitir información por medio de cualquier tipo de variación de una magnitud física.

> Se trata de las reglas o el estándar que define la sintaxis, semántica y sincronización de la comunicación, así como también los posibles métodos de recuperación de errores


HTTP permite la transmisión de información a través de archivos html y otros formatos.
Esta especifica en los mensajes:

- Cabeceras (Headers) que indican el protocolo.
- Método de petición (`GET`, `POST`, `PUT`, `DELETE`, `HEAD`, `OPTION`, etc...)
     - `GET`: Solicitud para pedir datos.
     - `POST`: Enviar datos (en el cuerpo de la solicitud) comunmente para ser procesados y guardados.
     - `DELETE`: Elimina un dato.
     - `PUT`: Actualiza un dato.


- Códigos de respuesta (https://http.cat/)
  - `1xx` - Respuestas informativas
  - `2xx` - Respuestas satisfactorias 
  - `3xx` - Redirecciones 
  - `4xx` - Errores de los clientes 
  - `5xx` - Errores de los servidores 
  
  
- Cuerpo del mensaje


#### Ejemplo: 

Petición del Cliente:

     GET /index.html HTTP/1.1
     Host: www.example.com
     Referer: www.google.com
     User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0
     Connection: keep-alive


Respuesta del Servidor:

    HTTP/1.1 200 OK
    Date: Fri, 31 Dec 2003 23:59:59 GMT
    Content-Type: text/html
    Content-Length: 1221

    <html lang="eo">
    <head>
    <meta charset="utf-8">
    <title>Título del sitio</title>
    </head>
    <body>
    <h1>Página principal de tuHost</h1>
    (Contenido)
      .
      .
      .
    </body>
    </html>


HTTPS indica que el protocolo es seguro mediante cifrado de la información.

### API REST

Lo último antes de empezar a ver código es hacer una recapitulación de todo lo que hemos visto, lo que puede ser agrupado dentro de un cómodo conjunto de principios llamado **Transferencia de estado representacional o representational state transfer (REST)**.

Según [Wikipedia](https://es.wikipedia.org/wiki/Protocolo_de_transferencia_de_hipertexto), es un conjunto de principios para diseñar aplicaciones web:

- **Un protocolo cliente/servidor sin estado:** cada mensaje HTTP contiene toda la información necesaria para comprender la petición. Como resultado, ni el cliente ni el servidor necesitan recordar ningún estado de las comunicaciones entre mensajes. En la práctica, muchas aplicaciones utilizan cookies y otros mecanismos para mantener el estado de la sesión.

- Un conjunto de operaciones bien definidas que se aplican a todos los recursos de información: HTTP en sí define un conjunto pequeño de operaciones, las más importantes son **POST, GET, PUT y DELETE**. Con frecuencia estas operaciones se equiparan a las operaciones **CRUD en bases de datos** (CLAB en castellano: crear,leer,actualizar,borrar) que se requieren para la persistencia de datos.

- **Una sintaxis universal para identificar los recursos.** En un sistema REST, cada recurso es direccionable únicamente a través de su **URI**.

- El **uso de hipermedios**, tanto para la información de la aplicación como para las transiciones de estado de la aplicación: la representación de este estado en un sistema REST son típicamente **HTML o XML**. Como resultado de esto, es posible navegar de un recurso REST a muchos otros, simplemente siguiendo enlaces sin requerir el uso de registros u otra infraestructura adicional.

---

## `FastAPI`


<img src='https://i.ibb.co/yqPnbh4/fastapi.pngg'/>

En palabras simples, `FastAPI` es un framework moderno y de alto rendimiento para crear APIs en python (tipado 👀).

Su documentación se encuenta en la página oficial: https://fastapi.tiangolo.com/es/

Una de las grandes ventajas es que genera interfaces interactivas y documentación con la que podemos interactuar.

### Paréntesis: Tipos en Python

Desde python 3.6 existe un soporte para tipo de datos. Es decir, anotaciones que indican con que dato estamos trabajando.
Esto permite (a través de linters como `mypy`, `flake8`,`pylance`, etc...) darle más robustez al código que estamos creando.


In [1]:
# ejecuten esto (en el archivo ejemplo.py) con en un editor de texto
# que tenga soporte de tipos (mypy, flake8, etc...)


def unir_nombre(primer_nombre, apellido):
    return primer_nombre + ' ' + apellido


def unir_nombre_tipado(primer_nombre: str, apellido: str):
    return primer_nombre + ' ' + apellido


def unir_nombre_edad(primer_nombre: str, apellido: str, edad):
    return primer_nombre + apellido + edad


def unir_nombre_edad(primer_nombre: str, apellido: str, edad: int):
    return primer_nombre + apellido + str(edad)

def unir_nombre_edad(primer_nombre: str, apellido: str, edad: int) -> str:
    return primer_nombre + apellido + str(edad)

#### Tipos simples permitidos en python

- `int`
- `float`
- `bool`
- `bytes`
- `str`


#### Subtipos y Genéricos

Permiten definir estructuras que se basan en ciertos tipos, como listas de strings, etc...

- `List[str]` # lista de strings
- `List[float]` # lista de floats
- `List[Union[int, float]]` # lista de enteros y flotantes.
- `Tuple[str, str, str]` # tupla de 3 strings.
- `Optional[str]` # la variable puede ser str o None.
- `Set[str]` # conjunto de strings.
- `Dict[str, Any]` # definición de un diccionario con llaves str y valores cualquiera.

Se importan desde el paquete `typing` a través `from typing import List, Any`

### Primeros pasos con `FastAPI`


La clase continuará en la ejecución de los distintos scripts que contienen servidores implementados en FastApi.

In [2]:
# instalarlo en caso que no esté
import sys

!{sys.executable} -m pip install fastapi[all]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fastapi[all]
  Downloading fastapi-0.87.0-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 2.3 MB/s 
[?25hCollecting starlette==0.21.0
  Downloading starlette-0.21.0-py3-none-any.whl (64 kB)
[K     |████████████████████████████████| 64 kB 2.2 MB/s 
Collecting python-multipart>=0.0.5
  Downloading python-multipart-0.0.5.tar.gz (32 kB)
Collecting email-validator>=1.1.1
  Downloading email_validator-1.3.0-py2.py3-none-any.whl (22 kB)
Collecting ujson!=4.0.2,!=4.1.0,!=4.2.0,!=4.3.0,!=5.0.0,!=5.1.0,>=4.0.1
  Downloading ujson-5.5.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (45 kB)
[K     |████████████████████████████████| 45 kB 4.0 MB/s 
Collecting httpx>=0.23.0
  Downloading httpx-0.23.1-py3-none-any.whl (84 kB)
[K     |████████████████████████████████| 84 kB 3.8 MB/s 
[?25hCollecting orjson>=3.2.1
  Downloading orjson-3.8.2-cp37-cp37m-

## Pequeño ejemplo con Iris

![Iris Dataset](https://i.ibb.co/fS1Wq4g/iris.png)

In [3]:
from sklearn.datasets import load_iris

In [4]:
iris_df = load_iris(as_frame=True)

In [5]:
X = iris_df["data"]
X

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [6]:
y = iris_df["target"].replace({0: 'setosa', 1: 'versicolor', 2: 'virginica'})
y

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: target, Length: 150, dtype: object

In [7]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

gnb = GaussianNB().fit(X_train, y_train)

y_pred = gnb.predict(X_test)

In [8]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        11
  versicolor       0.94      0.94      0.94        16
   virginica       0.94      0.94      0.94        18

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



### Persistencia de Modelos

Podemos guardar un modelo de scikit-learn (ya sea un modelo simple o un pipeline con muchas transformaciones incluidas) usando `joblib`.

In [9]:
gnb

GaussianNB()

In [10]:
from joblib import dump, load

# guardamos usando dump
dump(gnb, 'iris_naive_bayes.joblib') 

['iris_naive_bayes.joblib']

In [11]:
# cargamos usando load
gnb_cargado = load('iris_naive_bayes.joblib') 
gnb_cargado

GaussianNB()

In [12]:
from sklearn.metrics import classification_report

y_pred = gnb_cargado.predict(X_test)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        11
  versicolor       0.94      0.94      0.94        16
   virginica       0.94      0.94      0.94        18

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



In [13]:
sample = X_test.sample(1)
sample

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
88,5.6,3.0,4.1,1.3


In [14]:
y_test[sample.index]

88    versicolor
Name: target, dtype: object

In [15]:
gnb_cargado.predict(sample)

array(['versicolor'], dtype='<U10')

In [16]:
X_test.sample(10).values.tolist()

[[4.9, 3.1, 1.5, 0.1],
 [6.8, 2.8, 4.8, 1.4],
 [6.4, 2.8, 5.6, 2.1],
 [6.5, 3.0, 5.5, 1.8],
 [5.0, 3.6, 1.4, 0.2],
 [6.1, 2.8, 4.7, 1.2],
 [4.6, 3.6, 1.0, 0.2],
 [5.2, 3.5, 1.5, 0.2],
 [5.7, 2.6, 3.5, 1.0],
 [5.0, 2.0, 3.5, 1.0]]