# **Exportar y desplegar un modelo Scikit-learn**

## **1. Formatos para Exportar Modelos Entrenados de Scikit-learn**

Una vez que has entrenado un modelo de machine learning utilizando Scikit-learn, es fundamental exportarlo en un formato adecuado para su uso posterior. La exportación permite guardar el modelo entrenado en un archivo, lo que facilita su reutilización, despliegue en producción o compartición con otros equipos. Scikit-learn ofrece varias opciones para exportar modelos, cada una con sus propias características y casos de uso.



### **Formatos Comunes para Exportar Modelos**

#### **a. Pickle (`.pkl`)**
- **Descripción:** `pickle` es una biblioteca estándar de Python que permite serializar objetos, incluidos modelos de Scikit-learn, en un archivo binario.
- **Ventajas:**
  - Fácil de usar y compatible con cualquier objeto de Python.
  - Ideal para proyectos internos o prototipos rápidos.
- **Desventajas:**
  - No es seguro para cargar modelos desde fuentes no confiables, ya que puede ejecutar código malicioso durante la deserialización.
  - Puede ser ineficiente para grandes modelos debido a su tamaño.
- **Ejemplo de uso:**
  ```python
  import pickle
  with open("model.pkl", "wb") as f:
      pickle.dump(model, f)
  ```

#### **b. Joblib (`.joblib`)**
- **Descripción:** `joblib` es una biblioteca optimizada para objetos grandes que contienen datos numéricos, como los modelos de Scikit-learn. Es especialmente útil para modelos que incluyen matrices NumPy.
- **Ventajas:**
  - Más eficiente que `pickle` para grandes modelos.
  - Soporta compresión, lo que reduce el tamaño del archivo.
- **Desventajas:**
  - Limitado a sistemas basados en Python.
- **Ejemplo de uso:**
  ```python
  import joblib
  joblib.dump(model, "model.joblib")
  ```

#### **c. ONNX (Open Neural Network Exchange)**
- **Descripción:** ONNX es un formato abierto diseñado para interoperabilidad entre diferentes frameworks de machine learning. Permite exportar modelos de Scikit-learn a un formato estándar que puede ser utilizado por otras herramientas o plataformas.
- **Ventajas:**
  - Compatible con múltiples frameworks (TensorFlow, PyTorch, etc.).
  - Ideal para integrar modelos en pipelines multi-framework.
- **Desventajas:**
  - Requiere conversión explícita usando herramientas como `skl2onnx`.
  - Algunas funcionalidades avanzadas de Scikit-learn pueden no ser compatibles.
- **Ejemplo de uso:**
  ```python
  from skl2onnx import convert_sklearn
  from skl2onnx.common.data_types import FloatTensorType

  initial_type = [('float_input', FloatTensorType([None, 4]))]
  onnx_model = convert_sklearn(model, initial_types=initial_type)

  with open("model.onnx", "wb") as f:
      f.write(onnx_model.SerializeToString())
  ```

#### **d. PMML (Predictive Model Markup Language)**
- **Descripción:** PMML es un estándar XML para representar modelos de machine learning. Es ampliamente utilizado en entornos empresariales para la interoperabilidad entre sistemas.
- **Ventajas:**
  - Compatible con herramientas de terceros y sistemas empresariales.
  - Facilita la interpretación y validación del modelo.
- **Desventajas:**
  - Complejo de implementar manualmente.
  - Requiere bibliotecas adicionales como `sklearn2pmml`.
- **Ejemplo de uso:**
  ```python
  from sklearn2pmml import sklearn2pmml
  from sklearn2pmml.pipeline import PMMLPipeline

  pipeline = PMMLPipeline([("classifier", model)])
  sklearn2pmml(pipeline, "model.pmml", with_repr=True)
  ```

### **Consideraciones al Elegir un Formato**
Al seleccionar un formato para exportar tu modelo, ten en cuenta los siguientes factores:
- **Interoperabilidad:** ¿El modelo será utilizado en un entorno específico o necesita ser compatible con múltiples frameworks?
- **Seguridad:** ¿El modelo será cargado desde fuentes externas o no confiables?
- **Rendimiento:** ¿El modelo es grande y requiere optimización en términos de tamaño y velocidad de carga?
- **Entorno de Despliegue:** ¿El modelo será utilizado en un sistema basado en Python o en una plataforma diferente?

## **2. Proceso de Despliegue de una App Flask que Usa un Modelo de Scikit-learn**

El despliegue de una aplicación Flask que utiliza un modelo de Scikit-learn implica varios pasos clave, desde el entrenamiento del modelo hasta su integración en un entorno de producción. A continuación, se explica este proceso paso a paso, acompañado de diagramas para facilitar la comprensión.


El siguiente diagrama muestra las etapas principales del despliegue:

```
+-------------------+       +-------------------+       +-------------------+       +-------------------+
|                   |       |                   |       |                   |       |                   |
|  Entrenamiento    | ----> |  Exportación del  | ----> |  Creación de la   | ----> |  Despliegue en    |
|  del Modelo       |       |  Modelo           |       |  API Flask        |       |  Producción       |
|                   |       |                   |       |                   |       |                   |
+-------------------+       +-------------------+       +-------------------+       +-------------------+
```

1. **Entrenamiento del Modelo:** Se entrena un modelo de Scikit-learn utilizando datos históricos.
2. **Exportación del Modelo:** El modelo entrenado se guarda en un archivo (por ejemplo, `.pkl` o `.joblib`) para su uso posterior.
3. **Creación de la API Flask:** Se desarrolla una API Flask que carga el modelo y proporciona endpoints para realizar predicciones.
4. **Despliegue en Producción:** La API Flask se despliega en un entorno de producción utilizando herramientas como `gunicorn`, Docker o servicios en la nube (Azure, AWS, etc.).


### **Detalles de Cada Etapa**

#### Entrenamiento del Modelo
En esta etapa, se entrena un modelo de Scikit-learn utilizando un conjunto de datos. El modelo puede ser cualquier algoritmo compatible con Scikit-learn, como regresión logística, árboles de decisión, etc.

```
+-------------------+       +-------------------+       +-------------------+
|                   |       |                   |       |                   |
|  Datos de         | ----> |  Entrenamiento    | ----> |  Modelo           |
|  Entrenamiento    |       |  del Modelo       |       |  Entrenado        |
|                   |       |                   |       |                   |
+-------------------+       +-------------------+       +-------------------+
```

1. Preparar los datos de entrenamiento.
2. Dividir los datos en conjuntos de entrenamiento y prueba.
3. Entrenar el modelo utilizando los datos de entrenamiento.
4. Evaluar el modelo en los datos de prueba.

#### Exportación del Modelo
Una vez entrenado, el modelo debe guardarse en un archivo para poder ser utilizado en la API Flask.

**Diagrama:**
```
+-------------------+       +-------------------+
|                   |       |                   |
|  Modelo           | ----> |  Archivo          |
|  Entrenado        |       |  Exportado (.pkl) |
|                   |       |                   |
+-------------------+       +-------------------+
```

1. Usar `joblib` o `pickle` para guardar el modelo en un archivo binario.
   ```python
   import joblib
   joblib.dump(model, "model.pkl")
   ```
2. Verificar que el archivo exportado contiene el modelo entrenado.


#### Creación de la API Flask
La API Flask es responsable de cargar el modelo exportado y proporcionar endpoints para realizar predicciones.

```
+-------------------+       +-------------------+       +-------------------+
|                   |       |                   |       |                   |
|  Archivo          | ----> |  Carga del        | ----> |  Endpoint de      |
|  Exportado (.pkl) |       |  Modelo en Flask  |       |  Predicción       |
|                   |       |                   |       |                   |
+-------------------+       +-------------------+       +-------------------+
```

1. Crear un archivo `app.py` con la lógica de la API Flask.
2. Cargar el modelo exportado en la API.
   ```python
   import joblib
   model = joblib.load("model.pkl")
   ```
3. Definir un endpoint `/predict` que reciba datos de entrada y devuelva predicciones.
   ```python
   @app.route("/predict", methods=["POST"])
   def predict():
       data = request.json
       features = np.array(data["features"]).reshape(1, -1)
       prediction = model.predict(features)
       return jsonify({"prediction": int(prediction[0])})
   ```

#### Despliegue en Producción
Finalmente, la API Flask se despliega en un entorno de producción para que pueda ser utilizada por aplicaciones o usuarios finales.

**Diagrama:**
```
+-------------------+       +-------------------+       +-------------------+
|                   |       |                   |       |                   |
|  API Flask        | ----> |  Contenerización  | ----> |  Servidor de      |
|  Local            |       |  con Docker       |       |  Producción       |
|                   |       |                   |       |                   |
+-------------------+       +-------------------+       +-------------------+
```

1. **Contenerización (Opcional):** Crear un contenedor Docker para la API Flask.
   - Crear un archivo `Dockerfile`.
   - Construir la imagen Docker:
     ```bash
     docker build -t flask-api .
     ```
   - Ejecutar el contenedor:
     ```bash
     docker run -p 5000:5000 flask-api
     ```
2. **Despliegue en un Servidor:**
   - Usar `gunicorn` para servir la API:
     ```bash
     gunicorn -w 4 app:app
     ```
   - O desplegar en plataformas en la nube como Azure, AWS o Heroku.
3. **Pruebas:** Verificar que la API funciona correctamente enviando solicitudes HTTP.


## **3. Ejemplo**

## Instalación de Dependencias
Antes de comenzar, asegúrate de instalar las bibliotecas necesarias:
```bash
pip install scikit-learn flask joblib
```

## 3.1. Entrenamiento y Exportación del Modelo

### Entrenar un Modelo de Scikit-learn
Vamos a entrenar un modelo simple de clasificación utilizando el conjunto de datos Iris.

```python
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
import joblib

# Cargar datos
X, y = load_iris(return_X_y=True)

# Entrenar modelo
model = LogisticRegression(max_iter=200)
model.fit(X, y)

# Guardar el modelo en un archivo usando joblib
joblib.dump(model, "model.pkl")
print("Modelo guardado como 'model.pkl'")
```

**Nota:** También puedes usar `pickle` para guardar el modelo:
```python
import pickle
with open("model.pkl", "wb") as f:
    pickle.dump(model, f)
```


## 3.2. Crear una API Flask

### Estructura del Proyecto
Crea una estructura de proyecto:
```
proyecto/
│
├── model.pkl          # Modelo exportado
├── app.py             # Código de la API Flask
└── requirements.txt   # Dependencias
```

### Código de la API Flask (`app.py`)
El siguiente código implementa una API Flask que carga el modelo y realiza predicciones.

```python
from flask import Flask, request, jsonify
import joblib
import numpy as np

# Inicializar Flask
app = Flask(__name__)

# Cargar el modelo
model = joblib.load("model.pkl")

# Definir la ruta para realizar predicciones
@app.route("/predict", methods=["POST"])
def predict():
    try:
        # Obtener datos JSON de la solicitud
        data = request.json
        features = np.array(data["features"]).reshape(1, -1)  # Convertir a formato adecuado
        
        # Realizar la predicción
        prediction = model.predict(features)
        
        # Devolver la predicción como respuesta JSON
        return jsonify({"prediction": int(prediction[0])})
    except Exception as e:
        return jsonify({"error": str(e)}), 400

# Ruta de prueba
@app.route("/", methods=["GET"])
def home():
    return "API Flask funcionando correctamente"

if __name__ == "__main__":
    app.run(debug=True)
```

### Archivo `requirements.txt`
Asegúrate de incluir las dependencias necesarias en un archivo `requirements.txt`:
```
Flask==2.3.2
scikit-learn==1.3.0
joblib==1.3.2
numpy==1.23.5
```



## 3.3. Ejecutar la API Flask

### Instalar Dependencias
Desde la terminal, instala las dependencias:
```bash
pip install -r requirements.txt
```

### Ejecutar la API
Ejecuta la API Flask:
```bash
python app.py
```

La API estará disponible en `http://127.0.0.1:5000`.


## 3.4. Probar la API

### Usar `curl` para Probar la API
Puedes probar la API usando `curl`:
```bash
curl -X POST http://127.0.0.1:5000/predict \
-H "Content-Type: application/json" \
-d '{"features": [5.1, 3.5, 1.4, 0.2]}'
```

### Respuesta Esperada
La API devolverá una respuesta JSON con la predicción:
```json
{
  "prediction": 0
}
```

### Usar Python para Probar la API
También puedes probar la API desde Python:
```python
import requests

# URL de la API
url = "http://127.0.0.1:5000/predict"

# Datos de entrada
data = {"features": [5.1, 3.5, 1.4, 0.2]}

# Enviar solicitud POST
response = requests.post(url, json=data)

# Mostrar la respuesta
print(response.json())
```



## 3.5. Despliegue en Producción

### Usar un servidor para Servir la API
Para desplegar la API en producción, usar `gunicorn`:
```bash
pip install gunicorn
gunicorn -w 4 app:app
```

### Contenerizar la API con Docker
Crea un archivo `Dockerfile` para contenerizar la API:
```dockerfile
# Base image
FROM python:3.9-slim

# Set working directory
WORKDIR /app

# Copy files
COPY . .

# Install dependencies
RUN pip install --no-cache-dir -r requirements.txt

# Expose port
EXPOSE 5000

# Run the app
CMD ["gunicorn", "-w", "4", "app:app"]
```

Construye y ejecuta el contenedor:
```bash
docker build -t flask-api .
docker run -p 5000:5000 flask-api
```