<a href="https://colab.research.google.com/github/gustavovazquez/ML/blob/main/ML_Guardar_y_cargar_modelos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Guardar y cargar modelos con joblib

Este notebook explica cómo guardar modelos de machine learning luego de ser entrenados. Para esto se usará la librería `joblib`. Esta librería permite serializar objetos en memoria.

**¿Qué significa serializar?**

Serializar un objeto en Python significa convertirlo en una secuencia de bytes que puede ser almacenada en disco o transmitida por una red. De esta forma, el objeto puede ser reconstruido posteriormente en otro momento o incluso en otro entorno.

`joblib.dump()` permite serializar un objeto de Python (por ejemplo, un pipeline entrenado) y guardarlo en un archivo en disco. Esto es útil para conservar el modelo entrenado y evitar tener que volver a entrenarlo cada vez que lo necesitemos. El archivo generado usualmente tiene extensión `.pkl` (pickle).

En este ejemplo haremos un modelo a partir de un pipeline que combina un `MinMaxScaler` y una `LogisticRegression`. El objeto a serializar es el pipeline, pero podría ser cualquier cualquiero modelo, cualquier método de procesamiento o incluso, como en este caso, un pipeline completo.

## Importar librerías necesarias

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score
import joblib

## Cargar el dataset de ejemplo para armar el modelo

Utilizaremos el dataset de cáncer de mama, que es un conjunto de datos clásico para clasificación binaria.

Dividimos los datos en conjuntos de entrenamiento y prueba:

In [None]:
# cargamos un dataframe con datos directamente de uno de los datasets incluidos en scikitlearn
data = load_breast_cancer()
X = data.data
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Crear el pipeline

Creamos un pipeline que primero escalará los predictores a un rango entre 0 y 1 usando `MinMaxScaler` (normalización), y luego aplicará regresión logística para la clasificación.

In [None]:
pipeline = Pipeline([
    ('scaler', MinMaxScaler()),
    ('classifier', LogisticRegression())
])

## Entrenar el pipeline

Entrenamos el pipeline con los datos de entrenamiento.

In [None]:
pipeline.fit(X_train, y_train)

## Evaluar el modelo

Calculamos la precisión del modelo en el conjunto de prueba.

In [None]:
y_pred = pipeline.predict(X_test)
print("Accuracy del modelo en test: ", accuracy_score(y_test, y_pred ))


Accuracy del modelo en test:  0.9824561403508771


## Guardar el pipeline con joblib

Guardamos el pipeline entrenado en un archivo `.pkl` para su uso posterior.

In [None]:
joblib.dump(pipeline, 'modelo_pipeline.pkl')
print("Modelo guardado como 'modelo_pipeline.pkl'")

Modelo guardado como 'modelo_pipeline.pkl'


## Cargar el modelo desde disco

En este punto imaginemos que estamos desarrollando otra aplicación donde queremos usar el modelo entrenado. Este modelo, al estar almacenado en un archivo, puede ser levantado en cualquier momento y conserva todas las características del modelo original desarrollado.

Cargamos el archivo `.pkl` con el modelo almacenado.

In [None]:
modelo_cargado = joblib.load('modelo_pipeline.pkl')
print("Modelo cargado desde 'modelo_pipeline.pkl'")

Modelo cargado desde 'modelo_pipeline.pkl'


## Usar el modelo cargado para predecir

En este ejemplo, la variable `modelo cargado` va a contener el pipeline que hemos grabado. Por lo tento, podemos utilizarlo de manera directa para realizar predicciones sobre datos (en este caso usamos datos del conjunto de prueba, pero puede usarse cualquier dato).

In [None]:
nuevas_predicciones = modelo_cargado.predict(X_test)
print("Accuracy del modelo cargado (mismo set de testeo): ", accuracy_score(y_test, nuevas_predicciones ))

Accuracy del modelo cargado (mismo set de testeo):  0.9824561403508771


Con esto, hemos cubierto todo el flujo de trabajo necesario para entrenar, guardar y reutilizar modelos de `scikit-learn` con `joblib` de forma eficiente.