## Nota Importante: ¿Por qué exportamos modelos en formato `.pkl` aunque esto no se vio en clase?

En las prácticas del curso nos enfocamos principalmente en:
- limpieza de datos,
- transformación,
- normalización,
- exploración (EDA),
- y modelación supervisada (regresión lineal y logística).

Sin embargo, en un proyecto real de Ciencia de Datos los modelos **no se dejan únicamente dentro de un notebook**, sino que se **exportan en archivos reutilizables**, generalmente con extensión **`.pkl`**, para permitir:

- reutilizar el modelo sin necesidad de reentrenarlo,
- integrarlo en aplicaciones (APIs, dashboards, scripts automatizados),
- compartirlo con otros miembros del equipo,
- validarlo o probarlo desde otros entornos,
- conservar una versión del modelo final entrenado.

Esta práctica es un **estándar profesional en la industria**, especialmente en entornos donde los modelos se ponen en producción.

### ¿De dónde obtuvimos esta técnica?

Aunque no fue vista durante las clases, esta técnica forma parte de la documentación oficial de Scikit-Learn:

- Documentación oficial: *"Model persistence"*  
  https://scikit-learn.org/stable/modules/model_persistence.html

Ahí se recomienda el uso de `joblib.dump()` para guardar modelos entrenados,
debido a su eficiencia con objetos de gran tamaño.

### Justificación dentro del proyecto

Incluir la exportación de los modelos mejora la calidad técnica del proyecto porque:

1. **Permite separar el desarrollo experimental (capítulo 2) de la implementación (capítulo 3)**.
2. **Cumple con la estructura profesional de un flujo completo de ciencia de datos**.
3. **Facilita el despliegue y la demostración en la presentación final**.
4. **Le da a la empresa (caso ficticio) un modelo entrenado listo para ser utilizado**.

Por ello se crea este archivo `3_Modelos.ipynb`, donde se reconstruyen los modelos entrenados
y se exportan en formato `.pkl`:

- `modelo_regresion_lineal.pkl`
- `modelo_regresion_logistica.pkl`
- `scaler_minmax.pkl`
- `scaler_standard.pkl`

Este proceso complementa el trabajo realizado en los notebooks anteriores
y representa una práctica recomendada en proyectos reales de Machine Learning.


# 3.1 Modelo de Regresión Lineal – Exportación del Modelo Entrenado

En este apartado reconstruimos el modelo de **Regresión Lineal** utilizado en el notebook  
**2.6_Modelo_Regresion_Lineal**, lo entrenamos nuevamente con los mismos datos  
y procedemos a **guardar el modelo entrenado en formato .pkl** dentro de la carpeta:

`/3_Modelos/modelo_regresion_lineal.pkl`

El propósito de guardar el modelo en formato pickle es permitir:

- reutilizar el modelo entrenado sin necesidad de volver a entrenarlo,  
- integrarlo en aplicaciones futuras (APIs, dashboards, automatización),  
- facilitar pruebas o validaciones posteriores.

Para este proceso utilizaremos la librería **joblib**, recomendada por Scikit-Learn  
para almacenar modelos de Machine Learning.


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import joblib  # Para guardar modelos

# Cargar dataset normalizado (el mismo que se usó en 2.6)
df = pd.read_csv("../2_Notebooks/2.4_Normalizacion/retail_sales_escalado_standard.csv")

df.head()


Unnamed: 0,edad_std,cantidad_std,precio_unitario_std,monto_total_std
0,-0.540565,0.429265,-0.685123,-0.546704
1,-1.125592,-0.453996,1.688464,0.971919
2,0.629489,-1.337258,-0.790615,-0.761098
3,-0.32118,-1.337258,1.688464,0.078611
4,-0.833078,-0.453996,-0.685123,-0.636035


## Selección de Variables

Usamos las mismas variables predictoras del notebook 2.6:

- edad_std  
- cantidad_std  
- precio_unitario_std  

La variable objetivo será:

- monto_total_std  

Esto asegura que el modelo exportado es equivalente al modelo entrenado previamente.


In [2]:
X = df[["edad_std", "cantidad_std", "precio_unitario_std"]]
y = df["monto_total_std"]

# Dividir en entrenamiento y prueba (igual que 2.6)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)


In [3]:
modelo_lineal = LinearRegression()
modelo_lineal.fit(X_train, y_train)

print("Modelo de Regresión Lineal entrenado correctamente.")


Modelo de Regresión Lineal entrenado correctamente.


## Exportación del Modelo Entrenado

Una vez entrenado el modelo, lo guardamos en un archivo .pkl  
para poder reutilizarlo sin necesidad de entrenarlo nuevamente.

El archivo se guardará como:

`modelo_regresion_lineal.pkl`

dentro de la carpeta:

`/3_Modelos/`


In [4]:
# Guardar el modelo en la carpeta actual (3_Modelos)
joblib.dump(modelo_lineal, "modelo_regresion_lineal.pkl")

print("Archivo modelo_regresion_lineal.pkl guardado exitosamente.")


Archivo modelo_regresion_lineal.pkl guardado exitosamente.


# 3.2 Exportación del Modelo de Regresión Logística

En esta sección reconstruimos el modelo de **Regresión Logística** desarrollado previamente
en el notebook **2.7_Modelo_Regresion_Logistica**.

Entrenaremos nuevamente el modelo utilizando el dataset normalizado
`retail_sales_escalado_standard.csv` y posteriormente lo guardaremos en formato `.pkl`.

Este archivo permitirá reutilizar el modelo para:

- Clasificar clientes HighSpender / LowSpender
- Pruebas y validación en otros entornos
- Integración futura en APIs o dashboards
- Evitar el re-entrenamiento continuo

El archivo se guardará como:

`modelo_regresion_logistica.pkl`
en la carpeta `3_Modelos/`.


In [5]:
from sklearn.linear_model import LogisticRegression

# Usamos las mismas variables que en 2.7
X_log = df[["edad_std", "cantidad_std", "precio_unitario_std"]]
y_log = (df["monto_total_std"] > df["monto_total_std"].median()).astype(int)

# División 70/30 estratificada
X_train_log, X_test_log, y_train_log, y_test_log = train_test_split(
    X_log, y_log, test_size=0.3, stratify=y_log, random_state=42
)

# Entrenamos el modelo
modelo_logistico = LogisticRegression(max_iter=1000)
modelo_logistico.fit(X_train_log, y_train_log)

print("Modelo de Regresión Logística entrenado correctamente.")


Modelo de Regresión Logística entrenado correctamente.


In [6]:
joblib.dump(modelo_logistico, "modelo_regresion_logistica.pkl")

print("Archivo modelo_regresion_logistica.pkl guardado exitosamente.")


Archivo modelo_regresion_logistica.pkl guardado exitosamente.


# 3.3 Exportación del StandardScaler utilizado en Normalización

Para poder aplicar el modelo entrenado a datos nuevos en un futuro,
es indispensable guardar también el **StandardScaler**.

El modelo logístico y el lineal fueron entrenados con valores escalados,
por lo que cualquier dato nuevo debe ser transformado con el mismo scaler original.

Por ello guardamos el objeto como:

`scaler_standard.pkl`


In [7]:
from sklearn.preprocessing import StandardScaler

# Columnas numéricas usadas con StandardScaler
cols_standard = ["edad", "cantidad", "precio_unitario", "monto_total"]

# Cargar dataset limpio para recrear el escalado real
df_limpio = pd.read_csv("../2_Notebooks/2.3_Transformaciones/retail_sales_limpio.csv")

scaler_standard = StandardScaler()
scaler_standard.fit(df_limpio[cols_standard])

print("StandardScaler recreado y entrenado correctamente.")


StandardScaler recreado y entrenado correctamente.


In [8]:
joblib.dump(scaler_standard, "scaler_standard.pkl")

print("Archivo scaler_standard.pkl guardado exitosamente.")


Archivo scaler_standard.pkl guardado exitosamente.


# 3.4 Exportación del MinMaxScaler utilizado en Normalización

En el proceso de normalización (notebook 2.4_Normalizacion) se aplicó también un
**MinMaxScaler** para generar el archivo `retail_sales_escalado_minmax.csv`.

Este scaler se guarda para permitir reproducir exactamente la misma transformación
en datos nuevos en caso de ser necesario.

Guardaremos el archivo como:

`scaler_minmax.pkl`


In [9]:
from sklearn.preprocessing import MinMaxScaler

scaler_minmax = MinMaxScaler()
scaler_minmax.fit(df_limpio[cols_standard])  # mismas columnas numéricas

print("MinMaxScaler recreado y entrenado correctamente.")


MinMaxScaler recreado y entrenado correctamente.


In [10]:
joblib.dump(scaler_minmax, "scaler_minmax.pkl")

print("Archivo scaler_minmax.pkl guardado exitosamente.")


Archivo scaler_minmax.pkl guardado exitosamente.
