# 05 - Cálculo de Inferencia (Predicciones)

## Descripción General

Este notebook realiza el proceso de **inferencia** utilizando un modelo de Machine Learning previamente entrenado. El objetivo es generar predicciones sobre datos de prueba (test) que no fueron utilizados durante el entrenamiento del modelo.

### Flujo del Notebook

1. **Importaciones**: Carga de librerías y módulos del proyecto
2. **Carga del Pipeline**: Lectura del modelo entrenado desde disco
3. **Preparación de Datos**: Carga y procesamiento de datos para inferencia
4. **Generación de Predicciones**: Aplicación del modelo sobre los datos de test
5. **Guardado de Resultados**: Exportación de las predicciones a archivo

### Requisitos Previos

- Haber ejecutado el entrenamiento del modelo (notebook `04_model_tuning_training.ipynb`)
- Tener el archivo del pipeline guardado en la ubicación especificada en `config.py`
- Datos raw disponibles en `data/raw/train.csv`

---

## 1. Importación de Librerías y Módulos

Se importan las librerías necesarias:
- **pandas/numpy**: Manipulación de datos
- **product_development.config**: Configuración global del proyecto (features, rutas, parámetros)
- **product_development.dataset**: Funciones para carga y preparación de datos
- **product_development.modeling.train**: Funciones de entrenamiento y carga de pipelines
- **product_development.modeling.predict**: Funciones de predicción e inferencia

In [8]:
# Importaciones
import sys
sys.path.append('..')

import pandas as pd
import numpy as np

# Importar módulos del paquete product_development
from product_development.config import (
    FEATURES, TARGET, CATEGORICAL_VARS, RAW_DATA_DIR, 
    PIPELINE_FILE, PREDICTIONS_FILE, TRAIN_TEST_SPLIT_RATIO
)
from product_development.dataset import load_raw_data, prepare_dataset
from product_development.modeling.train import load_pipeline
from product_development.modeling.predict import (
    predict, prepare_inference_data, save_predictions, run_inference
)

## 2. Carga del Pipeline Entrenado

Se carga el pipeline de ML previamente entrenado desde el archivo especificado en `PIPELINE_FILE`.

El pipeline incluye:
- Preprocesamiento de datos (transformaciones, encoding de variables categóricas)
- Modelo de predicción entrenado

> **Nota**: El archivo del pipeline debe existir. Si no existe, ejecutar primero el notebook de entrenamiento.

In [9]:
# 1. Cargar pipeline entrenado
sales_pipeline = load_pipeline(PIPELINE_FILE)
print("Pipeline cargado correctamente.")

[32m2025-11-29 12:35:39.137[0m | [1mINFO    [0m | [36mproduct_development.modeling.train[0m:[36mload_pipeline[0m:[36m648[0m - [1mCargando pipeline desde C:\Users\fjgon\OneDrive - Universidad Galileo\Trimestre 8\product_development\models\sales_pipeline.pkl[0m
Pipeline cargado correctamente.


## 3. Carga y Preparación de Datos para Inferencia

### Proceso:
1. **Carga de datos raw**: Se lee el archivo CSV original
2. **Preparación del dataset**: Se aplican transformaciones iniciales (limpieza, feature engineering básico)
3. **Split de datos**: Se obtiene el 20% final de los datos para test (consistente con el split de entrenamiento)

### Parámetros:
- `TRAIN_TEST_SPLIT_RATIO`: Proporción de datos para entrenamiento (80%)
- Los datos de test son el 20% restante que NO fueron usados en entrenamiento

In [10]:
# 2. Cargar y preparar datos para inferencia
raw_data = load_raw_data(RAW_DATA_DIR / "train.csv")
dataset = prepare_dataset(raw_data)

# Obtener el 20% final para test (mismo split que entrenamiento)
n_samples = len(dataset)
n_train = int(n_samples * TRAIN_TEST_SPLIT_RATIO)

test_df = dataset.iloc[n_train:].copy()

print(f"Total registros: {n_samples}")
print(f"Registros de test: {len(test_df)}")
test_df.head()

[32m2025-11-29 12:35:39.149[0m | [1mINFO    [0m | [36mproduct_development.dataset[0m:[36mload_raw_data[0m:[36m49[0m - [1mCargando datos crudos desde C:\Users\fjgon\OneDrive - Universidad Galileo\Trimestre 8\product_development\data\raw\train.csv[0m
[32m2025-11-29 12:35:39.498[0m | [1mINFO    [0m | [36mproduct_development.dataset[0m:[36mload_raw_data[0m:[36m51[0m - [1mCargados 913000 registros[0m
[32m2025-11-29 12:35:39.498[0m | [1mINFO    [0m | [36mproduct_development.dataset[0m:[36madd_temporal_features[0m:[36m69[0m - [1mAgregando características temporales[0m
[32m2025-11-29 12:35:39.635[0m | [1mINFO    [0m | [36mproduct_development.dataset[0m:[36mconvert_categorical_types[0m:[36m92[0m - [1mConvirtiendo columnas categóricas a tipo object[0m
Total registros: 913000
Registros de test: 182600


Unnamed: 0,date,store,item,sales,year,month,day_of_week_name
730400,2013-01-01,1,41,6,2013,1,Tuesday
730401,2013-01-02,1,41,15,2013,1,Wednesday
730402,2013-01-03,1,41,5,2013,1,Thursday
730403,2013-01-04,1,41,9,2013,1,Friday
730404,2013-01-05,1,41,13,2013,1,Saturday


## 4. Preparación de Features para Inferencia

La función `prepare_inference_data()` extrae únicamente las columnas de features necesarias para el modelo, excluyendo la variable objetivo y otras columnas no requeridas.

**Features utilizadas**: Definidas en `FEATURES` dentro de `config.py`

In [11]:
# 3. Preparar datos para inferencia
X_test = prepare_inference_data(test_df)
print(f"Features preparadas: {X_test.shape}")
X_test.head()

[32m2025-11-29 12:35:39.728[0m | [1mINFO    [0m | [36mproduct_development.modeling.predict[0m:[36mprepare_inference_data[0m:[36m67[0m - [1mPreparando datos para inferencia[0m
Features preparadas: (182600, 5)


Unnamed: 0,store,item,year,month,day_of_week_name
730400,1,41,2013,1,Tuesday
730401,1,41,2013,1,Wednesday
730402,1,41,2013,1,Thursday
730403,1,41,2013,1,Friday
730404,1,41,2013,1,Saturday


## 5. Generación de Predicciones

Se utiliza la función `predict()` que:
1. Aplica las transformaciones del pipeline a los datos de entrada
2. Genera las predicciones usando el modelo entrenado
3. Retorna un array con las predicciones

> **Nota**: El pipeline maneja internamente el preprocesamiento, por lo que los datos de entrada deben estar en formato "raw" (sin transformar).

In [12]:
# 4. Generar predicciones
y_test_pred = predict(sales_pipeline, X_test)

print(f"Predicciones generadas: {len(y_test_pred)}")
print(f"Primeras 10 predicciones: {y_test_pred[:10]}")

[32m2025-11-29 12:35:39.774[0m | [1mINFO    [0m | [36mproduct_development.modeling.predict[0m:[36mpredict[0m:[36m47[0m - [1mGenerando predicciones para 182600 muestras[0m


  X[var] = X[var].fillna(self.fill_value).astype(str)
  X[var] = X[var].fillna(self.fill_value).astype(str)


[32m2025-11-29 12:35:39.990[0m | [1mINFO    [0m | [36mproduct_development.modeling.predict[0m:[36mpredict[0m:[36m49[0m - [1mPredicciones generadas exitosamente[0m
Predicciones generadas: 182600
Primeras 10 predicciones: [27.269253 27.235146 29.151873 31.31193  32.956093 35.11257  23.533398
 27.269253 27.235146 29.151873]


## 6. Guardado de Predicciones

Las predicciones se guardan en un archivo CSV que incluye:
- Los datos originales del conjunto de test
- Una columna adicional con las predicciones generadas

**Ubicación del archivo**: Definida en `PREDICTIONS_FILE` (típicamente `data/processed/test_predictions.csv`)

In [13]:
# 5. Guardar predicciones
output_df = save_predictions(test_df, y_test_pred, PREDICTIONS_FILE)

print(f"Archivo guardado en: {PREDICTIONS_FILE}")
output_df.head()

[32m2025-11-29 12:35:39.999[0m | [1mINFO    [0m | [36mproduct_development.modeling.predict[0m:[36msave_predictions[0m:[36m115[0m - [1mGuardando predicciones en C:\Users\fjgon\OneDrive - Universidad Galileo\Trimestre 8\product_development\data\processed\test_predictions.csv[0m
[32m2025-11-29 12:35:42.496[0m | [1mINFO    [0m | [36mproduct_development.modeling.predict[0m:[36msave_predictions[0m:[36m123[0m - [1mPredicciones guardadas: 182600 registros[0m
Archivo guardado en: C:\Users\fjgon\OneDrive - Universidad Galileo\Trimestre 8\product_development\data\processed\test_predictions.csv


Unnamed: 0,date,store,item,sales,year,month,day_of_week_name,sales_pred
730400,2013-01-01,1,41,6,2013,1,Tuesday,27.269253
730401,2013-01-02,1,41,15,2013,1,Wednesday,27.235146
730402,2013-01-03,1,41,5,2013,1,Thursday,29.151873
730403,2013-01-04,1,41,9,2013,1,Friday,31.31193
730404,2013-01-05,1,41,13,2013,1,Saturday,32.956093


---

## Resumen

Este notebook completa el ciclo de ML realizando inferencia sobre datos de prueba:

| Paso | Descripción | Output |
|------|-------------|--------|
| 1 | Importaciones | Módulos cargados |
| 2 | Carga Pipeline | Modelo listo para predicción |
| 3 | Preparación Datos | DataFrame de test |
| 4 | Preparación Features | X_test con features del modelo |
| 5 | Predicciones | Array de predicciones |
| 6 | Guardado | Archivo CSV con resultados |

### Siguiente Paso
Las predicciones pueden ser evaluadas comparándolas con los valores reales para calcular métricas de rendimiento del modelo.