# Proyecto de Red Neuronal para Gestión de Inventario de Productos Perecederos

Este proyecto nace como parte de un curso universitario de **Metodología y Desarrollo de Proyectos**, y busca sentar las bases para una futura solución inteligente que ayude a **prevenir pérdidas por vencimiento de productos perecederos** en el retail, a través de alertas predictivas generadas por una red neuronal y notificadas vía aplicación móvil.

---

## Estado del Proyecto

Actualmente, este es un prototipo **experimental** enfocado en demostrar el uso de **IA generativa para la creación de datasets sintéticos**, con miras a:

- Explorar el diseño inicial de variables para el modelo de predicción.
- Evaluar el comportamiento del modelo con conjuntos pequeños de datos generados artificialmente.
- Servir como base futura para un sistema de alerta temprana en inventarios reales.

---

## Consideraciones Técnicas

- **Datos reales de inventario no están disponibles**.
- Se aplica ingeniería de datos para construir variables clave que alimentarán la red neuronal.
- La generación de datos se realiza con herramientas como:
  - GitHub Copilot (para estructuración de datos y lógica inicial).
  - **Mostly AI** (generación sintética creíble a partir de estructuras semiestructuradas).

> **Nota:** La versión de Mostly AI usada es gratuita, con un límite de 5 créditos diarios.

---

## Fases del prototipo actual

1. **Generación de conjunto reducido (1120 muestras)**:  
   Usado para pruebas preliminares y demostración de posibles **estrategias de estrés y validación** del modelo.

2. **Generación extendida (6120 muestras)**:  
   Usado para evaluar comportamiento en escenarios más realistas y con mayor variabilidad.

---

## Próximos pasos

- Finalizar certificaciones clave:  
  - AI Engineer (IBM / Profesional)
  - AI Development Engineer
- Diseñar la red neuronal (Keras/TensorFlow o PyTorch).
- Implementar la API de predicción y conectarla a una app móvil.
- Validación con datos reales si se obtiene acceso a bases de inventario de empresas colaboradoras.

---

## Repositorio

Este notebook será parte de un repositorio en GitHub como **fase 1 del proyecto**, con futuras actualizaciones conforme se completen las certificaciones y pruebas adicionales.



# Paso 1: Lista Completa de Productos

Como punto de partida, se construyó manualmente una base compuesta por **15 productos pertenecientes a distintas marcas y categorías comerciales**, considerando características típicas de inventario para retail (alimentos, bebidas, productos de limpieza, etc.).

Esta lista inicial sirvió como **semilla estructural** para luego generar un conjunto más amplio y variado de datos semiestructurados usando herramientas de apoyo como **GitHub Copilot**.

---

## Lista base de productos

A continuación, se detalla la lista de productos utilizada como semilla para la generación del dataset:

| #  | Marca                     | Producto                | Categoría           |
|----|---------------------------|-------------------------|----------------------|
| 1  | Tres Pinos                | Yogurt de fresa         | Lácteos              |
| 2  | Queso El Rosal            | Queso Cremoso           | Lácteos              |
| 3  | Cinta Verde               | Mortadela               | Embutidos            |
| 4  | Tres Pinos                | Mantequilla             | Lácteos              |
| 5  | Cinta Verde               | Peperoni                | Embutidos            |
| 6  | Queso El Rosal            | Queso Edam              | Lácteos              |
| 7  | Tres Pinos                | Leche deslactosada      | Lácteos              |
| 8  | Queso El Rosal            | Queso Crema             | Lácteos              |
| 9  | Carnes Céntricas del Norte| Pollo Entero            | Carnes               |
| 10 | Panes Nona S.A.           | Pan artesanal de papa   | Panadería            |
| 11 | Mariscos del Atlántico    | Tilapia entera          | Mariscos             |
| 12 | Mariscos del Atlántico    | Tilapia filete          | Mariscos             |
| 13 | Huerto de la Alegría      | Aguacate                | Verduras y Frutas    |

> Nota: Esta lista fue construida manualmente para simular una variedad básica en productos perecederos de retail, sirviendo como punto de partida para la generación de datos semiestructurados.

---

## Variables utilizadas para la simulación

La estructura del dataset generado incluye los siguientes campos:

- `id_lote`: Identificador único del lote.
- `marca`: Marca del producto.
- `producto`: Nombre del producto.
- `categoría`: Tipo o familia del producto.
- `fecha_ingreso`: Fecha en la que el producto ingresa a inventario.
- `fecha_caducidad`: Fecha estimada de vencimiento.
- `stock_actual`: Unidades disponibles en inventario.
- `precio_unitario`: Precio por unidad del producto.
- `historial_movimiento`: Registro de entradas y salidas (simulado).
- `estado_sensorial`: Información visual o de calidad (simulado).
- `comentarios_cliente`: Opiniones o devoluciones (simulado).
- `ubicación`: Zona o pasillo del almacén donde se ubica el producto.
- `riesgo_vencimiento`: Etiqueta calculada (binaria o probabilística) para entrenamiento supervisado.


> La idea fue construir una base inicial **semiestructurada** que represente el tipo de información manejada por un sistema de inventario moderno.

---

## Generación semiestructurada

Con la ayuda de **Copilot**, se generaron datos adicionales en formato de listas, diccionarios y tablas de Python, respetando la lógica de productos perecederos. Esta estructura permitió preparar la entrada para herramientas como **Mostly AI**, que posteriormente generaron datasets más amplios, creíbles y listos para pruebas.

---

## Resultado

La estructura base fue utilizada para generar:

- Un primer dataset de prueba de **1120 muestras**, con variabilidad básica.
- Un segundo dataset más robusto de **6120 muestras**, con mayor dispersión de fechas, categorías y condiciones de vencimiento.

Estos datos permiten probar escenarios como:

- Altos y bajos niveles de stock
- Productos próximos a vencer
- Diversidad de ubicación y categorías


In [None]:
productos = [
    ("Tres Pinos", "Yogurt de fresa", "Lácteos", 1.75),
    ("Queso el Rosal", "Queso Cremoso", "Lácteos", 2.50),
    ("Cinta Verde", "Mortadela", "Embutido", 2.00),
    ("Tres Pinos", "Mantequilla", "Lácteos", 2.20),
    ("Cinta Verde", "Peperoni", "Embutido", 2.80),
    ("Queso el Rosal", "Queso Edam", "Lácteos", 3.00),
    ("Tres Pinos", "Leche deslactosada", "Lácteos", 1.90),
    ("Queso el Rosal", "Queso Crema", "Lácteos", 2.60),
    ("Carnes Centricas del Norte", "Pollo Entero", "Carnes", 4.50),
    ("Panes Nona s.a", "Pan artesanal de papa", "Panadería", 1.80),
    ("Mariscos del atlantico", "Tilapia entera", "Mariscos", 3.75),
    ("Mariscos del atlantico", "Tilapia Filete", "Mariscos", 4.20)
]

# Paso 2: Generación del DataFrame

In [None]:
import pandas as pd
import random
from datetime import datetime, timedelta
import uuid

def generar_producto(marca, producto, categoria, base_precio):
    registros = []
    for lote in range(30):  # 30 lotes por producto
        lote_id = str(uuid.uuid4())[:8]
        for variante in range(2):  # 2 fechas por lote = 60 instancias
            ingreso = datetime.today() - timedelta(days=random.randint(1, 25))
            caducidad = ingreso + timedelta(days=random.randint(5, 30))
            stock = random.randint(0, 100)
            riesgo = (caducidad - datetime.today()).days <= 5 and stock > 0
            registros.append({
                "id_lote": f"{producto[:3]}-{lote_id}-{variante}",
                "marca": marca,
                "producto": producto,
                "categoría": categoria,
                "fecha_ingreso": ingreso.date(),
                "fecha_caducidad": caducidad.date(),
                "stock_actual": stock,
                "precio_unitario": round(base_precio + random.uniform(-0.2, 0.5), 2),
                "historial_movimiento": [{"fecha": (ingreso + timedelta(days=i)).date(), "cantidad": random.randint(1, 10)} for i in range(random.randint(1, 5))],
                "estado_sensorial": random.choice([
                    "textura cremosa", "olor fuerte", "color opaco", "sensorial neutro",
                    "textura firme", "olor suave", "color brillante"
                ]),
                "comentarios_cliente": random.choice([
                    "Muy fresco", "Buen sabor", "Caducó rápido", "Lo volvería a comprar",
                    "Textura agradable", "No me gustó el olor", "Perfecto para cocinar"
                ]),
                "ubicación": {"pasillo": random.randint(1, 5), "nivel": random.choice(["alto", "medio", "bajo"])},
                "riesgo_vencimiento": riesgo
            })
    return registros

# Generar el dataset completo
dataset = []
for marca, producto, categoria, precio in productos:
    dataset.extend(generar_producto(marca, producto, categoria, precio))

# Convertir a DataFrame
df = pd.DataFrame(dataset)

# vista

In [None]:
display(df.head())

Unnamed: 0,id_lote,marca,producto,categoría,fecha_ingreso,fecha_caducidad,stock_actual,precio_unitario,historial_movimiento,estado_sensorial,comentarios_cliente,ubicación,riesgo_vencimiento
0,Yog-20b96233-0,Tres Pinos,Yogurt de fresa,Lácteos,2025-07-08,2025-07-16,9,2.06,"[{'fecha': 2025-07-08, 'cantidad': 6}, {'fecha...",textura cremosa,Caducó rápido,"{'pasillo': 2, 'nivel': 'bajo'}",True
1,Yog-20b96233-1,Tres Pinos,Yogurt de fresa,Lácteos,2025-07-31,2025-08-12,71,2.18,"[{'fecha': 2025-07-31, 'cantidad': 5}, {'fecha...",textura cremosa,Muy fresco,"{'pasillo': 5, 'nivel': 'bajo'}",False
2,Yog-78e11c72-0,Tres Pinos,Yogurt de fresa,Lácteos,2025-07-31,2025-08-13,13,2.22,"[{'fecha': 2025-07-31, 'cantidad': 8}, {'fecha...",olor suave,Muy fresco,"{'pasillo': 2, 'nivel': 'alto'}",False
3,Yog-78e11c72-1,Tres Pinos,Yogurt de fresa,Lácteos,2025-07-16,2025-08-05,46,2.18,"[{'fecha': 2025-07-16, 'cantidad': 5}, {'fecha...",sensorial neutro,Buen sabor,"{'pasillo': 1, 'nivel': 'bajo'}",True
4,Yog-df00801a-0,Tres Pinos,Yogurt de fresa,Lácteos,2025-07-31,2025-08-08,34,1.56,"[{'fecha': 2025-07-31, 'cantidad': 8}, {'fecha...",textura cremosa,Textura agradable,"{'pasillo': 2, 'nivel': 'alto'}",True


# guardado

In [None]:
df.to_csv("productos_perecederos.csv", index=False)

---

## Enriquecimiento del dataset con Mostly AI

Tras la generación inicial de la estructura semiestructurada, se utilizaron los créditos disponibles en la versión gratuita de **Mostly AI** para generar datos sintéticos más amplios y realistas, agregando nuevas variables que simulan condiciones reales del entorno de retail y almacenamiento de productos perecederos.

Estas variables complementarias permiten construir un modelo de red neuronal con mayor contexto operativo y predictivo.

---

## Columnas adicionales generadas

| Variable               | Descripción                                                                 |
|------------------------|------------------------------------------------------------------------------|
| `sales_ultimos_7d`     | Unidades vendidas en los últimos 7 días (entero)                             |
| `ventas_promedio_diaria` | Promedio de ventas diarias (decimal)                                      |
| `dias_hasta_caducidad` | Días restantes hasta la fecha de vencimiento (entero, calculado)            |
| `proveedor`            | Nombre del proveedor (cadena de texto)                                      |
| `en_promocion`         | Indicador de si el producto está en promoción (booleano)                    |
| `precio_promocion`     | Precio actual en promoción (decimal, puede ser nulo)                        |
| `fecha_ultima_venta`   | Fecha de la última venta registrada (fecha)                                 |
| `temperatura_almacen`  | Temperatura de almacenamiento en grados Celsius (decimal)                   |
| `humedad_almacen`      | Humedad relativa en el área de almacenamiento (%) (decimal)                 |
| `categoria_riesgo`     | Clasificación de riesgo del producto (por ejemplo: bajo, medio, alto)       |

---

> Estas variables aportan profundidad al contexto del producto y permitirán a futuro mejorar el rendimiento del modelo, no solo en términos de vencimiento, sino en decisiones de inventario como promociones, rotación o condiciones de almacenamiento.



# Moslty ai code
from mostlyai import mock

# Redefine the schema for the synthetic dataset
dataset_schema = {
    "inventario_perecederos": {
        "prompt": "Inventario de productos perecederos en una cadena de supermercados de Latinoamérica, incluyendo información de producto, lote, proveedor, ventas, condiciones de almacenamiento, promociones y riesgo de vencimiento.",
        "columns": {
            "id_lote": {"prompt": "ID único del lote", "dtype": "string"},
            "producto": {"prompt": "Nombre del producto perecedero", "dtype": "string"},
            "marca": {"prompt": "Marca del producto", "dtype": "string"},
            "categoria": {"prompt": "Categoría del producto (ej: Lácteos, Carnes, Frutas, Verduras, Panadería, Bebidas)", "dtype": "category", "values": ["Lácteos", "Carnes", "Frutas", "Verduras", "Panadería", "Bebidas"]},
            "proveedor": {"prompt": "Nombre del proveedor", "dtype": "string"},
            "fecha_ingreso": {"prompt": "Fecha de ingreso al inventario (últimos 60 días)", "dtype": "date"},
            "fecha_caducidad": {"prompt": "Fecha de caducidad (entre 3 y 30 días después de ingreso)", "dtype": "date"},
            "dias_hasta_caducidad": {"prompt": "Días restantes hasta la caducidad (desde hoy)", "dtype": "integer"},
            "stock_actual": {"prompt": "Stock actual en unidades", "dtype": "integer"},
            "precio_unitario": {"prompt": "Precio unitario en moneda local", "dtype": "float"},
            "en_promocion": {"prompt": "¿Está en promoción?", "dtype": "boolean"},
            "precio_promocion": {"prompt": "Precio promocional si aplica, sino nulo", "dtype": "float"},
            "ventas_ultimos_7d": {"prompt": "Unidades vendidas en los últimos 7 días", "dtype": "integer"},
            "ventas_promedio_diaria": {"prompt": "Promedio de ventas diarias (últimos 30 días)", "dtype": "float"},
            "fecha_ultima_venta": {"prompt": "Fecha de la última venta", "dtype": "date"},
            "historial_movimiento": {"prompt": "Breve resumen de movimientos de stock (ingresos, ventas, mermas)", "dtype": "string"},
            "estado_sensorial": {"prompt": "Estado sensorial reportado (ej: olor, textura, color)", "dtype": "string"},
            "comentarios_cliente": {"prompt": "Comentario de cliente sobre el producto", "dtype": "string"},
            "ubicacion": {"prompt": "Ubicación en tienda (ej: pasillo, nivel)", "dtype": "string"},
            "temperatura_almacen": {"prompt": "Temperatura de almacenamiento en °C", "dtype": "float"},
            "humedad_almacen": {"prompt": "Humedad de almacenamiento en %", "dtype": "float"},
            "riesgo_vencimiento": {"prompt": "¿Existe riesgo de vencimiento?", "dtype": "boolean"},
            "categoria_riesgo": {"prompt": "Categoría de riesgo de vencimiento (bajo, medio, alto)", "dtype": "category", "values": ["bajo", "medio", "alto"]},
        },
        "primary_key": "id_lote"
    }
}

# Generate 2,500 rows of synthetic data
synth_df_small = mock.sample(tables=dataset_schema, sample_size=2500, model="litellm_proxy/openai/gpt-4.1-nano")
synth_df_small.to_csv("/mnt/data/inventario_perecederos_sintetico_2500.csv", index=False)

# Load dataset

In [2]:
import numpy as np
import pandas as pd
import matplotlib as mp
import matplotlib.pyplot as plt
from scipy import stats
from scipy.stats import shapiro
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt


In [3]:
# Leer el archivo
df_retail= pd.read_csv('/content/sample_data/perishables_2020_2025_full.csv')
display(df_retail.head())

Unnamed: 0,producto_id,nombre_producto,categoria,fecha_caducidad,stock_actual,precio_unitario,sales_ultimos_7d,ventas_promedio_diaria,dias_hasta_caducidad,proveedor,en_promocion,precio_promocion,fecha_ultima_venta,temperatura_almacen,humedad_almacen,categoria_riesgo
0,P1001,Manzanas Fuji,frutas,2020-08-31,109,2.45,63,10.4,31,FruViva Ltda,False,,2020-07-31,4.22,93.03,bajo
1,P1002,Leche Entera 1L,lacteos,2020-09-01,92,1.25,42,6.71,33,DairyBest,True,1.05,2020-07-30,4.05,74.98,bajo
2,P1003,Bananas orgánicas,frutas,2020-08-21,138,1.73,88,14.08,23,Tropico Verde,False,,2020-07-29,11.51,76.25,bajo
3,P1004,Pechuga de Pollo,carnes,2020-08-10,55,5.46,31,4.66,10,CarnesPremium,True,5.3,2020-07-31,2.17,93.85,alto
4,P1005,Yogures Naturales,lacteos,2020-08-25,103,0.87,58,7.32,26,DairyBest,False,,2020-07-30,3.74,85.01,bajo


---

## Dataset de Prueba: Descripción General

Como resultado del proceso de ingeniería de datos y generación sintética, se construyó un **dataset de prueba** que simula condiciones reales en un sistema de inventario de productos perecederos en retail.

Este dataset fue creado para realizar pruebas exploratorias, validar la viabilidad del modelo y preparar futuras iteraciones de una red neuronal para alertas de vencimiento y gestión preventiva.

---

## Composición del Dataset

El dataset incluye registros de múltiples productos con variables estructurales, operativas y sensoriales. Fue dividido en dos versiones:

- **Versión reducida (1120 registros)**:  
  Utilizada para pruebas rápidas, validación de estructura y análisis de estrés.

- **Versión extendida (6120 registros)**:  
  Utilizada para pruebas más realistas, entrenamiento inicial de modelos y evaluación de rendimiento.

---

## Variables incluidas

El dataset final contiene más de **15 columnas** que combinan:

- **Identificadores y datos básicos** (`id_lote`, `marca`, `producto`, `categoría`)
- **Fechas relevantes** (`fecha_ingreso`, `fecha_caducidad`, `fecha_ultima_venta`)
- **Condiciones del producto** (`stock_actual`, `precio_unitario`, `estado_sensorial`, `ubicación`)
- **Variables generadas o derivadas**:
  - `dias_hasta_caducidad`
  - `riesgo_vencimiento`
  - `categoria_riesgo`
- **Variables de comportamiento del inventario**:
  - `sales_ultimos_7d`
  - `ventas_promedio_diaria`
  - `historial_movimiento`
- **Factores externos**:
  - `en_promocion`
  - `precio_promocion`
  - `temperatura_almacen`
  - `humedad_almacen`

---

## Objetivo del Dataset

El propósito del dataset de prueba es:

- Simular un entorno de inventario dinámico con productos perecederos.
- Permitir pruebas de clasificación supervisada (por ejemplo: predicción del riesgo de vencimiento).
- Servir como base para desarrollar y entrenar una red neuronal orientada a **alertar al personal de inventario vía app móvil** antes de que se produzcan pérdidas por vencimiento.
- Evaluar si la red neuronal **es capaz de aprender patrones relevantes y adaptarse a cambios ligeros** en variables como `marca`, `proveedor` o condiciones de almacenamiento, lo cual es fundamental para garantizar una buena capacidad de generalización.

> Este dataset no proviene de datos reales, pero se construyó cuidadosamente para simular situaciones plausibles en un entorno lo



In [4]:
# Leer el archivo
df_retail_test= pd.read_csv('/content/sample_data/perishables_2020_2025_full.csv')
display(df_retail_test.head())

Unnamed: 0,producto_id,nombre_producto,categoria,fecha_caducidad,stock_actual,precio_unitario,sales_ultimos_7d,ventas_promedio_diaria,dias_hasta_caducidad,proveedor,en_promocion,precio_promocion,fecha_ultima_venta,temperatura_almacen,humedad_almacen,categoria_riesgo
0,P1001,Manzanas Fuji,frutas,2020-08-31,109,2.45,63,10.4,31,FruViva Ltda,False,,2020-07-31,4.22,93.03,bajo
1,P1002,Leche Entera 1L,lacteos,2020-09-01,92,1.25,42,6.71,33,DairyBest,True,1.05,2020-07-30,4.05,74.98,bajo
2,P1003,Bananas orgánicas,frutas,2020-08-21,138,1.73,88,14.08,23,Tropico Verde,False,,2020-07-29,11.51,76.25,bajo
3,P1004,Pechuga de Pollo,carnes,2020-08-10,55,5.46,31,4.66,10,CarnesPremium,True,5.3,2020-07-31,2.17,93.85,alto
4,P1005,Yogures Naturales,lacteos,2020-08-25,103,0.87,58,7.32,26,DairyBest,False,,2020-07-30,3.74,85.01,bajo
