<a href="https://colab.research.google.com/github/IsidroJ/Colab_Archivos_Clase_PADP/blob/main/ProyectoProgADAP_261550.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Control y optimización del inventario en productos perecederos**


**Etapas: Métricas de Calidad de los Datos, Análisis Descriptivo y Preprocesamiento**

Nombre: Isidro Jesús González Hernández

Matrícula: 261550

Fecha: 01/10/2025

## **1) Introducción**

La cadena de suministro agroalimentaria (CSA) está asociada con las etapas de la producción de alimentos agrícolas, particularmente "de la granja a la mesa", es decir, desde las etapas de cultivo/cria,  producción, procesamiento, comercio, distribución y consumo (Kafi et al., 2025). Entre los principales desafíos de las CSA destacan:
1. Desafíos ambientales y globales.
2. Gestión de la demanda y el suministro.
3. Operaciones de producción y logística.
4. Costos y sostenibilidad.
5. Gestión de inventarios y trazabilidad.
6. Gestión del tiempo.

Bajo este contexto, muchos alimentos son altamente perecederos (frutas, vegetales, lácteos, carnes). Lo que implica gestionar efizcazmente el inventario en todas las etapas de la CSA. Por ejemplo, la incertidumbre en la demanda propicia que los prónosticos no coincidan con las ventas reales. Esto complica definir cuánto pedir, cuándo hacerlo y cuánto mantener en inventario.

**Objetivo del proyecto:**
Optimizar la gestión del inventario mediante el seguimiento de las cantidades de existencias, los umbrales mínimos y las cantidades de reordenamiento, mediante la aplicación de inteligencia artificial.


**Contexto del dataset:**
El conjunto de datos esta relacionado a las ventas de productos lácteos, el cual proporciona una recopilación detallada de datos relacionados con granjas lecheras, productos lácteos, ventas e inventario. En este sentido, el proyecto pretende abordar el problema de optimizar los nivesles de inventario de productos perecederos con fin de maximizar ganacias y evitar desperdicios.  


## **2) Descripción del dataset**

**Fuente de los datos.**

El conjunto de datos se obtuvo de la plataforma Kaggle:

https://www.kaggle.com/datasets/suraj520/dairy-goods-sales-dataset/data  

<br>

**Número de registros y variables.**

La base de datos contiene 4325 filas y 23 columndas (variables).

<br>

**Variables principales de interés.**

El conjunto de datos contiene 23 variables de las cuales 9 son de interes para este proyecto. Acontinuación se enlistan todas las variables y se marcan las de interes:

1. Location: Ubicación geográfica de la granja lechera.
2. Total Land Area (acres): Superficie total del terreno ocupada por la granja lechera.
3. Number of Cows: Número de vacas presentes en la granja lechera.
4. Farm Size: Tamaño de la granja lechera (en kilómetros cuadrados).
5. Date: Fecha del registro de los datos.
6. **Product ID: Identificador único de cada producto lácteo.**
7. Product Name: Nombre del producto lácteo.
8. Brand: Marca asociada al producto lácteo.
9. **Quantity (liters/kg): Cantidad de producto lácteo disponible.**
10. **Price per Unit: Precio por unidad del producto lácteo.**
11. Total Value: Valor total de la cantidad disponible del producto lácteo.
12. **Shelf Life (days): Vida útil del producto lácteo en días.**
13. Storage Condition: Condición de almacenamiento recomendada para el producto lácteo.
14. Production Date: Fecha de producción del producto lácteo.
15. Expiration Date: Fecha de vencimiento del producto lácteo.
16. **Quantity Sold (liters/kg): Cantidad de producto lácteo vendido.**
17. **Price per Unit (sold): Precio por unidad al que se vendió el producto lácteo.**
18. Approx. Total Revenue (INR): Ingresos totales aproximados generados por la venta del producto lácteo.
19. Customer Location: Ubicación del cliente que compró el producto lácteo.
20. Sales Channel: Canal a través del cual se vendió el producto lácteo (minorista, mayorista, en línea).
21. **Quantity in Stock (liters/kg): La cantidad de producto lácteo que queda en stock.**
22. **Minimum Stock Threshold (liters/kg): El umbral mínimo de existencias del producto lácteo.**
23. **Reorder Quantity (liters/kg): La cantidad recomendada para reordenar del producto lácteo.**

<br>

**Limitaciones del dataset.**

Para determinar los niveles óptimos de inventario se requieren de datos como el costo de hacer una orden y costo de mantener el inventario. Sin embargo, no es una limitación importante para determinar niveles óptimos de inventarios. Desde el contexto, de la asignatura no se podrán abordar todos los temas que se han visto en clase, por ejemplo, trabajar con datos nulos.

**A continuación, se presenta una exploración básica de los datos.**

In [1]:
import pandas as pd
from IPython.display import display, HTML
import numpy as np


df = pd.read_csv("/content/drive/MyDrive/1_ClassFiles/0_Proyecto/dairy_dataset.csv")

display(HTML("<h3 style='color:blue; font-size:18px;'> Vista rápida del conjunto de datos </h3>"))
print('\n')

df.head()





Unnamed: 0,Location,Total Land Area (acres),Number of Cows,Farm Size,Date,Product ID,Product Name,Brand,Quantity (liters/kg),Price per Unit,...,Production Date,Expiration Date,Quantity Sold (liters/kg),Price per Unit (sold),Approx. Total Revenue(INR),Customer Location,Sales Channel,Quantity in Stock (liters/kg),Minimum Stock Threshold (liters/kg),Reorder Quantity (liters/kg)
0,Telangana,310.84,96,Medium,2022-02-17,5,Ice Cream,Dodla Dairy,222.4,85.72,...,2021-12-27,2022-01-21,7,82.24,575.68,Madhya Pradesh,Wholesale,215,19.55,64.03
1,Uttar Pradesh,19.19,44,Large,2021-12-01,1,Milk,Amul,687.48,42.61,...,2021-10-03,2021-10-25,558,39.24,21895.92,Kerala,Wholesale,129,43.17,181.1
2,Tamil Nadu,581.69,24,Medium,2022-02-28,4,Yogurt,Dodla Dairy,503.48,36.5,...,2022-01-14,2022-02-13,256,33.81,8655.36,Madhya Pradesh,Online,247,15.1,140.83
3,Telangana,908.0,89,Small,2019-06-09,3,Cheese,Britannia Industries,823.36,26.52,...,2019-05-15,2019-07-26,601,28.92,17380.92,Rajasthan,Online,222,74.5,57.68
4,Maharashtra,861.95,21,Medium,2020-12-14,8,Buttermilk,Mother Dairy,147.77,83.85,...,2020-10-17,2020-10-28,145,83.07,12045.15,Jharkhand,Retail,2,76.02,33.4


In [2]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Tamño del conjunto de datos: cantidad de filas y columnas </h3>"))
print('\n')
print(df.shape)



(4325, 23)


In [3]:

display(HTML("<h3 style='color:blue; font-size:18px;'> Nombre de las columnas </h3>"))
print('\n')

dfNomCol = pd.DataFrame({"Nombre:": df.columns})
print(dfNomCol)



                                Nombre:
0                              Location
1               Total Land Area (acres)
2                        Number of Cows
3                             Farm Size
4                                  Date
5                            Product ID
6                          Product Name
7                                 Brand
8                  Quantity (liters/kg)
9                        Price per Unit
10                          Total Value
11                    Shelf Life (days)
12                    Storage Condition
13                      Production Date
14                      Expiration Date
15            Quantity Sold (liters/kg)
16                Price per Unit (sold)
17           Approx. Total Revenue(INR)
18                    Customer Location
19                        Sales Channel
20        Quantity in Stock (liters/kg)
21  Minimum Stock Threshold (liters/kg)
22         Reorder Quantity (liters/kg)


In [4]:
display(HTML("<h3 style='color:blue; font-size:18px;'> La informacion del conjunto de datos es: </h3>"))
print('\n')
print(df.info())



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4325 entries, 0 to 4324
Data columns (total 23 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Location                             4325 non-null   object 
 1   Total Land Area (acres)              4325 non-null   float64
 2   Number of Cows                       4325 non-null   int64  
 3   Farm Size                            4325 non-null   object 
 4   Date                                 4325 non-null   object 
 5   Product ID                           4325 non-null   int64  
 6   Product Name                         4325 non-null   object 
 7   Brand                                4325 non-null   object 
 8   Quantity (liters/kg)                 4325 non-null   float64
 9   Price per Unit                       4325 non-null   float64
 10  Total Value                          4325 non-null   float64
 11  Shelf Life (days)           

## **3) Preguntas del análisis descriptivo**


1. ¿Cómo se comparta la distribución de las principales variables de estudio?

2. ¿Qué diferencias relevantes existen entre los productos con respecto a caducidad, ventas, cantidad en stock, inventario de seguridad y punto de reorden?

3. ¿Cuál es la clasificación ABC de los productos por ventas?


## **4) Métricas de calidad de los datos**

In [5]:
from IPython.display import display, Markdown


CDF = df.isna().sum()    #CDF: Cantidad de Datos Faltantes
PDF = (CDF / len(df) * 100).round(2)   #PDF: Porcentaje de Datos Faltantes
completeness = pd.DataFrame({
    "Variables": df.columns,
    "Datos Faltantes": CDF.values,
    "Porcentaje de Faltantes": PDF.values
}).sort_values("Porcentaje de Faltantes", ascending=False)


display(HTML("<h3 style='color:blue; font-size:18px;'> Completitud: Conteo y porcentaje de valores faltantes </h3>"))
print('\n')
display(completeness)






Unnamed: 0,Variables,Datos Faltantes,Porcentaje de Faltantes
0,Location,0,0.0
1,Total Land Area (acres),0,0.0
2,Number of Cows,0,0.0
3,Farm Size,0,0.0
4,Date,0,0.0
5,Product ID,0,0.0
6,Product Name,0,0.0
7,Brand,0,0.0
8,Quantity (liters/kg),0,0.0
9,Price per Unit,0,0.0


### **Completitud**

El porcentaje de datos presentes (no nulos) respecto de los requeridos. Puede medirse:
* A nivel columna: % de valores no nulos.
* A nivel registro: % de campos llenos por fila.
* A nivel negocio: % de atributos críticos completos.

La **completitud** importa porque los faltantes pueden distorsionar el análisis y las decisiones: eliminar filas o columnas incompletas (listwise/pairwise) introduce sesgos en medias, varianzas y correlaciones cuando los datos no son MCAR; además, reduce el poder estadístico, ampliando intervalos e inestabilizando los modelos. En ML, los vacíos rompen pipelines, complican el feature engineering y degradan métricas como RMSE, F1 o AUC. Operativamente, en cadenas agroalimentarias, carecer de fechas de caducidad o cantidad vendida de producto impide aplicar FEFO (First-Expire, First-Out), estimar la demanda y prevenir rupturas o mermas. Y desde el ángulo de cumplimiento y trazabilidad, campos incompletos (lote, proveedor) dificultan auditorías y recalls.

In [6]:
TipoDato = {
    'Location': 'object',
    'Total Land Area (acres)': 'float64',
    'Number of Cows': 'int64',
    'Farm Size': 'object',
    'Date': 'date',
    'Product ID': 'int64',
    'Product Name': 'object',
    'Brand': 'object',
    'Quantity (liters/kg)': 'float64',
    'Price per Unit': 'float64',
    'Total Value': 'float64',
    'Shelf Life (days)': 'int64',
    'Storage Condition': 'object',
    'Production Date': 'date',
    'Expiration Date': 'date',
    'Quantity Sold (liters/kg)': 'int64',
    'Price per Unit (sold)': 'float64',
    'Approx. Total Revenue(INR)': 'float64',
    'Customer Location': 'object',
    'Sales Channel': 'object',
    'Quantity in Stock (liters/kg)': 'int64',
    'Minimum Stock Threshold (liters/kg)': 'float64',
    'Reorder Quantity (liters/kg)': 'float64',
}

# --- Inferencia de tipo (fallback si no está en SCHEMA) ---
def AnalisisTipoDato(col: pd.Series):
    s = col.dropna()
    if s.empty:
        return 'string'
    # numérico
    if pd.to_numeric(s.astype(str).str.replace(',', '.', regex=False), errors='coerce').notna().mean() >= 0.9:
        return 'numeric'
    # fecha
    if pd.to_datetime(s, errors='coerce', infer_datetime_format=True).notna().mean() >= 0.9:
        return 'date'
    # boolean
    vals = set(s.astype(str).str.lower().unique())
    if vals.issubset({'true','false','1','0','si','sí','no','yes'}):
        return 'boolean'
    # categórica (pocas categorías relativas)
    if s.nunique(dropna=True) <= max(20, 0.05 * len(s)):
        return 'categorical'
    return 'string'

def summarize_types(df: pd.DataFrame, schema: dict | None = None) -> pd.DataFrame:
    rows = []
    for col in df.columns:
        actual = str(df[col].dtype)
        correcto = (schema or {}).get(col, None)
        if correcto is None:
            correcto = AnalisisTipoDato(df[col])
        rows.append({
            'Variable': col,
            'Tipo de dato': actual,
            'Tipo correcto': correcto,
        })
    return pd.DataFrame(rows)

# --- Ejecutar el resumen ---
resumen = summarize_types(df, schema=TipoDato)
display(HTML("<h3 style='color:blue; font-size:18px;'> Consistencia: Tipo de dato correcto </h3>"))
print('\n')
display(resumen)






Unnamed: 0,Variable,Tipo de dato,Tipo correcto
0,Location,object,object
1,Total Land Area (acres),float64,float64
2,Number of Cows,int64,int64
3,Farm Size,object,object
4,Date,object,date
5,Product ID,int64,int64
6,Product Name,object,object
7,Brand,object,object
8,Quantity (liters/kg),float64,float64
9,Price per Unit,float64,float64


### **Consistencia**

La consistencia (Consistency) en calidad de datos es la coherencia interna y uniformidad con la que un mismo concepto se registra a lo largo del tiempo y entre sistemas (mismos tipos, formatos y unidades); es crucial porque garantiza KPIs comparables, uniones entre tablas sin pérdidas ni duplicidades, y pipelines de analítica/ML estables—si las unidades varían (“L”, “litros”, “lts.”), las fechas cambian de formato o se rompen reglas como Fecha de caducidad ≥ Fecha de producción o Tiempo de vida ≈ Caducidad - producción, los cálculos, pronósticos y decisiones se vuelven erráticos y propensos a errores, además de complicar el cumplimiento y la trazabilidad en auditorías; por ello, conviene estandarizar tipos y unidades, usar catálogos/llaves estables y automatizar validaciones de reglas para prevenir inconsistencias antes de reportar o modelar.

En nuestro caso sólo se puedo idenficar errores en el tipo de dato paras las fechas. En este sentido se hara converción en la sección 6 de este proyectyo.

In [7]:
import re
ColumnasFecha = ['Date', 'Production Date', 'Expiration Date']
FormatoCorrecto = '%Y-%m-%d'
ExpRegular = re.compile(r'^\d{4}-\d{2}-\d{2}$')

def AnalisisFecha(series: pd.Series,
                              expected_format: str,
                              strict_regex: re.Pattern) -> bool:
    s_str = series.astype(str)
    match_pattern = s_str.str.match(strict_regex)
    parsed = pd.to_datetime(series, format=expected_format, errors='coerce')
    return bool((match_pattern & parsed.notna()).all())

# --- Construir resultado (2 columnas) ---
rows = []
for col in ColumnasFecha:
    if col in df.columns:
        ok = AnalisisFecha(df[col], FormatoCorrecto, ExpRegular)
        rows.append({'Columna': col, 'Fecha correcta': 'Correcto' if ok else 'Incorrecto'})
    else:
        rows.append({'Columna': col, 'Fecha correcta': 'Incorrecto'})  # columna ausente

resultado = pd.DataFrame(rows, columns=['Columna', 'Fecha correcta'])
display(HTML("<h3 style='color:blue; font-size:18px;'> Consistencia: Formato correcto de fechas </h3>"))
print('\n')
display(resultado)





Unnamed: 0,Columna,Fecha correcta
0,Date,Correcto
1,Production Date,Correcto
2,Expiration Date,Correcto


In [8]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Validar las plabras en la columna de Tamaño de la Granja </h3>"))
print('\n')

VPTG = {"Large", "Medium", "Small"}

df["Farm Size Chequeo"] = df["Farm Size"].apply(
    lambda x: "Correcto" if x in VPTG else "Incorrecto"
)

# Mostrar resumen
display(df["Farm Size Chequeo"].value_counts())
print('\n')
print('\033[1m Valores diferentes encontrados en Farm Size: \033[0m')
display(df.loc[df["Farm Size Chequeo"] == "Incorrecto", "Farm Size"].unique())





Unnamed: 0_level_0,count
Farm Size Chequeo,Unnamed: 1_level_1
Correcto,4325




[1m Valores diferentes encontrados en Farm Size: [0m


array([], dtype=object)

In [9]:
RevisarColumnas = [
    "Product ID",
    "Location",
    "Farm Size",
    "Product Name",
    "Brand",
    "Storage Condition",
    "Customer Location",
    "Sales Channel"
]

display(HTML("<h3 style='color:blue; font-size:18px;'> Unicidad: Identificación de valores únicos en la columna 'Product ID' y las que contengan texto </h3>"))
print('\n')

for columnas in RevisarColumnas:
    if columnas in df.columns:
        formato = df[columnas].value_counts()
        display(formato)






Unnamed: 0_level_0,count
Product ID,Unnamed: 1_level_1
6,479
7,447
9,441
4,437
8,435
2,431
1,429
5,423
10,402
3,401


Unnamed: 0_level_0,count
Location,Unnamed: 1_level_1
Delhi,525
Chandigarh,519
Uttar Pradesh,276
Gujarat,267
Karnataka,261
Madhya Pradesh,259
Rajasthan,256
Maharashtra,255
Haryana,253
Kerala,249


Unnamed: 0_level_0,count
Farm Size,Unnamed: 1_level_1
Large,1462
Medium,1439
Small,1424


Unnamed: 0_level_0,count
Product Name,Unnamed: 1_level_1
Curd,479
Lassi,447
Paneer,441
Yogurt,437
Buttermilk,435
Butter,431
Milk,429
Ice Cream,423
Ghee,402
Cheese,401


Unnamed: 0_level_0,count
Brand,Unnamed: 1_level_1
Amul,1053
Mother Dairy,1010
Raj,685
Sudha,648
Dodla Dairy,222
Palle2patnam,211
Dynamix Dairies,106
Warana,104
Parag Milk Foods,102
Passion Cheese,96


Unnamed: 0_level_0,count
Storage Condition,Unnamed: 1_level_1
Refrigerated,2459
Frozen,1035
Ambient,402
Polythene Packet,225
Tetra Pack,204


Unnamed: 0_level_0,count
Customer Location,Unnamed: 1_level_1
Delhi,499
Chandigarh,489
Bihar,284
Maharashtra,271
Kerala,267
Uttar Pradesh,267
Tamil Nadu,267
West Bengal,264
Karnataka,264
Telangana,251


Unnamed: 0_level_0,count
Sales Channel,Unnamed: 1_level_1
Retail,1478
Wholesale,1476
Online,1371


In [10]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Unicidad: Identificación de valores únicos por clave de columnas </h3>"))
print('\n')

combinaciones = ["Location", "Product ID", "Product Name", "Production Date", "Brand"]

n_filas = len(df)

n_combinaciones = df[combinaciones].drop_duplicates().shape[0]

pct_combinaciones = round(100 * n_combinaciones / n_filas, 2)

filas_duplicadas = int(df.duplicated(subset=combinaciones).sum())

dup_groups = (
    df.groupby(combinaciones, dropna=False)
      .size()
      .reset_index(name="count")
      .query("count > 1")
      .sort_values("count", ascending=False)
)

print("----- RESUMEN DE UNICIDAD -----")
print(f"Filas totales:                 {n_filas}")
print(f"Claves únicas (combinaciones): {n_combinaciones}")
print(f"% unicidad de la clave:        {pct_combinaciones}%")
print(f"Filas duplicadas por clave:    {filas_duplicadas}")

print("\n----- TOP combinaciones duplicadas -----")
print(dup_groups.to_string(index=False) if not dup_groups.empty else "No hay combinaciones duplicadas.")





----- RESUMEN DE UNICIDAD -----
Filas totales:                 4325
Claves únicas (combinaciones): 4313
% unicidad de la clave:        99.72%
Filas duplicadas por clave:    12

----- TOP combinaciones duplicadas -----
      Location  Product ID Product Name Production Date           Brand  count
    Chandigarh           5    Ice Cream      2019-07-10    Mother Dairy      2
    Chandigarh           7        Lassi      2020-06-16            Amul      2
    Chandigarh           8   Buttermilk      2020-05-10            Amul      2
    Chandigarh          10         Ghee      2020-07-07           Sudha      2
         Delhi           1         Milk      2020-01-30            Amul      2
         Delhi           1         Milk      2022-11-05    Mother Dairy      2
         Delhi           5    Ice Cream      2021-01-16    Palle2patnam      2
         Delhi           9       Paneer      2021-02-23             Raj      2
       Gujarat           3       Cheese      2021-12-22 Dynamix Dairi

### **Unicidad**

La unicidad (Uniqueness) asegura que cada entidad o el dato esté representado una sola vez conforme a su clave (simple o compuesta (ID del producto + Nombre del producto + Fecha de producción), evitando registros repetidos o casi duplicados que inflan los KPIs, sesgan análisis y entrenamientos de ML; cuando existen duplicados pueden aparecer resultados sobredimensionados, tasas distorsionadas y decisiones operativas erróneas (reposición, pronósticos, control de lotes). Para garantizar la unicidad, se deben definir claves primarias y restricciones de unicidad desde el origen.

In [11]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Duplicación: Identificación de filas duplicadas </h3>"))
print('\n')

duplicados_totales = df.duplicated().sum()
display(duplicados_totales)





np.int64(0)

In [12]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Duplicación: Verificar duplicados en columnas específicas </h3>"))
print('\n')

ColumnasClave = ["Date", "Product ID", "Product Name", "Customer Location"]

DuplicadosClave = df.duplicated(subset=ColumnasClave).sum()
#print(f"\nDuplicados en base a {ColumnasClave}: {DuplicadosClave}")

if DuplicadosClave > 0:
    display(df[df.duplicated(subset=ColumnasClave, keep=False)].sort_values(ColumnasClave))





Unnamed: 0,Location,Total Land Area (acres),Number of Cows,Farm Size,Date,Product ID,Product Name,Brand,Quantity (liters/kg),Price per Unit,...,Expiration Date,Quantity Sold (liters/kg),Price per Unit (sold),Approx. Total Revenue(INR),Customer Location,Sales Channel,Quantity in Stock (liters/kg),Minimum Stock Threshold (liters/kg),Reorder Quantity (liters/kg),Farm Size Chequeo
2172,Delhi,360.64,52,Large,2019-01-26,9,Paneer,Mother Dairy,225.19,10.77,...,2018-12-09,8,6.95,55.60,Bihar,Online,217,84.00,148.54,Correcto
3180,Rajasthan,304.49,64,Medium,2019-01-26,9,Paneer,Mother Dairy,942.65,13.46,...,2019-01-01,808,10.40,8403.20,Bihar,Wholesale,134,48.85,39.19,Correcto
1513,Uttar Pradesh,929.93,29,Large,2019-02-05,6,Curd,Amul,761.33,60.76,...,2018-12-30,90,61.53,5537.70,Haryana,Online,671,57.20,75.56,Correcto
3190,Gujarat,506.33,58,Large,2019-02-05,6,Curd,Mother Dairy,584.77,16.35,...,2019-01-25,77,14.03,1080.31,Haryana,Retail,507,77.72,193.33,Correcto
975,Tamil Nadu,863.23,34,Medium,2019-03-05,10,Ghee,Sudha,443.29,99.65,...,2019-03-11,382,103.11,39388.02,Gujarat,Wholesale,61,70.78,82.01,Correcto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2911,Chandigarh,326.96,21,Medium,2022-09-26,3,Cheese,Passion Cheese,24.80,74.34,...,2022-09-08,14,71.57,1001.98,Chandigarh,Retail,10,34.57,55.77,Correcto
2112,West Bengal,963.65,64,Large,2022-10-09,2,Butter,Parag Milk Foods,388.22,52.86,...,2022-10-12,181,55.55,10054.55,Uttar Pradesh,Retail,207,20.28,52.18,Correcto
4151,Maharashtra,911.98,46,Large,2022-10-09,2,Butter,Warana,648.54,36.73,...,2022-10-25,244,35.03,8547.32,Uttar Pradesh,Retail,404,86.60,35.62,Correcto
258,Madhya Pradesh,123.53,37,Medium,2022-12-24,2,Butter,Warana,412.57,25.11,...,2023-01-20,304,27.85,8466.40,Uttar Pradesh,Retail,108,63.17,147.50,Correcto


### **Duplicación**

La duplicación (Duplication) es la presencia de registros repetidos—idénticos o casi idénticos y/o información redundante en distintas columnas o sistemas, lo que infla los KPIs, genera sesgos estadísticos y sesgos en los modelos, también puede generar inconsistencias entre fuentes y desperdicia almacenamiento; en operaciones de la CSA puede aparentar sobreinventario cuando el mismo lote fue capturado dos veces con pequeñas variaciones (espacios, mayúsculas, guiones), afectando compras, FEFO y trazabilidad.

En nuestro caso no hay duplicidad en filas completas, pero si se quiere analizar duplicidad por columnas encontraremos varias.

In [13]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Validez: verificar rangos adecuados de las columnas numéricas por Outliers</h3>"))
print('\n')

ColumnasOutliers = [
    "Total Land Area (acres)",
    "Number of Cows",
    "Quantity (liters/kg)",
    "Price per Unit",
    "Total Value",
    "Shelf Life (days)",
    "Quantity Sold (liters/kg)",
    "Price per Unit (sold)",
    "Approx. Total Revenue(INR)",
    "Quantity in Stock (liters/kg)",
    "Minimum Stock Threshold (liters/kg)",
    "Reorder Quantity (liters/kg)",
]

def ResumenOutliers(df, columns):
    rows = []
    for col in columns:
        s = df[col]  # numérica, sin NaN según lo que indicas
        q1 = s.quantile(0.25)
        q3 = s.quantile(0.75)
        iqr = q3 - q1
        LI = 0
        LS = q3 + 1.5 * iqr
        out_n = int(((s < LI) | (s > LS)).sum())

        rows.append({
            "Variable": col,
            "q1": q1,
            "q3": q3,
            "iqr": iqr,
            "LI": LI,
            "LS": LS,
            "Outliers": out_n
        })
    rep = pd.DataFrame(rows, columns=["Variable","q1","q3","iqr","LI","LS","Outliers"])
    return rep

rep = ResumenOutliers(df, ColumnasOutliers)
cols_3dec = ["q1","q3","iqr","LI","LS"]
rep[cols_3dec] = rep[cols_3dec].round(3)

display(rep.sort_values("Outliers", ascending=False))






Unnamed: 0,Variable,q1,q3,iqr,LI,LS,Outliers
5,Shelf Life (days),10.0,30.0,20.0,0,60.0,578
8,Approx. Total Revenue(INR),2916.65,19504.55,16587.9,0,44386.4,225
6,Quantity Sold (liters/kg),69.0,374.0,305.0,0,831.5,71
9,Quantity in Stock (liters/kg),66.0,387.0,321.0,0,868.5,41
4,Total Value,9946.815,40954.441,31007.626,0,87465.881,37
2,Quantity (liters/kg),254.17,749.78,495.61,0,1493.195,0
1,Number of Cows,32.0,77.0,45.0,0,144.5,0
0,Total Land Area (acres),252.95,751.25,498.3,0,1498.7,0
3,Price per Unit,32.46,77.46,45.0,0,144.96,0
7,Price per Unit (sold),32.64,77.46,44.82,0,144.69,0


In [14]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Validez: verificar que algunas columnas especificas sean mayores que cero </h3>"))
print('\n')

MayorCero = [
    "Total Land Area (acres)",
    "Number of Cows",
    "Quantity (liters/kg)",
    "Price per Unit",
    "Total Value",
    "Shelf Life (days)",
    "Quantity Sold (liters/kg)",
    "Price per Unit (sold)",
]


def Verificar(df: pd.DataFrame, cols: list) -> pd.DataFrame:
    n = len(df)
    rep = pd.DataFrame({
        "columna": cols,
        "valor min": [df[c].min() for c in cols],
        "valor max": [df[c].max() for c in cols],
        "negativos": [int((df[c] <= 0).sum()) for c in cols],
    })
    rep["Porcentaje correcto"] = ((n - rep["negativos"]) / n * 100).round(2)
    rep["Cumple condicion > 0"] = rep["negativos"].eq(0)
    rep = rep.sort_values(["Cumple condicion > 0", "negativos", "columna"], ascending=[True, False, True]).reset_index(drop=True)
    return rep

rep = Verificar(df, MayorCero)
display(rep)

# Formato bonito (3 decimales para min/max si quieres)
#with pd.option_context('display.float_format', lambda x: f"{x:.3f}"):
 #   display(rep)





Unnamed: 0,columna,valor min,valor max,negativos,Porcentaje correcto,Cumple condicion > 0
0,Number of Cows,10.0,100.0,0,100.0,True
1,Price per Unit,10.03,99.99,0,100.0,True
2,Price per Unit (sold),5.21,104.51,0,100.0,True
3,Quantity (liters/kg),1.17,999.93,0,100.0,True
4,Quantity Sold (liters/kg),1.0,960.0,0,100.0,True
5,Shelf Life (days),1.0,150.0,0,100.0,True
6,Total Land Area (acres),10.17,999.53,0,100.0,True
7,Total Value,42.5165,99036.3696,0,100.0,True


### **Validez: rangos adecuados**

La validez (Validity) se refiere a que los datos cumplan las reglas del negocio, dominios permitidos y rangos de los datos definidos para cada variable; no basta con que el tipo sea correcto, también deben tener valores razonables y coherentes con el contexto (por ejemplo, cantidades y precios ≥ 0, tiempo de vida (días) dentro de un intervalo lógico.

### **Puntos a considerar en las métricas de la calidad de los datos.**


* Para este conjunto de datos no se pudo evaluar la métrica de **Exactitud** de los datos, ya que, esta métrica evalúa la exactitud de los datos comparándolos con una fuente o referencia confiable y para estos datos no se tiene una fuente de referencia.
* Para el caso de **Actualidad (Timeliness)** no tiene una aplicación real porque los datos son históricos. Sin embargo, para un análisis real en una cadena de suministro agroalimentaria las fechas son importantes, ya que, si el conjunto de datos contiene fechas desactualizadas puede generar problemas en el inventario y caducidad de productos.


## **5) Análisis descriptivo de los datos**

In [15]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Estadísticos básicos (media, mediana, moda, varianza, percentiles) </h3>"))
print('\n')

df.describe()





Unnamed: 0,Total Land Area (acres),Number of Cows,Product ID,Quantity (liters/kg),Price per Unit,Total Value,Shelf Life (days),Quantity Sold (liters/kg),Price per Unit (sold),Approx. Total Revenue(INR),Quantity in Stock (liters/kg),Minimum Stock Threshold (liters/kg),Reorder Quantity (liters/kg)
count,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0,4325.0
mean,503.483073,54.963699,5.509595,500.652657,54.785938,27357.845411,29.12763,248.095029,54.77914,13580.265401,252.068671,55.826143,109.10782
std,285.935061,26.111487,2.842979,288.975915,26.002815,21621.051594,30.272114,217.024182,26.19279,14617.009122,223.62087,26.30145,51.501035
min,10.17,10.0,1.0,1.17,10.03,42.5165,1.0,1.0,5.21,12.54,0.0,10.02,20.02
25%,252.95,32.0,3.0,254.17,32.46,9946.8145,10.0,69.0,32.64,2916.65,66.0,32.91,64.28
50%,509.17,55.0,6.0,497.55,54.4,21869.6529,22.0,189.0,54.14,8394.54,191.0,56.46,108.34
75%,751.25,77.0,8.0,749.78,77.46,40954.441,30.0,374.0,77.46,19504.55,387.0,79.01,153.39
max,999.53,100.0,10.0,999.93,99.99,99036.3696,150.0,960.0,104.51,89108.9,976.0,99.99,199.95


In [16]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Tabla de frecuencia para variables categóricas </h3>"))
print('\n')
df.describe(include='object')





Unnamed: 0,Location,Farm Size,Date,Product Name,Brand,Storage Condition,Production Date,Expiration Date,Customer Location,Sales Channel,Farm Size Chequeo
count,4325,4325,4325,4325,4325,4325,4325,4325,4325,4325,4325
unique,15,3,1278,10,11,5,1405,1441,15,3,1
top,Delhi,Large,2021-01-28,Curd,Amul,Refrigerated,2022-09-06,2022-02-01,Delhi,Retail,Correcto
freq,525,1462,11,479,1053,2459,9,9,499,1478,4325


In [17]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from scipy.stats import gaussian_kde

display(HTML("<h3 style='color:blue; font-size:22px;'> Resumen grafico de las variables </h3>"))
print('\n')
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de los datos mediante Histogramas </h3>"))
print('\n')

variables = [
    "Total Land Area (acres)",
    "Number of Cows",
    "Quantity (liters/kg)",
    "Price per Unit",
    "Total Value",
    "Shelf Life (days)",
    "Quantity Sold (liters/kg)",
    "Price per Unit (sold)",
    "Approx. Total Revenue(INR)",
    "Quantity in Stock (liters/kg)",
    "Minimum Stock Threshold (liters/kg)",
    "Reorder Quantity (liters/kg)",
]

Densidad = True    # Si escribimos True considerará densidad + KDE (linea de ajuste), pero si se escribe False genera conteos + KDE (linea de ajuste)
nbins = 30

for col in variables:
    s = df[col].to_numpy()

    # Histograma (densidad o conteos)
    figura = px.histogram(
        df, x=col, nbins=nbins,
        histnorm="probability density" if Densidad else None,
        title=f"Distribución de {col}"
    )

    # Estilo
    figura.update_layout(
        plot_bgcolor="whitesmoke",
        title_x=0.5,
        title=dict(text=f"Distribución de los datos de {col}",
                   font=dict(family="Arial", size=18, color="red")),
        xaxis=dict(title=col, titlefont=dict(size=15, color="black")),
        yaxis=dict(title="Densidad" if Densidad else "Frecuencia",  color="black"),
        bargap=0.10
    )
    figura.update_traces(
        hovertemplate="Valor: %{x}<br>" + ("Densidad" if Densidad else "Frecuencia") + ": %{y:.4f}<extra></extra>",
        marker_line_width=0.6,
        marker_line_color="white",
        marker_color="steelblue",
    )

    # KDE
    kde = gaussian_kde(s)
    xgrid = np.linspace(s.min(), s.max(), 400)
    ykde = kde(xgrid)

    if not Densidad:
        # Escalar KDE a conteos aproximando el ancho de bin
        bin_width = (s.max() - s.min()) / nbins if nbins > 0 else 1.0
        ykde = ykde * s.size * bin_width

    figura.add_trace(go.Scatter(
        x=xgrid, y=ykde, mode="lines", name="KDE",
        hovertemplate="x: %{x:.3f}<br>" + ("Densidad" if Densidad else "Frecuencia") + ": %{y:.4f}<extra></extra>"
    ))

    figura.show()









In [18]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de los datos mediante Diagrama de cajas </h3>"))
print('\n')

variables = [
    "Total Land Area (acres)",
    "Number of Cows",
    "Quantity (liters/kg)",
    "Price per Unit",
    "Total Value",
    "Shelf Life (days)",
    "Quantity Sold (liters/kg)",
    "Price per Unit (sold)",
    "Approx. Total Revenue(INR)",
    "Quantity in Stock (liters/kg)",
    "Minimum Stock Threshold (liters/kg)",
    "Reorder Quantity (liters/kg)",
]

for col in variables:
    s = df[col].to_numpy()

    # Boxplot (un trazo por variable)
    figura = px.box(
        df, y=col, points="outliers",  # muestra solo puntos outlier (usar "all" para todos)
        title=f"Boxplot de {col}",
        color_discrete_sequence=["dodgerblue"]
    )

    # Línea de la media sobre el boxplot
    figura.update_traces(boxmean=True)  # muestra la media (línea) además de la mediana
    media = float(np.mean(s))
    figura.add_hline(y=media, line_dash="dash", line_width=1.5, annotation_text="Media", annotation_position="top right")

    # Estilo general
    figura.update_layout(
        plot_bgcolor="whitesmoke",
        title_x=0.5,
        title=dict(text=f"Boxplot de {col}",
                   font=dict(family="Arial", size=18, color="red")),
        xaxis=dict(title="", showgrid=False),
        yaxis=dict(title=col, showgrid=True, gridcolor="rgba(0,0,0,0.1)"),
    )

    # Estilo de los puntos (outliers)
    figura.update_traces(
    boxmean=True,  # opcional: muestra la media
    marker=dict(
        outliercolor="green",              # ← relleno de los outliers en verde
        line=dict(color="green", width=0.6)  # contorno de los puntos/box
    ),
    jitter=0.0,
    whiskerwidth=0.8
)

    figura.show()





In [20]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de los datos categóricos mediante Histogramas </h3>"))
print('\n')

variables_cat = [
    "Location",
    "Farm Size",
    "Product Name",
    "Brand",
    "Storage Condition",
    "Customer Location",
    "Sales Channel",
]

for col in variables_cat:
    # Tabla de frecuencias
    vc = df[col].value_counts(dropna=False)
    freq = vc.reset_index()
    freq.columns = [col, "Frecuencia"]
    freq["Porcentaje"] = (freq["Frecuencia"] / freq["Frecuencia"].sum() * 100).round(2)

    # Barras verticales: X = categoría, Y = frecuencia
    figura = px.bar(
        freq,
        x=col, y="Frecuencia",
        title=f"Frecuencia de {col}",
        text="Frecuencia",
        color_discrete_sequence=["sienna"]
    )

    # Estilo y orden por frecuencia (descendente)
    figura.update_layout(
        plot_bgcolor="whitesmoke",
        title_x=0.5,
        title=dict(text=f"Frecuencia de {col}", font=dict(family="Arial", size=18, color="blue")),
        xaxis=dict(title=col, tickangle=-45),  # etiquetas inclinadas para leer mejor
        yaxis=dict(title="Frecuencia"),
        bargap=0.15
    )
    figura.update_xaxes(categoryorder="total descending")

    # Hover: categoría, frecuencia y porcentaje
    figura.update_traces(
        customdata=freq["Porcentaje"],
        hovertemplate=f"{col}: %{ { 'x' } }<br>Frecuencia: %{ { 'y' } }<br>Porcentaje: %{ { 'customdata' } }%<extra></extra>",
        textposition="outside"
    )

    figura.show()





In [22]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de los datos mediante gráficos de dispersión </h3>"))
print('\n')

pares = [
    ("Quantity Sold (liters/kg)", "Approx. Total Revenue(INR)"),
    ("Price per Unit", "Quantity Sold (liters/kg)"),
    ("Price per Unit (sold)", "Quantity Sold (liters/kg)"),
    ("Total Value", "Quantity (liters/kg)"),
    ("Approx. Total Revenue(INR)", "Quantity Sold (liters/kg)"),
    ("Quantity in Stock (liters/kg)", "Reorder Quantity (liters/kg)"),
    ("Shelf Life (days)", "Price per Unit"),
]

for x, y in pares:
    fig = px.scatter(
        df, x=x, y=y,
        title=f"Dispersión: {x} vs {y}",

    )
    fig.update_traces(mode="markers", marker=dict(size=6, opacity=0.6))
    fig.update_layout(
        plot_bgcolor="whitesmoke",
        title_x=0.5,
        xaxis_title=x,
        yaxis_title=y
    )
    fig.update_traces(hovertemplate="x: %{x:.3f}<br>y: %{y:.3f}<extra></extra>")
    fig.show()





In [23]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de los datos mediante una Matriz de Correlación </h3>"))
print('\n')

import pandas as pd
import plotly.express as px

# Columnas a correlacionar (numéricas)
columnas = [
    "Total Land Area (acres)",
    "Number of Cows",
    "Quantity (liters/kg)",
    "Price per Unit",
    "Total Value",
    "Shelf Life (days)",
    "Quantity Sold (liters/kg)",
    "Price per Unit (sold)",
    "Approx. Total Revenue(INR)",
    "Quantity in Stock (liters/kg)",
    "Minimum Stock Threshold (liters/kg)",
    "Reorder Quantity (liters/kg)",
]

ancho  = 1100        # ancho de la figura (px)
alto = 800         # alto  de la figura (px)
COLORSCALE = "Viridis"   # ej.: "Viridis", "Plasma", "Cividis", "Turbo", "Tealrose", "Icefire"

# Matriz de correlación (Pearson por defecto)
corr = df[columnas].corr(method="pearson")

# Heatmap interactivo
fig = px.imshow(
    corr,
    text_auto=".2f",
    color_continuous_scale=COLORSCALE,  # ← paleta
    zmin=-1, zmax=1,
    title="Matriz de correlación (Pearson)"
)

# Tamaño, estilo y fuentes
fig.update_layout(
    width=ancho, height=alto,         # ← tamaño
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    font=dict(size=14),                  # tamaño base de fuentes
    xaxis_title="", yaxis_title="",
    coloraxis_colorbar=dict(title="r", tickformat=".2f")
)
fig.update_xaxes(side="bottom", tickangle=45)

fig.show()






In [24]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Representación de la variable Producto mediante gráficos de caja </h3>"))
print('\n')

orden = (
    df.groupby("Product Name")["Approx. Total Revenue(INR)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Approx. Total Revenue(INR)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Ganancias por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Approx. Total Revenue (INR)"
)

fig.update_xaxes(tickangle=-45)
fig.show()





In [26]:
orden = (
    df.groupby("Product Name")["Shelf Life (days)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Shelf Life (days)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Vida útil por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Shelf Life (days)"
)

fig.update_xaxes(tickangle=-45)
fig.show()

In [28]:
orden = (
    df.groupby("Product Name")["Quantity Sold (liters/kg)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Quantity Sold (liters/kg)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Cantidad vendida (lt/kg) por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Quantity Sold (liters/kg)"
)

fig.update_xaxes(tickangle=-45)
fig.show()

In [29]:
orden = (
    df.groupby("Product Name")["Quantity in Stock (liters/kg)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Quantity in Stock (liters/kg)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Cantidad en stock (lt/kg) por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Quantity in Stock (liters/kg)"
)

fig.update_xaxes(tickangle=-45)
fig.show()

In [30]:
orden = (
    df.groupby("Product Name")["Reorder Quantity (liters/kg)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Reorder Quantity (liters/kg)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Punto de reorden por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Reorder Quantity (liters/kg)"
)

fig.update_xaxes(tickangle=-45)
fig.show()

In [31]:
orden = (
    df.groupby("Product Name")["Minimum Stock Threshold (liters/kg)"]
      .median()
      .sort_values(ascending=False)
      .index.tolist()
)

# Paleta y mapeo de color por categoría
palette = px.colors.qualitative.Set3  # prueba Set2, Set1, Prism, Bold, etc.
color_map = {cat: palette[i % len(palette)] for i, cat in enumerate(orden)}

fig = px.box(
    df,
    x="Product Name",
    y="Minimum Stock Threshold (liters/kg)",
    color="Product Name",                           # ← color distinto por producto
    points="outliers",
    category_orders={"Product Name": orden},
    color_discrete_map=color_map,
    title="Boxplot de Inventario de seguridad por Producto",
)


fig.update_layout(title_font_color="red")
# Media + outliers verdes
fig.update_traces(
    boxmean=True,
    marker=dict(outliercolor="green", line=dict(color="black", width=0.6))
)

fig.update_layout(
    plot_bgcolor="whitesmoke",
    title_x=0.5,
    xaxis_title="Product Name",
    yaxis_title="Minimum Stock Threshold (liters/kg)"
)

fig.update_xaxes(tickangle=-45)
fig.show()

In [33]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Análisis ABC de la venta de los productos </h3>"))
print('\n')

def abc_classification(
    df: pd.DataFrame,
    product_col: str = "Product Name",
    value_col: str = "Approx. Total Revenue(INR)",
    thresh_A: float = 0.80,   # hasta 80% → A
    thresh_B: float = 0.95,   # 80–95% → B ; resto → C
    ascending: bool = False   # ordenar de mayor a menor valor
):
    """
    Retorna:
      - tbl: tabla detallada por producto con rank, valor, share, cum_share y clase ABC
      - summary: resumen agregado por clase ABC
      - total_value: total de ventas
    """
    # 1) Valor por producto
    tbl = (df.groupby(product_col, as_index=False)[value_col]
             .sum()
             .rename(columns={value_col: "value"}))

    # 2) Orden y métricas de Pareto
    tbl = tbl.sort_values("value", ascending=ascending).reset_index(drop=True)
    total_value = tbl["value"].sum()

    if total_value == 0:
        # Evitar división por cero: todos 0
        tbl["share"] = 0.0
        tbl["cum_share"] = 0.0
    else:
        tbl["share"] = tbl["value"] / total_value
        tbl["cum_share"] = tbl["share"].cumsum()

    tbl.insert(0, "rank", np.arange(1, len(tbl)+1))

    # 3) Asignación ABC
    conds = [
        (tbl["cum_share"] <= thresh_A),
        (tbl["cum_share"] > thresh_A) & (tbl["cum_share"] <= thresh_B),
    ]
    choices = ["A", "B"]
    tbl["ABC"] = np.select(conds, choices, default="C")

    # 4) Resumen por clase
    summary = (tbl.groupby("ABC", as_index=True)
                 .agg(items=("ABC", "count"),
                      value=("value", "sum"),
                      share=("share", "sum"))
                 .sort_index())

    return tbl, summary, total_value

# ===== Ejecutar clasificación ABC en tu dataset =====
abc_tbl, abc_summary, total = abc_classification(
    df,
    product_col="Product Name",
    value_col="Approx. Total Revenue(INR)",
    thresh_A=0.80,
    thresh_B=0.95
)

# ===== Renombrar columnas y preparar salida en español =====
abc_tbl_fmt = abc_tbl.copy()
abc_tbl_fmt["share_%"]     = (abc_tbl_fmt["share"] * 100).round(2)
abc_tbl_fmt["cum_share_%"] = (abc_tbl_fmt["cum_share"] * 100).round(2)
abc_tbl_fmt = abc_tbl_fmt.drop(columns=["share", "cum_share"])

abc_tbl_fmt = abc_tbl_fmt.rename(columns={
    "rank": "Posición",
    "Product Name": "Producto",
    "value": "Valor de las ventas",
    "share_%": "% de las ventas",
    "cum_share_%": "% acumulado de las ventas",
    # "ABC" se mantiene igual
})

# Orden de columnas
abc_tbl_fmt = abc_tbl_fmt[[
    "Posición",
    "Producto",
    "Valor de las ventas",
    "% de las ventas",
    "% acumulado de las ventas",
    "ABC"
]]

# ===== Resumen por clase ABC (renombrado) =====
summary_fmt = abc_summary.copy()
summary_fmt["share_%"] = (summary_fmt["share"] * 100).round(2)
summary_fmt = summary_fmt.drop(columns=["share"]).rename(columns={
    "items": "Cantidad de productos",
    "value": "Valor de las ventas",
    "share_%": "% de las ventas"
})
# Opcional: ordenar A-B-C
summary_fmt = summary_fmt.reindex(index=["A", "B", "C"])

# ===== Mostrar resultados =====
print(f" \033[1m Total de ventas (INR): ${total:,.2f} \033[0m")
print('\n')
print("\033[1m                                   Clasificación ABC\033[0m")
display(abc_tbl_fmt)
print('\n')
print("\033[1m                  Resumen por clase ABC \033[0m")
display(summary_fmt)



 [1m Total de ventas (INR): $58,734,647.86 [0m


[1m                                   Clasificación ABC[0m


Unnamed: 0,Posición,Producto,Valor de las ventas,% de las ventas,% acumulado de las ventas,ABC
0,1,Curd,6743880.73,11.48,11.48,A
1,2,Butter,6276041.59,10.69,22.17,A
2,3,Lassi,6130168.7,10.44,32.6,A
3,4,Milk,6021395.9,10.25,42.86,A
4,5,Paneer,5962594.91,10.15,53.01,A
5,6,Buttermilk,5767704.18,9.82,62.83,A
6,7,Yogurt,5595059.89,9.53,72.35,A
7,8,Cheese,5547882.2,9.45,81.8,B
8,9,Ghee,5385285.32,9.17,90.97,B
9,10,Ice Cream,5304634.44,9.03,100.0,C




[1m                  Resumen por clase ABC [0m


Unnamed: 0_level_0,Cantidad de productos,Valor de las ventas,% de las ventas
ABC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,7,42496845.9,72.35
B,2,10933167.52,18.61
C,1,5304634.44,9.03


In [34]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Respuesta a las preguntas de análisis descriptivo planteadas </h3>"))


**¿Cómo se comparta la distribución de las principales variables de estudio?**


Identificar la distribución de un conjunto de datos es clave porque hace visibles patrones y anomalías, muestra cómo se dispersan los valores y permite juzgar si la media representa bien al conjunto. Al entender la forma de la distribución se evalúa la variabilidad (qué tan concentrados o extendidos están los datos), se detectan sesgos y valores atípicos que podrían distorsionar las conclusiones, y se eligen con mayor criterio las técnicas estadísticas posteriores. Además, visualizar el tipo de distribución con histogramas o boxplots, agiliza la interpretación al evidenciar qué rangos son más frecuentes, mejora la comunicación de hallazgos con equipos y clientes, y respalda decisiones y pronósticos más confiables al ofrecer un panorama claro de la tendencia y la dispersión. Bajo este contexto, se describe en forma general como es la distribución de las variables numéricas.

Para el caso de las variables Total Land Area (acres), Number of Cows, Quantity (liters/kg), Price per Unit, Price per Unit (sold), Minimum Stock Threshold (liters/kg) y Reorder Quantity (liters/kg), se puede observar que el comportamiento de esas variables se ajusta a una distribución uniforme continua.

En conjunto, las variables de Total Value, Shelf Life (days), Quantity Sold (liters/kg), Approx. Total Revenue(INR) y Quantity in Stock (liters/kg), muestran asimetría positiva (cola larga hacia la derecha): la mayor parte de los casos se concentra en valores bajos y hay pocos registros muy altos; es un patrón típico de distribuciones log-normales o gamma más que normal. En concreto: Total Value, Approx. Total Revenue (INR), Quantity Sold (liters/kg) y Quantity in Stock (liters/kg) son claramente right-skewed, con una moda cerca de los valores pequeños y una cola extensa de importes/volúmenes grandes (pocos, pero influyentes). Shelf Life (days) también es asimétrica positiva, pero además su KDE sugiere multimodalidad (varios picos), lo que apunta a una mezcla de productos con vidas útiles diferentes. En términos prácticos, no conviene asumir normalidad; para describir y modelar es mejor usar mediana e IQR, considerar transformaciones log (log1p) o modelos para datos positivos (p. ej., Gamma/log-linear), y en el caso de Shelf Life segmentar por tipo de producto.


**¿Qué diferencias relevantes existen entre los productos con respecto a vida útil del producto, cantidad de producto lácteo vendido, precio por unidad al que se vendió el producto lácteo, ingresos totales aproximados generados por la venta del producto lácteo, cantidad de producto lácteo que queda en stock, mínimo de existencias del producto lácteo y cantidad recomendada para reordenar del producto lácteo?**

* Vida útil (Shelf life). Se distinguen productos como Milk, Yogurt, Lassi y Buttermilk con vidas útiles cortas y cajas compactas, frente a los procesados/grasos o congelados como Ghee, Cheese, Paneer, Butter e Ice Cream, con vidas útiles sensiblemente mayores y más dispersión.

* Cantidad vendida. Los gráficos muestran alta variabilidad por producto y presencia de outliers (picos de demanda). En términos relativos, los productos como Milk, Curd/Lassi/Buttermilk mueven volúmenes amplios y frecuentes, mientras que algunos productos como Ghee, Paneer y Cheese exhiben picos de venta relevantes aunque con mayor dispersión entre periodos.

* Precio de venta por unidad. Como es de esperar, los productos como Ghee, Paneer y Cheese tienden a ubicarse en el tramo alto de precio, mientras que Milk, Yogurt y Buttermilk se concentran en el tramo bajo. Esta estructura sugiere estrategias mixtas: productos imán de tráfico a bajo margen (lácteos básicos) y otros de alto margen para capturar rentabilidad.

* Ingresos totales aproximados (Approx. Total Revenue). Los ingresos resultan de la opreración volumen X precio: productos como Ghee, Cheese, Paneer y Curd aparecen entre las de mayor promedio y con colas superiores pronunciadas, reflejando episodios de ventas muy altos. Por otra parte, productos como el Yogurt, Buttermilk e Ice Cream muestran ingresos más moderados en promedio, con outliers puntuales.

* Stock disponible (Quantity in Stock). Se observan niveles de stock más altos y dispersos en productos con rotación fuerte o lead times más inciertos, por ejemplo Milk y Paneer/Ghee muestran colas superiores, mientras que otros mantienen inventarios más contenidos en el promedio como Buttermilk e Ice Cream. La dispersión amplia confirma que la política de stock no es uniforme entre categorías.

* Mínimos de existencias (Minimum Stock Threshold). Los umbrales de seguridad son más elevados en Ghee, Cheese, Paneer y Milk, consistente con su peso en ventas o con riesgos de quiebre; y más bajos en Yogurt/Buttermilk, donde la vida útil corta penaliza mantener colchones grandes. Implica calibrar el stock de seguridad por variabilidad de la demanda y lead time, no sólo por volumen histórico.

* Cantidad recomendada de reorden (Reorder Quantity). Siguiendo el patrón anterior, los puntos de reorden tienden a ser más altos en Ghee, Paneer, Curd/Cheese y más bajos en Yogurt/Buttermilk, donde el riesgo de merma exige reabastecimientos pequeños y frecuentes.


**¿Cuál es la clasificación ABC de los productos por ventas y caducidad?**

De acuerdo a la tabla que se generó sobre el análisis ABC se puede concluir lo siguiente:

* Los productos de la Clase A que representa el 72.35% de las ganancias (7 productos) son: Curd, Butter, Lassi, Milk, Paneer, Buttermilk, Yogurt. Cada uno aporta entre 9-11% y en conjunto concentran casi 3/4 de las ventas; son los verdaderos “drivers” del negocio. Requieren el mayor nivel de servicio, pronóstico fino, reposición frecuente y control estricto de quiebres/mermas.

* Los productos de la Clase B representa el 18.61% de las ganancias (2 productos), los cuales son Cheese y Ghee. Importantes, pero no críticos; su manejo puede ser por revisión periódica con stocks de seguridad moderados y promociones tácticas para capturar picos.

* Por último la Clase C que representa el 9.03% de las ganancias es un sólo producto (Ice Cream). Bajo aporte relativo; conviene una estrategia defensiva: inventario mínimo, reabastecimiento puntual y evaluación de surtido/espacio (salvo estacionalidad).



## **6) Preprocesamiento de los datos**



In [35]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Tratamiento de valores faltantes </h3>"))

En la sección 4 de este proyecto se hizo un análisis o verificación de datos faltantes. Para este conjunto de datos no hay datos faltantes.

In [36]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Eliminación de duplicados </h3>"))

En la sección 4 de este proyecto se hizo un análisis o verificación de filas duplicadas en donde el resultado fue de ninguna fila duplicada. Sin embargo, se pueden encontrar duplicados si se analiza por columnas específicas, pero para el caso de este proyecto no se requiere de hacer un análisis o eliminación de duplicados por columnas.

In [37]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Conversión y corrección de tipos de datos. </h3>"))

df['Date']=pd.to_datetime(df['Date'])
df['Production Date']=pd.to_datetime(df['Production Date'])
df['Expiration Date']=pd.to_datetime(df['Expiration Date'])

print(df.dtypes)

Location                                       object
Total Land Area (acres)                       float64
Number of Cows                                  int64
Farm Size                                      object
Date                                   datetime64[ns]
Product ID                                      int64
Product Name                                   object
Brand                                          object
Quantity (liters/kg)                          float64
Price per Unit                                float64
Total Value                                   float64
Shelf Life (days)                               int64
Storage Condition                              object
Production Date                        datetime64[ns]
Expiration Date                        datetime64[ns]
Quantity Sold (liters/kg)                       int64
Price per Unit (sold)                         float64
Approx. Total Revenue(INR)                    float64
Customer Location           

Para el dataset que se está analizando se tuvo que hacer un cambio en el tipo de dato en las variables relacionadas a fechas, ya que, en los datos originales consideran a las variables Date, Production Date y Expiration Date de tipo "objet", por lo que es necesario hacer el cambio a tipo "datetime" por si es necesario hacer cálculos con fechas.  

In [38]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Conversión y corrección de tipos de datos </h3>"))

In [39]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

ColumnasNumericas = [
    "Total Land Area (acres)", "Number of Cows",
    "Quantity (liters/kg)", "Price per Unit", "Total Value",
    "Shelf Life (days)", "Quantity Sold (liters/kg)", "Price per Unit (sold)",
    "Approx. Total Revenue(INR)", "Quantity in Stock (liters/kg)",
    "Minimum Stock Threshold (liters/kg)", "Reorder Quantity (liters/kg)"
]
ColumnasNumPresentes = [c for c in ColumnasNumericas if c in df.columns]

std = StandardScaler()
mm  = MinMaxScaler()

Z  = std.fit_transform(df[ColumnasNumPresentes])   # z-score
MM = mm.fit_transform(df[ColumnasNumPresentes])    # [0, 1]

df_z  = pd.DataFrame(Z,  columns=[f"{c}__z"  for c in ColumnasNumPresentes], index=df.index)
df_mm = pd.DataFrame(MM, columns=[f"{c}__mm" for c in ColumnasNumPresentes], index=df.index)

df = pd.concat([df, df_z, df_mm], axis=1)

print(f" \033[1m Transformaciones numéricas añadidas sobre {len(ColumnasNumPresentes)} columnas (z-score y min-max) \033[0m")
print('\n')
df.filter(regex="(__z|__mm)$").head()


 [1m Transformaciones numéricas añadidas sobre 12 columnas (z-score y min-max) [0m




Unnamed: 0,Total Land Area (acres)__z,Number of Cows__z,Quantity (liters/kg)__z,Price per Unit__z,Total Value__z,Shelf Life (days)__z,Quantity Sold (liters/kg)__z,Price per Unit (sold)__z,Approx. Total Revenue(INR)__z,Quantity in Stock (liters/kg)__z,...,Quantity (liters/kg)__mm,Price per Unit__mm,Total Value__mm,Shelf Life (days)__mm,Quantity Sold (liters/kg)__mm,Price per Unit (sold)__mm,Approx. Total Revenue(INR)__mm,Quantity in Stock (liters/kg)__mm,Minimum Stock Threshold (liters/kg)__mm,Reorder Quantity (liters/kg)__mm
0,-0.673808,1.571762,-0.963004,1.18978,-0.383639,-0.136367,-1.111042,1.048534,-0.889791,-0.165785,...,0.221505,0.841374,0.192149,0.161074,0.006257,0.77573,0.006321,0.220287,0.105924,0.244595
1,-1.693913,-0.419929,0.64659,-0.468309,0.089538,-0.235479,1.428139,-0.593329,0.568968,-0.550409,...,0.687162,0.362161,0.295483,0.14094,0.580813,0.342699,0.245615,0.132172,0.368456,0.895237
2,0.273545,-1.185964,0.009785,-0.70331,-0.415422,0.028821,0.036429,-0.800662,-0.336969,-0.022669,...,0.502934,0.294242,0.185209,0.194631,0.265902,0.288016,0.097005,0.253074,0.056463,0.671428
3,1.41488,1.30365,1.116857,-1.087159,-0.255444,1.416397,1.626297,-0.987376,0.260046,-0.134478,...,0.823211,0.183304,0.220145,0.47651,0.625652,0.238771,0.194939,0.227459,0.716683,0.209304
4,1.25381,-1.300869,-1.22129,1.117857,-0.692337,-0.598892,-0.475094,1.080226,-0.105035,-1.1184,...,0.146782,0.820587,0.124735,0.067114,0.150156,0.784089,0.135052,0.002049,0.733578,0.074362


La normalización/estandarización de las columnas numéricas del dataset (acres, vacas, cantidades, precios, valores, días, inventarios, mínimos y reorden) conviene hacerlo, ya que, están en escalas distintas y, si no se llevan a una escala comparable, las variables de magnitud mayor pueden dominar el ajuste. Además, muchos algoritmos (regresión lineal/logística, SVM, KNN, PCA, redes) optimizan y miden distancias/varianzas mejor cuando las variables tienen media 0 y desviación 1 (z-score) o están acotadas entre 0 y 1, lo que acelera la convergencia y estabiliza el entrenamiento.

In [40]:
display(HTML("<h3 style='color:blue; font-size:18px;'> Codificación de variables categóricas  </h3>"))

In [41]:
ColumasCategoricas = ["Farm Size", "Product ID", "Product Name", "Brand",
            "Storage Condition", "Sales Channel", "Location"]
cat_used = [c for c in ColumasCategoricas if c in df.columns]

# Limpieza rápida de strings
for c in cat_used:
    df[c] = df[c].astype("string").str.strip()

# Ordinal para Farm Size (si hay orden semántico)
if "Farm Size" in df.columns:
    order_map = {"Small": 1, "Medium": 2, "Large": 3}
    df["Farm Size__ord"] = df["Farm Size"].map(order_map).fillna(0).astype("int8")

# One-hot para el resto (dejamos Farm Size original fuera para no duplicar información)
onehot_cols = [c for c in cat_used if c != "Farm Size"]
dummies = pd.get_dummies(df[onehot_cols], drop_first=False, dtype="int8", prefix_sep="__")

# Concatenar y retirar las columnas originales one-hotteadas
df = pd.concat([df.drop(columns=onehot_cols), dummies], axis=1)

print("One-hot aplicado a:", onehot_cols)
df.filter(regex="__").head()

One-hot aplicado a: ['Product ID', 'Product Name', 'Brand', 'Storage Condition', 'Sales Channel', 'Location']


Unnamed: 0,Total Land Area (acres)__z,Number of Cows__z,Quantity (liters/kg)__z,Price per Unit__z,Total Value__z,Shelf Life (days)__z,Quantity Sold (liters/kg)__z,Price per Unit (sold)__z,Approx. Total Revenue(INR)__z,Quantity in Stock (liters/kg)__z,...,Location__Jharkhand,Location__Karnataka,Location__Kerala,Location__Madhya Pradesh,Location__Maharashtra,Location__Rajasthan,Location__Tamil Nadu,Location__Telangana,Location__Uttar Pradesh,Location__West Bengal
0,-0.673808,1.571762,-0.963004,1.18978,-0.383639,-0.136367,-1.111042,1.048534,-0.889791,-0.165785,...,0,0,0,0,0,0,0,1,0,0
1,-1.693913,-0.419929,0.64659,-0.468309,0.089538,-0.235479,1.428139,-0.593329,0.568968,-0.550409,...,0,0,0,0,0,0,0,0,1,0
2,0.273545,-1.185964,0.009785,-0.70331,-0.415422,0.028821,0.036429,-0.800662,-0.336969,-0.022669,...,0,0,0,0,0,0,1,0,0,0
3,1.41488,1.30365,1.116857,-1.087159,-0.255444,1.416397,1.626297,-0.987376,0.260046,-0.134478,...,0,0,0,0,0,0,0,1,0,0
4,1.25381,-1.300869,-1.22129,1.117857,-0.692337,-0.598892,-0.475094,1.080226,-0.105035,-1.1184,...,0,0,0,0,1,0,0,0,0,0


El proposito de la codificación de variables categóricas es porque la mayoría de algoritmos de ML no pueden usar texto directamente, necesitan números. Al codificar las variables categóricas como Farm Size, Product ID, Product Name, Brand, Storage Condition, Sales Channel y Location se transforman las variables en representaciones numéricas que el modelo puede “entender” y ponderar. Además, la codificación permite capturar efectos sistemáticos clave en logística y cadena de suminstro, por ejemplo, diferencias por ubicación (demanda regional), por canal (mayoreo vs. retail), por condición de almacenamiento (impacta vida útil y rotación), por marca y producto (mix y precio), y por tamaño de granja (capacidad de oferta).

## **7) Conclusiones parciales**

**Calidad de los datos**

En la Completitud, el dataset no tiene valores faltantes en las variables de trabajo. En Consistencia se realizaron los cambios necesarios en el tipo de los datos y formatos. En Duplicados se analizó si había filas duplicadas, no se encontró ninguna fila duplicada. En Validez se verificó que la variable Production Date fuera menor que Expiration Date. En el análisis de Outliers se detectaron varias variables que presentaban este fenómeno.

**Análisis Descriptivo**

Considerando el análisis descriptivo del conjunto de datos, el proyecto abordará el problema de determinar el punto de reorden, es decir, se optimizará el control del inventario de los productos considerando el nivel de inventario a partir del cual se debe lanzar una orden para no quedarte sin stock durante el lead time (tiempo desde que ordenas hasta que llega). Al mismo tiempo estimará la cantidad de unidades a pedir cuando se llega al punto de reorden. El punto de partida es estimar la demanda esperada y su variabilidad por producto. El resultado esperado es menos quiebres, menos exceso de producto terminado y desperdicios por caducidad y mejor uso del capital.


Por otra parte, el proyecto busca reducir las mermas por caducidad combinando operación y analítica. En términos operativos, FEFO (primero en caducar, primero en salir) significa despachar primero los lotes que antes caducan, algo crítico en lácteos para evitar que el producto expire en bodega o anaquel; y rebajas considerando descuentos tácticos y escalonados que aceleran la venta conforme se acerca la caducidad (por ejemplo, -10% a 5-7 días, -25% a 3-4 días y -40% a 1-2 días, respetando margen y normas).

Este proceso nos permitió responder las tres preguntas que se plantearon para el proyecto, cuyas respuestas se encuentran en la sección 5.

**Preprocesamiento aplicado.**

El conjunto de datos final quedo limpio, tipado y con  fechas válidas. Además, se realizaron las transformaciones numéricas a z-score y min–max en columnas clave. Con respecto a la codificación categórica, la variable Farm Size quedó en ordinal; el resto one-hot (sin prefijos y con categorías normalizadas con guion bajo). En este sentido, el conjunto de datos quedó listo para la aplicación del ML.



In [42]:
!pip install kaleido

Collecting kaleido
  Downloading kaleido-1.1.0-py3-none-any.whl.metadata (5.6 kB)
Collecting choreographer>=1.0.10 (from kaleido)
  Downloading choreographer-1.1.1-py3-none-any.whl.metadata (6.8 kB)
Collecting logistro>=1.0.8 (from kaleido)
  Downloading logistro-1.1.0-py3-none-any.whl.metadata (2.6 kB)
Collecting pytest-timeout>=2.4.0 (from kaleido)
  Downloading pytest_timeout-2.4.0-py3-none-any.whl.metadata (20 kB)
Downloading kaleido-1.1.0-py3-none-any.whl (66 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading choreographer-1.1.1-py3-none-any.whl (52 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m52.3/52.3 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading logistro-1.1.0-py3-none-any.whl (7.9 kB)
Downloading pytest_timeout-2.4.0-py3-none-any.whl (14 kB)
Installing collected packages: logistro, pytest-timeout, choreographer, kaleido
Successfully installed choreogr

In [43]:
from google.colab import drive
drive.mount('/content/drive')

# Exportador WebPDF (no requiere LaTeX)
!pip install -q "nbconvert[webpdf]"

# Paths
IPYNB_PATH = "/content/drive/MyDrive/1_ClassFiles/0_Proyecto/ProyectoProgADAP_261550.ipynb"  # notebook ya ejecutado y guardado
OUT_DIR    = "/content/drive/MyDrive/1_ClassFiles/0_Proyecto"                  # carpeta destino
OUT_NAME   = "Proyecto"                                          # sin extensión

# Convertir a PDF con imágenes incrustadas
!jupyter nbconvert --to webpdf "$IPYNB_PATH" \
  --WebPDFExporter.embed_images=True \
  --allow-chromium-download \
  --output "$OUT_NAME" \
  --output-dir "$OUT_DIR"

print(f"✅ PDF generado en: {OUT_DIR}/{OUT_NAME}.pdf")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.9/45.9 MB[0m [31m21.6 MB/s[0m eta [36m0:00:00[0m
[?25h[NbConvertApp] Converting notebook /content/drive/MyDrive/1_ClassFiles/0_Proyecto/ProyectoProgADAP_261550.ipynb to webpdf
[NbConvertApp] Building PDF
Downloading Chromium 140.0.7339.16 (playwright build v1187)[2m from https://cdn.playwright.dev/dbazure/download/playwright/builds/chromium/1187/chromium-linux.zip[22m
[1G173.7 MiB [] 0% 0.0s[0K[1G173.7 MiB [] 0% 3.8s[0K[1G173.7 MiB [] 0% 3.7s[0K[1G173.7 MiB [] 1% 3.0s[0K[1G173.7 MiB [] 2% 2.6s[0K[1G173.7 MiB [] 3% 2.3s[0K[1G173.7 MiB [] 4% 2.3s[0K[1G173.7 MiB [] 5% 2.4s[0K[1G173.7 MiB [] 5% 2.5s[0K[1G173.7 MiB [] 6% 2.4s[0K[1G173.7 MiB [] 7% 2.4s[0K[1G173.7 MiB [] 7% 2.3s[0K[1G173.7 MiB [] 8% 2.3s[0K[1G173.7 MiB [] 9% 2.2s[0K[1G173.7 MiB [] 11% 2.1s[0K[1G17