<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/Supply_chain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Estadístico / Científico de Datos**
---

**Contacto:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes/](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
---



## Descripción del DataFrame `Sales`

El dataframe sales_data contiene información detallada sobre las ventas de diversos materiales (productos) a lo largo de diferentes períodos de tiempo.

### Variables:

- **Channel**: Esta variable indica el canal de venta a través del cual se realizó la transacción. Es una variable de tipo cadena de texto (object).

- **Year.Month**: Esta variable representa el período en el que se realizaron las ventas, utilizando el formato `YYYYMM`. Es una variable de tipo entero (int64) que indica tanto el año como el mes específicos de la venta, proporcionando un marco temporal para el análisis de tendencias y estacionalidades en las ventas.

- **Material**: Esta variable es un identificador único del material o producto vendido. Es una variable de tipo entero (int64) que codifica el tipo de producto, permitiendo diferenciar entre los distintos artículos disponibles en el inventario.

- **Category**: Esta variable clasifica el material en una categoría específica. Es una cadena de texto (object) que agrupa productos similares o relacionados, facilitando el análisis por segmentos de mercado o líneas de producto.

- **Line**: Esta variable representa la línea de producto a la que pertenece el material. Es una cadena de texto (object) que permite una categorización adicional dentro de cada categoría, ayudando a identificar y analizar subgrupos de productos.

- **Sales KG**: Esta variable cuantifica el peso total en kilogramos de los materiales vendidos. Es de tipo flotante (float64), proporcionando una medida física de las ventas, lo cual es útil para análisis de logística y manejo de inventario.

- **Sales COP**: Esta variable representa los ingresos generados por las ventas del material en pesos colombianos (COP). Es de tipo entero (int64) y refleja el valor monetario total de las ventas en el período especificado por Year.Month.

## Descripción del DataFrame `Stockouts`

El dataframe stockouts_data contiene información detallada sobre las faltantes de stock de diversos materiales (productos) a lo largo de diferentes períodos de tiempo.

### Variables:

- **Year.Month**: Esta variable representa el período en el que ocurrieron las faltantes de stock, utilizando el formato `YYYYMM`. Es una variable de tipo entero (int64) que indica tanto el año como el mes específicos de la falta de stock, proporcionando un marco temporal para el análisis de patrones y estacionalidades en las faltantes.

- **Material**: Esta variable es un identificador único del material o producto que tuvo faltantes de stock. Es una variable de tipo entero (int64) que codifica el tipo de producto, permitiendo diferenciar entre los distintos artículos en el inventario.

- **Purchase Order KG**: Esta variable cuantifica el peso total en kilogramos de los materiales ordenados en un período específico. Es de tipo entero (int64) y proporciona una medida de la cantidad solicitada al proveedor.

- **Purchase Delivered KG**: Esta variable cuantifica el peso total en kilogramos de los materiales entregados en un período específico. Es de tipo entero (int64) y refleja la cantidad realmente recibida del proveedor, lo cual es crucial para identificar discrepancias entre lo ordenado y lo recibido.

- **Purchase Pending KG**: Esta variable cuantifica el peso total en kilogramos de los materiales que están pendientes de entrega en un período específico. Es de tipo entero (int64) y proporciona una medida de las órdenes que aún no han sido satisfechas, lo cual es importante para el seguimiento de las faltantes de stock.

- **UM**: Esta variable representa la unidad de medida utilizada para los materiales. Es una variable de tipo cadena de texto (object) que indica la unidad en la que se mide el peso o volumen de los materiales, como "KG" para kilogramos.

- **Fulfillment**: Esta variable representa el porcentaje de cumplimiento de las órdenes de compra, calculado como el ratio entre lo entregado y lo ordenado. Es de tipo flotante (float64) y proporciona una medida del desempeño del proveedor en términos de cumplimiento de órdenes.

# Preliminares

Instalación de dependencias y librerías

In [None]:
!pip install dash dash-core-components dash-html-components

In [None]:
!pip install tqdm

In [None]:
!pip install xlsxwriter

In [None]:
!pip install keras-tuner

In [None]:
!pip install prophet

In [None]:
# Manejo de datos
import pandas as pd
import numpy as np

# Para descargar datos
import requests
from io import BytesIO

# Visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import altair as alt

# Modelado de series temporales
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.stats.diagnostic import acorr_ljungbox

# Modelado y evaluación
from prophet import Prophet
from sklearn.svm import SVR
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder

# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

# Crear todas las combinaciones posibles de hiperparámetros
import itertools

# Progreso visual
from tqdm import tqdm

# Evitar advertencias
import warnings

# Escritura de archivos Excel
import xlsxwriter

# Modelado con Keras y TensorFlow
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam, RMSprop, SGD
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from tensorflow.keras.layers import LSTM, Dense, Dropout
from keras_tuner import RandomSearch
from keras_tuner.engine.hyperparameters import HyperParameters

# Creación de dashboard interactivo
import dash
from dash import dcc, html
from dash.dependencies import Input, Output
from IPython.display import display, HTML

# Tarea de Ingeniería de Datos:

## Plan de Trabajo para la Tarea de Ingeniería de Datos

### 1. Cargar y limpiar los datos

**Objetivo:** Desarrollar scripts para cargar los datos históricos de ventas y faltantes de stock en el cuaderno de notas. Limpiar los datos de inconsistencias, valores faltantes y errores de tipo de datos.

**Pasos:**

1. **Cargar los datos:**
   - Leer el archivo `Assessment.xlsx`.
   - Cargar las hojas "Sales" y "Stockouts" en dataframes separados utilizando pandas.

2. **Explorar los datos:**
   - Inspeccionar las primeras filas de cada dataframe.
   - Obtener información general (tipos de datos, valores faltantes, resumen estadístico).

3. **Limpiar los datos:**
   - Manejar valores faltantes:
     - Identificar columnas con valores faltantes.
     - Decidir el enfoque para cada columna (rellenar con media/mediana/moda, eliminar filas, usar imputación avanzada).
   - Corregir errores de tipo de datos:
     - Convertir columnas a los tipos de datos adecuados (e.g., Year y Month a enteros, Sales y Stockouts a flotantes).
   - Eliminar duplicados:
     - Identificar y eliminar filas duplicadas.
   - Manejar inconsistencias:
     - Verificar rangos de valores para detectar inconsistencias (e.g., ventas negativas, meses fuera del rango 1-12).

### 2. Combinar los datos de ventas y stockouts

**Objetivo:** Combinar los datos de ventas y faltantes de stock basándose en una clave común (por ejemplo, Year.Month, Material) para crear un único conjunto de datos para el análisis de la demanda.

**Pasos:**

1. **Crear una clave combinada:**
   - Crear una nueva columna en ambos dataframes que combine el año y el mes (e.g., `Year.Month`).

2. **Unir los datos:**
   - Realizar una unión (merge) de los dataframes `sales_data` y `stockouts_data` utilizando las claves comunes `Year.Month` y `Material`.

3. **Validar la combinación:**
   - Inspeccionar el dataframe combinado para asegurar que la unión se realizó correctamente y que no hay pérdidas de datos importantes.


### 3. Derivar nuevas características

**Objetivo:** Derivar nuevas características de los datos que podrían ser relevantes para la previsión de la demanda. Por ejemplo, la Tasa de Faltantes y el Porcentaje de órdenes de compra que resultaron en faltantes para cada material.

**Pasos:**

1. **Calcular la Tasa de Faltantes:**
   - Crear una nueva columna `Stockout Rate` calculada como `Stockouts / (Sales + Stockouts)`.


2. **Calcular el Porcentaje de Órdenes de Compra con Faltantes:**
   - Crear una nueva columna `Purchase Order Percentage` calculada como `(Stockouts / Sales) * 100`.

3. **Verificar las nuevas características:**
   - Inspeccionar las nuevas columnas para asegurar que los cálculos son correctos y tienen sentido.

### 4. Particionar el conjunto de datos

**Objetivo:** Dividir el conjunto de datos combinado en datos de entrenamiento (datos históricos) y datos de prueba (un período reciente). Esto se usará para la evaluación del modelo más adelante.

**Pasos:**

1. **Definir el período de corte:**
   - Decidir un umbral temporal para dividir los datos en entrenamiento y prueba (e.g., año 2023).

2. **Crear conjuntos de datos de entrenamiento y prueba:**
   - Filtrar el dataframe combinado para crear `train_data` con datos históricos.
   - Filtrar el dataframe combinado para crear `test_data` con datos recientes.

3. **Validar los conjuntos de datos:**
   - Inspeccionar los conjuntos de datos `train_data` y `test_data` para asegurar que la partición se realizó correctamente.



## Carga, Limpieza y Tratamiento de Datos

### Cargar Datos

In [None]:
# URL del archivo en GitHub
url = 'https://github.com/bonillahermes/Datasets/blob/main/Assessment.xlsx?raw=true'

In [None]:
# Descargar el archivo
response = requests.get(url)
response.raise_for_status()  # Asegura que la solicitud fue exitosa

# Leer el archivo Excel en un DataFrame
file = BytesIO(response.content)
sales_data = pd.read_excel(file, sheet_name='Sales')
stockouts_data = pd.read_excel(file, sheet_name='Stockouts')

In [None]:
# Mostrar las primeras filas de cada DataFrame
print("Primeras filas de Sales:")
sales_data.head()

In [None]:
print("\nPrimeras filas de Stockouts:")
stockouts_data.head()

### Explorar Datos

In [None]:
# Información general y valores faltantes en ventas
print("\nInformación general de Sales:")
sales_data.info()

print("\nValores faltantes en Sales (número y porcentaje):")
missing_values_sales = sales_data.isnull().sum()
percent_missing_sales = (sales_data.isnull().sum() / len(sales_data)) * 100
missing_sales_summary = pd.DataFrame({'Missing Values': missing_values_sales, 'Percentage': percent_missing_sales})
print(missing_sales_summary)

In [None]:
# Información general y valores faltantes en stockouts
print("\nInformación general de Stockouts:")
stockouts_data.info()

print("\nValores faltantes en Stockouts (número y porcentaje):")
missing_values_stockouts = stockouts_data.isnull().sum()
percent_missing_stockouts = (stockouts_data.isnull().sum() / len(stockouts_data)) * 100
missing_stockouts_summary = pd.DataFrame({'Missing Values': missing_values_stockouts, 'Percentage': percent_missing_stockouts})
print(missing_stockouts_summary)

### Corregir errores de tipo de datos

In [None]:
# Corregir tipos de datos en sales_data
sales_data['Year.Month'] = sales_data['Year.Month'].astype(str)
sales_data['Material'] = sales_data['Material'].astype(str)
sales_data['Sales KG'] = sales_data['Sales KG'].astype(float)
sales_data['Sales COP'] = sales_data['Sales COP'].astype(int)

# Verificar cambios
print("\nTipos de datos en sales_data después de la corrección:")
print(sales_data.dtypes)

In [None]:
# Corregir tipos de datos en stockouts_data
stockouts_data['Year.Month'] = stockouts_data['Year.Month'].astype(str)
stockouts_data['Material'] = stockouts_data['Material'].astype(str)
stockouts_data['Purchase Order KG'] = stockouts_data['Purchase Order KG'].astype(int)
stockouts_data['Purchase Delivered KG'] = stockouts_data['Purchase Delivered KG'].astype(int)
stockouts_data['Purchase Pending KG'] = stockouts_data['Purchase Pending KG'].astype(int)
stockouts_data['UM'] = stockouts_data['UM'].astype(str)
stockouts_data['Fulfillment'] = stockouts_data['Fulfillment'].astype(float)

# Verificar cambios
print("\nTipos de datos en stockouts_data después de la corrección:")
print(stockouts_data.dtypes)

### Tratamiento de Duplicados

In [None]:
# Identificar duplicados en sales_data
print("Duplicados en sales_data antes de la eliminación:")
print(sales_data.duplicated().sum())

In [None]:
# Eliminar duplicados en sales_data
sales_data = sales_data.drop_duplicates()

# Verificar eliminación de duplicados en sales_data
print("Duplicados en sales_data después de la eliminación:")
print(sales_data.duplicated().sum())

In [None]:
# Identificar duplicados en stockouts_data
print("Duplicados en stockouts_data antes de la eliminación:")
print(stockouts_data.duplicated().sum())

In [None]:
# Eliminar duplicados en stockouts_data
stockouts_data = stockouts_data.drop_duplicates()

# Verificar eliminación de duplicados en stockouts_data
print("Duplicados en stockouts_data después de la eliminación:")
print(stockouts_data.duplicated().sum())

### Tratamiento de Inconsistencias

Es necesario verificar que las variables se encuentren en rangos/soportes consistentes.

In [None]:
# Identificar y corregir inconsistencias en sales_data
print("Descripción estadística de sales_data antes de la limpieza:")
print(sales_data.describe())

In [None]:
# Filtrar valores inconsistentes en sales_data
sales_data = sales_data[(sales_data['Sales KG'] >= 0) & (sales_data['Sales COP'] >= 0)]
# Si se conocen rangos específicos para 'Sales KG' y 'Sales COP', se pueden aplicar:
# sales_data = sales_data[(sales_data['Sales KG'].between(0, 10000)) & (sales_data['Sales COP'].between(0, 10000000))]
# En este caso no tomaré alguna cota superior.

In [None]:
print("Descripción estadística de sales_data después de la limpieza:")
print(sales_data.describe())

In [None]:
# Crear tablas de frecuencias para las variables categóricas en sales_data
print("\nTabla de frecuencias para Channel:")
print(sales_data['Channel'].value_counts())

print("\nTabla de frecuencias para Category:")
print(sales_data['Category'].value_counts())

print("\nTabla de frecuencias para Line:")
print(sales_data['Line'].value_counts())

Con lo anterior, se observa que existen variables con una única instancia/categoría, lo cual no aporta información a los modelos, pero nos ayuda en temas logísticos. Más adelante para el modelado estas variables no serán tomadas en cuenta. A continuación, como parte de la limpeza de datos, revisamos carácteres extraños o inconsistentes en las variables.

In [None]:
# Detectar caracteres extraños en Year.Month y Material en sales_data
print("\nObservaciones con caracteres extraños en Year.Month en sales_data:")
print(sales_data[~sales_data['Year.Month'].str.match(r'^\d{6}$')])

print("\nObservaciones con caracteres extraños en Material en sales_data:")
print(sales_data[~sales_data['Material'].str.match(r'^\d+$')])

In [None]:
# Crear boxplots para las variables numéricas en sales_data
numeric_columns_sales = ['Sales KG', 'Sales COP']

plt.figure(figsize=(12, 6))
for i, column in enumerate(numeric_columns_sales, 1):
    plt.subplot(1, len(numeric_columns_sales), i)
    sns.boxplot(y=sales_data[column])
    plt.title(f'Boxplot de {column}')
plt.tight_layout()
plt.show()

Los gráficos boxplot de las variables Sales KG y Sales COP muestran una distribución altamente sesgada con numerosos valores atípicos, lo que indica fluctuaciones significativas en las ventas tanto en kilogramos como en pesos colombianos. La presencia de estos valores atípicos sugiere posibles eventos inusuales o picos de demanda que podrían estar influenciados por factores externos como campañas de marketing, variaciones estacionales o cambios en las políticas gubernamentales. Para el modelado, estos valores atípicos pueden sesgar los resultados y afectar la precisión de las predicciones, por lo que es crucial considerarlos en el preprocesamiento de datos y, si es necesario, ajustar el modelo para manejar estas anomalías adecuadamente.

In [None]:
# Identificar y corregir inconsistencias en stockouts_data
print("Descripción estadística de stockouts_data antes de la limpieza:")
print(stockouts_data.describe())

In [None]:
# Filtrar valores inconsistentes en stockouts_data
stockouts_data = stockouts_data[(stockouts_data['Purchase Order KG'] >= 0) &
                                (stockouts_data['Purchase Delivered KG'] >= 0) &
                                (stockouts_data['Purchase Pending KG'] >= 0) &
                                (stockouts_data['Fulfillment'].between(0, 100))]

In [None]:
print("Descripción estadística de stockouts_data después de la limpieza:")
print(stockouts_data.describe())

In [None]:
# Crear tablas de frecuencias para las variables categóricas en stockouts_data
print("\nTabla de frecuencias para UM:")
print(stockouts_data['UM'].value_counts())

Esta variable solo presenta una única categoría

In [None]:
# Detectar caracteres extraños en Year.Month y Material en stockouts_data
print("\nObservaciones con caracteres extraños en Year.Month en stockouts_data:")
print(stockouts_data[~stockouts_data['Year.Month'].str.match(r'^\d{6}$')])

print("\nObservaciones con caracteres extraños en Material en stockouts_data:")
print(stockouts_data[~stockouts_data['Material'].str.match(r'^\d+$')])

In [None]:
# Crear boxplots para las variables numéricas en stockouts_data
numeric_columns_stockouts = ['Purchase Order KG', 'Purchase Delivered KG', 'Purchase Pending KG', 'Fulfillment']

plt.figure(figsize=(16, 8))
for i, column in enumerate(numeric_columns_stockouts, 1):
    plt.subplot(1, len(numeric_columns_stockouts), i)
    sns.boxplot(y=stockouts_data[column])
    plt.title(f'Boxplot de {column}')
plt.tight_layout()
plt.show()

Los gráficos boxplot de las variables Purchase Order KG, Purchase Delivered KG, Purchase Pending KG y Fulfillment muestran una distribución con numerosos valores atípicos. En particular, Purchase Order KG, Purchase Delivered KG y Purchase Pending KG presentan un rango de valores muy amplio, indicando pedidos y entregas que varían significativamente en tamaño. Estos valores atípicos pueden indicar eventos de compra extraordinarios o problemas en la cadena de suministro. Por otro lado, el boxplot de Fulfillment muestra que la mayoría de los valores se concentran en un rango más estrecho, sugiriendo un nivel de cumplimiento más consistente, aunque todavía con variabilidad significativa. Estos hallazgos resaltan la importancia de considerar estos valores atípicos en el análisis y modelado para evitar que sesguen los resultados y mejorar la precisión de las predicciones.

## Combinar los datos de ventas y stockouts

In [None]:
# Crear la variable ID en ambos dataframes
sales_data['ID'] = sales_data['Year.Month'] + '-' + sales_data['Material']
stockouts_data['ID'] = stockouts_data['Year.Month'] + '-' + stockouts_data['Material']

# Verificar las primeras filas para asegurarse de que la variable ID se ha creado correctamente
print("Primeras filas de sales_data con ID:")
print(sales_data.head())

print("\nPrimeras filas de stockouts_data con ID:")
print(stockouts_data.head())

In [None]:
# Realizar la unión de los dataframes basados en la variable ID
combined_data = pd.merge(sales_data, stockouts_data, on='ID', how='inner', suffixes=('_sales', '_stockouts'))

# Mostrar las primeras filas del dataframe combinado
print("\nPrimeras filas del dataframe combinado:")
combined_data.head()

In [None]:
# Eliminar las columnas duplicadas de Year.Month y Material de stockouts_data
combined_data.drop(columns=['Year.Month_stockouts', 'Material_stockouts'], inplace=True)

# Renombrar las columnas de sales_data para quitar los sufijos
combined_data.rename(columns={'Year.Month_sales': 'Year.Month', 'Material_sales': 'Material'}, inplace=True)

# Mostrar las primeras filas del dataframe combinado
print("\nPrimeras filas del dataframe combinado:")
combined_data.head()

In [None]:
# Información general del dataframe combinado
print("\nInformación general del dataframe combinado:")
print(combined_data.info())

In [None]:
# Convertir Year.Month a datetime
combined_data['Year.Month'] = pd.to_datetime(combined_data['Year.Month'], format='%Y%m')

# Verificar el cambio
print(combined_data.info())
combined_data['Year.Month'].head()

## Derivar Nuevas Características

### Descripción de las Nuevas Variables Derivadas en `combined_data`

Para mejorar la cadena de suministro, es fundamental tener una comprensión clara de la eficiencia y efectividad del proceso de entrega de productos. Las nuevas variables derivadas ayudan a identificar áreas problemáticas y oportunidades para optimizar el flujo de bienes desde el proveedor hasta el cliente final.

#### 1. Stockout Rate (Tasa de Faltantes de Stock)

**Descripción:**

La `Stockout Rate` mide el porcentaje de la orden de compra que no fue entregada en un período específico. Se calcula como:
$$ \text{Stockout Rate} = \left( \frac{\text{Purchase Order KG} - \text{Purchase Delivered KG}}{\text{Purchase Order KG}} \right) \times 100 $$

**Justificación:**

Esta variable es crucial para identificar la frecuencia y severidad de los faltantes de stock. Un alto `Stockout Rate` indica problemas en la disponibilidad de inventario, lo que puede llevar a pérdidas de ventas y disminución de la satisfacción del cliente. Al monitorear esta métrica, las empresas pueden tomar medidas proactivas para mejorar la planificación del inventario y reducir las interrupciones en el suministro.

#### 2. Fulfillment Rate (Tasa de Cumplimiento de la Orden de Compra)

**Descripción:**

La `Fulfillment Rate` mide el porcentaje de la orden de compra que fue entregada en un período específico. Se calcula como:
$$ \text{Fulfillment Rate} = \left( \frac{\text{Purchase Delivered KG}}{\text{Purchase Order KG}} \right) \times 100 $$

**Justificación:**
Esta variable proporciona una medida directa del desempeño del proveedor en términos de cumplimiento de órdenes. Un alto `Fulfillment Rate` indica que la mayoría de las órdenes se entregan según lo planeado, lo cual es vital para mantener una cadena de suministro eficiente y confiable. Monitorear esta métrica permite a las empresas evaluar la efectividad de sus proveedores y mejorar la gestión de relaciones con ellos.


#### 3. Pending Order Rate (Tasa de Órdenes Pendientes)

**Descripción:**

La `Pending Order Rate` mide el porcentaje de la orden de compra que aún no se ha entregado en un período específico. Se calcula como:
$$ \text{Pending Order Rate} = \left( \frac{\text{Purchase Pending KG}}{\text{Purchase Order KG}} \right) \times 100 $$

**Justificación:**

Esta variable es útil para identificar retrasos en la entrega y entender mejor la eficiencia de la cadena de suministro. Un alto `Pending Order Rate` puede indicar problemas en la capacidad del proveedor para cumplir con las órdenes a tiempo, lo que puede afectar la disponibilidad del producto y la satisfacción del cliente. Analizar esta métrica ayuda a detectar cuellos de botella y mejorar la coordinación con los proveedores.


### Conclusión

Las variables derivadas `Stockout Rate`, `Fulfillment Rate`, y `Pending Order Rate` proporcionan insights valiosos sobre la eficiencia y efectividad de la cadena de suministro. Al monitorear y analizar estas métricas, las empresas pueden:

1. **Reducir Faltantes de Stock:** Identificar y abordar las causas de los faltantes de stock, mejorando la disponibilidad del producto y la satisfacción del cliente.
2. **Mejorar el Desempeño del Proveedor:** Evaluar la capacidad de los proveedores para cumplir con las órdenes a tiempo, optimizando la gestión de relaciones con los proveedores y asegurando un suministro confiable.
3. **Identificar Retrasos:** Detectar y solucionar problemas de entrega pendientes, facilitando una mejor planificación y coordinación en la cadena de suministro.

Implementar estas métricas ayuda a las empresas a tomar decisiones informadas y estratégicas para mejorar la eficiencia operativa y optimizar su cadena de suministro.


In [None]:
# Derivar nuevas características

# Tasa de faltantes de stock: porcentaje de la orden de compra que no fue entregada
combined_data['Stockout Rate'] = ((combined_data['Purchase Order KG'] - combined_data['Purchase Delivered KG']) / combined_data['Purchase Order KG']) * 100

# Tasa de cumplimiento de la orden de compra: porcentaje de la orden de compra que fue entregada
combined_data['Fulfillment Rate'] = (combined_data['Purchase Delivered KG'] / combined_data['Purchase Order KG']) * 100

# Tasa de órdenes pendientes: porcentaje de la orden de compra que aún no se ha entregado
combined_data['Pending Order Rate'] = (combined_data['Purchase Pending KG'] / combined_data['Purchase Order KG']) * 100

In [None]:
# Verificar las nuevas características
print("\nNuevas características derivadas:")
combined_data[['ID', 'Stockout Rate', 'Fulfillment Rate', 'Pending Order Rate']].head()

In [None]:
# Descripción estadística de las nuevas características
print("\nDescripción estadística de las nuevas características:")
print(combined_data[['Stockout Rate', 'Fulfillment Rate', 'Pending Order Rate']].describe())

In [None]:
# Crear un DataFrame para facilitar la visualización conjunta
melted_data = combined_data.melt(value_vars=['Stockout Rate', 'Fulfillment Rate', 'Pending Order Rate'],
                                 var_name='Metric', value_name='Value')

# Crear el boxplot
plt.figure(figsize=(12, 6))
sns.boxplot(x='Metric', y='Value', data=melted_data)
plt.title('Boxplots de Stockout Rate, Fulfillment Rate y Pending Order Rate')
plt.xlabel('Metric')
plt.ylabel('Rate (%)')
plt.show()

Los estadísticos descriptivos de las nuevas características revelan problemas que requieren especial atención en la cadena de suministro. La alta media y mediana de las tasas de faltantes de stock (75.27% y 87.50%, respectivamente) y de órdenes pendientes (75.27% y 87.50%) indican una gran proporción de órdenes de compra que no se entregan o permanecen pendientes. Además, la baja media y mediana de la tasa de cumplimiento (24.73% y 12.50%) sugieren que los proveedores no están cumpliendo eficientemente con las órdenes de compra.

La alta desviación estándar en todas las métricas indica una gran variabilidad, lo que resalta la necesidad de mejorar la consistencia y la eficiencia en la cadena de suministro. Estas métricas proporcionan insights críticos que pueden ayudar a las empresas a identificar áreas problemáticas y a implementar estrategias para optimizar la disponibilidad de inventario y la entrega oportuna de productos.

In [None]:
# Agrupar por 'Line' y calcular los estadísticos descriptivos para cada métrica
grouped_stats1 = combined_data.groupby('Line').agg(
    Stockout_Rate_Mean=('Stockout Rate', 'mean'),
    Stockout_Rate_Std=('Stockout Rate', 'std'),
    Stockout_Rate_Median=('Stockout Rate', 'median'),
).reset_index()

# Mostrar la tabla de estadísticos descriptivos por 'Line'
grouped_stats1

En el análisis de la Tasa de Faltantes (Stockout Rate) por línea de producto, se identificaron productos con altas tasas de faltantes, como Licor de Cacao Industrial (100%) y Toppings (93.23%), sugiriendo problemas significativos de disponibilidad. La alta variabilidad y valores extremos en ciertas líneas, como Chocolate Real y Coberturas y Chips Industriales, indican la necesidad de mejorar la gestión de inventario y la planificación de la producción.

In [None]:
# Agrupar por 'Line' y calcular los estadísticos descriptivos para cada métrica
grouped_stats2 = combined_data.groupby('Line').agg(
    Fulfillment_Rate_Mean=('Fulfillment Rate', 'mean'),
    Fulfillment_Rate_Std=('Fulfillment Rate', 'std'),
    Fulfillment_Rate_Median=('Fulfillment Rate', 'median'),
).reset_index()

# Mostrar la tabla de estadísticos descriptivos por 'Line'
grouped_stats2

El análisis de la Tasa de Cumplimiento (Fulfillment Rate) por línea de producto revela problemas de especial atención en la capacidad de cumplir con los pedidos, especialmente en productos como Licor de Cacao Industrial (0%) y Toppings (6.77%). La baja tasa de cumplimiento y alta variabilidad en líneas como Chocolate Real y Coberturas y Chips Industriales sugieren la necesidad de mejorar la gestión de inventario y la eficiencia en la cadena de suministro. Estos hallazgos destacan la importancia de abordar tanto los valores atípicos como los factores externos que influyen en la demanda y la disponibilidad de productos para optimizar la planificación y la previsión en la empresa.

In [None]:
# Agrupar por 'Line' y calcular los estadísticos descriptivos para cada métrica
grouped_stats3 = combined_data.groupby('Line').agg(
    Pending_Order_Rate_Mean=('Pending Order Rate', 'mean'),
    Pending_Order_Rate_Std=('Pending Order Rate', 'std'),
    Pending_Order_Rate_Median=('Pending Order Rate', 'median'),
).reset_index()

# Mostrar la tabla de estadísticos descriptivos por 'Line'
grouped_stats3

El análisis de la Tasa de Pedidos Pendientes (Pending Order Rate) muestra altos niveles de pedidos no cumplidos, especialmente en Licor de Cacao Industrial y Toppings, ambos con una tasa media cercana al 100%. Estos altos valores y la baja variabilidad en algunos productos indican problemas consistentes en el cumplimiento de pedidos. La variabilidad es alta en líneas como Chocolate Real y Coberturas y Chips Industriales, lo que sugiere una gestión de inventarios inconsistente. Abordar estos problemas mejorará la precisión de las previsiones y la satisfacción del cliente, asegurando una cadena de suministro más eficiente y confiable.

## Particionar el Conjunto de Datos

In [None]:
# Asegurarse de que Year.Month esté ordenado
combined_data = combined_data.sort_values(by='Year.Month')

# Determinar el punto de división
train_size = int(len(combined_data) * 0.8)

# Dividir los datos en conjuntos de entrenamiento y prueba
train_data = combined_data.iloc[:train_size]
test_data = combined_data.iloc[train_size:]

In [None]:
# Verificar la partición
print("Datos de entrenamiento:")
train_data.head()

In [None]:
# Verificar la partición
print("Datos de entrenamiento:")
train_data.tail()

In [None]:
print("\nDatos de prueba:")
test_data.head()

In [None]:
print("\nDatos de prueba:")
test_data.tail()

In [None]:
# Ruta del archivo donde se guardará combined_data
file_path = "/content/combined_data.xlsx"

# Guardar el dataframe en un archivo Excel
combined_data.to_excel(file_path, index=False, engine='xlsxwriter')


# Tareas de Ciencia de Datos:

## Plan de Trabajo para las Tareas de Científico de Datos

### Paso 1: Visualización de Datos
#### Visualización de la Demanda Mensual:
- Crear gráficos de línea de la demanda mensual (Sales KG) para identificar tendencias y estacionalidad.
- Utilizar gráficos de caja (boxplots) para detectar posibles valores atípicos.

#### Análisis de Patrones de Faltantes de Stock:
- Visualizar la Stockout Rate a lo largo del tiempo para identificar patrones y estacionalidad.
- Analizar la correlación entre Stockout Rate y Sales KG para entender su impacto en la demanda.

### Paso 2: Selección y Justificación del Modelo
#### Análisis de las Características de los Datos:
- Evaluar la naturaleza de los datos (series temporales, no lineales, etc.).
- Considerar modelos de series temporales como ARIMA para capturar tendencias y estacionalidad.
- Evaluar modelos de aprendizaje automático como Random Forest para capturar relaciones no lineales.

#### Justificación del Modelo:
- Seleccionar un modelo basado en las características identificadas.
- Justificar la elección del modelo con base en su capacidad para manejar las características de los datos y la naturaleza del problema.

### Paso 3: Entrenamiento del Modelo
#### Preparación de los Datos:
- Dividir los datos en conjuntos de entrenamiento y prueba (hecho anteriormente).
Incorporar las características derivadas durante las tareas de ingeniería de datos.

#### Entrenamiento del Modelo:
- Entrenar el modelo seleccionado con los datos históricos de demanda.
- Explorar el ajuste de hiperparámetros para optimizar el rendimiento del modelo.

### Paso 4: Evaluación del Modelo
#### Evaluación del Rendimiento del Modelo:
- Utilizar métricas como el Error Cuadrático Medio (MSE) y el Error Porcentual Absoluto Medio (MAPE) para evaluar el rendimiento del modelo en los datos de prueba.
- Analizar los resultados para identificar posibles debilidades y áreas de mejora.

### Paso 5: Generación de Pronósticos
#### Generación de Pronósticos:
- Utilizar el modelo entrenado para generar pronósticos para los próximos 6 meses para cada material.
- Visualizar los pronósticos junto con los datos históricos para verificar la coherencia y precisión de las predicciones.

## Visualización de Datos

### Justificación de la Selección de la Variable Objetivo
La variable Sales KG fue elegida como la variable objetivo para el análisis debido a su consistencia y comparabilidad. Representa una medida de volumen constante en el tiempo, no sujeta a fluctuaciones económicas como la inflación o variaciones en los precios. Esto la hace una métrica más confiable para analizar tendencias y patrones históricos. Además, Sales KG proporciona una visión neutral del rendimiento de ventas sin la interferencia de factores económicos externos.

Desde una perspectiva operativa, Sales KG es fundamental para la planificación y gestión de la cadena de suministro y la logística, ya que las decisiones sobre producción, inventario y distribución se basan en el volumen de producto vendido. Permite un análisis claro de las tendencias y patrones estacionales, facilitando la identificación de picos de demanda y períodos de baja actividad. Para la empresa, entender y predecir Sales KG tiene un impacto directo en la capacidad de satisfacer la demanda del mercado y optimizar los niveles de inventario, reduciendo los costos asociados a los faltantes de stock y el exceso de inventario.

In [None]:
# URL de inserción de Power BI
power_bi_embed_url = "https://app.powerbi.com/reportEmbed?reportId=4dace1a2-3ca4-4755-b0e7-4c89c29ef0f6&autoAuth=true&ctid=577fc1d8-0922-458e-87bf-ec4f455eb600"

# Crear el HTML para incrustar el informe
html_code = f"""
    <iframe
        width="100%"
        height="600"
        src="{power_bi_embed_url}"
        frameborder="0"
        allowFullScreen="true"></iframe>
    """

# Mostrar el informe incrustado
display(HTML(html_code))


Adicionalmente:

In [None]:
# Crear una nueva columna 'Month' para el boxplot
combined_data['Month'] = combined_data['Year.Month'].dt.strftime('%Y-%m')

# Configurar el tamaño de la figura
plt.figure(figsize=(14, 7))

# Crear el boxplot para Sales KG
sns.boxplot(x='Month', y='Sales KG', data=combined_data)

# Ajustar etiquetas y título
plt.xticks(rotation=45)
plt.xlabel('Mes')
plt.ylabel('Sales KG')
plt.title('Boxplot de Sales KG por Mes')

# Mostrar el gráfico
plt.show()

In [None]:
# Configurar el tamaño de la figura
plt.figure(figsize=(14, 7))

# Crear el boxplot para Stockout Rate
sns.boxplot(x='Month', y='Stockout Rate', data=combined_data)

# Ajustar etiquetas y título
plt.xticks(rotation=45)
plt.xlabel('Mes')
plt.ylabel('Stockout Rate (%)')
plt.title('Boxplot de Stockout Rate por Mes')

# Mostrar el gráfico
plt.show()


## Selección y Justificación del Modelo

In [None]:
# Realizar la unión de los dataframes basados en la variable ID
combined_data = pd.merge(sales_data, stockouts_data, on='ID', how='inner', suffixes=('_sales', '_stockouts'))

# Eliminar las columnas duplicadas de Year.Month y Material de stockouts_data
combined_data.drop(columns=['Year.Month_stockouts', 'Material_stockouts'], inplace=True)

# Renombrar las columnas de sales_data para quitar los sufijos
combined_data.rename(columns={'Year.Month_sales': 'Year.Month', 'Material_sales': 'Material'}, inplace=True)

# Convertir Year.Month a datetime
combined_data['Year.Month'] = pd.to_datetime(combined_data['Year.Month'], format='%Y%m')

# Eliminar las variables Channel, Category y UM
combined_data = combined_data.drop(columns=['Channel', 'Category', 'UM'])

# Tasa de faltantes de stock: porcentaje de la orden de compra que no fue entregada
combined_data['Stockout Rate'] = ((combined_data['Purchase Order KG'] - combined_data['Purchase Delivered KG']) / combined_data['Purchase Order KG']) * 100

# Tasa de cumplimiento de la orden de compra: porcentaje de la orden de compra que fue entregada
combined_data['Fulfillment Rate'] = (combined_data['Purchase Delivered KG'] / combined_data['Purchase Order KG']) * 100

# Tasa de órdenes pendientes: porcentaje de la orden de compra que aún no se ha entregado
combined_data['Pending Order Rate'] = (combined_data['Purchase Pending KG'] / combined_data['Purchase Order KG']) * 100

combined_data.head()

### 0. Limpieza de la variable Sales KG


In [None]:
# Calcular los cuartiles
Q1 = combined_data['Sales KG'].quantile(0.25)
Q3 = combined_data['Sales KG'].quantile(0.75)
IQR = Q3 - Q1

# Definir los límites inferior y superior para identificar valores atípicos
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Identificar valores atípicos
outliers = combined_data[(combined_data['Sales KG'] < lower_bound) | (combined_data['Sales KG'] > upper_bound)]
print("Valores atípicos identificados:")
print(outliers)


In [None]:
# Eliminar los valores atípicos
combined_data = combined_data[(combined_data['Sales KG'] >= lower_bound) & (combined_data['Sales KG'] <= upper_bound)]
print("Datos después de eliminar valores atípicos:")
print(combined_data.head())


### 1. Visualización de la Serie Temporal
Primero, visualizamos la serie temporal de Sales KG para observar cualquier tendencia o estacionalidad.

In [None]:
# Graficar la serie temporal
plt.figure(figsize=(12, 6))
plt.plot(combined_data['Sales KG'])
plt.xlabel('Fecha')
plt.ylabel('Sales KG')
plt.title('Demanda Mensual (Sales KG)')
plt.show()



### 2. Descomposición de la Serie Temporal
Descomponemos la serie temporal para observar sus componentes: tendencia, estacionalidad y residuales.

In [None]:
# Descomponer la serie temporal
decomposition = seasonal_decompose(combined_data['Sales KG'], model='additive', period=12)
decomposition.plot()
plt.show()


**Análisis del Gráfico de Tendencia:**
 * Tendencia (Trend):
  En el gráfico de tendencia, parece que hay fluctuaciones notables con algunos picos y valles.
  No hay una tendencia claramente ascendente o descendente sostenida a lo largo del tiempo.
  Los picos en la tendencia indican períodos en los que las ventas fueron significativamente mayores, mientras que los valles indican períodos de ventas más bajas.

* La serie temporal muestra fluctuaciones considerables en la tendencia, lo que sugiere que hay factores que influyen significativamente en ciertos períodos.

- Identificación de Picos:
 * Los picos en la tendencia podrían estar asociados con eventos específicos, promociones, o factores estacionales que aumentan significativamente las ventas.


**Componente Estacional:**

- La estacionalidad captura patrones recurrentes a lo largo de un período específico (por ejemplo, mensual, trimestral, anual). Esto es útil para entender patrones que se repiten regularmente.

- El componente estacional parece tener un patrón claramente repetitivo, lo cual es un indicativo de estacionalidad en los datos de ventas.
Estos ciclos podrían representar fluctuaciones mensuales, por ejemplo, picos en ciertos meses del año debido a estacionalidades conocidas (festividades, promociones anuales, etc.).

**Componente de Residuos:**

- Los residuos representan las fluctuaciones aleatorias que no se explican por la tendencia ni por la estacionalidad. Es importante revisar si los residuos se comportan como ruido blanco, es decir, si son distribuidos aleatoriamente sin patrones claros.

- Los residuos muestran puntos dispersos alrededor de la línea base (cero), con algunos picos notables.
La presencia de estos picos podría indicar eventos o anomalías específicas no capturadas por los componentes de tendencia y estacionalidad.

### 3. Prueba de Estacionaridad
Realizamos la prueba de Dickey-Fuller aumentada (ADF) para verificar la estacionaridad de la serie temporal.

In [None]:
# Prueba de Dickey-Fuller aumentada
result = adfuller(combined_data['Sales KG'])
print('ADF Statistic:', result[0])
print('p-value:', result[1])
for key, value in result[4].items():
    print(f'Critical Value ({key}): {value}')


Dado que el valor del estadístico ADF (-12.185707814694213) es menor que los valores críticos para todos los niveles de significancia (1%, 5%, y 10%), y el p-valor es extremadamente pequeño, podemos concluir que la serie Sales KG es estacionaria.

### 4. Análisis de ACF y PACF
Graficamos las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) para identificar los posibles valores de los parámetros p, d, q del modelo ARIMA.

In [None]:
# Graficar ACF y PACF para la serie original ya que es estacionaria
plt.figure(figsize=(12, 6))
plot_acf(combined_data['Sales KG'], lags=24)
plt.show()

plt.figure(figsize=(12, 6))
plot_pacf(combined_data['Sales KG'], lags=24)
plt.show()

Dado que la serie temporal de Sales KG es estacionaria y analizando los gráficos de ACF y PACF, se pueden considerar las siguientes opciones de modelado:

- Modelo AR(1):
  * En el gráfico PACF, hay un corte significativo después del primer rezago (lag), lo que sugiere que un modelo autoregresivo de primer orden podría ser adecuado.
  * El modelo sería ARIMA(1, 0, 0) para capturar la autoregresión de primer orden.

- Modelo MA(1):
  * En el gráfico ACF, se observa un decaimiento gradual, pero significativo, después del primer rezago (lag), lo que indica que un modelo de media móvil de primer orden también podría ser apropiado.
  * El modelo sería ARIMA(0, 0, 1) para capturar el componente de media móvil de primer orden.

- Modelo ARMA(1,1):

  * Si se quiere capturar tanto el efecto autoregresivo como el de media móvil, se podría considerar un modelo combinado ARMA(1, 1).
El modelo sería ARIMA(1, 0, 1).

Al final, he decidido optar por el modelo ARIMA(1,0,1). La justificación se basa en los siguientes resultados:

### 5. Selección del Modelo ARIMA
Basándonos en la interpretación de los gráficos ACF y PACF, podríamos considerar un modelo ARIMA(1,0,1)

In [None]:
# Ajustar el modelo ARIMA (con estacionalidad) usando los datos limpios
model_cleaned = ARIMA(combined_data['Sales KG'], order=(1, 0, 1), seasonal_order=(1, 1, 1, 12))
sarima_result_cleaned = model_cleaned.fit()

# Resumen del modelo
print(sarima_result_cleaned.summary())

# Graficar las predicciones
combined_data['SARIMA_Pred'] = sarima_result_cleaned.predict(start=0, end=len(combined_data)-1, dynamic=False)
plt.figure(figsize=(12, 6))
plt.plot(combined_data['Sales KG'], label='Sales KG')
plt.plot(combined_data['SARIMA_Pred'], label='SARIMA_Pred', linestyle='--')
plt.legend()
plt.xlabel('Fecha')
plt.ylabel('Sales KG')
plt.title('Predicción de Demanda Mensual con SARIMA (Datos Limpios)')
plt.show()

In [None]:
# Graficar los residuos
residuals_cleaned = sarima_result_cleaned.resid
plt.figure(figsize=(12, 6))
plt.plot(residuals_cleaned)
plt.xlabel('Fecha')
plt.ylabel('Residuales')
plt.title('Residuales del Modelo SARIMA (Datos Limpios)')
plt.show()

# Graficar ACF de los residuos
plt.figure(figsize=(12, 6))
plot_acf(residuals_cleaned, lags=24)
plt.show()



In [None]:
# Prueba de Ljung-Box para los residuos
ljung_box_result_cleaned = acorr_ljungbox(residuals_cleaned, lags=[10, 15, 20, 25], return_df=True)
print(ljung_box_result_cleaned)

In [None]:
# Calcular MSE y MAE
mse_cleaned = mean_squared_error(combined_data['Sales KG'], combined_data['SARIMA_Pred'])
mae_cleaned = mean_absolute_error(combined_data['Sales KG'], combined_data['SARIMA_Pred'])

print(f'Mean Squared Error (MSE) con datos limpios: {mse_cleaned}')
print(f'Mean Absolute Error (MAE) con datos limpios: {mae_cleaned}')


In [None]:
'''
warnings.filterwarnings("ignore")

# Definir el rango de valores para p, d, q
p = d = q = range(0, 3)

# Generar todas las combinaciones posibles de p, d y q
pdq = list(itertools.product(p, d, q))

# Generar todas las combinaciones posibles de estacionalidad
seasonal_pdq = [(x[0], x[1], x[2], 12) for x in pdq]

best_aic = float("inf")
best_params = None
best_seasonal_params = None
best_model = None

for param in pdq:
    for seasonal_param in seasonal_pdq:
        try:
            temp_model = ARIMA(combined_data['Sales KG'],
                               order=param,
                               seasonal_order=seasonal_param)
            temp_result = temp_model.fit()

            if temp_result.aic < best_aic:
                best_aic = temp_result.aic
                best_params = param
                best_seasonal_params = seasonal_param
                best_model = temp_result
        except:
            continue

print(f"Mejor AIC: {best_aic}")
print(f"Mejores parámetros ARIMA: {best_params}")
print(f"Mejores parámetros estacionales: {best_seasonal_params}")
'''


### Modelo Random Forest

In [None]:

# Crear características de retraso para Random Forest
def create_lag_features(data, lag=12):
    df = data.copy()
    for i in range(1, lag+1):
        df[f'lag_{i}'] = df['Sales KG'].shift(i)
    df = df.dropna()
    return df

# Crear características con 12 retardos
train_data_lag = create_lag_features(train_data[['Sales KG']], lag=12)
test_data_lag = create_lag_features(test_data[['Sales KG']], lag=12)

# Dividir los datos en características (X) y objetivo (y)
X_train = train_data_lag.drop(['Sales KG'], axis=1)
y_train = train_data_lag['Sales KG']
X_test = test_data_lag.drop(['Sales KG'], axis=1)
y_test = test_data_lag['Sales KG']

'''
# Crear la rejilla de parámetros
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Crear el modelo Random Forest
rf = RandomForestRegressor(random_state=42)

# Crear todas las combinaciones posibles de hiperparámetros
param_combinations = list(ParameterGrid(param_grid))

# Variables para rastrear el mejor resultado
best_score = float("inf")
best_params = None

# Búsqueda de hiperparámetros con visualización del progreso
for params in tqdm(param_combinations, desc="Buscando hiperparámetros"):
    rf.set_params(**params)
    rf.fit(X_train, y_train)
    predictions = rf.predict(X_test)
    score = mean_squared_error(y_test, predictions)

    if score < best_score:
        best_score = score
        best_params = params

print(f"Mejores hiperparámetros para Random Forest: {best_params}")
print(f"Mejor MSE: {best_score}")
'''


In [None]:
# Ajustar el modelo Random Forest con los mejores hiperparámetros
best_rf_model = RandomForestRegressor(max_depth=30, max_features='sqrt', min_samples_leaf=4, min_samples_split=2, n_estimators=200, random_state=42)
best_rf_model.fit(X_train, y_train)

# Predicciones
rf_predictions = best_rf_model.predict(X_test)

# Evaluación
mse_rf = mean_squared_error(y_test, rf_predictions)
mae_rf = mean_absolute_error(y_test, rf_predictions)
print(f'Mean Squared Error (MSE) de Random Forest: {mse_rf}')
print(f'Mean Absolute Error (MAE) de Random Forest: {mae_rf}')


### Modelo LSTM

In [None]:
random_state = 42
tf.random.set_seed(random_state)

# Escalar los datos
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data[['Sales KG']])
scaled_test_data = scaler.transform(test_data[['Sales KG']])

# Crear características de retraso para LSTM
def create_lag_features_lstm(data, lag=12):
    X, y = [], []
    for i in range(lag, len(data)):
        X.append(data[i-lag:i, 0])
        y.append(data[i, 0])
    return np.array(X), np.array(y)

# Crear características con 12 retardos para LSTM
lag = 12
X_train_lstm, y_train_lstm = create_lag_features_lstm(scaled_train_data, lag=lag)
X_test_lstm, y_test_lstm = create_lag_features_lstm(scaled_test_data, lag=lag)

# Remodelar los datos para LSTM
X_train_lstm = X_train_lstm.reshape((X_train_lstm.shape[0], X_train_lstm.shape[1], 1))
X_test_lstm = X_test_lstm.reshape((X_test_lstm.shape[0], X_test_lstm.shape[1], 1))
'''
# Definir el modelo para KerasTuner
def build_model(hp):
    model = Sequential()

    # Primera capa LSTM
    model.add(LSTM(units=hp.Int('units_layer1', min_value=32, max_value=512, step=32),
                   return_sequences=True, input_shape=(lag, 1)))
    model.add(Dropout(rate=hp.Float('dropout_rate_layer1', min_value=0.0, max_value=0.5, step=0.1)))

    # Segunda capa LSTM
    model.add(LSTM(units=hp.Int('units_layer2', min_value=32, max_value=512, step=32),
                   return_sequences=True))
    model.add(Dropout(rate=hp.Float('dropout_rate_layer2', min_value=0.0, max_value=0.5, step=0.1)))

    # Tercera capa LSTM
    model.add(LSTM(units=hp.Int('units_layer3', min_value=32, max_value=512, step=32),
                   return_sequences=False))
    model.add(Dropout(rate=hp.Float('dropout_rate_layer3', min_value=0.0, max_value=0.5, step=0.1)))

    # Capa de salida
    model.add(Dense(1))

    # Probar diferentes optimizadores
    optimizer_choice = hp.Choice('optimizer', values=['adam', 'rmsprop', 'sgd'])
    if optimizer_choice == 'adam':
        optimizer = Adam(learning_rate=hp.Float('learning_rate', min_value=1e-4, max_value=1e-2, sampling='LOG'))
    elif optimizer_choice == 'rmsprop':
        optimizer = RMSprop(learning_rate=hp.Float('learning_rate', min_value=1e-4, max_value=1e-2, sampling='LOG'))
    else:
        optimizer = SGD(learning_rate=hp.Float('learning_rate', min_value=1e-4, max_value=1e-2, sampling='LOG'))

    model.compile(optimizer=optimizer, loss='mean_squared_error')
    return model

tuner = RandomSearch(
    build_model,
    objective='val_loss',
    max_trials=30,
    executions_per_trial=1,
    directory='my_dir',
    project_name='lstm_tuning'
)

# Callback de Early Stopping
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

tuner.search(X_train_lstm, y_train_lstm, epochs=100, validation_split=0.2, callbacks=[early_stopping])

# Obtener los mejores hiperparámetros
best_hps = tuner.get_best_hyperparameters(num_trials=1)[0]
print(f"Mejores hiperparámetros para LSTM: {best_hps.values}")
'''

In [None]:
# Ajustar el modelo LSTM con los mejores hiperparámetros

# Construir y Entrenar el Mejor Modelo LSTM
best_lstm_model = Sequential()
best_lstm_model.add(LSTM(units=384, return_sequences=True, input_shape=(lag, 1)))
best_lstm_model.add(Dropout(rate=0.4))
best_lstm_model.add(LSTM(units=384, return_sequences=False))
best_lstm_model.add(Dropout(rate=0.4))
best_lstm_model.add(Dense(1))

best_lstm_model.compile(optimizer='adam', loss='mean_squared_error')
best_lstm_model.fit(X_train_lstm, y_train_lstm, epochs=60, validation_split=0.2)

# Predicciones
lstm_predictions = best_lstm_model.predict(X_test_lstm)
lstm_predictions = scaler.inverse_transform(lstm_predictions)

# Evaluación
y_test_lstm = y_test_lstm.reshape(-1, 1)
y_test_lstm = scaler.inverse_transform(y_test_lstm)
mse_lstm = mean_squared_error(y_test_lstm, lstm_predictions)
mae_lstm = mean_absolute_error(y_test_lstm, lstm_predictions)
print(f'Mean Squared Error (MSE) de LSTM: {mse_lstm}')
print(f'Mean Absolute Error (MAE) de LSTM: {mae_lstm}')

### Modelo Prophet

In [None]:
# Preparar los datos para Prophet
df_prophet = combined_data[['Year.Month', 'Sales KG']].rename(columns={'Year.Month': 'ds', 'Sales KG': 'y'})

# Dividir los datos en conjuntos de entrenamiento y prueba
train_size = int(len(df_prophet) * 0.8)
train_prophet = df_prophet.iloc[:train_size]
test_prophet = df_prophet.iloc[train_size:]

# Ajustar el modelo Prophet
model_prophet = Prophet()
model_prophet.fit(train_prophet)

# Hacer predicciones
future = model_prophet.make_future_dataframe(periods=len(test_prophet))
forecast = model_prophet.predict(future)

# Evaluación
y_true = test_prophet['y'].values
y_pred = forecast['yhat'][-len(test_prophet):].values
mse_prophet = mean_squared_error(y_true, y_pred)
mae_prophet = mean_absolute_error(y_true, y_pred)
print(f'Mean Squared Error (MSE) de Prophet: {mse_prophet}')
print(f'Mean Absolute Error (MAE) de Prophet: {mae_prophet}')


### Modelo SVR

In [None]:
# Crear y ajustar el modelo SVR
svr = SVR(kernel='rbf', C=1e3, gamma=0.1)
svr.fit(X_train, y_train)

# Predicciones
svr_predictions = svr.predict(X_test)

# Evaluación
mse_svr = mean_squared_error(y_test, svr_predictions)
mae_svr = mean_absolute_error(y_test, svr_predictions)
print(f'Mean Squared Error (MSE) de SVR: {mse_svr}')
print(f'Mean Absolute Error (MAE) de SVR: {mae_svr}')


### Modelo XGBoost

In [None]:
# Crear y ajustar el modelo XGBoost
xg_reg = xgb.XGBRegressor(objective='reg:squarederror', colsample_bytree=0.3, learning_rate=0.1, max_depth=5, alpha=10, n_estimators=10)
xg_reg.fit(X_train, y_train)

# Predicciones
xg_predictions = xg_reg.predict(X_test)

# Evaluación
mse_xg = mean_squared_error(y_test, xg_predictions)
mae_xg = mean_absolute_error(y_test, xg_predictions)
print(f'Mean Squared Error (MSE) de XGBoost: {mse_xg}')
print(f'Mean Absolute Error (MAE) de XGBoost: {mae_xg}')


### Conclusiones
- Modelo ARIMA:
Es el modelo preferido para esta tarea, mostrando el mejor desempeño con los datos actuales. Es altamente efectivo para series temporales con componentes estacionales y tendencias claras, con un Mean Squared Error (MSE) de 38,357.41 y un Mean Absolute Error (MAE) de 143.34.

- Modelo Random Forest:
No es ideal para esta serie temporal específica en su forma actual, mostrando un MSE de 294,712.33 y un MAE de 416.66. Aunque puede ser útil con más características de entrada y ajuste de hiperparámetros.

- Modelo LSTM:
Actualmente no es adecuado debido a los errores extremadamente altos, con un MSE de 2.8775e+38 y un MAE de 8.2695e+18. Se requiere una revisión exhaustiva de la configuración del modelo y el preprocesamiento de los datos para mejorar su desempeño.

### Pronóstico

In [None]:
combined_data.info()

In [None]:
# Fijar la semilla aleatoria para reproducibilidad
np.random.seed(42)

# Asegúrate de que Year.Month esté en formato datetime
combined_data['Year.Month'] = pd.to_datetime(combined_data['Year.Month'], format='%Y-%m')

# Convertir la columna Material a tipo string
combined_data['Material'] = combined_data['Material'].astype(str)

# Ordenar los datos por Year.Month
combined_data = combined_data.sort_values(by='Year.Month')

# Materiales para los que se generarán predicciones
materials_to_plot = ['1025298', '1030870']

# Lista para almacenar los pronósticos para cada material
forecast_results = []

# Función para suavizar series temporales usando media móvil
def moving_average(series, window_size):
    return series.rolling(window=window_size, min_periods=1).mean()

# Generar pronósticos para los materiales especificados
for material in materials_to_plot:
    # Filtrar los datos por material
    material_data = combined_data[combined_data['Material'] == material]

    # Verificar si hay suficientes datos para ajustar el modelo ARIMA (al menos 24 observaciones)
    if len(material_data) < 24:
        print(f"No hay suficientes datos para el material {material}. Se omite.")
        continue

    # Ajustar el modelo ARIMA a los datos históricos completos
    try:
        model_cleaned = ARIMA(material_data['Sales KG'], order=(1, 0, 1), seasonal_order=(1, 1, 1, 12))
        sarima_result_cleaned = model_cleaned.fit()
    except Exception as e:
        print(f"Error ajustando el modelo ARIMA para el material {material}: {e}")
        continue

    # Generar pronósticos para los próximos 6 meses
    forecast = sarima_result_cleaned.forecast(steps=6)

    # Crear un DataFrame con los resultados
    forecast_df = pd.DataFrame({
        'Year.Month': pd.date_range(start=material_data['Year.Month'].max() + pd.DateOffset(months=1), periods=6, freq='M'),
        'Material': material,
        'Sales KG': forecast
    })

    # Agregar los resultados a la lista
    forecast_results.append(forecast_df)

# Concatenar todos los resultados en un solo DataFrame
forecast_results_df = pd.concat(forecast_results, ignore_index=True)

# Mostrar los pronósticos
print(forecast_results_df)

In [None]:
# Graficar los datos históricos y los pronósticos para cada material
for material in materials_to_plot:
    material_data = combined_data[combined_data['Material'] == material]
    material_forecast = forecast_results_df[forecast_results_df['Material'] == material]

    # Seleccionar los últimos 6 meses de datos históricos
    recent_material_data = material_data.tail(6)

    # Combinar datos históricos recientes y predicciones para graficar
    combined_plot_data = pd.concat([recent_material_data, material_forecast], ignore_index=True)

    # Suavizar los datos históricos y las predicciones
    combined_plot_data['Sales KG Smoothed'] = moving_average(combined_plot_data['Sales KG'], window_size=3)
    material_forecast['Sales KG Smoothed'] = moving_average(material_forecast['Sales KG'], window_size=3)

    plt.figure(figsize=(10, 6))
    plt.plot(combined_plot_data['Year.Month'], combined_plot_data['Sales KG Smoothed'], label='Datos Históricos Suavizados')
    plt.plot(material_forecast['Year.Month'], material_forecast['Sales KG Smoothed'], label='Pronóstico Suavizado', linestyle='--', color='red')
    plt.title(f'Pronóstico de Ventas para el Material {material}')
    plt.xlabel('Fecha')
    plt.ylabel('Sales KG')
    plt.legend()
    plt.grid(True)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()


# Tareas de Pensamiento Crítico:

In [None]:
combined_data.info()

In [None]:
# Boxplot para identificar valores atípicos en Sales KG
plt.figure(figsize=(12, 6))
sns.boxplot(x='Year.Month', y='Sales KG', data=combined_data)
plt.title('Boxplot de Sales KG por Mes')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

# Boxplot para identificar valores atípicos en Stockout Rate
plt.figure(figsize=(12, 6))
sns.boxplot(x='Year.Month', y='Stockout Rate', data=combined_data)
plt.title('Boxplot de Stockout Rate por Mes')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

## Análisis de Valores Atípicos y Anomalías en Ventas y Faltantes de Stock

### Identificación de Valores Atípicos y Anomalías
- **Valores Atípicos en `Sales KG`**: Se observa que hay varios valores atípicos a lo largo de los meses, especialmente entre 2018 y 2020. Estos valores podrían estar asociados a eventos específicos como promociones, cambios en la demanda o eventos externos no reflejados en los datos.
- **Anomalías en `Stockout Rate`**: La tasa de faltantes de stock muestra variabilidad significativa con algunos picos notables. Esto podría reflejar problemas en la cadena de suministro, cambios en la política de inventario o eventos inesperados que afectaron la disponibilidad de los productos.

### Contexto Histórico y Externo
1. **Pandemia de COVID-19 (2020-2021)**:
   - La pandemia tuvo un impacto significativo en muchas industrias, incluida la cadena de suministro. Podría haber causado interrupciones que resultaron en aumentos en la tasa de faltantes de stock y fluctuaciones en las ventas.
   - Los boxplots muestran una variabilidad considerable en `Sales KG` y `Stockout Rate` durante 2020, lo que podría estar relacionado con las restricciones de movilidad, cambios en el comportamiento del consumidor y problemas logísticos.

2. **Gobierno y Política**:
   - **Gobierno de Santos (2014-2018)**: Durante este período se implementó el acuerdo de paz en 2016. Esto pudo haber generado un ambiente más estable para los negocios y apoyo a emprendimientos, lo que podría haber contribuido a un incremento en las ventas y una mejor planificación del inventario.

### Factores Externos No Capturados
- **Campañas de Marketing**: Eventos de marketing y promociones pueden haber influido en los picos de ventas, especialmente en los períodos donde se observan valores atípicos significativos.
- **Acciones de Competidores**: Cambios en el mercado debido a la entrada o salida de competidores pueden haber impactado las ventas y la disponibilidad de productos.
- **Tendencias Económicas**: Fluctuaciones en la economía, inflación, y cambios en el poder adquisitivo de los consumidores también podrían haber influido en los patrones observados.

### Estrategias para Incorporar Factores Externos en el Modelo
- **Indicadores Macroeconómicos**: Incorporar variables como el PIB, tasa de inflación y tasa de desempleo podría mejorar la precisión del modelo.
- **Datos de Marketing**: Agregar información sobre campañas de marketing y promociones.
- **Análisis de Sentimiento**: Usar datos de redes sociales y análisis de sentimiento para capturar la percepción del mercado y posibles cambios en la demanda.
- **Modelos de IA Avanzados**:
  - **Redes Neuronales Convolucionales (CNN)**: Para capturar patrones en datos temporales de alta dimensionalidad.
  - **Redes Neuronales Recurrentes (RNN) con LSTM o GRU**: Para capturar dependencias a largo plazo en series temporales.
  - **Modelos de Ensamble**: Combinación de múltiples modelos (por ejemplo, ARIMA con LSTM) para mejorar la robustez y precisión de las predicciones.
  - **Transformers**: Utilización de modelos de transformers, como BERT o GPT, adaptados para series temporales.

### Meses con Picos Más Altos y Más Bajos
- **Picos más altos en Ventas (`Sales KG`)**: Marzo y Noviembre del 2020.
- **Picos más bajos en `Stockout Rate`**: Diciembre 2018, Agosto 2020.

### Insights para Empresas
- **Períodos de Alta Demanda**: Identificar y prepararse para los picos de demanda observados en ciertos meses.
- **Optimización del Surtido de Productos**: Ajustar el inventario y la disponibilidad de productos en función de las predicciones de demanda y la variabilidad observada en las ventas.
- **Gestión de Faltantes de Stock**: Mejorar la cadena de suministro y las políticas de inventario para reducir los faltantes de stock, especialmente en períodos críticos.

Estos insights pueden ser valiosos para mejorar la eficiencia operativa y la planificación estratégica, aprovechando tanto los datos históricos como las predicciones de demanda.


# Agradecimientos y Recomendaciones

Quiero expresar mi agradecimiento a Datup por la oportunidad de participar en este desafío técnico. Este ejercicio no solo ha sido una excelente oportunidad para demostrar mis habilidades en el análisis de datos, sino también para aplicar técnicas avanzadas de modelado y análisis en un contexto real.

**Recomendaciones:**

1. **Segmentación de Datos y Reducción de Dimensionalidad:**
   Recomendamos realizar una segmentación de los datos mediante técnicas de clustering, como K-means o DBSCAN, para identificar grupos homogéneos de productos o clientes. Esto permitirá un análisis más específico y la aplicación de modelos predictivos más precisos. Además, la reducción de dimensionalidad utilizando técnicas como PCA (Análisis de Componentes Principales) puede ayudar a simplificar el modelo y mejorar su rendimiento.

2. **Incorporación de Factores Externos:**
   Es crucial considerar la inclusión de variables externas que puedan afectar la demanda, como campañas de marketing, eventos económicos, estacionalidad y datos meteorológicos. La incorporación de estas variables en los modelos de predicción puede proporcionar una visión más completa y precisa del comportamiento del mercado.

3. **Análisis de Causalidad:**
   Investigar las posibles causas de las anomalías y los valores atípicos en las ventas y los faltantes de stock. Esto podría implicar la revisión de procesos internos, la calidad de los datos y otros factores externos que puedan estar influyendo en las métricas clave.

4. **Evaluación Continua de Modelos:**
   Implementar un proceso continuo de evaluación y ajuste de los modelos predictivos. La demanda y los patrones de ventas pueden cambiar con el tiempo, por lo que es esencial revisar y actualizar regularmente los modelos para mantener su precisión y relevancia.

5. **Automatización de Procesos:**
   Desarrollar sistemas automatizados para la recolección, procesamiento y análisis de datos. Esto no solo mejorará la eficiencia operativa sino que también garantizará que los datos utilizados para el análisis sean siempre actuales y precisos.

Estoy seguro de que estas recomendaciones pueden ayudar a mejorar significativamente la precisión de las predicciones y la eficacia operativa de Datup. Agradezco nuevamente la oportunidad y esperamos seguir colaborando en el futuro.
