<a href="https://colab.research.google.com/github/jcjimenezb123/PFM_PronosticoDemanda/blob/master/LGBM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

LGBM
===
El modelo LGBM (Light Gradient Boosting Machine) es un algoritmo de aprendizaje automático basado en el método de gradient boosting. Fue desarrollado para ser altamente eficiente, rápido y escalable en problemas de regresión, clasificación y ranking.

LightGBM es una implementación optimizada de gradient boosting que utiliza técnicas específicas para mejorar el rendimiento y reducir el tiempo de entrenamiento, especialmente en conjuntos de datos grandes con muchas características.

Principales Características de LightGBM:
---
División por hojas (Leaf-wise Splitting):
A diferencia de otras implementaciones de gradient boosting como XGBoost, que usan una estrategia de división por nivel (level-wise), LightGBM utiliza una estrategia de división basada en hojas. Esto significa que selecciona la hoja con la mayor ganancia de información para dividir en cada paso.

* Ventaja: Mejora la precisión del modelo.
* Desventaja: Puede causar sobreajuste en conjuntos de datos pequeños.

Optimización para datos grandes:
---
LightGBM es capaz de manejar conjuntos de datos con millones de instancias y cientos de características de manera eficiente.
Utiliza técnicas como histogramas para acelerar el cálculo de divisiones en los árboles.

Soporte para características categóricas:
---
LightGBM puede manejar características categóricas directamente, evitando la necesidad de codificación (como One-Hot Encoding).

Reducción de memoria:
---
Requiere menos memoria en comparación con otros métodos de gradient boosting.
Soporte para paralelización:

Permite paralelizar el proceso de construcción de árboles, lo que lo hace más rápido en sistemas con múltiples núcleos.
* Ventajas:
 * Velocidad: Entrena más rápido que otros algoritmos como XGBoost.
 * Eficiencia: Maneja grandes cantidades de datos y características con menor uso de memoria.
 * Precisión: Produce resultados competitivos o superiores en muchas competiciones de aprendizaje automático.
 * Flexibilidad: Admite personalización mediante hiperparámetros.
* Limitaciones:
 * Propenso al sobreajuste: Especialmente en conjuntos de datos pequeños.
 * Requiere preprocesamiento: Aunque soporta características categóricas, puede ser necesario un procesamiento adicional en algunos casos.

Usos Comunes:
---
* Regresión y Clasificación:
Problemas tradicionales de aprendizaje supervisado.
* Ranking:
Muy utilizado en motores de búsqueda y sistemas de recomendación.
* Competencias de Machine Learning:
Regularmente destaca en competiciones de Kaggle.

Para predecir ventas futuras utilizando LightGBM (LGBM), primero transformaremos las columnas categóricas (Producto, Fecha) y organizaremos los datos para ajustarse a un modelo supervisado. Esto implica crear características adicionales como tendencias temporales y factores de producto.

In [None]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Fecha': pd.date_range(start='2023-01-01', periods=8, freq='W'),
    'Venta': [100, 200, 150, 220, 180, 250, 210, 300]
}
df = pd.DataFrame(data)

# Procesar los datos
# 1. Convertir fechas a componentes temporales
df['Año'] = df['Fecha'].dt.year
df['Mes'] = df['Fecha'].dt.month
df['Semana'] = df['Fecha'].dt.isocalendar().week

# 2. Codificar los productos
df['Producto_Cod'] = df['Producto'].astype('category').cat.codes

# 3. Crear el conjunto de características (X) y el objetivo (y)
X = df[['Producto_Cod', 'Año', 'Mes', 'Semana']]
y = df['Venta']

# 4. Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo LightGBM
lgb_model = lgb.LGBMRegressor(random_state=42)
lgb_model.fit(X_train, y_train)

# Predecir ventas futuras
y_pred = lgb_model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
print(f"MSE (Error Cuadrático Medio): {mse:.2f}")

# Comparar predicciones vs valores reales
resultados = pd.DataFrame({'Real': y_test, 'Predicción': y_pred})
print(resultados)

# Graficar resultados
plt.figure(figsize=(8, 6))
plt.plot(range(len(y_test)), y_test, marker='o', label='Real')
plt.plot(range(len(y_pred)), y_pred, marker='x', label='Predicción')
plt.title('Predicción de Ventas vs Ventas Reales', fontsize=14)
plt.xlabel('Índice de muestra', fontsize=12)
plt.ylabel('Ventas', fontsize=12)
plt.legend()
plt.grid()
plt.show()


Explicación del Código:
---
* Transformación de Datos:
Se descompone la fecha en componentes útiles (Año, Mes, Semana) para capturar la estacionalidad y las tendencias temporales.
Se codifica la columna categórica Producto en valores numéricos usando astype('category').cat.codes.
* Modelo LGBMRegressor:
Se utiliza LGBMRegressor porque el objetivo es predecir valores continuos (ventas).
El modelo es entrenado con los datos de entrenamiento (X_train, y_train).
* Evaluación del Modelo:
Se calcula el Error Cuadrático Medio (MSE), que mide la precisión del modelo.
Los valores reales y las predicciones se comparan en un DataFrame y en un gráfico.
* Salida Esperada:
 * MSE:
Un valor bajo indica un buen ajuste del modelo.
 * Tabla de Comparación:

   | Real | Predicción|
   |---|---|
  |200 |  198.75|
  | 250 |  245.10|

* Gráfico:
Muestra cómo las predicciones del modelo se alinean con las ventas reales.

Siguientes Pasos:
---
* Optimización del Modelo:
Ajustar hiperparámetros como n_estimators, learning_rate, o max_depth para mejorar el rendimiento.
* Predicción a Futuro:
Crear datos futuros (por ejemplo, semanas o meses siguientes) y usarlos como entrada al modelo entrenado.
* Características Avanzadas:
Incluir efectos de promociones, datos externos como clima, o eventos especiales.

Ajustar los hiperparámetros de un modelo de LightGBM puede mejorar significativamente su rendimiento. Esto se realiza explorando combinaciones de parámetros clave como la profundidad de los árboles, el número de iteraciones y la tasa de aprendizaje.

A continuación, mostramos cómo realizar este ajuste utilizando GridSearchCV, una técnica de búsqueda en cuadrícula de scikit-learn:

In [None]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Fecha': pd.date_range(start='2023-01-01', periods=8, freq='W'),
    'Venta': [100, 200, 150, 220, 180, 250, 210, 300]
}
df = pd.DataFrame(data)

# Procesar los datos
df['Año'] = df['Fecha'].dt.year
df['Mes'] = df['Fecha'].dt.month
df['Semana'] = df['Fecha'].dt.isocalendar().week
df['Producto_Cod'] = df['Producto'].astype('category').cat.codes

X = df[['Producto_Cod', 'Año', 'Mes', 'Semana']]
y = df['Venta']

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir el modelo base
lgb_model = lgb.LGBMRegressor(random_state=42)

# Definir los hiperparámetros a buscar
param_grid = {
    'num_leaves': [15, 31, 50],          # Máximo número de hojas en un árbol
    'learning_rate': [0.01, 0.05, 0.1], # Tasa de aprendizaje
    'n_estimators': [50, 100, 150],     # Número de iteraciones (árboles)
    'max_depth': [3, 5, -1]             # Profundidad máxima (-1 significa sin límite)
}

# Configurar la búsqueda en cuadrícula
grid_search = GridSearchCV(
    estimator=lgb_model,
    param_grid=param_grid,
    scoring='neg_mean_squared_error',  # Métrica para minimizar
    cv=3,                              # Validación cruzada con 3 particiones
    verbose=1,
    n_jobs=-1                          # Paralelizar el proceso
)

# Ajustar el modelo
grid_search.fit(X_train, y_train)

# Mostrar los mejores parámetros y el error
best_params = grid_search.best_params_
best_score = -grid_search.best_score_  # Invertir el signo para obtener el MSE positivo
print("Mejores hiperparámetros:", best_params)
print(f"Mejor MSE: {best_score:.2f}")

# Entrenar el modelo con los mejores parámetros
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

# Evaluar el modelo final
mse_final = mean_squared_error(y_test, y_pred)
print(f"MSE en el conjunto de prueba: {mse_final:.2f}")

# Graficar las predicciones
plt.figure(figsize=(8, 6))
plt.plot(range(len(y_test)), y_test, marker='o', label='Real')
plt.plot(range(len(y_pred)), y_pred, marker='x', label='Predicción')
plt.title('Predicción de Ventas vs Ventas Reales', fontsize=14)
plt.xlabel('Índice de muestra', fontsize=12)
plt.ylabel('Ventas', fontsize=12)
plt.legend()
plt.grid()
plt.show()


Explicación del Ajuste de Hiperparámetros:

* Hiperparámetros Ajustados:
 * num_leaves: Número máximo de hojas por árbol. Un valor mayor puede mejorar la capacidad del modelo pero aumenta el riesgo de sobreajuste.
 * learning_rate: Tasa de aprendizaje. Valores más bajos suelen requerir más iteraciones pero son más precisos.
 * n_estimators: Número de árboles en el modelo.
 * max_depth: Controla la profundidad máxima del árbol. Un valor de -1 significa sin restricciones.
* GridSearchCV:
Explora todas las combinaciones de los hiperparámetros definidos en param_grid utilizando validación cruzada.
Selecciona la combinación con el menor error cuadrático medio negativo (neg_mean_squared_error).
* Modelo Final:
Después de encontrar los mejores parámetros, se reentrena el modelo en el conjunto de entrenamiento.
