In [1]:
!pip install -r requirements.txt

Collecting xgboost==1.7.6 (from -r requirements.txt (line 1))
  Downloading xgboost-1.7.6-py3-none-manylinux2014_x86_64.whl.metadata (1.9 kB)
Collecting scikit-learn==1.2.2 (from -r requirements.txt (line 3))
  Downloading scikit_learn-1.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting joblib==1.3.2 (from -r requirements.txt (line 4))
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Collecting requests==2.31.0 (from -r requirements.txt (line 5))
  Downloading requests-2.31.0-py3-none-any.whl.metadata (4.6 kB)
Downloading xgboost-1.7.6-py3-none-manylinux2014_x86_64.whl (200.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.3/200.3 MB[0m [31m46.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading scikit_learn-1.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (9.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.6/9.6 MB[0m [31m116.5 MB/s[0m eta [36m0:00:00[

In [39]:
!python src/train.py

Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Mejores hiperparámetros encontrados: {'colsample_bytree': 0.7, 'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Modelo entrenado y guardado exitosamente.
Error Absoluto Medio (MAE): 4.215644754316562
Raíz del Error Cuadrático Medio (RMSE): 5.380471563529822
Coeficiente de Determinación (R²): 0.46803856407515254
MAE promedio con validación cruzada: 4.152095791744229


In [30]:
import pandas as pd
import numpy as np

np.random.seed(42)

# Productos base obligatorios
base_productos = [
    "Abrigo", "Botas de agua", "Bufanda", "Calcetines", "Camiseta", "Chandal", "Chaqueta",
    "Frutas", "Gafas de sol", "Gorra", "Guantes", "Impermeable", "Leche", "Pan", "Pantalon",
    "Pijama", "Sandalias", "Shorts", "Sombrilla", "Sudadera", "Traje de Agua", "Zapatos deportivos"
]

# Asignar meses a estaciones
estaciones_meses = {
    "Primavera": [9, 10, 11],
    "Verano": [12, 1, 2],
    "Otoño": [3, 4, 5],
    "Invierno": [6, 7, 8],
}

# Generar fechas aleatorias
fechas = list(pd.date_range(start="2020-01-01", end="2025-05-01", freq='D'))
np.random.shuffle(fechas)

# Función para generar una fila de datos
def generar_fila(fecha):
    producto = np.random.choice(base_productos)
    mes = fecha.month
    dia_semana = fecha.weekday()
    es_fin_semana = int(dia_semana >= 5)
    estacion = next(est for est, meses in estaciones_meses.items() if mes in meses)

    temp = {
        "Verano": np.random.normal(30, 5),
        "Primavera": np.random.normal(20, 4),
        "Otoño": np.random.normal(15, 4),
        "Invierno": np.random.normal(5, 5),
    }[estacion]

    lluvia = max(0, np.random.normal({
        "Verano": 0.5,
        "Primavera": 2,
        "Otoño": 3,
        "Invierno": 4
    }[estacion], 1.5))

    stock = max(1, int(np.random.normal(20, 10)))

    # Regla para calcular ventas basada en correlaciones
    ventas_base = stock * np.random.uniform(0.2, 0.8)
    if estacion == "Invierno" and producto in ["Abrigo", "Guantes", "Bufanda", "Impermeable", "Traje de Agua"]:
        ventas_base += np.random.uniform(5, 15)
    if estacion == "Verano" and producto in ["Gafas de sol", "Sombrilla", "Sandalias", "Shorts"]:
        ventas_base += np.random.uniform(5, 15)
    if producto in ["Sandalias", "Shorts"]:
        ventas_base -= lluvia * 0.5
    if producto in ["Botas de agua", "Impermeable"]:
        ventas_base += lluvia * 0.7
    if es_fin_semana and producto in ["Pan", "Leche", "Frutas"]:
        ventas_base += 5

    ventas = max(0, int(np.random.normal(ventas_base, 3)))

    return {
        "fecha": fecha.strftime("%Y-%m-%d"),
        "producto": producto,
        "stock": stock,
        "temp": round(temp, 2),
        "lluvia": round(lluvia, 2),
        "mes": mes,
        "dia_semana": dia_semana,
        "es_fin_semana": es_fin_semana,
        "estacion": estacion,
        "ventas": ventas
    }

# Generar dataset
datos = [generar_fila(f) for f in fechas[:15000]]
df = pd.DataFrame(datos)

# Guardar en CSV
df.to_csv("dataset_sintetico.csv", index=False)
print("CSV generado como 'dataset_sintetico.csv'")


CSV generado como 'dataset_sintetico.csv'
