In [None]:
df = pd.read_parquet('files_parquet/df_baseFinal.parquet', engine='pyarrow')
df[['temporada', 'nombre_categoria_producto', 'peso_producto_g', 
            'largo_producto_cm', 'altura_producto_cm', 'ancho_producto_cm', 
            'ciudad_cliente', 'estado_cliente',"id_producto"]]


In [27]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Cargar la base de datos ya filtrada para el año 2018
df = pd.read_parquet('files_parquet/df_baseFinal.parquet', engine='pyarrow')

# Selección de características relevantes para la predicción
features = ['temporada', 'nombre_categoria_producto', 'peso_producto_g', 
            'largo_producto_cm', 'altura_producto_cm', 'ancho_producto_cm', 
            'ciudad_cliente', 'estado_cliente', "id_producto"]
target = 'precio'

# Preparar datos
X = df[features]
y = df[target]

# Preprocesamiento de datos
numerical_features = ['peso_producto_g', 'largo_producto_cm', 'altura_producto_cm', 'ancho_producto_cm']
categorical_features = ['temporada', 'nombre_categoria_producto', 'ciudad_cliente', 'estado_cliente', "id_producto"]

# Transformaciones
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

# Construcción del modelo con pipeline
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', XGBRegressor(random_state=42))
])

# División de los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir parámetros para la búsqueda de hiperparámetros con GridSearchCV
param_grid = {
    'regressor__n_estimators': [100, 200, 300],
    'regressor__learning_rate': [0.01, 0.05, 0.1],
    'regressor__max_depth': [3, 6, 9],
    'regressor__subsample': [0.7, 0.8, 0.9],
    'regressor__colsample_bytree': [0.7, 0.8, 0.9],
    'regressor__gamma': [0, 0.1, 0.2],
    'regressor__reg_alpha': [0, 0.01, 0.1]
}

# Búsqueda de hiperparámetros con validación cruzada
grid_search = GridSearchCV(model, param_grid, cv=5, n_jobs=-1, verbose=2, scoring='neg_mean_squared_error')

# Entrenamiento del modelo con GridSearchCV
grid_search.fit(X_train, y_train)

# Mejor modelo y sus parámetros
best_model = grid_search.best_estimator_
print(f"Best parameters found: {grid_search.best_params_}")

# Predicción con el mejor modelo
y_pred = best_model.predict(X_test)

# Calcular MSE (Mean Squared Error)
mse = mean_squared_error(y_test, y_pred)

# Calcular RMSE (Root Mean Squared Error)
rmse = np.sqrt(mse)
print(f"Root Mean Squared Error (RMSE): {rmse}")

mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae}")

# Calcular R² (Coeficiente de Determinación)
r2 = r2_score(y_test, y_pred)
print(f"R²: {r2}")

# Evaluación con validación cruzada
cross_val_rmse = np.sqrt(-cross_val_score(best_model, X, y, cv=5, scoring='neg_mean_squared_error').mean())
print(f"Cross-validated RMSE: {cross_val_rmse}")

# Ejemplo de predicción para un nuevo dato (modifica los valores según sea necesario)
new_data = pd.DataFrame({
    'temporada': ['Invierno'],
    'nombre_categoria_producto': ['cama_mesa_banho'],
    'id_producto': ['364e789259da982f5b7e43aaea7be61'],
    'peso_producto_g': [750],
    'largo_producto_cm': [16],
    'altura_producto_cm': [10],
    'ancho_producto_cm': [16],
    'ciudad_cliente': ['sao_paulo'],
    'estado_cliente': ['SP']
})
predicted_price = best_model.predict(new_data)
print(f"Predicted Seasonal Price: {predicted_price[0]}")



Fitting 5 folds for each of 2187 candidates, totalling 10935 fits
Best parameters found: {'regressor__colsample_bytree': 0.8, 'regressor__gamma': 0.1, 'regressor__learning_rate': 0.1, 'regressor__max_depth': 9, 'regressor__n_estimators': 300, 'regressor__reg_alpha': 0.01, 'regressor__subsample': 0.8}
Root Mean Squared Error (RMSE): 132.66767307696477
Mean Absolute Error: 54.75543147112138
R²: 0.5368597466258211
Cross-validated RMSE: 127.5621907889221
Predicted Seasonal Price: 61.67259979248047


In [None]:
123

###