In [None]:
# 1. Importamos las librerías necesarias
import pandas as pd
import numpy as np
import os
from datetime import datetime
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 2. Cargamos los datos
# Ruta del dataset
data_path = os.path.join(os.path.dirname(os.getcwd()), 'data_sintetica', 'dataset_compras.csv')
#Cargar el dataset
df = pd.read_csv(data_path)
# Mostrar primeras filas
df.head()

In [None]:
# 3. Vericamos las columnas
print("Columnas disponibles:")
print(df.columns)

In [None]:
# 4. Definimos las variables predictoras y la variable objetivo
# Variables predictoras
X = df[['edad', 'ingresos', 'visitas_web', 'tiempo_web', 'productos_vistos', 'promociones_usadas']]

# Variable objetivo
y = df['monto_venta']

In [None]:
# 5. Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# ID de clientes de test
id_test = df.loc[y_test.index, 'ID_Cliente'].reset_index(drop=True)

In [None]:
# 6. Entrenamos el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# 7. Realizamos predicciones
y_pred = modelo.predict(X_test)

In [None]:
# 8. Evaluamos el modelo
mse = mean_squared_error(y_test, y_pred)    
r2 = r2_score(y_test, y_pred)
print(f"Error Cuadrático Medio: {mse}")
print(f"R^2: {r2}")

print(f" - Error Cuadrático Medio (MSE): {mse:.2f}")
print(f" - Coeficiente de Determinación (R²): {r2:.4f}")

In [None]:
# 9. Visualizamos los resultados
plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_test, y=y_pred, alpha=0.3)
plt.plot([y.min(), y.max()], [y.min(), y.max()], color='red', linestyle='--')
plt.title("Monto real vs Monto predicho")   
plt.xlabel("Monto real")
plt.ylabel("Monto predicho")
plt.grid(True)
plt.tight_layout()
plt.show()

plt.figure(figsize=(8, 5))
sns.scatterplot(x=y_test, y=y_pred, alpha=0.3)
plt.title("Monto real vs Monto predicho")
plt.xlabel("Monto real")
plt.ylabel("Monto predicho")
plt.grid(True)
plt.show()


In [None]:
# 10. Guadamos los resultados del modelo
# Convertir resultados en DataFrame
df_resultados = pd.DataFrame({
    'ID_Cliente': id_test,
    'monto_real': y_test.reset_index(drop=True),
    'monto_predicho': y_pred.round(2),
    'error_absoluto': np.abs(y_test.reset_index(drop=True) - y_pred).round(2)
})

# Ruta de guardado
result_dir = os.path.join(os.path.dirname(os.getcwd()), 'resultados_modelos', 'regresion')
os.makedirs(result_dir, exist_ok=True)

# Nombre del archivo
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
file_name = f"resultados_regresion_lineal_{timestamp}.csv"
output_path = os.path.join(result_dir, file_name)

# Guardar en CSV
df_resultados.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f" Resultados guardados en:\n{output_path}")
