In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from google.colab import files

# Subir archivo Excel
uploaded = files.upload()

# Cargar datos desde el archivo Excel
filename = list(uploaded.keys())[0]
df = pd.read_excel(filename)

# Mostrar las primeras filas del DataFrame
print("Datos cargados:")
print(df.head())

# Verificar datos nulos
df = df.dropna()

# Definir variables independientes (X) y dependiente (y)
X = df[['precio_producto', 'inversion_publicidad', 'competencia_mercado', 'calidad']]
y = df['ventas_estimadas']

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Predicciones
y_pred = modelo.predict(X_test)

# Evaluación del modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("\nEvaluación del modelo:")
print(f"MAE: {mae}")
print(f"MSE: {mse}")
print(f"RMSE: {rmse}")
print(f"R2 Score: {r2}")

# Coeficientes del modelo
print("\nCoeficientes del modelo:")
for feature, coef in zip(X.columns, modelo.coef_):
    print(f"{feature}: {coef}")

# Visualización de resultados
plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel("Ventas Reales")
plt.ylabel("Ventas Predichas")
plt.title("Comparación entre Ventas Reales y Predichas")
plt.show()

# Histograma de errores
errores = y_test - y_pred
plt.figure(figsize=(10, 6))
sns.histplot(errores, bins=20, kde=True)
plt.xlabel("Error")
plt.ylabel("Frecuencia")
plt.title("Distribución de Errores")
plt.show()

# Gráficos de relación entre variables independientes y ventas
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
vars_indep = ['precio_producto', 'inversion_publicidad', 'competencia_mercado', 'calidad']
for i, ax in enumerate(axes.flatten()):
    ax.scatter(X_test[vars_indep[i]], y_test, color="blue", label="Real")
    ax.scatter(X_test[vars_indep[i]], y_pred, color="red", label="Predicho")
    ax.set_xlabel(vars_indep[i])
    ax.set_ylabel("Ventas Estimadas")
    ax.legend()
    ax.set_title(f"Relación entre {vars_indep[i]} y Ventas")
plt.tight_layout()
plt.show()

# Gráfico de barras para comparar ventas reales y predichas
df_comparacion = pd.DataFrame({
    "Ventas Reales": y_test.values,
    "Ventas Predichas": y_pred
})
df_comparacion.plot(kind='bar', figsize=(12,6))
plt.xlabel("Índice")
plt.ylabel("Ventas")
plt.title("Comparación de Ventas Reales y Predichas")
plt.show()

# Función para predecir ventas de un nuevo producto
def predecir_ventas():
    print("\n📊 Ingrese los datos del nuevo producto:")
    precio = float(input("Precio: "))
    publicidad = float(input("Publicidad: "))
    competencia = float(input("Competencia (1-10): "))
    calidad = float(input("Calidad (1-10): "))
    
    # Crear un array con los nuevos datos
    nuevo_producto = np.array([[precio, publicidad, competencia, calidad]])
    
    # Predecir ventas
    prediccion = modelo.predict(nuevo_producto)
    print(f"\n✅ Predicción de ventas: {int(prediccion[0])} unidades")

# Llamar a la función para hacer predicciones
predecir_ventas()
