# Modelo de Regresión Lineal para predecir el precio del aguacate

La **Regresión Lineal** busca modelar la relación lineal entre las variables predictoras (`X`) y la variable objetivo (`y = AveragePrice`).  

En este notebook se realizarán los siguientes pasos:

1. Cargar el dataset limpio y estandarizado.
2. Separar la variable objetivo (`AveragePrice`) de las variables predictoras.
3. Dividir los datos en conjuntos de entrenamiento y prueba.
4. Entrenar un modelo de Regresión Lineal.
5. Evaluar el desempeño del modelo usando MAE, RMSE y R².
6. Exportar los coeficientes del modelo para analizar la importancia de las variables.


In [None]:

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

train_df = pd.read_csv("avocado_train_clean.csv")
test_df = pd.read_csv("avocado_test_clean.csv")

print(f"✅ Datos cargados correctamente:")
print(f"Entrenamiento: {train_df.shape}, Prueba: {test_df.shape}")


# 2 Separar variable objetivo y predictoras

y_train = train_df["AveragePrice"]
X_train = train_df.drop(columns=["AveragePrice"])

y_test = test_df["AveragePrice"]
X_test = test_df.drop(columns=["AveragePrice"])


# 3 Entrenar modelo de Regresión Lineal

lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

print("✅ Modelo de Regresión Lineal entrenado correctamente.")


# 4 Realizar predicciones y evaluar desempeño

y_pred = lr_model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("\n📊 Resultados del modelo de Regresión Lineal:")
print(f"MAE  (Error Absoluto Medio): {mae:.4f}")
print(f"RMSE (Raíz del Error Cuadrático Medio): {rmse:.4f}")
print(f"R²   (Coeficiente de Determinación): {r2:.4f}")


# 5 Importancia de las variables (coeficientes)

coef_df = pd.DataFrame({
    "Variable": X_train.columns,
    "Coeficiente": lr_model.coef_
}).sort_values(by="Coeficiente", key=abs, ascending=False)

print("\n🔍 Coeficientes más influyentes:")
print(coef_df.head(10))


# 6 Exportar resultados

coef_df.to_csv("linear_regression_coefficients.csv", index=False)
print("\n💾 Archivo exportado: linear_regression_coefficients.csv")


✅ Datos cargados correctamente:
Entrenamiento: (14599, 68), Prueba: (3650, 68)
✅ Modelo de Regresión Lineal entrenado correctamente.

📊 Resultados del modelo de Regresión Lineal:
MAE  (Error Absoluto Medio): 0.1884
RMSE (Raíz del Error Cuadrático Medio): 0.2471
R²   (Coeficiente de Determinación): 0.6088

🔍 Coeficientes más influyentes:
                Variable  Coeficiente
13          type_organic     0.192470
0           Total Volume    -0.107075
10                 month     0.085386
31        region_Houston    -0.047748
24  region_DallasFtWorth    -0.047546
4             Total Bags    -0.045922
41        region_NewYork     0.044880
39      region_Nashville    -0.043259
52        region_Roanoke    -0.041942
58   region_SouthCentral    -0.040611

💾 Archivo exportado: linear_regression_coefficients.csv
