In [8]:
import pandas as pd
import numpy as np

# Cargar los datos
productos = pd.read_csv('datasetfinal_definitivo_v1.csv')

# Análisis descriptivo básico
def analisis_descriptivo(productos):
    print("\nForma del dataset:")
    print(productos.shape)

    print("\nTipos de datos:")
    print(productos.dtypes)

    print("\nEstadísticas descriptivas:")
    print(productos.describe(include='all'))

    print("\nValores nulos por columna:")
    print(productos.isnull().sum())

    print("\nValores duplicados:")
    print(productos.duplicated().sum())

# Llamar a la función de análisis descriptivo
analisis_descriptivo(productos)


Forma del dataset:
(35244, 46)

Tipos de datos:
butter               float64
tomato               float64
onion                float64
pork                 float64
rice                 float64
milk                 float64
palm oil             float64
rapeseed oil         float64
peas                 float64
beef                 float64
bread                float64
maize                float64
root                 float64
cheese               float64
potato               float64
apple                float64
berrie               float64
banana               float64
animal fats          float64
chicken              float64
fish                 float64
egg                  float64
olive oil            float64
sunflower oil        float64
wine                 float64
crustaceans          float64
milk chocolate       float64
grape                float64
citrus               float64
cane                 float64
coffee               float64
lamb                 float64
nuts                 fl

In [13]:
# Función para transformar los valores
def convert_to_binary(dataframe):
    dataframe = dataframe.copy()
    # Convertir todos los valores a binarios: 0 si es "0.0", 1 en cualquier otro caso
    dataframe = dataframe.applymap(lambda x: 0 if x == 0.0 else 1)
    return dataframe
# Aplicar la función al dataset
datasetfinal_etiquetas = binarize_dataframe(productos)

# Guardar el dataset actualizado
datasetfinal_etiquetas.to_csv('datasetfinal_etiquetas.csv', index=False)


# Eliminar duplicados
datasetfinal_etiquetas= datasetfinal_etiquetas.drop_duplicates()

analisis_descriptivo(datasetfinal_etiquetas)


Forma del dataset:
(20989, 46)

Tipos de datos:
butter                 int64
tomato                 int64
onion                  int64
pork                   int64
rice                   int64
milk                   int64
palm oil               int64
rapeseed oil           int64
peas                   int64
beef                   int64
bread                  int64
maize                  int64
root                   int64
cheese                 int64
potato                 int64
apple                  int64
berrie                 int64
banana                 int64
animal fats            int64
chicken                int64
fish                   int64
egg                    int64
olive oil              int64
sunflower oil          int64
wine                   int64
crustaceans            int64
milk chocolate         int64
grape                  int64
citrus                 int64
cane                   int64
coffee                 int64
lamb                   int64
nuts                   

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from xgboost import XGBRegressor

# Cargar los datos
datasetfinal_etiquetas = pd.read_csv('datasetfinal_v7_reducido_energia.csv', low_memory=False)

# Definir variable objetivo y características
X = datasetfinal_etiquetas.drop(columns=['water_use_product'])  # Características
y = datasetfinal_etiquetas['water_use_product']  # Variable objetivo

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar modelos
models = {
    'LinearRegression': LinearRegression(),
    'Ridge': Ridge(alpha=1.0),
    'Lasso': Lasso(alpha=0.1),
    'RandomForest': RandomForestRegressor(random_state=42),
    'XGBoost': XGBRegressor(random_state=42)
}

# Entrenar y evaluar modelos
results = {}

for model_name, model in models.items():
    # Entrenar el modelo
    model.fit(X_train, y_train)

    # Predecir en el conjunto de prueba
    y_pred = model.predict(X_test)

    # Calcular métricas
    mae = mean_absolute_error(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)

    # Guardar resultados
    results[model_name] = {
        'MAE': mae,
        'MSE': mse,
        'RMSE': rmse,
        'R2': r2
    }

# Mostrar resultados
for model_name, metrics in results.items():
    print(f"Resultados para {model_name}:")
    for metric, value in metrics.items():
        print(f"  {metric}: {value}")
    print()

Resultados para LinearRegression:
  MAE: 619.9649446715005
  MSE: 824844.5695928879
  RMSE: 908.2095405757902
  R2: 0.016237738255897916

Resultados para Ridge:
  MAE: 619.9649446667192
  MSE: 824844.5695893945
  RMSE: 908.209540573867
  R2: 0.01623773826006425

Resultados para Lasso:
  MAE: 619.9649265713506
  MSE: 824844.5563565263
  RMSE: 908.2095332887264
  R2: 0.01623775404242711

Resultados para RandomForest:
  MAE: 636.4269648336137
  MSE: 925582.4853947037
  RMSE: 962.0719751633469
  R2: -0.10390872757037806

Resultados para XGBoost:
  MAE: 609.9397203795694
  MSE: 806660.1061732522
  RMSE: 898.1425867718623
  R2: 0.03792568956426756

