In [2]:
from sklearn.linear_model import Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
import numpy as np
import pandas as pd

In [7]:
X_train = pd.read_csv("../data/processed/xtrain.csv")
y_train = pd.read_csv("../data/processed/ytrain.csv")

X_test = pd.read_csv("../data/processed/xtest.csv")
y_test = pd.read_csv("../data/processed/ytest.csv")

In [8]:
lasso = Lasso()
decision_tree = DecisionTreeRegressor()

In [9]:
lasso_params = {
    'alpha': [0.01, 0.1, 1, 10, 100],  # Regularización de Lasso
    'max_iter': [1000, 5000, 10000]    # Iteraciones máximas para convergencia
}

tree_params = {
    'max_depth': [3, 5, 7, 10],        # Profundidad máxima del árbol
    'min_samples_split': [2, 5, 10],   # Mínimo número de muestras para dividir
    'min_samples_leaf': [1, 2, 5],     # Mínimo número de muestras en una hoja
    'max_features': [None, 'sqrt', 'log2']  # Número de características a considerar en cada división
}

In [10]:
lasso_search = GridSearchCV(estimator=lasso, param_grid=lasso_params, cv=5, scoring='neg_mean_squared_error')
tree_search = GridSearchCV(estimator=decision_tree, param_grid=tree_params, cv=5, scoring='neg_mean_squared_error')

In [11]:
lasso_search.fit(X_train, y_train)
tree_search.fit(X_train, y_train)

print("Mejores parámetros para Lasso:", lasso_search.best_params_)
print("Mejor MSE para Lasso:", -lasso_search.best_score_)

print("Mejores parámetros para DecisionTreeRegressor:", tree_search.best_params_)
print("Mejor MSE para DecisionTreeRegressor:", -tree_search.best_score_)

Mejores parámetros para Lasso: {'alpha': 0.01, 'max_iter': 1000}
Mejor MSE para Lasso: 0.1711861480156859
Mejores parámetros para DecisionTreeRegressor: {'max_depth': 7, 'max_features': 'sqrt', 'min_samples_leaf': 2, 'min_samples_split': 5}
Mejor MSE para DecisionTreeRegressor: 0.011731016329020221


In [12]:
lasso_best = lasso_search.best_estimator_
tree_best = tree_search.best_estimator_

lasso_pred = lasso_best.predict(X_test)
tree_pred = tree_best.predict(X_test)

lasso_mse = mean_squared_error(y_test, lasso_pred)
tree_mse = mean_squared_error(y_test, tree_pred)

print("MSE en conjunto de prueba para Lasso:", lasso_mse)
print("MSE en conjunto de prueba para DecisionTreeRegressor:", tree_mse)

MSE en conjunto de prueba para Lasso: 0.21456257612896354
MSE en conjunto de prueba para DecisionTreeRegressor: 0.014132079712821027
