In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


In [None]:

df_cars=pd.read_csv(r"C:\Users\Usuario\Documents\Proyecto ML\src\USA_cars_datasets.csv")

In [3]:
X = df_cars.drop(columns=['price'])  # Características
y = df_cars['price']  # Columna objetivo

# Convertir variables categóricas a numéricas (si existen)
X = pd.get_dummies(X, drop_first=True)

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definir modelos candidatos
models = {
    'Linear Regression': LinearRegression(),
    'Decision Tree': DecisionTreeRegressor(random_state=42),
    'Random Forest': RandomForestRegressor(random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(random_state=42)
}

# Evaluar modelos
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Calcular métricas
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)

    results[name] = {'MAE': mae, 'RMSE': rmse, 'R2': r2}

# Mostrar los resultados
results_df = pd.DataFrame(results).T
print("\nResultados de los modelos:")
print(results_df)

# Identificar el mejor modelo
best_model_name = results_df['R2'].idxmax()
best_model = models[best_model_name]
print(f"\nEl mejor modelo es: {best_model_name} con R2 = {results_df.loc[best_model_name, 'R2']:.4f}")

'''
# Guardar el modelo final
best_model.fit(X, y)
import joblib
joblib.dump(best_model, 'best_model.pkl')
print("\nEl mejor modelo ha sido guardado como 'best_model.pkl'.")
'''


Resultados de los modelos:
                           MAE         RMSE        R2
Linear Regression  4514.593208  6774.642117  0.710424
Decision Tree      4610.134000  7637.756159  0.631938
Random Forest      4077.633080  6495.454805  0.733799
Gradient Boosting  5206.801937  7339.885309  0.660087

El mejor modelo es: Random Forest con R2 = 0.7338


'\n# Guardar el modelo final\nbest_model.fit(X, y)\nimport joblib\njoblib.dump(best_model, \'best_model.pkl\')\nprint("\nEl mejor modelo ha sido guardado como \'best_model.pkl\'.")\n'

--------------------------------------------------------------------------------------------------------------------------------------

# Carga de librerías necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Leer el archivo CSV
data_path = '/mnt/data/USA_cars_datasets.csv'
data = pd.read_csv(data_path)

# Inspeccionar las primeras filas del dataset
print("Primeras filas del dataset:")
print(data.head())

# Verificar columnas y valores faltantes
print("\nColumnas del dataset:")
print(data.info())

# Identificar la columna objetivo y las características relevantes
# Suponemos que 'price' es el objetivo y eliminamos columnas irrelevantes
# Nota: Esto debe ajustarse dependiendo de las columnas reales del archivo.
if 'price' not in data.columns:
    raise ValueError("No se encuentra la columna 'price' en el dataset.")

X = data.drop(columns=['price'])  # Características
y = data['price']  # Columna objetivo

# Convertir variables categóricas a numéricas (si existen)
X = pd.get_dummies(X, drop_first=True)

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustar hiperparámetros para el mejor modelo
# Basado en los resultados iniciales, ajustaremos Random Forest y Gradient Boosting
if 'Gradient Boosting' not in models:
    models['Gradient Boosting'] = GradientBoostingRegressor(random_state=42)

param_grid = {
    'Gradient Boosting': {
        'n_estimators': [100, 200, 300],
        'learning_rate': [0.05, 0.1, 0.2],
        'max_depth': [3, 5, 7]
    }
}

best_model_name = 'Gradient Boosting'
grid_search = GridSearchCV(models[best_model_name], param_grid[best_model_name], scoring='r2', cv=5, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Mejor modelo y parámetros
optimized_model = grid_search.best_estimator_
print(f"\nMejor modelo después de la optimización: {optimized_model}")

# Evaluar el modelo optimizado
y_pred_optimized = optimized_model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred_optimized)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_optimized))
r2 = r2_score(y_test, y_pred_optimized)

print("\nResultados del modelo optimizado:")
print(f"MAE: {mae:.2f}, RMSE: {rmse:.2f}, R2: {r2:.4f}")

# Guardar el modelo optimizado
import joblib
joblib.dump(optimized_model, 'optimized_best_model.pkl')
print("\nEl modelo optimizado ha sido guardado como 'optimized_best_model.pkl'.")
