In [16]:
# bibliotecas
import pandas as pd
import time
# funções 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# modelos
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

In [17]:
# carregando dataset
car_data = pd.read_csv('datasets/car_data.csv')

In [18]:
# retirando colunas que não serão utilizadas
car_data = car_data.drop(['date_posted', 'days_listed', 'year_posted', 'car_age'] , axis=1)

In [19]:
# transformando a coluna condition em numérica colocando "pesos" para cada condição
condition_mapping = {
    "new": 5,
    "like new": 4,
    "excellent": 3,
    "good": 2,
    "fair": 1,
    "salvage": 0
}

# atribuindo os valores numéricos ao dataset
car_data['condition'] = car_data['condition'].map(condition_mapping)

In [20]:
# separando features e target
features = car_data.drop('price', axis=1)
target = car_data['price']

In [21]:
# aplicando One-Hot Encoding nas variáveis categóricas restantes
features_encoded = pd.get_dummies(features, columns=['model', 'fuel', 'transmission', 'type', 'paint_color', 'brand'])

In [22]:
# separando dados de treino e teste
features_train, features_test, target_train, target_test = train_test_split(features_encoded, target, test_size=0.2)

In [23]:
model = RandomForestRegressor(random_state=1506, n_estimators=10, max_depth=10)

In [24]:
start = time.time()
model.fit(features_train, target_train)
end = time.time()
tempo = end - start
tempo

8.836139440536499

In [28]:
print(model.score(features_train, target_train),
model.score(features_test, target_test))

0.8514870700700528 0.7704772073396587


In [26]:
predictions = model.predict(features_test)

In [30]:
rmse = mean_squared_error(target_test, predictions)** 0.5
rmse

4701.977961654055

In [None]:
# Inicializar variáveis para armazenar os melhores hiperparâmetros
best_error = float('inf')
best_est = 0
best_depth = 0

# Loop para encontrar os melhores hiperparâmetros
for est in range(10, 101, 10):
    for depth in range(1, 16):
        model = RandomForestRegressor(random_state=54321, n_estimators=est, max_depth=depth)
        model.fit(features_train, target_train)
        predictions_test = model.predict(features_test)
        error = mean_squared_error(target_test, predictions_test)**0.5
        print(f"Validação de REQM para n_estimators={est}, depth={depth} é {error}")
        if error < best_error:
            best_error = error
            best_est = est
            best_depth = depth

print(f"Melhor REQM de teste: {best_error} com n_estimators={best_est} e max_depth={best_depth}")

Validação de REQM para n_estimators=10, depth=1 é 8372.527596266022
Validação de REQM para n_estimators=10, depth=2 é 7268.29499800642
Validação de REQM para n_estimators=10, depth=3 é 6654.33791763357
Validação de REQM para n_estimators=10, depth=4 é 6092.047889008549
Validação de REQM para n_estimators=10, depth=5 é 5670.073759653454
Validação de REQM para n_estimators=10, depth=6 é 5367.713272884528
Validação de REQM para n_estimators=10, depth=7 é 5188.39130285222
Validação de REQM para n_estimators=10, depth=8 é 4868.460811112669
Validação de REQM para n_estimators=10, depth=9 é 4698.101843384844
Validação de REQM para n_estimators=10, depth=10 é 4619.633937610216
Validação de REQM para n_estimators=10, depth=11 é 4522.472290044924
Validação de REQM para n_estimators=10, depth=12 é 4474.71152235721
Validação de REQM para n_estimators=10, depth=13 é 4437.302212304074
Validação de REQM para n_estimators=10, depth=14 é 4455.192261791265
Validação de REQM para n_estimators=10, depth=1