In [95]:
import pandas as pd
import joblib
from xgboost import XGBRegressor
import matplotlib.pyplot as plt
from sklearn.feature_selection import RFE
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error

In [97]:
# Carrega os conjuntos de dados
train_df = pd.read_csv('dados/train_dados_processados.csv')
test_df = pd.read_csv('dados/test_dados_processados.csv')

In [99]:
# Separa as features (X) e o target (y) no conjunto de treino
X_train = train_df.drop(columns=['SalePrice'])  # Substitua 'SalePrice' pela sua coluna de target
y_train = train_df['SalePrice']

In [101]:
# Criar e treinar o modelo XGBoost
model = XGBRegressor(objective='reg:squarederror', random_state=42)

# Ajustar o modelo para obter a importância das features
model.fit(X_train, y_train)

# Obter a importância das features
importance = model.feature_importances_
feature_importances = pd.DataFrame({'Feature': X_train.columns, 'Importance': importance})
feature_importances = feature_importances.sort_values(by='Importance', ascending=False)

# Selecionar as features com base em um limite de importância
threshold = 0.01  # Defina um limite para a importância
selected_features = feature_importances[feature_importances['Importance'] >= threshold]['Feature']

print("Features selecionadas:", selected_features.tolist())

Features selecionadas: ['TotalArea', 'OverallQual', 'CentralAir', 'KitchenAbvGr', 'KitchenQual', 'TotalBathrooms', 'OverallFinishQuality', 'BsmtQual', 'GarageCars', '2ndFlrSF', 'ExterQual', 'TotRmsAbvGrd', 'FireplaceQu', 'GarageFinish']


In [103]:
# Criar novos conjuntos de dados com as features selecionadas
X_train_selected = X_train[selected_features]

# Definir os hiperparâmetros a serem testados
param_grid = {
    'n_estimators': [100, 200, 300],  # Aumentar o número de estimadores
    'max_depth': [3, 5, 7, 9, 11],    # Expandir a profundidade máxima
    'learning_rate': [0.01, 0.05, 0.1, 0.2],  # Adicionar um valor intermediário
    'subsample': [0.6, 0.8, 1.0],      # Taxa de amostragem
    'colsample_bytree': [0.6, 0.8, 1.0],  # Taxa de amostragem de colunas
    'gamma': [0, 0.1, 0.2, 0.3],       # Penalização para a complexidade
    'reg_alpha': [0, 0.1, 1],          # Regularização L1
    'reg_lambda': [0, 0.1, 1]          # Regularização L2
}

# Realizar Grid Search
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, scoring='neg_mean_squared_error', cv=5, verbose=1, n_jobs=-1)
grid_search.fit(X_train_selected, y_train)

# Melhor modelo encontrado
best_model = grid_search.best_estimator_

Fitting 5 folds for each of 19440 candidates, totalling 97200 fits



KeyboardInterrupt



In [87]:
# Fazendo previsões no conjunto de teste
X_test = test_df.drop(columns=['Id'])  # Exclua a coluna 'Id'

# Certifique-se de que as colunas no conjunto de teste sejam as mesmas do conjunto de treinamento
X_test = X_test[selected_features]  # Use apenas as features selecionadas

# Prever os preços
predictions = best_model.predict(X_test)

In [89]:
# Cria um DataFrame para salvar as previsões
submission_df = pd.DataFrame({
    'Id': test_df['Id'],
    'SalePrice': predictions
})

# Salva as previsões em um arquivo CSV
submission_df.to_csv('dados/sample_submission.csv', index=False)

In [93]:
pd.set_option('display.max_rows', None)
print("Importância das Features:")
print(importance_df)

Importância das Features:
                 Feature  Importance
81             TotalArea    0.173819
16           OverallQual    0.159068
51          KitchenAbvGr    0.061132
29              BsmtQual    0.051816
52           KitchenQual    0.047176
82        TotalBathrooms    0.039978
59          GarageFinish    0.039753
7            LandContour    0.029789
90       BasementQuality    0.027596
57            GarageType    0.027080
84  OverallFinishQuality    0.023513
43              2ndFlrSF    0.022547
26             ExterQual    0.020847
60            GarageCars    0.019542
40            CentralAir    0.017506
50          BedroomAbvGr    0.016647
48              FullBath    0.015978
56           FireplaceQu    0.014585
33            BsmtFinSF1    0.013746
18             YearBuilt    0.013706
19          YearRemodAdd    0.009399
79              HouseAge    0.009010
1               MSZoning    0.007616
55            Fireplaces    0.007255
11          Neighborhood    0.007234
14          