## Previsão do preço de venda de imóveis utilizando o modelo Random Forest

Este código utiliza o modelo de regressão Random Forest do Scikit-Learn para prever o preço de venda de imóveis no estado de Iowa - EUA. 

O objetivo do modelo é prever o preço de venda de casas (variável alvo, "SalePrice") com base em um conjunto de características (ou "features") da casa, como área do lote, número de quartos, banheiros, etc.

O processo de criação do modelo começa importando as bibliotecas necessárias para executar as etapas seguintes. Em seguida, carrega-se um arquivo de dados (train.csv) em um objeto pandas DataFrame chamado "home_data" e seleciona-se a variável alvo (SalePrice) para ser usada como o resultado esperado.

Em seguida, escolhem-se as características que serão utilizadas no modelo e são armazenadas na lista "features". As colunas correspondentes às características selecionadas são extraídas do DataFrame e armazenadas no objeto X.

Os dados são então divididos em dados de treinamento e de validação usando a função train_test_split, que separa aleatoriamente os dados em duas partes, uma para treinamento e outra para validação.

Em seguida, é definido o modelo de regressão usando RandomForestRegressor da biblioteca scikit-learn, que é ajustado aos dados de treinamento usando o método fit().

O desempenho do modelo é avaliado usando o MAE (mean absolute error) em relação aos dados de validação. O MAE é uma métrica de avaliação comum para modelos de regressão, que mede a média das diferenças absolutas entre as previsões do modelo e os valores reais.

In [4]:
# importa as bibliotecas necessárias
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

# Carrega o arquivo com os dados e seleciona a variável alvo (SalePrice)
iowa_file_path = 'train.csv'
home_data = pd.read_csv(iowa_file_path)
y = home_data.SalePrice 

# Seleciona as features do modelo
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF',
            'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd' , 'MSSubClass',
            'PoolArea','YrSold','ScreenPorch','OverallCond','OverallQual'
           ]

# Seleciona as colunas correponde às features do modelo
X = home_data[features]
X.head()

# Separa os dados de validação e treino do modelo
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Define o modelo de random forest
rf_model = RandomForestRegressor(random_state=1, n_estimators=100)
rf_model.fit(train_X, train_y)
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)

#Valor do MAE (mean absolute error) do modelo
print("Valor do MAE para o modelo Random Forest: {:,.0f}".format(rf_val_mae)) 

Valor do MAE para o modelo Random Forest: 18,580
