<h3>Introdução</h3> As árvores de decisão deixam você com uma decisão difícil. Uma árvore profunda com muitas folhas superajustará porque cada previsão é proveniente de dados históricos de apenas as poucas casas em sua folha. Mas uma árvore rasa com poucas folhas terá um desempenho ruim porque falha em capturar tantas distinções nos dados brutos. Até as técnicas de modelagem mais sofisticadas da atualidade enfrentam essa tensão entre ajuste e super ajuste. Porém, muitos modelos têm idéias inteligentes que podem levar a um melhor desempenho. Veremos a floresta aleatória como um exemplo. A floresta aleatória usa muitas árvores e faz uma previsão calculando a média das previsões de cada árvore componente. Geralmente, ele tem uma precisão preditiva muito melhor do que uma única árvore de decisão e funciona bem com parâmetros padrão. Se você continuar modelando, poderá aprender mais modelos com desempenho ainda melhor, mas muitos deles são sensíveis a obter os parâmetros certos

In [3]:
import pandas as pd
    
# Load data
caminho = './aquiraz.xlsx'
dados = pd.read_excel(caminho) 
# Filter rows with missing values
dados = dados.dropna(axis=0)
# Choose target and features
y = dados.PREC_UNIT
variaveis=['AREA_PRIV','OFER_TRANS','Idade','DATA','UNI_PADRAO']
X = dados[variaveis]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Construímos um modelo de floresta aleatória de maneira semelhante à maneira como construímos uma árvore de decisão no scikit-learn - dessa vez usando a classe RandomForestRegressor em vez de DecisionTreeRegressor

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

106.94448706692266




<h3>Conclusion</h3>
Provavelmente, há espaço para melhorias adicionais, mas essa é uma grande melhoria em relação ao melhor erro de 116 na árvore de decisão. Existem parâmetros que permitem alterar o desempenho da Floresta Aleatória, assim como alteramos a profundidade máxima da árvore de decisão única. Mas uma das melhores características dos modelos Random Forest é que eles geralmente funcionam razoavelmente, mesmo sem esse ajuste. Você aprenderá em breve o modelo XGBoost, que oferece melhor desempenho quando ajustado com os parâmetros certos (mas que requer alguma habilidade para obter os parâmetros certos do modelo).