<h1>
Introdução
</h1>
<p>

As <b>árvores de decisão</b> deixam você com uma decisão difícil. Uma árvore profunda com muitas folhas se ajustará demais porque cada previsão vem de dados históricos de apenas algumas casas em sua folha. Mas uma árvore rasa com poucas folhas terá um desempenho ruim porque não consegue capturar tantas distinções nos dados brutos.

Mesmo as técnicas de modelagem mais sofisticadas de hoje enfrentam essa tensão entre <b>underfitting e overfitting.</b> Porém, muitos modelos têm ideias inteligentes que podem levar a um melhor desempenho. Veremos a <b>random forest</b> como exemplo.

A <b>random forest</b> usa muitas árvores e faz uma previsão calculando a <b>média das previsões de cada árvore componente.</b> Geralmente, tem uma precisão preditiva muito melhor do que uma única árvore de decisão e funciona bem com os parâmetros padrão. Se você continuar modelando, poderá aprender mais modelos com desempenho ainda melhor, mas muitos deles são sensíveis à obtenção dos parâmetros corretos.
</p>

<h2>Exemplo </h2>
<p>
Você já viu o código para carregar os dados algumas vezes. No final do carregamento de dados, temos as seguintes variáveis:

<ul>

<li> train_X</li>
<li>val_X </li>
<li>train_y </li>
<li>val_y </li>
</ul>

</p>


In [None]:
#Carregar base de dados
import pandas as pd

data_house = pd.read_csv('melb_data.csv')


In [None]:
# Filtrando as linhas com valores ausentes
data_house = data_house.dropna(axis=0)

In [None]:
# Escolendo alvo e recursos

#Alvo
y = data_house.Price # Alvo é a coluna preço

# Recursos
house_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea','YearBuilt', 'Lattitude', 'Longtitude']

# O declarando objeto X para receber a lista de recursos
X = data_house[house_features]

In [None]:
# Criando o modelo de machine learning
from sklearn.model_selection import train_test_split # função para treino e teste

#dividir os dados em dados de treinamento e validação, para recursos e destino
# A divisão é baseada em um gerador de números aleatórios. Fornecendo um valor numérico para
# o argumento random_state garante que obteremos a mesma divisão toda vez que
# execute este script.

# Dividir os dados em dados de treinamento e validação, para recursos e destino.
# A divisão é baseada em um gerador de números aleatórios. Fornecendo um valor númerico para o argumentos random_state
# garante que obteremos a mesma divisão toda vez que execute este script

# Dividindo em trainamento e validação
train_X, valid_X, train_y, valid_y = train_test_split(X, y, random_state=0) # os objetos vão receber a função que tem como parâmetro
# O alvo que é y e os recuros que é x e ainda o random_state para padronizar as saidas dos números aleatórios que são gerados, com a finalidade
# de que cada execução esses valores não mude.

<p>
Construímos um modelo de <b>Random Forest</b> de forma semelhante a como construímos uma árvore de decisão no scikit-learn - desta vez usando a classe <b>RandomForestRegressor</b> em vez de DecisionTreeRegressor.
</p>

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Modelo
forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)

house_pred = forest_model.predict(valid_X)

print(mean_absolute_error(valid_y, house_pred))

191669.7536453626


<h2>Conclusão </h2>
<p>
Provavelmente há espaço para melhorias adicionais, mas esta é uma grande melhoria em relação ao erro da melhor árvore de decisão de 250.000. Existem parâmetros que permitem alterar o desempenho do Random Forest da mesma forma que alteramos a profundidade máxima da árvore de decisão única. Mas uma das melhores características dos modelos Random Forest é que eles geralmente funcionam razoavelmente, mesmo sem esse ajuste.
</p>