# Árvores de decisão: Scikit-learn

## O que vamos fazer?
- Formar um modelo de regressão linear por árvores de decisão 
- Detetar se ocorrem desvios ou sobreajustes no modelo 
- Otimizar hiper-parâmetros com validação cruzada 
- Avaliar no subconjunto de teste

Vamos resolver um problema de regressão linear multivariável semelhante aos exercícios anteriores, mas desta vez utilizando uma árvore de decisão para a regressão linear.

Um exemplo que pode utilizar como referência para este exercício: [Decision Tree Regression](https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)

In [None]:
# TODO: Importar todos os módulos necessários para esta célula

## Gerar um dataset sintético

Gerar um conjunto de dados sintéticos com um valor de erro algo grande e poucas características:

In [None]:
# TODO: Gerar um dataset sintéticos para regressão linear com um termo de erro notável.

m = 1000
n = 3

In [None]:
# TODO: Representar graficamente o dataset para assegurar que o termo de erro é suficientemente alto

plt.figure(1)

plt.title()
plt.xlabel()
plt.ylabel()

plt.scatter([...])

plt.show()

## Pré-processar os dados

- Reordenar os dados aleatoriamente. 
- Normalizar.
- Dividi-los em subconjuntos de treino e testes.

*Nota*: Mais uma vez, vamos utilizar a K-fold para a validação cruzada.

In [None]:
# TODO: Reordenar os dados aleatoriamente

In [None]:
# TODO: Normalizar os exemplos

In [None]:
# TODO: Dividir os dataset e subset de formação e testes

## Formar um modelo inicial

Vamos começar a explorar modelos de árvores de decisão para a regressão com um modelo inicial. 

Para isso, formar um modelo de [sklearn.tree.DecissionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)  sobre o subset de formação:

In [None]:
# TODO: Formar uma árvore de regressão no subconjunto de formação com profundidade máxima 2

Verificar agora a adequação do modelo, avaliando-o no subset de teste:

In [None]:
# TODO: Avaliar o modelo com MSE e R^2 no subset de teste.

y_test_pred = [...]

mse = [...]
r2_score = [...]
print('Erro quadrático médio: %.2f', mse) 
print('Coeficiente de determinação: %.2f', r2_score)

*Acha que há desvio ou sobreajuste neste modelo?* Para o fazer, comparar a sua exatidão com a calculada no subset de treino:

In [None]:
# TODO: Avaliar o modelo com MSE e R^2 agora no subconjunto de formação

y_train_pred = [...]

mse = [...]
r2_score = [...]
print('Erro quadrático médio: %.2f', mse) 
print('Coeficiente de determinação: %.2f', r2_score)

Como dissemos, as árvores de decisão tendem a sobreajustar, a ajustar demasiado os dados usados na sua formação e, por vezes, não poder prever bem os novos exemplos.

Vamos comprovar graficamente, formando outro modelo com uma profundidade máxima muito maior de 6:

In [None]:
# TODO: Formar outra árvore de regressão no subconjunto de formação com profundidade máxima 6

In [None]:
# TODO: Avaliar o modelo com MSE e R^2 no subconjunto de formação

y_train_pred = [...]

mse = [...]
r2_score = [...]
print('Erro quadrático médio: %.2f', mse) 
print('Coeficiente de determinação: %.2f', r2_score)

Comparar a precisão de formação deste modelo com o anterior (no subset de formação).

*É maior ou menor ao aumentar a profundidade máxima da árvore?*

Agora vamos representar graficamente ambos os modelos, para comprovar se sofrem de desvio ou de sobreajuste. 

Para o fazer, pode guiar-se pelo exemplo anterior: [Decision Tree Regression](https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)

In [None]:
# TODO: Representar graficamente as previsões de ambos os modelos

plt.figure(2)

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Representar num gráfico de pontos, o subset de formação
plt.scatter([...])
# Representar num gráfico de pontos, o subset de teste, com uma cor diferente
plt.scatter([...])

# Representar num gráfico de linhas as previsões de ambos os modelos, com cores diferentes e uma legenda
# para os distinguir
# Como eixo horizontal, usa um espaço linear de um grande número de elementos entre o valor máximo e mínimo de X.
x_axis = [...]

plt.plot([...])
plt.plot([...])

plt.show()

Como vimos, geralmente uma profundidade máxima demasiado pequena leva a um modelo com desvio, um modelo que não é capaz de se ajustar bem à curva, enquanto uma profundidade máxima demasiado alta leva a um modelo com sobreajuste, um modelo que se ajusta bem demais à curva, mas que não tem uma boa precisão em exemplos futuros.

Assim, em termos de árvores de regressão, temos um hiper-parâmetro, a profundidade máxima, que devemos otimizar através de validação cruzada. Também há outros hiper-parâmetros, tais como o critério para medir a qualidade de uma divisão, a estratégia para criar essa divisão, o número 
mínimo de exemplos necessários para dividir um nó, etc., etc.

Para simplificar, vamos começar a realizar a validação cruzada apenas para encontrar o valor ótimo da profundidade máxima:

In [None]:
# TODO: Formar um modelo diferente para cada valor de *max_depth* considerado sobre um fold diferente.

# Valores de max_depth a considerar 
max_depths = list(range(1:8))
print('Profundidades máx. a considerar:')
print(max_depths)



## Avaliar o modelo sobre o subset de teste

Finalmente, vamos avaliar o modelo sobre o subset de teste.

Para o fazer, calcular as suas métricas de MSE e R^2 score e representar graficamente as previsões do modelo vs. o subset de teste:

In [None]:
# TODO: Avaliar o modelo com MSE e R^2 no subconjunto de teste.

y_train_test = [...]

mse = [...]
r2_score = [...]
print('Erro quadrático médio: %.2f', mse) 
print('Coeficiente de determinação: %.2f', r2_score)

In [None]:
# TODO: Representar graficamente as previsões da melhor árvore do subset de teste

plt.figure(3)

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Representar num gráfico de pontos, o subset de teste
plt.scatter([...])

# Representar num gráfico de linhas as previsões do modelo
# Como eixo horizontal, usa um espaço linear de um grande número de elementos entre o valor máximo y min. de X_test
x_axis = [...]

plt.plot([...])

plt.show()