# **Árvores de Decisão**

*Prof. Dr. Orlando Junior*

Árvores de decisão são uma ferramenta no suporte à tomada de decisão que usam modelos baseados em árvores que podem ser usadas para representar e tomar decisões de maneira visual e explícita.

Os modelos de árvores representam o conhecimento no formato de árvores de decisão, que podem ser representadas por meio de grafos acíclicos direcionados. Nesses grafos, os nós representam as decisões do modelo ou o resultado esperado, enquanto que as arestas representam as alternativas de decisão.

O aprendizado de árvores de decisão é usado na estatística e na mineração de dados para a modelagem de problemas preditivos. As árvores de decisão podem ser usadas em problemas de classificação ou regressão e os seus algoritmos de aprendizagem de máquina estão entre os mais populares em razão da simplicidade e interpretabilidade das árvores.

## Classificação de Flores (Iris)

![image](https://miro.medium.com/max/1000/1*Hh53mOF4Xy4eORjLilKOwA.png)

## Bibliotecas

In [None]:
# Vamos atualizar o sklearn no Colab
!pip install -U scikit-learn

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_text, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
import seaborn as sn
import matplotlib.pyplot as plt

## Dados

In [None]:
# Carregamento dos dados
iris = load_iris()

In [None]:
# Visualização de dados
print(iris.data)

In [None]:
# Formato dos dados (150 exemplos x 4 atributos de entrada)
print(iris.data.shape)

In [None]:
# Visualização dos atributos de saída
# Classes = {0, 1, 2}
print(iris.target)

## Separação Entrada/Saída

**Entrada**

In [None]:
X = pd.DataFrame(data=iris.data, columns=iris.feature_names)

In [None]:
X.head()

In [None]:
X.describe()

**Saída**

In [None]:
y = pd.DataFrame(data=iris.target, columns=["classe"])

In [None]:
y.head(51)

## Separação Treinamento/Teste

In [None]:
# houldout (70% treinamento / 30% teste)
# houldout (1/3 teste e 2/3 treinamento)
# 90% treinamento e 10% teste
# 60% treinamento e 40% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, shuffle=True, random_state=42)

In [None]:
print("Treinamento:", len(X_train))
print("Teste:", len(X_test))

## Treinamento / Aprendizagem

In [None]:
dt = DecisionTreeClassifier(criterion='entropy', random_state=42)

In [None]:
# Ajusta o modelo aos dados de treinamento
dt.fit(X_train, y_train)

## Predição

In [None]:
X_test.iloc[0:1, :]

In [None]:
y_pred = dt.predict(X_test)

In [None]:
print(y_pred)

In [None]:
print(y_pred.shape)

## Avaliação

In [None]:
cm = confusion_matrix(y_true=y_test, y_pred=y_pred, labels=[0, 1, 2])

In [None]:
cm

In [None]:
# 0 - 1
# Melhor = mais próximo de 1
print("Acurácia do modelo: %.5f" % accuracy_score(y_test, y_pred))

## Plotagem da Árvore

In [None]:
# class 0: setosa
# class 1: versicolor
# class 2: virginica

# feature_1: sepal length (cm)
# feature_2: sepal width (cm)
# feature_3: petal length (cm)
# feature_4: petal width (cm)
print(export_text(dt, feature_names=iris.feature_names, class_names=iris.target_names))

In [None]:
# Plotagem tradicional
plt.figure(figsize=(12, 10))
plot_tree(dt,
          feature_names=iris.feature_names,
          class_names=iris.target_names,
          fontsize=6,
          filled=True)
plt.show()

## Atributos Mais Relevantes do Modelo

In [None]:
# Importância dos atributos
df = pd.DataFrame(list(zip(dt.feature_importances_, X_train.columns)))
df.sort_values(by=0, ascending=False, inplace=True)

In [None]:
# Visualização gráfica das importâncias
y_pos = np.arange(len(X_train.columns))
plt.figure(figsize=(12,3))
plt.bar(y_pos, df.loc[:,0], color=['g', 'r', 'b', 'y'])
plt.xticks(y_pos, df.loc[:,1], rotation=45)
plt.yticks([n/100 for n in range(0, 101, 10)]) # Lista de 0.0 a 1.0
plt.show()