![IFMG](https://storage.googleapis.com/ifmg/IFMG.png)

---
# Problemas Clássicos da Computação

## Árvores de Decisão

- Professor: Felipe Reis


## Referências

* Richert, W. and Coelho, L. P. (2013). Building Machine Learning Systems with Python. Ed. Packt Publishing Ltd., 1 edition.
* Marsland, S. (2014). Machine Learning: An Algorithm Perspective. CRC Press, 2 edition.


## Bibliotecas Necessárias

As bibliotecas necessárias à execução desse tutorial:
* Numpy: https://numpy.org/
* Matplotlib: https://matplotlib.org/
* Pandas: https://pandas.pydata.org/
* Sciki-Learn: https://scikit-learn.org/

---
## Instalação de Bibliotecas

In [1]:
# Execute essa linha para instalação no Google Colab
# Os pacotes numpy e matplotlib não precisam ser instalados
# Caso esteja usando seu computador pessoal, instale o pacote via linha de comando.

#!pip install -U pandas
#!pip install -U scikit-learn

---
## Importação de bibliotecas 

In [2]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import random

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import accuracy_score
from sklearn.datasets import load_wine, load_boston, load_iris

  from numpy.core.umath_tests import inner1d


---
## Funções Úteis

In [3]:
def split_data(x_data, y_data):
    return train_test_split(
            x_data,
            y_data, 
            test_size = 0.3, #percentual do conjunto de treino
            random_state = 10 #seed random, para resultados semelhantes
    )

In [4]:
def imprime_grafico_iris(data, target, targets_names, dt_column1=0, dt_column2=1):
    plt.figure()
    colors = ['red', 'green', 'blue']
    
    for color, i, target_name in zip(colors, [0, 1, 2], targets_names):
        x = data[target == i, dt_column1]
        y = data[target == i, dt_column2]
        
        plt.scatter(x, y, alpha=.8, color=color, label=target_name)

    #adiciona legenda e imprime gráfico
    plt.legend(loc='best', shadow=False, scatterpoints=1)
    plt.show()

---
## Árvores de Decisão

Árvores de Decisão são encontradas na biblioteca Scikit-Learn.

Para mais informações acerca dos preditores utilizados neste tutorial, acesse a documentação, no seguinte link:

- https://scikit-learn.org/stable/modules/tree.html
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier


### Florestas de Decisão

Para mais informações acerca do Random Forest, na implementação do Scikit-Learn, utilizar a seguinte referência:

* https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

## Dataset Play Tennis

O dataset Play Tennis pode ser utilizada para verificar o comportamento das árvores de decisão.

Como o dataset é pequeno, com colunas bem definidas e de simples interpretação, pode ser usado para melhor entendimento do algoritmo.

In [5]:
#carrega a base de dados play tennis
play_tennis = pd.read_csv("PlayTennis.csv")

In [6]:
play_tennis #exibe todos os registros
#play_tennis.head() #exibe somente os primeiros registros

Unnamed: 0,Previsao,Temperatura,Umidade,Vento,Jogar Tenis
0,Ensolarado,Quente,Alta,Fraco,Nao
1,Ensolarado,Quente,Alta,Forte,Nao
2,Nublado,Quente,Alta,Fraco,Sim
3,Chuva,Moderado,Alta,Fraco,Sim
4,Chuva,Frio,Normal,Fraco,Sim
5,Chuva,Frio,Normal,Forte,Nao
6,Nublado,Frio,Normal,Forte,Sim
7,Ensolarado,Moderado,Alta,Fraco,Nao
8,Ensolarado,Frio,Normal,Fraco,Sim
9,Chuva,Moderado,Normal,Fraco,Sim


In [7]:
#LabelEncoder converte dados categoricos em valores do intervalo 0-1
labelEncoder = LabelEncoder()

In [8]:
#realiza a transformação
play_tennis['Previsao']    = labelEncoder.fit_transform(play_tennis['Previsao'])
play_tennis['Temperatura'] = labelEncoder.fit_transform(play_tennis['Temperatura'])
play_tennis['Umidade']     = labelEncoder.fit_transform(play_tennis['Umidade'])
play_tennis['Vento']       = labelEncoder.fit_transform(play_tennis['Vento'])
play_tennis['Jogar Tenis'] = labelEncoder.fit_transform(play_tennis['Jogar Tenis'])

play_tennis

Unnamed: 0,Previsao,Temperatura,Umidade,Vento,Jogar Tenis
0,1,2,0,1,0
1,1,2,0,0,0
2,2,2,0,1,1
3,0,1,0,1,1
4,0,0,1,1,1
5,0,0,1,0,0
6,2,0,1,0,1
7,1,1,0,1,0
8,1,0,1,1,1
9,0,1,1,1,1


In [9]:
#define as features (características) e o objetivo
features = ["Previsao", "Temperatura", "Umidade", "Vento"]
target = "Jogar Tenis"

In [10]:
#divide conjuntos de treino e teste
split = split_data(play_tennis[features], play_tennis[target])
tennis_x_train, tennis_x_test, tennis_y_train, tennis_y_test = split

In [11]:
ttree = tree.DecisionTreeClassifier(max_depth=2) #None)
ttree.fit(tennis_x_train, tennis_y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [12]:
#realiza a predição do conjunto de teste e avalia desempenho
tennis_predict = ttree.predict(tennis_x_test) #predição do conjunto de testes
accuracy = accuracy_score(tennis_y_test, tennis_predict) #definição da acurácia
print("Accuracy: " + str(accuracy))

Accuracy: 0.8


In [14]:
plt.figure(figsize=(25, 15))
tree.plot_tree(tree, feature_names=features, class_names=["Não jogar", "Jogar"], rounded=True) 

AttributeError: module 'sklearn.tree' has no attribute 'plot_tree'

<Figure size 1800x1080 with 0 Axes>

---
## Wine e Íris Datasets

A primeira parte to tutorial utilizará a base de dados Iris Dataset (contém informações sobre a flor Íris), disponível nativamente pela biblioteca Scikit Learn.

A segunda parte do tutorial utilizará a base de dados Wine Dataset (contém informação sobre vinhos), disponível nativamente pela biblioteca Scikit Learn.

Informações sobre as bases de dados:
* Iris Dataset: https://sklearn.org/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris
* Wine Dataset: https://sklearn.org/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine

### Iris Dataset

In [None]:
#carrega a base de dados
iris = load_iris()

In [None]:
#convert os dados em um dataframe pandas
df = pd.DataFrame(data = np.c_[iris['data'], iris['target']], columns = iris['feature_names'] + ['target'])
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

#define colunas do dataframe
df.columns = ['s_length', 's_width', 'p_length', 'p_width', 'target', 'species']

#imprime algumas informações do início do dataframe
df.head()

In [None]:
X_train, X_test, y_train, y_test = split_data(iris.data, iris.target)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
iris_tree = tree.DecisionTreeClassifier()
iris_tree.fit(X_train, y_train)

In [None]:
predictions = iris_tree.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: " + str(accuracy))

In [None]:
plt.figure(figsize=(25, 15))
tree.plot_tree(iris_tree) 

### Wine Dataset

In [None]:
#carrega a base de dados
wine = load_wine()

In [None]:
X_train, X_test, y_train, y_test = split_data(wine.data, wine.target)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
wine_tree = tree.DecisionTreeClassifier()
wine_tree.fit(X_train, y_train)

In [None]:
predictions = wine_tree.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: " + str(accuracy))

In [None]:
wine_features = ['alcohol', 'malic_acid', 'ash', 'alcalinity', 
              'magnesium', 'fenois', 'flavanoides', 
              'nao_flavonoides', 'proanthocyanidins', 
              'intensidade_cor', 'hue', 'od280', 'proline',
              'target', 'wine']

plt.figure(figsize=(25, 15))
tree.plot_tree(wine_tree, feature_names = wine_features) 

### Random Forest

O random forest cria múltiplas árvores de decisão. A decisão final é dada por um comitê.

Para mais informações acerca do Random Forest, na implementação do Scikit-Learn, utilizar a seguinte referência:

* https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [None]:
forest = RandomForestClassifier()
forest.fit(X_train, y_train)

In [None]:
predictions = forest.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: " + str(accuracy))