# Árvores de Decisão

Uma árvore de decisão é um modelo de aprendizado supervisionado que pode ser usado tanto para problemas de classificação quanto de regressão.

Ela funciona dividindo recursivamente o espaço de dados em regiões homogêneas baseadas nos valores dos atributos. 

Cada nó interno representa um atributo, cada ramo representa uma regra de decisão e cada nó folha representa um resultado.

**Vantagens das Árvores de Decisão**
* Fácil de entender e interpretar: As árvores de decisão são visualizáveis e suas decisões podem ser facilmente explicadas.
* Requerem pouca preparação de dados: Em comparação com outros métodos, as árvores de decisão não exigem normalização de dados ou criação de variáveis fictícias.
* Capazes de lidar com dados numéricos e categóricos: Elas podem ser usadas com diferentes tipos de dados.
* Rápidas: O tempo de treinamento é relativamente rápido.

**Desvantagens das Árvores de Decisão**
* Overfitting: Árvores de decisão podem criar modelos muito complexos que não generalizam bem para novos dados.
* Instabilidade: Pequenas variações nos dados podem resultar em árvores completamente diferentes.
* Não são boas para extrapolação: As previsões são baseadas em regras de decisão discretas e não contínuas

Importar bibliotecas necessárias

In [1]:
# Importando bibliotecas necessárias
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

Carregar o dataset Iris

In [2]:
iris = load_iris()
X, y = iris.data, iris.target
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

Dividir os dados em conjuntos de treinamento e teste

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Criar o modelo de árvore de decisão

In [4]:
clf = DecisionTreeClassifier()

Treinar o modelo

In [5]:
clf.fit(X_train, y_train)

Fazer previsões

In [6]:
y_pred = clf.predict(X_test)

Avaliar o modelo

In [7]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 1.00


Visualizar Árvore de Decisão

In [21]:
from sklearn.tree import export_graphviz
import graphviz

dot_data = export_graphviz(clf, out_file=None, 
                           feature_names=iris.feature_names,  
                           class_names=iris.target_names,  
                           filled=True, rounded=True,  
                           special_characters=True)  
graph = graphviz.Source(dot_data)  
graph.render("iris_decision_tree")  
graph.view()


'iris_decision_tree.pdf'

❇️ Exemplo:

Importar bibliotecas

In [None]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.tree import DecisionTreeClassifier
import graphviz
from sklearn.tree import export_graphviz
#conda install -c conda-forge python-graphviz (para evitar warnings)

Carregar base de dados e definição dos previsores 
* features (variáveis independentes - X)
* classe (variável dependente - y)

In [10]:
credito = pd.read_csv('Credit.csv')
credito

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,<100,4<=X<7,3,'female div/dep/mar',none,...,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,<100,1<=X<4,4,'male div/sep',none,...,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,...,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,...,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


Armazenar os dados em suas devidas variáveis

In [11]:
previsores = credito.iloc[:, 0:20].values
classe = credito.iloc[:, 20].values

Converter para dados numéricos

In [12]:
labenc = LabelEncoder()

colunas = [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19]

for coluna in colunas:
    previsores[:, coluna] = labenc.fit_transform(previsores[:, coluna])

Separar dados para treino e teste

In [13]:
X_treino, X_teste, y_treino, y_teste = train_test_split(previsores,
                                                        classe,
                                                        test_size = 0.3,
                                                        random_state = 0)

Armazenar a função dentro da varilável

In [14]:
arvore = DecisionTreeClassifier()

Inserir o treino das features (dados em X) e das classes (resultadados em y) dentro da função

In [None]:
arvore.fit(X_treino, y_treino)

Exportar o gráfico em PDF

In [15]:
dot_data2 = export_graphviz(arvore, out_file=None, 
                           #feature_names=credito.feature_names,  
                           #class_names=credito.target_names,  
                           filled=True, rounded=True,  
                           special_characters=True)  
graph = graphviz.Source(dot_data2)  
graph.render("credito_decision_tree")  
graph.view()



'credito_decision_tree.pdf'

Verificar as previsões

In [16]:
previsoes = arvore.predict(X_teste)
previsoes

array(['bad', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'good', 'good', 'good', 'bad',
       'good', 'bad', 'bad', 'bad', 'good', 'bad', 'bad', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'bad', 'good', 'good', 'good', 'bad', 'bad', 'good',
       'good', 'bad', 'bad', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'bad', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'good', 'good', 'bad', 'good', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'g

Verificar a matriz de confução comparando o teste em y (o que é na vida real) com o que foi previsto no modelo

✅ o que era pra ser e foi | ❌ o que não era pra ser e foi<br>
❌ o que era pra ser e não foi |✅ o que não era pra ser e não foi

In [20]:
confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[ 44,  42],
       [ 55, 159]])

Verificar a taxa de acerto

In [18]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.6766666666666666

Verificar a taxa de erro

In [19]:
taxa_erro = (1 - taxa_acerto)
taxa_erro

0.32333333333333336

⚠️ É possível otimizar uma árvore de decisão com uma técnica de poda.
