# Machine Learning - Arvore de Decisão

#### Importação das bibliotecas necessárias

In [1]:
# export_graphviz é usado para exportar a árvore de decisão para o formato DOT,
# o que permite visualizá-la graficamente.
from sklearn.tree import export_graphviz
# load_iris é uma função para carregar o conjunto de dados Iris, um dataset clássico
# usado para exemplos de classificação.
from sklearn.datasets import load_iris
# tree é o módulo da scikit-learn que contém implementações de algoritmos de árvores de decisão.
from sklearn import tree
# numpy é uma biblioteca para computação numérica em Python, amplamente utilizada
# para trabalhar com arrays e matrizes.
import numpy as np
# pandas é uma biblioteca para manipulação e análise de dados,
# especialmente útil para trabalhar com DataFrames.
import pandas as pd

#### Carregando a base de dados iris

In [2]:
iris = load_iris()

#### Verificando a descrição do dataset

In [3]:
# Imprime a descrição completa do conjunto de dados Iris, incluindo informações sobre os atributos,
# classes e características gerais do dataset.
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

#### Verificando features names, target e dados

In [4]:
# Exibe os nomes das features (atributos) do dataset Iris, como 'sepal length (cm)'.
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [5]:
# Exibe os nomes das classes alvo (espécies de íris) no dataset, como 'setosa'.
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [6]:
# Exibe os dados das features (atributos) do dataset Iris, que são as medidas das flores.
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

#### Dividindo os dados em treino e teste

In [7]:
# train_test_split é uma função para dividir arrays ou matrizes em subconjuntos aleatórios de treino e teste.
from sklearn.model_selection import train_test_split

In [8]:
# Divide o conjunto de dados Iris em subconjuntos de treinamento e teste.
# iris.data são as features (atributos das flores).
# iris.target são os rótulos (espécies das flores).
# test_size=0.3 significa que 30% dos dados serão usados para teste e 70% para treinamento.
# X_train e y_train contêm as features e rótulos para o conjunto de treinamento.
# X_test e y_test contêm as features e rótulos para o conjunto de teste.
X_train, X_test, y_train, y_test = train_test_split(iris.data,iris.target,test_size=0.3)

#### Verificando a forma dos dados

In [9]:
# Retorna as dimensões (linhas, colunas) dos conjuntos de treinamento e teste,
# o que é útil para verificar se a divisão dos dados foi feita corretamente.
X_train.shape,X_test.shape

((105, 4), (45, 4))

In [10]:
# Retorna as dimensões (linhas, colunas) dos conjuntos de rótulos de treinamento e teste,
# o que é útil para verificar se a divisão dos dados foi feita corretamente.
y_train.shape,y_test.shape

((105,), (45,))

#### Instânciando o objeto classificador

In [11]:
# clf agora é uma instância da classe DecisionTreeClassifier, pronta para ser treinada.
clf = tree.DecisionTreeClassifier()

#### Parâmetros do  classificador DecisionTreeClassifier
* criterion: medida de qualidade da divisão
* splitter: estratégia utilizada para dividir o nó de decisão
* max_depth: profundidade máxima da árvore
* min_samples_split: número de amostras mínimas para considerar um nó para divisão
* min_samples_leaf: número de amostras mínimas no nível folha


#### Treinando o modelo de arvore de decisão

In [12]:
# Treina o classificador de árvore de decisão usando os dados de treinamento (features e rótulos).
clf = clf.fit(X_train,y_train)

#### Verificando as features mais importantes para o modelo de arvore de decisão treinado

In [13]:
# Exibe a importância de cada feature (atributo) para o modelo de árvore de decisão,
# indicando quais features foram mais relevantes na tomada de decisões.
clf.feature_importances_

array([0.02777683, 0.01911524, 0.55543842, 0.39766951])

In [14]:
# Itera sobre os nomes das features e suas importâncias, exibindo cada par.
for feature,importancia in zip(iris.feature_names,clf.feature_importances_):
    print("{}:{}".format(feature, importancia))

sepal length (cm):0.027776829601310764
sepal width (cm):0.01911523757509558
petal length (cm):0.555438419360514
petal width (cm):0.3976695134630798


#### Executando o algoritmo de arvore de decisão com o conjunto de teste

In [15]:
# Realiza previsões nos dados de teste (X_test) usando o classificador treinado (clf).
# O resultado são as classes previstas para cada amostra no conjunto de teste.
resultado = clf.predict(X_test)
# Exibe o array de resultados, que contém as previsões do modelo.
resultado

array([1, 1, 2, 1, 2, 0, 2, 1, 2, 0, 0, 0, 1, 1, 0, 1, 2, 0, 2, 2, 0, 0,
       0, 0, 2, 1, 2, 0, 1, 0, 1, 0, 1, 0, 1, 2, 2, 0, 0, 2, 1, 2, 2, 1,
       1])

#### Testando com uma nova amostra

In [16]:
# Cria um novo array numpy com uma única amostra de dados para teste.
# Esta amostra representa uma nova flor de íris com quatro características (sepal length, sepal width, petal length, petal width).
test = np.array([[5.1,3.5,1.4,0.2]])
# Usa o classificador treinado (clf) para prever a espécie da íris com base na nova amostra de teste.
# O método predict retornará a classe (0, 1 ou 2) que o modelo atribui a esta flor.
clf.predict(test)

array([0])

#### Verificando a probabilidade

In [17]:
# Retorna a probabilidade de cada classe para a amostra de teste.
# O resultado é um array onde cada elemento representa a probabilidade da amostra
# pertencer a cada uma das classes disponíveis (setosa, versicolor, virginica).
clf.predict_proba(test)

array([[1., 0., 0.]])

#### Métricas de Validação

In [18]:
# Importa o módulo metrics da biblioteca sklearn, que contém funções para avaliação de modelos.
from sklearn import metrics
# Imprime um relatório de classificação detalhado, que inclui precisão, recall, f1-score
# e suporte para cada classe.
# y_test são os rótulos verdadeiros do conjunto de teste.
# resultado são os rótulos previstos pelo modelo para o conjunto de teste.
# target_names são os nomes das classes (espécies de íris) para melhor legibilidade do relatório.
print(metrics.classification_report(y_test,resultado,target_names=iris.target_names))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        16
  versicolor       0.93      0.78      0.85        18
   virginica       0.71      0.91      0.80        11

    accuracy                           0.89        45
   macro avg       0.88      0.90      0.88        45
weighted avg       0.90      0.89      0.89        45



#### Biblioteca para utilização de widgets interativos

In [19]:
# Instala a biblioteca ipywidgets, que é usada para criar elementos de interface de usuário interativos em notebooks Jupyter.
%pip install ipywidgets




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [21]:
# Instala a biblioteca pydot, que é uma interface Python para o Graphviz.
# É frequentemente usada para criar representações gráficas de árvores de decisão.
# Juntamente com export_graphviz e graphviz (instalado no próximo passo),
# permite visualizar a estrutura da árvore de decisão.
!pip3 install pydot

Collecting pydot
  Downloading pydot-4.0.1-py3-none-any.whl.metadata (11 kB)
Downloading pydot-4.0.1-py3-none-any.whl (37 kB)
Installing collected packages: pydot
Successfully installed pydot-4.0.1



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
# Instala a biblioteca graphviz, que é uma ferramenta de código aberto para visualização de gráficos.
# É essencial para renderizar as árvores de decisão exportadas pelo export_graphviz em um formato visual.
!pip3 install graphviz

Collecting graphviz
  Downloading graphviz-0.21-py3-none-any.whl.metadata (12 kB)
Downloading graphviz-0.21-py3-none-any.whl (47 kB)
Installing collected packages: graphviz
Successfully installed graphviz-0.21



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip
