# Árvore de Decisão

As Árvores de Decisão dividem os dados em subconjuntos baseados nos valores das características, criando uma estrutura em forma de árvore de decisões. Cada nó da árvore representa uma característica (atributo), cada ramo representa um valor possível para essa característica e cada folha representa um resultado (decisão) que pode ser tomado após a análise de todas as características. 

As árvores de decisão são uma das técnicas mais populares para a classificação de dados. Elas são fáceis de interpretar e de explicar, e podem ser visualizadas. Além disso, elas não requerem normalização dos dados e podem lidar com dados categóricos e numéricos.

- **Critério de Divisão:**

    - Entropia: Mede a impureza dos nós.
    - Índice Gini: Mede a probabilidade de classificação incorreta de um elemento escolhido aleatoriamente.

- **Critério de Parada:**
    
    - Profundidade Máxima: Profundidade máxima da árvore.
    - Número Mínimo de Amostras: Número mínimo de amostras necessárias para dividir um nó.
    - Número Mínimo de Amostras por Folha: Número mínimo de amostras necessárias em uma folha.
    - Número Máximo de Folhas: Número máximo de folhas.
    - Número Máximo de Características: Número máximo de características a serem consideradas para dividir um nó.

- **Pré-Processamento:**

    - Normalização dos Dados: Escalonar os dados para que todas as características tenham a mesma importância.
    - Tratamento de Dados Missing: Substituir os valores ausentes por um valor específico.
    - Codificação de Variáveis Categóricas: Transformar variáveis categóricas em numéricas.
    - Divisão dos Dados: Dividir os dados em treino e teste.

- **Vantagens:**

    - Fácil de interpretar e explicar.
    - Pode lidar com dados categóricos e numéricos.
    - Não requer normalização dos dados.
    - Pode ser visualizada.
    - Não requer muitos hiperparâmetros.


- **Desvantagens:**

    - Tendência ao overfitting.
    - Sensível a ruídos.
    - Pode ser enviesada se houver classes desbalanceadas.
    - Pode ser computacionalmente caro.
    - Pode ser instável, pequenas variações nos dados podem resultar em grandes variações na árvore.




Neste notebook, vamos implementar um modelo de Árvore de Decisão para classificar flores do tipo Iris em três classes diferentes. O conjunto de dados que vamos utilizar é o Iris Dataset, que contém 150 amostras de flores Iris, cada uma com quatro características (comprimento e largura da sépala e da pétala). As três classes de flores são Setosa, Versicolor e Virginica.


In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Carregando o dataset
iris = load_iris()

# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3)

# Usando o critério de Entropia
modelo_entropia = DecisionTreeClassifier(criterion='entropy')
modelo_entropia.fit(X_train, y_train)

# Usando o Índice Gini
modelo_gini = DecisionTreeClassifier(criterion='gini')
modelo_gini.fit(X_train, y_train)

# Fazendo previsões
y_pred_entropia = modelo_entropia.predict(X_test)
y_pred_gini = modelo_gini.predict(X_test)

# Avaliando o modelo
acuracia_entropia = accuracy_score(y_test, y_pred_entropia)
acuracia_gini = accuracy_score(y_test, y_pred_gini)

print(f'Acurácia Entropia: {acuracia_entropia}')
print(f'Acurácia Gini: {acuracia_gini}')

Acurácia Entropia: 0.9555555555555556
Acurácia Gini: 0.9555555555555556
