
# Árvores de Decisão
Conjunto de regras "se-então" utilizadas para regressão e classificação


# Como obter a árvore a partir dos dados?
Utiliza-se um índice de impureza do resultado de uma divisão Vários índices podem ser utilizados (gini, entropia...)

# Implementando uma Árvore de Decisão (Decision Trees)

In [4]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Decision Trees para Classificação

In [7]:
dt = DecisionTreeClassifier() #Instanciando o modelo

In [8]:
x, y = load_iris(return_X_y=True) #Carregando a Base de Dados

In [9]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25) #Separando os Dados para teste e treino

In [10]:
dt.fit(x_train, y_train) #Treinando o Modelo

In [11]:
dt.score(x_test, y_test) #Avaliando o Modelo

0.9210526315789473

## Decision Trees para Regressão

In [66]:
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [67]:
dt_2 = DecisionTreeRegressor() #Instanciando o modelo de arvore de decisão para regressão

In [68]:
data_train, data_test, target_train, target_test = train_test_split(data, target, test_size=0.25) #Separando os Dados para teste e treino

In [69]:
dt_2.fit(data_train, target_train) #Treinando o Modelo

In [70]:
dt_2.score(data_test, target_test) #Avaliando o Modelo

0.7810971288819045

In [60]:
# Acaba acontecendo o OverFit, pois se há dados outliers teria uma divisão dos dados será prejudicada
# Quando a nossa arvore acaba dividindo perfeitamente os dados, há o overfit, pois o modelo não irá conseguir generalizar quando ele aprende 100% em uma base de dados
# Nesse caso podemos diminuir a altura da árvore para que esse problema não aconteça. De modo que os conceitos gerais sejam aprendidos e os demais não sejam 100% aprendidos

In [71]:
# Recriando a arvore limitando os nós
dt_3 = DecisionTreeRegressor(max_depth=5) #alterando a profundidade máxima
#cuidado para não diminuir muito e ter underFit

In [72]:
data_train2, data_test2, target_train2, target_test2 = train_test_split(data, target, test_size=0.25)

In [73]:
dt_3.fit(data_train2, target_train2)

In [74]:
dt_3.score(data_test2, target_test2)

0.8189378948644455

## Selecionando Features com Árvores de Decisão

In [75]:
from sklearn.datasets import load_breast_cancer

In [76]:
ad = DecisionTreeClassifier()

In [77]:
x_c, y_c = load_breast_cancer(return_X_y=True)

In [78]:
ad.fit(x_c, y_c)

In [79]:
x_c.shape

(569, 30)

In [80]:
ad.feature_importances_

array([0.        , 0.04892877, 0.00563858, 0.        , 0.00701689,
       0.        , 0.        , 0.00877112, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.00893681, 0.00100384,
       0.        , 0.03184137, 0.        , 0.007316  , 0.        ,
       0.69559352, 0.0460766 , 0.        , 0.0110859 , 0.00738798,
       0.00583135, 0.00747439, 0.10709688, 0.        , 0.        ])