# Árvores de Decisão

Conjunto de regras "se-então" utilizadas para regressão e classificação.

Este modelo tem como objetivo classificar ou efetuar a regressão baseando-se na construção de regras “se-então”. O ponto chave deste modelo é a aplicação de um cálculo de impureza para cada possível divisão dos dados. Para isso, foi utilizado a técnica de impureza de Gini que consiste em um índice que mensura se uma divisão nos dados de acordo com um valor de atributo foi eficiente em separar as classes. O valor de Gini será cada vez menor quando a divisão dos dados resultar em um menor número de classes obtidas na separação, tendendo a zero quando a divisão resultar em dados de uma única classe. Com isto, é possível perceber que as Árvores de Decisão são capazes de separar os dados de treino perfeitamente, inclusive se tratando de dados não-linearmente separáveis.

# Como obter a árvore a partir dos dados?
Utiliza-se um índice de impureza do resultado de uma divisão
Vários índices podem ser utilizados (gini, entropia...)

In [18]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.datasets import load_boston, load_iris
from sklearn.model_selection import train_test_split

#Decision Tree para classificação

In [19]:
dt = DecisionTreeClassifier()

In [20]:
X,y = load_iris(return_X_y=True)


In [21]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [22]:
#treinar a árvore
dt.fit(X_train,y_train)

DecisionTreeClassifier()

In [23]:
dt.score(X_test,y_test)

0.9210526315789473

#Árvore de decisão para regressão

In [30]:
dt = DecisionTreeRegressor()

In [None]:
X,y = load_boston(return_X_y=True)

In [35]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [36]:
dt.fit(X_train,y_train)

DecisionTreeRegressor()

In [37]:
dt.score(X_test,y_test)

0.7934377537774729

#Generalizar os dados para evitar overfiting ("técnica de póda")

Diminuir os dados

In [46]:
dt = DecisionTreeClassifier(max_depth=3)

In [47]:
X,y = load_iris(return_X_y=True)

In [48]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [49]:
dt.fit(X_train,y_train)

DecisionTreeClassifier(max_depth=3)

In [50]:
dt.score(X_test,y_test)

0.9736842105263158

#Selecionando Features para classificação
Detecção de cancer de mama

In [51]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer

array([0.        , 0.        , 0.00563858, 0.        , 0.        ,
       0.        , 0.00877112, 0.        , 0.        , 0.        ,
       0.007316  , 0.        , 0.        , 0.00204521, 0.00100384,
       0.        , 0.03184137, 0.        , 0.        , 0.00644409,
       0.69559352, 0.09419986, 0.        , 0.0110859 , 0.01440488,
       0.        , 0.00766716, 0.10709688, 0.00689159, 0.        ])

In [52]:
dt = DecisionTreeClassifier()
X,y = load_breast_cancer(return_X_y=True)

In [53]:
dt.fit(X,y)

DecisionTreeClassifier()

In [54]:
X.shape

(569, 30)

In [55]:
dt.feature_importances_

array([0.        , 0.01691573, 0.        , 0.        , 0.00701689,
       0.00583135, 0.        , 0.00877112, 0.        , 0.        ,
       0.        , 0.        , 0.007316  , 0.00893681, 0.00100384,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.69559352, 0.07728413, 0.        , 0.0110859 , 0.01302656,
       0.        , 0.0082799 , 0.13893825, 0.        , 0.        ])