<h1 style='font-size:40px'> Decision Trees</h1>
<div> 
    <ul style='font-size:20px'>
        <li> 
            As Árvores de Decisão são um dos algoritmos mais poderosos que existem. Suportam tanto tarefas de classificação, quanto de regressão.
        </li>
        <li> 
            Uma de suas vantagens é de que requerem pouco tratamento dos dados que as alimentam. O seu principal defeito é a tendência de se viciarem ao dataset de treino. Por isso, é bastante importante as regularizarmos.
        </li>
    </ul>
</div>

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

# Novamente, usaremos apenas as últimas duas colunas de 'X'.
X,y = load_iris(return_X_y=True)
X = X[:, 2:]

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(max_depth=2)

In [8]:
from sklearn.tree import export_graphviz

# O objeto 'export_graphviz' cria um arquivo dot da árvore. Ele pode ser posteriormente convertido a um 'png'.
export_graphviz(tree_clf, out_file='iris_tree.dot', feature_names=load_iris()['feature_names'][2:],
               class_names=load_iris()['target_names'], rounded=True, filled=True)

In [9]:
# Com o graphviz instalado, podemos usar o comando 'dot' para criarmos uma imagem png da árvore criada.
! dot -Tpng iris_tree.dot -o iris_tree.png

<h2 style='font-size:30px'> Making Predictions</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Vamos usar a árvore criada e aprender a interpretar os seus atributos.
        </li>
        <li> 
            Veja que os nós que não são "folhas" produzem apenas outros dois nós. Isso porque as Árvores de Decisão são montadas com o algoritmo CART, que possibilita apenas esse tipo de estrutura. No entanto, outros algoritmos como o ID3 podem substanciar um modelo desse tipo.
        </li>
    </ul>
</div>
<center> 
    <img src='iris_tree.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            <i>samples: </i>Número total de instâncias no nó.
        </li>
        <li> 
            <i>value: </i>Distribuição das categorias.
        </li>
        <li> 
            <i>class: </i>Categoria predominante.
        </li>
        <li> 
            <i>gini: </i>Índice de impureza do nó.
        </li>
    </ul>
</div>

<center> 
    <img src='gini1.png'>
</center>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Por exemplo, no caso do nó verde-claro, o Gini é igual a: $1-(0/54)^{2}-(49/54)^{2}-(5/54)^{2}\approx 0.168$
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Model Interpretation: White Box Versus Black Box</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Nós pudemos notar a facilidade de se entender as previsões feitas pela Árvore. Modelos como esse, são denominados como White Box Models, pois é fácil entender o motivo que fundamentou as suas previsões. Por outro lado, existem outros algoritmos, como as Redes Neurais e Random Forests, que fazem estimativas muito difíceis de serem entendidas. Esses, por sua vez, são conhecidos como Black Box Models.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Estimating Class Probabilities</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Assim como as previsões, calcular as possibilidades de previsão de cada classe para uma certa instância é bastante simples. Digamos que nós temos uma flor cuja pétala tem um comprimento de 5 cm e largura de 1.5 cm. Ao percorrermos a árvore, acabaríamos na folha verde-claro. 
        </li>
        <li> 
            Assim, para se estimar as probabilidades de classe, basta a nós usar o atributo "value" da imagem. Com isso, as probabilidades seriam:
            <ul style='list-style-type:square'> 
                <li> 
                    <i> Iris-Setosa</i>: 0/54 = 0%
                </li>
                <li> 
                    <i> Iris-Versicolor</i>: 49/54 = 90.7%
                </li>
                <li> 
                    <i> Iris-Virginica</i>: 5/54 = 9.3%
                </li>
            </ul>
        </li>
        <li> 
            Como é de se esperar, a flor seria rotulada como uma Versicolor.
        </li>
    </ul>
</div>

In [None]:
tree_clf.predict_proba([5, 1.5]), tree_clf.predict_p([5, 1.5])

<p style='color:red'> Equation 6-1.