# Decision Tree    

<img style="float: left;" width="400" src="images/DT_example.png">

* Decision Tree learning (DT) is a supervised learning method mostly used to model categorical variables (classification problems).

* The tree representation consists in a structure containint nodes, branches and leaves.

    * The nodes are the conditional elements, where the next element is chosen depending on the input value
    * The branches are the connections between nodes (or nodes and leaves)
    * Leaves represent the final classification classes
    * The path to reach a leaf is called classification rule
 

* Because of its simplicity, a tree diagram can be used in a broad range of applications and disciplines including civil planning, energy, financial, engineering, healthcare, pharmaceutical, education, law, and business.



## Entropy

* Entropy carachterize the organization of an example colection:

    * Given a set $S$, containing positive and negative values for the target variable, $Entropy$ is given by:

\begin{equation} Entropy(S) = -p_{+}\log_{2}p_{+}-p_{-}\log_{2}p_{-} \end{equation}

A entropia caracteriza a organização de uma coleção de exemplos. Dado um conjunto S , contendo valores positivos e negativos para um atributo-alvo, a entropia de S relativa à essa classificação é dada por:

Alt text

onde p+ é a proporção de exemplos em que a saída é positiva e p− a proporção de exemplos em que a saída é negativa. Para os cálculos envolvendo entropia se assumirá 0 * log2(0) como sendo 0.

Ao analisar a Equação acima , nota-se que a entropia é 0 quando todos os elementos de S pertencem à mesma classe, e 1 quando a coleção contém um mesmo número de elementos cuja saída é positiva e negativa. Além disso, o resultado da soma entre p+ e p− sempre será 1, de forma que pode-se escrever p− = 1 − p+ . A figura abaixo mostra a relação entre a proporção p+ e a entropia:

Alt text

Generalizando o cálculo da entropia para casos em que o atributo-objetivo possui mais que dois valores possíveis, define-se a entropia como:

Alt text

onde pi é a proporção de S pertencente à classe i e c é o número de classes do atributo- objetivo.

In [10]:
import pandas as pd
from math import log
import sklearn.datasets

## Iris dataset

* This data sets consists of 3 different types of irises’ petal and sepal length
* Introduced by the British statistician and biologist Ronald Fisher in his 1936 paper *"The use of multiple measurements in taxonomic problem"*
* Dimension: 150x4 numpy.ndarray
* Features: Sepal Length, Sepal Width, Petal Length and Petal Width.
* Output: Iris type (Setosa, Versicolour, and Virginica)

In [9]:
iris = sklearn.datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['type'] = iris.target

df.sample(10) #sample 10 random rows

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),type
10,5.4,3.7,1.5,0.2,0
48,5.3,3.7,1.5,0.2,0
105,7.6,3.0,6.6,2.1,2
55,5.7,2.8,4.5,1.3,1
46,5.1,3.8,1.6,0.2,0
99,5.7,2.8,4.1,1.3,1
35,5.0,3.2,1.2,0.2,0
27,5.2,3.5,1.5,0.2,0
75,6.6,3.0,4.4,1.4,1
138,6.0,3.0,4.8,1.8,2


In [None]:
class Tree(object):
    def __init__(self, arg):
        self.root = None
        self.label = None
        self.branches = []

    def add_branch(self):
        self.branches.append(Tree())

    def define_label(self, label):
        self.label = label

def entropy(s):
    #s is a pandas series
    entropy = 0
    for i in s.unique():
        pi = float((s == i).sum())/len(s) #proportion of s belonging to class i
        entropy = entropy - pi*log(pi,2)
    return entropy

def ID3(examples, target_attributes, attributes):

    tree = Tree()
    if all(examples > 0):
        tree.define_label('+')
        return tree
    if all(examples < 0):
        tree.define_label('-')
        return tree