# Árvore de Decisão

## Vamos Começar

A primeira coisa que precisamos é ter um conjunto de dados. Nesse caso, usaremos a ideia de um conjunto de alimentos para fazer o teste

#### Exemplo

- Alimentos na minha casa
- Cada linha é um exemplo neste conjunto de dados
- A última coluna é o rótulo.
- As três primeiras colunas são características.

Vamos criar um cabeçalho para esse conjunto de dados, que só aparecerá quando iniciarmos a tabela:

In [1]:
header = ["Tipo", "Cor", "Preço", "Nome"]

In [2]:
training_data = [
    ['Fruta','Verde', 3, 'Maça'],
    ['Fruta','Vermelho', 3, 'Maça'],
    ['Fruta','Vermelho', 1, 'Uva'],
    ['Fruta','Vermelho', 1, 'Uva'],
    ['Fruta','Amarelo', 3, 'Limão'],
    ['Fruta','Laranja',3, 'Laranja'],
    ['Fruta','Amarelo', 5, 'Abacaxi'],
    ['Fruta','Amarelo', 3, 'Manga'],
    ['Fruta','Roxo', 1, 'Uva'],
    ['Fruta','Amarelo', 5, 'Banana'],
    ['Bebida','Marrom' ,5 ,'Café'],
    ['Bebida','Laranja',4,'Suco de Laranja'],
    ['Bebida','Vermelho',2,'Suco de Uva'],
    ['Bebida','Amarelo',5,'Limonada'],
    ['Bebida','Laranja',4,'Suco de Laranja'],
    ['Bebida','Marrom', 5, 'Chocolate quente'],
    ['Bebida','Verde', 2, 'Chá verde']
]

Temos muitos valores repetidos, pois "em minha casa" pode haver mais de um único objeto do mesmo tipo. Podemos usar algumas funções para calcular quantos valores únicos temos em uma coluna neste conjunto de dados

In [3]:
def valores_unicos(rows, column):
    return set([row[column] for row in rows])

Vamos ver um exemplo se aplicarmos esta função na coluna 0 e, em seguida, um exemplo se aplicarmos a função na coluna 1

In [4]:
valores_unicos(training_data, 0)

{'Bebida', 'Fruta'}

Observe que a função retornou em ordem alfabética os valores :)

In [5]:
valores_unicos(training_data, 1)

{'Amarelo', 'Laranja', 'Marrom', 'Roxo', 'Verde', 'Vermelho'}

Agora, vamos contar o número de cada tipo de exemplo neste conjunto de dados

In [6]:
def class_counts(rows):
    counts = {}
    for row in rows:
        label = row[-1]
        if label not in counts:
            counts[label] = 0
        counts[label] += 1
    return counts

In [7]:
class_counts(training_data)

{'Maça': 2,
 'Uva': 3,
 'Limão': 1,
 'Laranja': 1,
 'Abacaxi': 1,
 'Manga': 1,
 'Banana': 1,
 'Café': 1,
 'Suco de Laranja': 2,
 'Suco de Uva': 1,
 'Limonada': 1,
 'Chocolate quente': 1,
 'Chá verde': 1}

In [8]:
# Vamos contar quantos de cada conjunto temos

In [9]:
def class_counts2(rows):
    counts = {}
    for row in rows:
        label = row[0]
        if label not in counts:
            counts[label] = 0
        counts[label] += 1
    return counts

In [10]:
class_counts2(training_data)

{'Fruta': 10, 'Bebida': 7}

No seu caso, precisamos usar a primeira função, porque seu rótulo está sempre na última coluna. Vamos criar uma função que verifica se o valor pertencente a uma célula é numérico ou não.

In [11]:
def is_value_numeric(value):
    if isinstance(value, int) == 1 or isinstance(value, float) == 1:
        return True
    else:
        return False

In [12]:
#######
# Demo:
print(is_value_numeric(1))
print(is_value_numeric("1"))
#######

True
False


Agora, precisamos criar uma pergunta.
A pergunta é usada para particionar um conjunto de dados.

Registramos um número de coluna e um valor de coluna.
A correspondência é usada para comparar o valor em um exemplo com o valor armazenado na Pergunta

In [13]:
class Question:
    def __init__(self, column, value):
        self.column = column
        self.value = value

    def match(self, example):
        # Compare o valor do recurso em 
        # um exemplo ao valor do recurso nesta pergunta.
        val = example[self.column]
        if is_value_numeric(val):
            return val >= self.value
        else:
            return val == self.value

    def __repr__(self):
        #  Este é apenas um método auxiliar para 
        # imprimir a pergunta em um formato legível.
        condition = "=="
        if is_value_numeric(self.value):
            condition = ">="
        return "É verdade que %s %s %s?" % (
            header[self.column], condition, str(self.value))

exemplos de atributos categóricos:

In [14]:
pergunta_de_tipo = Question(0,'Bebida')
pergunta_de_tipo

É verdade que Tipo == Bebida?

In [15]:
pergunta_de_cor = Question(1, 'Green')
pergunta_de_cor

É verdade que Cor == Green?

exemplo de atributo numérico:

In [16]:
pergunta_valor = Question(2, 3)
pergunta_valor

É verdade que Preço >= 3?

Agora, vamos escolher um exemplo no conjunto de treinamento que e veremos se ele corresponde à pergunta :)

In [17]:
example = training_data[0]
pergunta_de_cor.match(example)

False

In [18]:
pergunta_de_tipo.match(example)

False

### Particiona um conjunto de dados.
Para cada linha do conjunto de dados, verificaremos se ele corresponde à pergunta.
- Adicione-o a 'linhas verdadeiras'
- Ou adicione-o a 'linhas falsas'

In [19]:
def partition(rows, question):
    corresponde,nao_corresponde = [],[]
    for row in rows:
        if question.match(row):
            corresponde.append(row)
        else:
            nao_corresponde.append(row)
    return corresponde, nao_corresponde

Exemplo:
     Particione os dados de treinamento com base em se as linhas são Bebidas.

In [20]:
corresponde, nao_corresponde = partition(training_data, Question(0, 'Bebida'))
corresponde

[['Bebida', 'Marrom', 5, 'Café'],
 ['Bebida', 'Laranja', 4, 'Suco de Laranja'],
 ['Bebida', 'Vermelho', 2, 'Suco de Uva'],
 ['Bebida', 'Amarelo', 5, 'Limonada'],
 ['Bebida', 'Laranja', 4, 'Suco de Laranja'],
 ['Bebida', 'Marrom', 5, 'Chocolate quente'],
 ['Bebida', 'Verde', 2, 'Chá verde']]

In [21]:
nao_corresponde

[['Fruta', 'Verde', 3, 'Maça'],
 ['Fruta', 'Vermelho', 3, 'Maça'],
 ['Fruta', 'Vermelho', 1, 'Uva'],
 ['Fruta', 'Vermelho', 1, 'Uva'],
 ['Fruta', 'Amarelo', 3, 'Limão'],
 ['Fruta', 'Laranja', 3, 'Laranja'],
 ['Fruta', 'Amarelo', 5, 'Abacaxi'],
 ['Fruta', 'Amarelo', 3, 'Manga'],
 ['Fruta', 'Roxo', 1, 'Uva'],
 ['Fruta', 'Amarelo', 5, 'Banana']]

### Impureza
Agora, calcularemos a impureza para uma lista de linhas.
Existem algumas maneiras diferentes de fazer isso.

In [22]:
def gini_calculation(rows):
    counts = class_counts(rows)
    impurity = 1
    for lbl in counts:
        prob_of_lbl = counts[lbl] / float(len(rows))
        impurity -= prob_of_lbl**2
    return impurity

Exemplo de um conjunto de dados sem valores de impureza:

In [23]:
# Primeiro, veremos um conjunto de dados sem mistura.
no_mixing = [['Fruta', 'Amarelo', 3, 'Manga'],
             ['Fruta', 'Amarelo', 3, 'Manga'],
             ['Fruta', 'Amarelo', 3, 'Manga']]
# isso retornará 0
gini_calculation(no_mixing)

0.0

In [24]:
middle_mixing = [['Fruta', 'Amarelo', 3, 'Manga'],
                 ['Fruta', 'Amarelo', 3, 'Limão']]
gini_calculation(middle_mixing)

0.5

Em nosso conjunto de dados:

In [25]:
gini_calculation(training_data)

0.9065743944636673

### Ganho de informação.
Calcule a incerteza do nó inicial, menos a impureza ponderada de dois nós filhos.

In [28]:
def info_gain(left, right, current_uncertainty):
    p = float(len(left)) / (len(left) + len(right))
    return current_uncertainty - p * gini_calculation(left) - (1 - p) * gini_calculation(right)

Exemplo em nosso conjunto de dados. Quanta informação ganhamos ao particionar em 'Drink'?

In [30]:
corresponde, nao_corresponde = partition(training_data, Question(0, 'Bebida'))
info_gain(corresponde, nao_corresponde, gini_calculation(training_data))

0.08808699950568416

In [32]:
corresponde, nao_corresponde = partition(training_data, Question(0,'Fruta'))
info_gain(corresponde, nao_corresponde, gini_calculation(training_data))

0.0880869995056841

### Encontre a melhor pergunta a ser feita
iterando sobre cada recurso / valor e calculando o ganho de informações.

In [46]:
def melhor_pergunta(rows):
    best_gain = 0
    best_question = None
    current_uncertainty = gini_calculation(rows)
    n_features = len(rows[0]) - 1

    for col in range(n_features): 

        values = set([row[col] for row in rows])

        for val in values:

            question = Question(col, val)

            true_rows, false_rows = partition(rows, question)

            if len(true_rows) == 0 or len(false_rows) == 0:
                continue

            gain = info_gain(true_rows, false_rows, current_uncertainty)

            if gain >= best_gain:
                best_gain, best_question = gain, question

    return best_gain, best_question

In [47]:
melhor_ganho, melhor_questao = melhor_pergunta(training_data)
melhor_questao

É verdade que Preço >= 2?

### O nó folha classifica os dados

Número de vezes que aparece nas linhas dos dados de treinamento que chegam a esta folha.

In [48]:
class Leaf:
    def __init__(self, rows):
        self.predictions = class_counts(rows)

In [49]:
# Um nó de decisão faz uma pergunta. 
# Isso mantém uma referência à pergunta e aos dois nós filhos.

In [50]:
class Decision_Node:

    def __init__(self,
                 question,
                 true_branch,
                 false_branch):
        self.question = question
        self.true_branch = true_branch
        self.false_branch = false_branch

In [51]:
def build_tree(rows):
    gain, question = melhor_pergunta(rows)
    if gain == 0:
        return Leaf(rows)
    true_rows, false_rows = partition(rows, question)
    true_branch = build_tree(true_rows)
    false_branch = build_tree(false_rows)

    return Decision_Node(question, true_branch, false_branch)

In [52]:
def print_tree(node, spacing=""):
    if isinstance(node, Leaf):
        print (spacing + "Predict", node.predictions)
        return

    print (spacing + str(node.question))

    print (spacing + '--> True:')
    print_tree(node.true_branch, spacing + "  ")

    print (spacing + '--> False:')
    print_tree(node.false_branch, spacing + "  ")

In [53]:
my_tree = build_tree(training_data)

In [54]:
print_tree(my_tree)

É verdade que Preço >= 2?
--> True:
  É verdade que Cor == Laranja?
  --> True:
    É verdade que Preço >= 4?
    --> True:
      Predict {'Suco de Laranja': 2}
    --> False:
      Predict {'Laranja': 1}
  --> False:
    É verdade que Preço >= 5?
    --> True:
      É verdade que Cor == Marrom?
      --> True:
        Predict {'Café': 1, 'Chocolate quente': 1}
      --> False:
        É verdade que Tipo == Fruta?
        --> True:
          Predict {'Abacaxi': 1, 'Banana': 1}
        --> False:
          Predict {'Limonada': 1}
    --> False:
      É verdade que Preço >= 3?
      --> True:
        É verdade que Cor == Amarelo?
        --> True:
          Predict {'Limão': 1, 'Manga': 1}
        --> False:
          Predict {'Maça': 2}
      --> False:
        É verdade que Cor == Vermelho?
        --> True:
          Predict {'Suco de Uva': 1}
        --> False:
          Predict {'Chá verde': 1}
--> False:
  Predict {'Uva': 3}


In [55]:
def classify(row, node):
    if isinstance(node, Leaf):
        return node.predictions
    if node.question.match(row):
        return classify(row, node.true_branch)
    else:
        return classify(row, node.false_branch)

In [56]:
classify(training_data[0], my_tree)

{'Maça': 2}

In [57]:
def print_leaf(counts):
    total = sum(counts.values()) * 1.0
    probs = {}
    for lbl in counts.keys():
        probs[lbl] = str(int(counts[lbl] / total * 100)) + "%"
    return probs

In [58]:
print_leaf(classify(training_data[0], my_tree))

{'Maça': '100%'}

In [60]:
# Evaluate
testing_data = [
    ['Frunta','Amarelo', 5, 'Abacaxi'],
    ['Frunta','Amarelo', 3, 'Manga'],
    ['Frunta','Roxo', 1, 'Uva'],
    ['Frunta','Amarelo', 5, 'Banana'],
    ['Bebida','Marrom' ,5 ,'Café'],
    ['Bebida','Laranja',4,'Suco de Laranja'],
    ['Bebida','Vermelho',2,'Suco de Uva'],
]

In [61]:
for row in testing_data:
    print ("Real: %s. Predição: %s" %
           (row[-1], print_leaf(classify(row, my_tree))))

Real: Abacaxi. Predição: {'Limonada': '100%'}
Real: Manga. Predição: {'Limão': '50%', 'Manga': '50%'}
Real: Uva. Predição: {'Uva': '100%'}
Real: Banana. Predição: {'Limonada': '100%'}
Real: Café. Predição: {'Café': '50%', 'Chocolate quente': '50%'}
Real: Suco de Laranja. Predição: {'Suco de Laranja': '100%'}
Real: Suco de Uva. Predição: {'Suco de Uva': '100%'}
