## Nous allons créer un Decision Tree permettant de classifier differents elements, en l'occurence des fruits en fonctions de trois attributs.

In [1]:
from __future__ import print_function
import numpy as np
import pandas as pd

In [2]:
training_data = pd.read_csv("data.csv")

### Visualisez les donnees (valeurs reelles) ###

In [3]:
training_data

Unnamed: 0,Color,Size,Season,Label
0,Red,1,Summer,Grape
1,Green,3,Spring,Apple
2,Red,3,Winter,Orange
3,Green,2,Winter,Kiwi
4,Yellow,3,Winter,Lemon
5,Green,2,Winter,Kiwi
6,Yellow,3,Winter,Lemon
7,Green,1,Summer,Grape
8,Red,3,Spring,Apple
9,Red,3,Winter,Orange


### Definissez X de type np.array qui contiendra les valeurs des attributs ET des labels (pour faciliter le partinioning par la suite)

In [4]:
X = np.array(training_data)

In [5]:
# Nous devons maintenant stocker les differents titres de categories pour pouvoir afficher notre arbre
header = list(training_data.columns)

### Nous vous donnons la fonction permettant de trouver les differentes valeurs possibles pour chaque categorie, testez la pour mieux la comprendre 

In [6]:
def unique_vals(rows, col):
    return set([row[col] for row in rows])

### Testez votre fonction pour les differents attributs et labels ###

In [7]:
# Afficher les differentes saisons avec unique_vals
unique_vals(X, 2)

{'Spring', 'Summer', 'Winter'}

In [8]:
# Afficher les differentes couleurs avec unique_vals
unique_vals(X, 0)

{'Green', 'Red', 'Yellow'}

In [9]:
# Afficher les differents fruits avec unique_vals
unique_vals(X, -1)

{'Apple', 'Grape', 'Kiwi', 'Lemon', 'Orange'}

### Definir la fonction permettant de compter le nombre de fruits présents par categorie *(nombre de citrons, nombre de pommes, etc.)* 
#### La valeur de retour doit être un dictionnaire

In [10]:
def class_counts(rows):
    counts = {}
    for label in rows:
        label = label[-1]
        if label not in counts:
            counts[label] = 0
        counts[label] += 1
    return counts

In [11]:
## Lancez votre fonction pour votre dataset :
class_counts(X)
## Elle devrait retourner : {'Grape': 19, 'Apple': 19, 'Orange': 20, 'Kiwi': 22, 'Lemon': 20} 

{'Grape': 19, 'Apple': 19, 'Orange': 20, 'Kiwi': 22, 'Lemon': 20}

### Definition de la fonction is_numeric permettant de savoir si une valeur est de type int/float ou non. ###

In [12]:
def is_numeric(value):
    if type(value) == int or type(value) == float:
        return True
    else:
        return False

In [13]:
## Testez votre fonction pour une valeur numerique (int ou float) ...
is_numeric(43.5)

True

In [14]:
#... et pour une valeur non-numérique 
is_numeric('toto')

False

### Pour partitionner le dataset, nous allons utiliser une classe "Questions" ! Cette classe enregistre un numero de colonne (Ex : 0 pour la couleur) et une valeur de la colonne (ex : Vert).  
### La fonction match est utilisee pour comparer la valeur d'un exemple a celle de la question (voir commentaires fonction match).###
#### Vous avez ici directement le constructeur et la fonction d'affichage. A vous de trouver la fonction match####

In [15]:
class Question:
    
    def __init__(self, column, value):
        # Le Constructeur  permet d'attribuer les variables données à la classe
        self.column = column
        self.value = value

    def match(self, example):
        # Compare la valeur donné pour la question (value), a la valeur correspondante d'example 
        # (example est une ligne)
        # ATTENTION : La valeur de retour doit etre un boolean (True / False)
        val = example[self.column]
        if is_numeric(val):
            return val >= self.value
        else:
            return val == self.value

    def __repr__(self):
        
        # This is just a helper method to print
        # the question in a readable format.
        condition = "=="
        if is_numeric(self.value):
            condition = ">="
        return "Is %s %s %s?" % (
            header[self.column], condition, str(self.value))

#### Testez vos questions

In [16]:
# Ecrivez une question pour un attribut numerique
q1 = Question(1, 1)
print(q1)

Is Size >= 1?


In [17]:
# Et une deuxieme pour un attribut catégorique (couleurs / saisons) : 
q2 = Question(0, 'Apple')
print(q2)

Is Color == Apple?


In [18]:
# Choisissez un exemple dans le dataset et vérifiez avec la fonction match s'il est de couleur rouge
example = X[0]
print(example)
q3 = Question(0, 'Red')
q3.match(example[0])

['Red' 1 'Summer' 'Grape']


False

In [19]:
# Pareil, mais tester pour size >= 2 (Attention à l'inegalité)
example = X[6]
print(example)
q4 = Question(1, 5)
q4.match(example)

['Yellow' 3 'Winter' 'Lemon']


False

### Vous devez definir la fonction partition qui prend en paramètres le dataset et une question, et les split en fonction de leur reponse (True / False) --> Ce seront nos 2 branches partant d'un noeud.

In [20]:
def partition(rows, question):
    # Pour chaque ligne dans le dataset, partionnez le en 2 en fonction du resultat de la question.
    true_rows, false_rows = [], []
    for row in rows:
        if question.match(row):
            true_rows.append(row)
        else:
            false_rows.append(row)
    return true_rows, false_rows
# Testons notre fonction partition pour isoler les lignes "rouges"
true_rows, false_rows = partition(X, Question(0, 'Red'))

In [21]:
# Et verifiez le contenue de vos 2 nodes
true_rows

[array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 3, 'Spring', 'Apple'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'], dtype=object),
 array(['Red', 3, 'Winter', 'Orange'], dtype=object),
 array(['Red', 1, 'Summer', 'Grape'],

In [22]:
probas = []

for col in range(X.shape[1]):
    probas.append({})
    uniqs = list(unique_vals(X, col))
    for label in uniqs:
        if label not in probas[col]:
            probas[col][label] = 0.0
        true_rows, false_rows = partition(X, Question(col, label))
        probas[col][label] = (len(true_rows) / X.shape[0])
probas
probs = {}
for row in probas:
    for k,v in row.items():
        probs[k] = v
probs

{'Green': 0.41,
 'Red': 0.39,
 'Yellow': 0.2,
 1: 1.0,
 2: 0.81,
 3: 0.59,
 'Spring': 0.19,
 'Winter': 0.62,
 'Summer': 0.19,
 'Orange': 0.2,
 'Apple': 0.19,
 'Grape': 0.19,
 'Kiwi': 0.22,
 'Lemon': 0.2}

### Maintenant un peu de maths !
#### Nous allons calculer l'impurity d'une liste d'exemple grace a GINI 
#### ATTENTION : La fonction doit pouvoir prendre les listes qui suivent comme les lignes d'exemples contenues dans X (ex : gini(X[0]) ))

In [23]:
def gini(rows):
    counts = class_counts(rows)
    gini = 0.0
    total = len(rows)
    for col in counts:
        prob = counts[col] / float(total)
        gini += prob ** 2
    return (1 - gini)
gini([X[0]])

0.0

In [24]:
# Pour verifier la fonction tester l'exemple suivant 
no_mixing = [['Apple'], ['Apple']]

# Que devrait-etre votre resultat ?
gini(no_mixing)

0.0

In [25]:
 # Maintenant avec un autre
some_mixing = [['Apple'], ['Orange'], ['Orange'], ['Apple']]
#  Que devriez vous obtenir comme resultat ?
gini(some_mixing)

0.5

In [26]:
# Et maintenant pour un dataset avec tous nos fruits
lots_of_mixing = [['Apple'],
                  ['Orange'],
                  ['Grape'],
                  ['Lemon'],
                  ['Kiwi']]
# Vous devriez obtenir environ 0.8
gini(lots_of_mixing)

0.7999999999999999

### Calculons l'information gain 

In [27]:
"""Information Gain :
The uncertainty of the starting node, minus the weighted impurity of
two child nodes.
"""

def information_gain(left, right, current_uncertainty):
    #left : true_rows
    #right : false_rows
    left_prop = float(len(left) / (len(left) + len(right)))
    right_prop = float(1.0 - left_prop)
    gini_left = gini(left)
    gini_right = gini(right)
    info_gain = current_uncertainty - ((left_prop * gini_left) + (right_prop * gini_right))
    return info_gain

In [28]:
# Calculez l'uncertainy de notre dataset.
current_uncertainty = gini(X)
current_uncertainty
# Vous devriez obtenir environ 0.8

0.7994

In [29]:
# Quel est notre information gain du Dataset si nous partitionnons avec la question couleur == rouge ??
true_rows, false_rows = partition(X, Question(0, 'Red'))
info_gain = information_gain(true_rows, false_rows, current_uncertainty)
info_gain
# Resultat : environ 0.1835

0.18349415720891127

In [30]:
# De même pour la question "Size >= 2"
current_uncertainty = gini(X)
true_rows, false_rows = partition(X, Question(1, 2))
info_gain = information_gain(true_rows, false_rows, current_uncertainty)
info_gain
# Resultat : environ 0.1925

0.19248641975308634

### Pour ne pas tout tester manuellement, construisez la fonction vous permettant de trouver la question donnant le meilleur information gain en iterant sur chaque feature / value.

In [31]:
def find_best_split(rows):
    best_gain = 0
    best_question = None  # 1 Objet Question

    nb_col = len(rows[0]) - 1 #last column is y
    current_uncertainty = gini(rows)
    for col in range(nb_col):
        labels = unique_vals(rows, col)
        for label in labels:
            true_rows, false_rows = partition(rows, Question(col, label))
            info_gain = information_gain(true_rows, false_rows, current_uncertainty)
            if info_gain >= best_gain:
                best_gain = info_gain
                best_question = Question(col, label)
    return best_gain, best_question

In [32]:
### Testez votre fonction sur le dataset
best_gain, best_question = find_best_split(X)
best_gain, best_question
# Vous devriez avoir : is color == yellow ?

(0.20015000000000005, Is Color == Yellow?)

### Nous allons maintenant construire notre Decision Tree 
#### Les objets Leaf et Decision_Node sont donnés,  à vous de trouver la fonction qui permettra de construire l'arbre (build_tree)

In [33]:
class Leaf:
    def __init__(self, rows):
        self.predictions = class_counts(rows)

In [34]:
class Decision_Node:
    """A Decision Node asks a question.
    This holds a reference to the question, and to the two child nodes.
    """
    def __init__(self,
                 question,
                 true_branch,
                 false_branch):
        self.question = question
        self.true_branch = true_branch
        self.false_branch = false_branch

In [35]:
def build_tree(rows):
    """Builds the tree.
    Rules of recursion: 1) Believe that it works. 2) Start by checking
    for the base case (no further information gain). 3) Prepare for
    giant stack traces.
    """
    # Rappelez-vous de la condition d'arret et de la creation d'une leaf
    gain, question = find_best_split(rows)
    print(gain, question)
    if gain == 0:
        return (Leaf(rows))
    #return 
    true_rows, false_rows = partition(rows, question)
    true_branch = build_tree(true_rows)
    false_branch = build_tree(false_rows)
    return (Decision_Node(question, true_branch, false_branch))

### Fonction d'affichage de l'arbre (c'est cadeau ;) )

In [36]:
def print_tree(node, spacing=""):
    """World's most elegant tree printing function."""

    # Base case: we've reached a leaf
    if isinstance(node, Leaf):
        print (spacing + "Predict", node.predictions)
        return

    # Print the question at this node
    print (spacing + str(node.question))

    # Call this function recursively on the true branch
    print (spacing + '--> True:')
    print_tree(node.true_branch, spacing + "  ")

    # Call this function recursively on the false branch
    print (spacing + '--> False:')
    print_tree(node.false_branch, spacing + "  ")

### Maintenant, creez votre arbre et imprimez le ! ;)

In [37]:
my_tree = build_tree(X)

0.20015000000000005 Is Color == Yellow?
0.0 Is Season == Winter?
0.24965773809523806 Is Season == Winter?
0.4988662131519275 Is Color == Red?
0.0 Is Season == Winter?
0.0 Is Season == Winter?
0.5 Is Season == Summer?
0.0 Is Season == Summer?
0.0 Is Season == Spring?


In [38]:
print_tree(my_tree)

Is Color == Yellow?
--> True:
  Predict {'Lemon': 20}
--> False:
  Is Season == Winter?
  --> True:
    Is Color == Red?
    --> True:
      Predict {'Orange': 20}
    --> False:
      Predict {'Kiwi': 22}
  --> False:
    Is Season == Summer?
    --> True:
      Predict {'Grape': 19}
    --> False:
      Predict {'Apple': 19}


### Construisez la fonction classify qui permettra de parcourir l'abre pour un exemple donné. Elle nous retourne les predictions quand elle atteint une leaf (leaf.predictions)
#### Classify est une fonction recursive allant de node en node :)
#### PS : man isinstance()

In [39]:
def classify(row, node):
    # Base case: we've reached a leaf
    if isinstance(node, Leaf):
        return node.predictions

    if node.question.match(row):
        return classify(row, node.true_branch)
    else:
        return classify(row, node.false_branch)

In [40]:
# Test de la fonction avec le 16eme data sample. Vous devriez obtenir {'Kiwi': 22}
classify(X[15], my_tree)

{'Kiwi': 22}

In [41]:
def print_leaf(counts):
    """A nicer way to print the predictions at a leaf."""
    total = sum(counts.values()) * 1.0
    probs = {}
    for lbl in counts.keys():
        probs[lbl] = str(int(counts[lbl] / total * 100)) + "%"
    return probs

In [42]:
# Maintenant avec une fonction d'affichage un peu plus plaisante. Resultat : {'Grape': '100%'}
print_leaf(classify(X[0], my_tree))

{'Grape': '100%'}

In [43]:
# Tester avec ce dataset, puis essayer de changer les valeurs pour mieux comprendre le comportement de l'arbre
testing_data = [
    ['Green', 2, 'Winter','Kiwi'],
    ['Yellow', 3, 'Winter', 'Lemon'],
    ['Red', 1, 'Summer', 'Grape'],
    ['Red', 2, 'Summer', 'Grape'],
    ['Yellow', 3, 'Winter', 'Lemon'],
]

In [44]:
for row in testing_data:
    print ("Actual: %s. Predicted: %s" %
           (row[3], print_leaf(classify(row, my_tree))))

Actual: Kiwi. Predicted: {'Kiwi': '100%'}
Actual: Lemon. Predicted: {'Lemon': '100%'}
Actual: Grape. Predicted: {'Grape': '100%'}
Actual: Grape. Predicted: {'Grape': '100%'}
Actual: Lemon. Predicted: {'Lemon': '100%'}
