## Nous allons créer un Decision Tree permettant de classifier differents elements, en l'occurence des fruits en fonctions de trois attributs.

In [15]:
from __future__ import print_function
import numpy as np
import pandas as pd

In [16]:
training_data = pd.read_csv("data.csv")

### Visualisez les donnees (valeurs reelles) ###

In [116]:
training_data[:20]

Unnamed: 0,Color,Size,Season,Label
0,Red,1,Summer,Grape
1,Green,3,Spring,Apple
2,Red,3,Winter,Orange
3,Green,2,Winter,Kiwi
4,Yellow,3,Winter,Lemon
5,Green,2,Winter,Kiwi
6,Yellow,3,Winter,Lemon
7,Green,1,Summer,Grape
8,Red,3,Spring,Apple
9,Red,3,Winter,Orange


### Definissez X de type np.array qui contiendra les valeurs des attributs ET des labels (pour faciliter le partinioning par la suite)

In [18]:
X = training_data.to_numpy()

In [90]:
X.shape

(100, 4)

In [19]:
X[:5]

array([['Red', 1, 'Summer', 'Grape'],
       ['Green', 3, 'Spring', 'Apple'],
       ['Red', 3, 'Winter', 'Orange'],
       ['Green', 2, 'Winter', 'Kiwi'],
       ['Yellow', 3, 'Winter', 'Lemon']], dtype=object)

In [20]:
# Nous devons maintenant stocker les differents titres de categrories pour pouvoir afficher notre arbre
header = list(training_data.columns)

### Nous vous donnons la fonction permettant de trouver les differentes valeurs possibles pour chaque categorie, testez la pour mieux la comprendre 

In [21]:
def unique_vals(rows, col):
    return set([row[col] for row in rows])
# La spécifité de l'objet set est qu'il ne peut pas contenir de doublons. Ses valeurs sont donc uniques.

### Testez votre fonction pour les differents attributs et labels ###

In [312]:
# Afficher les differentes saisons avec unique_vals
seasons = unique_vals(X,2)

In [313]:
seasons

{'Spring', 'Summer', 'Winter'}

In [25]:
# Afficher les differentes couleurs avec unique_vals
colors = unique_vals(X,0)

In [26]:
colors

{'Green', 'Red', 'Yellow'}

In [29]:
# Afficher les differents fruits avec unique_vals
fruits = unique_vals(X,-1)

In [30]:
fruits

{'Apple', 'Grape', 'Kiwi', 'Lemon', 'Orange'}

In [311]:
sizes = unique_vals(X,1)
sizes

{1, 2, 3}

### Definir la fonction permettant de compter le nombre de fruits présents par categorie *(nombre de citrons, nombre de pommes, etc.)* 
#### La valeur de retour doit être un dictionnaire

In [282]:
def class_counts(rows):
    counts = {};
    rows = np.array(rows).reshape(len(rows),1)
    for fruit in unique_vals(rows,0):
        counts[fruit] = len(rows[rows == fruit])
    
    
    return counts

In [277]:
X[X[:,3] == 'Kiwi'].shape[0]

22

In [278]:
## Lancez votre fonction pour votre dataset :
nb_fruits = class_counts(X[:,-1].reshape(X.shape[0],1))
print(nb_fruits)
## Elle devrait retourner : {'Grape': 19, 'Apple': 19, 'Orange': 20, 'Kiwi': 22, 'Lemon': 20} 

{'Apple': 19, 'Lemon': 20, 'Orange': 20, 'Grape': 19, 'Kiwi': 22}
{'Apple': 19, 'Lemon': 20, 'Orange': 20, 'Grape': 19, 'Kiwi': 22}


### Definition de la fonction is_numeric permettant de savoir si une valeur est de type int/float ou non. ###

In [249]:
def is_numeric(value):
    if isinstance(value,int) or isinstance(value,float):
        return True
    else:
        return False

In [250]:
## Testez votre fonction pour une valeur numerique (int ou float) ...
is_numeric('okay')

False

In [251]:
#... et pour une valeur non-numérique 


### Pour partitionner le dataset, nous allons utiliser une classe "Questions" ! Cette classe enregistre un numero de colonne (Ex : 0 pour la couleur) et une valeur de la colonne (ex : Vert).  
### La fonction match est utilisee pour comparer la valeur d'un exemple a celle de la question (voir commentaires fonction match).###
#### Vous avez ici directement le constructeur et la fonction d'affichage. A vous de trouver la fonction match####

In [252]:
class Question:
    
    def __init__(self, column, value):
        # Le Constructeur  permet d'attribuer les variables données à la classe
        self.column = column
        self.value = value

    def match(self, example):
        # Compare la valeur donné pour la question (value), a la valeur correspondante d'example 
        # (example est une ligne)
        # ATTENTION : La valeur de retour doit etre un boolean (True / False)
        if is_numeric(self.value):
            return example[self.column] >= self.value
        else:
            return example[self.column] == self.value
        


    def __repr__(self):
        # This is just a helper method to print
        # the question in a readable format.
        condition = "=="
        if is_numeric(self.value):
            condition = ">="
        return "Is %s %s %s?" % (
            header[self.column], condition, str(self.value))

#### Testez vos questions

In [253]:
# Ecrivez une question pour un attribut numerique
q1 = Question(1,2)

In [254]:
q1

Is Size >= 2?

In [255]:
# Et une deuxieme pour un attribut catégorique (couleurs / saisons) : 
q2 = Question(0,'Red')

In [256]:
q2

Is Color == Red?

In [257]:
# Choisissez un exemple dans le dataset et vérifiez avec la fonction match s'il est de couleur rouge
example = X[0]
q2.match(example)

True

In [258]:
# Pareil, mais tester pour size >= 2 (Attention à l'inegalité)
example = X[1]
print(example)
print(q1)
q1.match(example)

['Green' 3 'Spring' 'Apple']
Is Size >= 2?


True

### Vous devez definir la fonction partition qui prend en paramètres le dataset et une question, et les split en fonction de leur reponse (True / False) --> Ce seront nos 2 branches partant d'un noeud.

In [259]:
def partition(X, question):
    # Pour chaque ligne dans le dataset, partionnez le en 2 en fonction du resultat de la question.
    true_rows = X[np.apply_along_axis(question.match, 1, X)]
    false_rows = X[np.apply_along_axis(question.match, 1, X) == False]
    # ...
    
    return true_rows, false_rows

In [260]:
np.apply_along_axis(q1.match, 1, X)

array([False,  True,  True,  True,  True,  True,  True, False,  True,
        True,  True,  True, False,  True,  True,  True,  True, False,
        True,  True,  True,  True, False,  True,  True,  True,  True,
       False,  True,  True,  True,  True, False,  True,  True,  True,
        True, False,  True,  True,  True,  True, False,  True,  True,
        True,  True, False,  True,  True,  True,  True, False,  True,
        True,  True,  True, False,  True,  True,  True,  True, False,
        True,  True,  True,  True, False,  True,  True,  True,  True,
       False,  True,  True,  True,  True, False,  True,  True,  True,
        True, False,  True,  True,  True,  True, False,  True,  True,
        True,  True, False,  True,  True,  True,  True,  True,  True,
        True])

In [261]:
# Testons notre fonction partition pour isoler les lignes "rouges"
true_rows, false_rows = partition(X, q2)

In [262]:
# Et verifiez le contenue de vos 2 nodes
print(false_rows[:5,:])
len(false_rows)

[['Green' 3 'Spring' 'Apple']
 ['Green' 2 'Winter' 'Kiwi']
 ['Yellow' 3 'Winter' 'Lemon']
 ['Green' 2 'Winter' 'Kiwi']
 ['Yellow' 3 'Winter' 'Lemon']]


61

### Maintenant un peu de maths !
#### Nous allons calculer l'impurity d'une liste d'exemple grace a GINI 
#### ATTENTION : La fonction doit pouvoir prendre les listes qui suivent comme les lignes d'exemples contenues dans X (ex : gini(X[0]) ))

In [263]:
def gini(rows):
    
    counts = class_counts(rows)
    impurity = 1
    for fruit in counts:
        proba = counts[fruit] / len(rows)
        impurity -= proba ** 2
    
    return impurity

In [264]:
# Pour verifier la fonction tester l'exemple suivant 
no_mixing = [['Apple'], ['Apple']]
# Que devrait-etre votre resultat ?
gini(np.array(no_mixing))

0.0

In [265]:
 # Maintenant avec un autre
some_mixing = [['Apple'], ['Orange'], ['Orange'], ['Apple']]
#  Que devriez vous obtenir comme resultat ?
gini(np.array(some_mixing))

0.5

In [266]:
# Et maintenant pour un dataset avec tous nos fruits
lots_of_mixing = [['Apple'],
                  ['Orange'],
                  ['Grape'],
                  ['Lemon'],
                  ['Kiwi']]
# Vous devriez obtenir environ 0.8
gini(np.array(lots_of_mixing))

0.7999999999999998

### Calculons l'information gain 

In [327]:
"""Information Gain :
The uncertainty of the starting node, minus the weighted impurity of
two child nodes.
"""

def ft_info_gain(left, right, current_uncertainty):
    #left : true_rows
    #right : false_rows
    p = float(len(right) / (len(right) + len(left)))
    right_gini = gini(right) * p
    left_gini = gini(left) * (1 - p)
    
    return current_uncertainty - (right_gini + left_gini)

In [328]:
# Calculez l'uncertainy de notre dataset.
current_uncertainty = gini(X[:,-1].reshape(X.shape[0],1))
current_uncertainty

# Vous devriez obtenir environ 0.8

0.7993999999999999

In [318]:
# Quel est notre information gain du Dataset si nous partitionnons avec la question couleur == rouge ??
right, left = partition(X, Question(0,'Red'))
info_gain = ft_info_gain(right[:,-1], left[:,-1], current_uncertainty)
info_gain
# Resultat : environ 0.1835

0.18349415720891127

In [319]:
# De même pour la question "Size >= 2"
right_two, left_two = partition(X, Question(1,2))
info_gain_two = ft_info_gain(right_two[:,-1], left_two[:,-1], current_uncertainty)
info_gain_two
# Resultat : environ 0.1925

0.19248641975308645

### Pour ne pas tout tester manuellement, construisez la fonction vous permettant de trouver la question donnant le meilleur information gain en iterant sur chaque feature / value.

In [331]:
def find_best_split(rows):
    best_gain = 0;
    best_question = None;  # 1 Objet Question
    current_uncertainty = gini(rows[:,-1].reshape(len(rows),1));
    for col in range(3):
        values = unique_vals(rows,col);
        for e in values:
            right, left = partition(rows, Question(col, e));
            if len(right) == 0 or len(left) == 0:
                break;
            info_gain = ft_info_gain(right[:,-1], left[:,-1], current_uncertainty);
            if (info_gain > best_gain):
                best_gain, best_question = info_gain, Question(col, e);

    return best_gain, best_question

In [332]:
### Testez votre fonction sur le dataset
best_gain, best_question = find_best_split(X)
best_question
# Vous devriez avoir : is color == yellow ?

Is Color == Yellow?

### Nous allons maintenant construire notre Decision Tree 
#### Les objets Leaf et Decision_Node sont donnés,  à vous de trouver la fonction qui permettra de construire l'arbre (build_tree)

In [None]:
class Leaf:
    def __init__(self, rows):
        self.predictions = class_counts(rows)

In [None]:
class Decision_Node:
    """A Decision Node asks a question.
    This holds a reference to the question, and to the two child nodes.
    """
    def __init__(self,
                 question,
                 true_branch,
                 false_branch):
        self.question = question
        self.true_branch = true_branch
        self.false_branch = false_branch

In [None]:
def build_tree(rows):
    """Builds the tree.
    Rules of recursion: 1) Believe that it works. 2) Start by checking
    for the base case (no further information gain). 3) Prepare for
    giant stack traces.
    """
    best_gain, best_question = find_best_split(rows);
    if not best_question:
        return Leaf(rows);
    else:
        true_rows, false_rows = partition(rows, best_question);
        new_node = Decision_node(best_question, true_rows, false_rows)


### Fonction d'affichage de l'arbre (c'est cadeau ;) )

In [None]:
def print_tree(node, spacing=""):
    """World's most elegant tree printing function."""

    # Base case: we've reached a leaf
    if isinstance(node, Leaf):
        print (spacing + "Predict", node.predictions)
        return

    # Print the question at this node
    print (spacing + str(node.question))

    # Call this function recursively on the true branch
    print (spacing + '--> True:')
    print_tree(node.true_branch, spacing + "  ")

    # Call this function recursively on the false branch
    print (spacing + '--> False:')
    print_tree(node.false_branch, spacing + "  ")

### Maintenant, creez votre arbre et imprimez le ! ;)

In [None]:
my_tree =

In [None]:
print_tree(my_tree)

### Construisez la fonction classify qui permettra de parcourir l'abre pour un exemple donné. Elle nous retourne les predictions quand elle atteint une leaf (leaf.predictions)
#### Classify est une fonction recurssive allant de node en node :)
#### PS : man isinstance()

In [None]:
def classify(row, node):


In [None]:
# Test de la fonction avec le 16eme data sample. Vous devriez obtenir {'Kiwi': 22}
classify(X[15], my_tree)

In [None]:
def print_leaf(counts):
    """A nicer way to print the predictions at a leaf."""
    total = sum(counts.values()) * 1.0
    probs = {}
    for lbl in counts.keys():
        probs[lbl] = str(int(counts[lbl] / total * 100)) + "%"
    return probs

In [None]:
# Maintenant avec une fonction d'affichage un peu plus plaisante. Resultat : {'Grape': '100%'}
print_leaf(classify(X[0], my_tree))

In [None]:
# Tester avec ce dataset, puis essayer de changer les valeurs pour mieux comprendre le comportement de l'arbre
testing_data = [
    ['Green', 2, 'Winter','Kiwi'],
    ['Yellow', 3, 'Winter', 'Lemon'],
    ['Red', 1, 'Summer', 'Grape'],
    ['Red', 2, 'Summer', 'Grape'],
    ['Yellow', 3, 'Winter', 'Lemon'],
]

In [None]:
for row in testing_data:
    print ("Actual: %s. Predicted: %s" %
           (row[3], print_leaf(classify(row, my_tree))))