In [1]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt 
%matplotlib inline

def P (S, val): 
    return np.sum((S==val).astype(int))/float(len(S))

def H(S):  
    vals = np.unique(S)
    res = 0
    for val in vals:
        #print(val)
        p_val = P(S, val)
        res -= p_val * np.log2(p_val)
    return res 

def diviser(S, A, val):
    msk = A == val
    return S[msk]

def IG(S, A):
    vals = np.unique(A)
    entropie = H(S)
    ig_global = entropie
    for val in vals:
        ig_global -= P(A, val) * H(diviser(S, A, val))
    return ig_global, entropie

def num_caracteristique(X, Y): 
    num = -1
    num_ig = - 1.0
    num_h = -1.0
    for i in range(X.shape[1]): 
        ig, h = IG(Y, X[:, i])
        if (ig > num_ig):
            num_ig = ig
            num_h = h
            num = i
    return num, num_ig, num_h


class Noeud(object): 
    
    nbr = 0
    
    def __init__(self, num, ig, h, profondeur): 
        self.num = num # le numéro du caractéristique de dévision dans X
        self.ig = ig # le IG de division
        self.h = h # l'entropie H
        self.pr = profondeur # la profondeur du noeud
        self.fils = {} # les fils ; un dictionnaire valeur : noeud
        self.cls = "" # la classe si ce noeud est final (s'il n'y a pas de fils)
        self.indent = "    " # indentation lorsqu'on génère le code
    
    # Cette fonction est pour transformer le noeud à une string
    #Ici, nous avons redéfini cette fonction afin qu'elle écrive l'arbre 
    #sous form d'un algorithme ; c'est un parser 
    def __str__(self):
        
        indent = self.indent * self.pr # indentation : esthetique
        
        # s'il n'y a pas de fils, le noeud est terminal ; on imprime la classe
        if (len(self.fils)==0):
            return indent + 'Y est "' + self.cls + '"\n'
        
        # s'il y a des fils, on boucle sur les fils et on imprime des SI ... ALORS
        res = ""
        for valeur in self.fils:
            res += indent + 'Si X[' + str(self.num) + '] est "' + str(valeur) + '" Alors\n' + str(self.fils[valeur])
        return res
    
    # predire un échantillon
    def predire(self, x): 
        
        # Si le noeud est final, il rend sa classe 
        if (len(self.fils)==0):
            return self.cls
        
        # Si la valeur de la colonne respective à ce noeud n'appartient pas à l'ensemble des
        # valeurs attendues, on rend np.nan
        if x[self.num] not in self.fils: 
            return np.nan
        
        # Sinon, on rend 
        return self.fils[x[self.num]].predire(x)
    
    # générer un code pour graphviz
    def graphviz(self): 
        
        nid = 'N' + str(Noeud.nbr)
        Noeud.nbr += 1
        
        # Si le noeud est final, 
        if (len(self.fils)==0):
            return nid, nid + '[label="' + self.cls + '" shape=ellipse];\n'
        
        # Sinon, 
        # s'il y a des fils, on boucle sur les fils et on imprime des SI ... ALORS
        res = nid + '[label="X[' + str(self.num) + ']\\n'
        res += 'H = ' + str(self.h) + '\\n'
        res += 'IG = ' + str(self.ig) + '"];\n'
        for valeur in self.fils:
            vid, code = self.fils[valeur].graphviz()
            res += code
            res += nid + ' -> ' + vid + ' [label="' + valeur + '"];\n'
        return nid, res
    

# créer l'arbre de décision à partir d'un ensemble X et Y
def entrainer(X, Y, profondeur=0, elagage=False): 
    
    # Chercher la meilleure caractéristique de X pour diviser Y
    num, num_ig, num_h = num_caracteristique(X, Y)
    # Créer un noeud
    noeud = Noeud(num, num_ig, num_h, profondeur)
    # Si l'entropie est 0 donc le noeud est une feuille 
    if num_h == 0.0:
        noeud.cls = Y[0] # la classe du noeud
        return noeud # retourner le noeud 
    
    # il n'y a pas d'élagage dans ID3, mais il faut l'activer pour éviter 
    # le problème de la récursivité max 
    if profondeur > 0 and elagage:
        noeud.cls = max(set(Y))
        return noeud # retourner le noeud
    
    # Sinon, si le noeud n'est pas une feuille, on crée ces fils
    profondeur += 1 # la profondeur de ces fils
    # les fils sont créés à partir des valeurs uniques du meilleur caractéristique
    for val in np.unique(X[:, num]):
        # Ces trois lignes sont pour récupérer les sous-ensembles X_val, Y_val
        # Corresondants à une valeur du meilleur caractéristique
        msk = X[:, num] == val 
        X_val = X[msk]
        Y_val = Y[msk]
        # On refait la même opération sur l'ensemble (Y_val) d'une manière récursive
        fils = entrainer(X_val, Y_val, profondeur, elagage)
        # On affecte le noeud créé indexé par la valeur du meilleur caractéristique 
        # à l'ensemble des fils du noeud courant
        noeud.fils[val] = fils
    
    return noeud


class ID3(object): 
    
    def entrainer(self, X, Y, X_noms=[], Y_nom="", elagage=False):
        self.arbre = entrainer(X, Y, elagage=elagage)
        code = str(self.arbre)
        if len(Y_nom) > 0: 
            code = code.replace("Y", Y_nom)
        for i in range(len(X_noms)): 
            code = code.replace("X[" + str(i) + "]", X_noms[i])
        self.code = code
        self.X_noms = X_noms
    
    def predire(self, X): 
        predictions = []
        for i in range(len(X)): 
            predictions.append(self.arbre.predire(X[i, :]))
        return predictions
    
    def graphviz(self): 
        nid, code = self.arbre.graphviz()
        res = "digraph Tree {\n"
        res += "node [shape=box] ;"
        for i in range(len(self.X_noms)): 
            code = code.replace("X[" + str(i) + "]", self.X_noms[i])
        res += code
        res += "}"
        return res

    
#----------------------------------------------------------------------------------------------------
#CART

def Gini(S):  
    vals = np.unique(S)
    res = 1
    for val in vals:
        res -= P(S, val)**2
    return res 


# Dans le cas d'une caractéristique nominale A, on rend 
# l'ensemble gauche S_{A == val} et l'ensemble droit S_{A != val}
def diviser_nom_bin(S, A, val):
    msk = A == val
    return S[msk], S[~msk]

# Dans le cas d'une caractéristique numérique A, on rend 
# l'ensemble gauche S_{A > val} et l'ensemble droit S_{A <= val}
def diviser_num_bin(S, A, val):
    msk = A > val
    return S[msk], S[~msk]

#La fonction vérifie si la valeur est numérique ou non
#Elle fait appel aux deux fonctions précédentes selon le type
def diviser_bin(S, A, val):
    try:
        val2 = float(val)
        return diviser_num_bin(S, A, val)
    except ValueError:
        return diviser_nom_bin(S, A, val)
    
    
def Gini_div(S_G, S_D): 
    S_len = float(len(S_G) + len(S_D)) 
    return len(S_G)/S_len * Gini(S_G) + len(S_D)/S_len * Gini(S_D)

def choisir_division_cart(X, Y): 
    num = -1
    num_gini = 1.0
    num_val = -1.0
    for i in range(X.shape[1]): # boucler sur les caractéristiques
        for val in np.unique(X[:, i]): # boucler sur les différentes valeurs de chaque caractéristique
            S_G, S_D = diviser_bin(Y, X[:, i], val) # diviser sur l'ensemble de la carcatéristique et la valeur
            gini = Gini_div(S_G, S_D) # récupérer Gini 
            if (gini < num_gini): #minimiser gini
                num_gini = gini
                num_val = val
                num = i
    return num, num_gini, num_val


class NoeudBin(object): 
    
    nbr = 0
    
    def __init__(self, num, val, gini, profondeur): 
        self.num = num # le numéro du caractéristique de dévision dans X
        self.val = val
        self.gini = gini # le Gini de division
        self.pr = profondeur # la profondeur du noeud
        self.fils = [] # les fils ; un tableau de deux noeuds: S_G, S_D
        self.cls = "" # la classe si ce noeud est final (s'il n'y a pas de fils)
        self.indent = "    " # indentation lorsqu'on génère le code
        
        try: # le cas d'un numérique
            val2 = float(val)
            self.est_num = True
        except ValueError: # le cas d'un string
            self.est_num = False
    
    # Cette fonction est pour transformer le noeud à une string
    #Ici, nous avons redéfini cette fonction afin qu'elle écrive l'arbre 
    #sous form d'un algorithme ; c'est un parser 
    def __str__(self):
        
        indent = self.indent * self.pr # indentation : esthetique
        
        # s'il n'y a pas de fils, le noeud est terminal ; on imprime la classe
        if (len(self.fils)==0):
            return indent + 'Y est "' + self.cls + '"\n'
        
        if (self.est_num): 
            prefix = ' > '
            suffix = ''
        else:
            prefix = ' est "'
            suffix = '"'
        
        # s'il y a des fils, on boucle sur les fils et on imprime des SI ... ALORS SINON
        res = ""
        res += indent + 'Si X[' + str(self.num) + '] ' + prefix + str(self.val) + suffix + ' Alors\n' + str(self.fils[0])
        res += indent + 'Sinon\n' + str(self.fils[1])
        return res
    
    # predire un échantillon
    def predire(self, x): 
        
        # Si le noeud est final, il rend sa classe 
        if (len(self.fils)==0):
            return self.cls
        
        # sinon
        if self.est_num: # le cas d'un numérique
            if x[self.num] > self.val:
                return self.fils[0].predire(x)
            return self.fils[1].predire(x)
        
        # le cas d'un string
        if x[self.num] == val:
            return self.fils[0].predire(x)
        return self.fils[1].predire(x)

    
    # générer un code pour graphviz
    def graphviz(self): 
        
        nid = 'N' + str(NoeudBin.nbr)
        NoeudBin.nbr += 1
        
        # Si le noeud est final, 
        if (len(self.fils)==0):
            return nid, nid + '[label="' + self.cls + '" shape=ellipse];\n'
        
        # Sinon, 
        # s'il y a des fils, on boucle sur les fils et on imprime des SI ... ALORS
        if self.est_num: 
            prefix = '] > '
        else:
            prefix = '] = '
        res = nid + '[label="X[' + str(self.num) + prefix + str(self.val) + '\\n'
        res += 'Gini = ' + str(self.gini) + '"];\n'
        vid_G, code_G = self.fils[0].graphviz()
        vid_D, code_D = self.fils[1].graphviz()
        
        res += code_G + code_D
        res += nid + ' -> ' + vid_G + ' [label="Vrai"];\n'
        res += nid + ' -> ' + vid_D + ' [label="Faux"];\n'
        return nid, res

# créer l'arbre de décision à partir d'un ensemble X et Y
def entrainer_cart(X, Y, profondeur=0, nbr_max=3): 
    
    # Chercher le meilleur caractéristique de X pour diviser Y
    num, num_gini, num_val = choisir_division_cart(X, Y)
    # Créer un noeud
    noeud = NoeudBin(num, num_val, num_gini, profondeur)
    # Si l'entropie est 0 donc le noeud est terminal, élagage
    if (num_gini == 0.0) or (len(Y) <= nbr_max):
        noeud.cls = max(set(Y)) # la classe du noeud (la valeur la plus fréquente)
        return noeud # retourner le noeud 
    
     
    
    # Sinon, si le noeud n'est pas terminal, on crée ces fils
    profondeur += 1 # la profondeur de ces fils
    # création des deux fils
    try: # le cas d'un numérique
        val2 = float(num_val)
        msk = X[:, num] > val2
    except ValueError: # le cas d'un string
        msk = X[:, num] == num_val
    X_G = X[msk]
    Y_G = Y[msk]
    fils_G = entrainer_cart(X_G, Y_G, profondeur, nbr_max)
    X_D = X[~msk]
    Y_D = Y[~msk]
    fils_D = entrainer_cart(X_D, Y_D, profondeur, nbr_max)
    noeud.fils.append(fils_G)
    noeud.fils.append(fils_D)
    
    return noeud

class CART(object): 
    
    def entrainer(self, X, Y, X_noms=[], Y_nom="", nbr_max=3):
        self.arbre = entrainer_cart(X, Y, 0, nbr_max)
        code = str(self.arbre)
        if len(Y_nom) > 0: 
            code = code.replace("Y", Y_nom)
        for i in range(len(X_noms)): 
            code = code.replace("X[" + str(i) + "]", X_noms[i])
        self.code = code
        self.X_noms = X_noms
    
    def predire(self, X): 
        predictions = []
        for i in range(len(X)): 
            predictions.append(self.arbre.predire(X[i, :]))
        return predictions
    
    def graphviz(self): 
        nid, code = self.arbre.graphviz()
        res = "digraph Tree {\n"
        res += "node [shape=box] ;"
        for i in range(len(self.X_noms)): 
            code = code.replace("X[" + str(i) + "]", self.X_noms[i])
        res += code
        res += "}"
        return res
    
    

In [2]:
jouer = pd.read_csv("datasets/jouer.csv")

X_jouer = jouer.iloc[:, :-1].values # Premières colonnes 
Y_jouer = jouer.iloc[:,-1].values # Dernière colonne 

id3_classifieur = ID3()
id3_classifieur.entrainer(X_jouer, Y_jouer, X_noms=["temps", "temperature", "humidite", "vent"], Y_nom="jouer")
print(id3_classifieur.code)

Si temps est "ensoleile" Alors
    Si humidite est "haute" Alors
        jouer est "non"
    Si humidite est "normale" Alors
        jouer est "oui"
Si temps est "nuageux" Alors
    jouer est "oui"
Si temps est "pluvieux" Alors
    Si vent est "non" Alors
        jouer est "oui"
    Si vent est "oui" Alors
        jouer est "non"



In [3]:
njouer = pd.read_csv("datasets/jouer_num.csv")

print("CART avec quelques caractéristiques numériques :")
print("================================================")
X_njouer = njouer.iloc[:, :-1].values # Premières colonnes 
Y_njouer = njouer.iloc[:,-1].values # Dernière colonne 

#numeric
cart_classifieur = CART()
cart_classifieur.entrainer(X_njouer, Y_njouer, X_noms=["temps", "temperature", "humidite", "vent"], Y_nom="jouer")
print(cart_classifieur.code)

#nominal
print("CART avec des caractéristiques nominales :")
print("============================================")
cart_nom_classifieur = CART()
cart_nom_classifieur.entrainer(X_jouer, Y_jouer, X_noms=["temps", "temperature", "humidite", "vent"], Y_nom="jouer")
print("CART :")
print(cart_nom_classifieur.code)

CART avec quelques caractéristiques numériques :
Si temps  est "nuageux" Alors
    jouer est "oui"
Sinon
    Si temperature  > 24 Alors
        jouer est "non"
    Sinon
        Si temperature  > 18 Alors
            Si temperature  > 21 Alors
                jouer est "oui"
            Sinon
                jouer est "oui"
        Sinon
            jouer est "non"

CART avec des caractéristiques nominales :
CART :
Si temps  est "nuageux" Alors
    jouer est "oui"
Sinon
    Si humidite  est "haute" Alors
        Si temps  est "ensoleile" Alors
            jouer est "non"
        Sinon
            jouer est "oui"
    Sinon
        Si vent  est "non" Alors
            jouer est "oui"
        Sinon
            jouer est "oui"



In [4]:
iris = pd.read_csv("datasets/iris.csv")
iris = iris.sample(frac=1)
# Extraction des features 
X_iris = iris.iloc[:, :-1].values # Premières colonnes 
Y_iris = iris.iloc[:,-1].values # Dernière colonne 

X_names = list(iris.columns)[:-1]
Y_name = list(iris.columns)[-1]

# entrainnement data
iris_msk = np.random.rand(len(X_iris)) < 0.8

X_iris_train = X_iris[iris_msk]
Y_iris_train = Y_iris[iris_msk]

X_iris_test = X_iris[~iris_msk]
Y_iris_test = Y_iris[~iris_msk]

# ID3 (que nominal)
from sklearn.preprocessing import KBinsDiscretizer

est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit(X_iris)
X_iris_disc = est.transform(X_iris)
X_iris_disc_train = X_iris_disc[iris_msk]

id3_iris = ID3()
id3_iris.entrainer(X_iris_disc_train, Y_iris_train, X_noms=X_names, Y_nom=Y_name, elagage=True)
X_iris_disc_test = X_iris_disc[~iris_msk]
id3_iris_res = id3_iris.predire(X_iris_disc_test)

# CART 
cart_iris = CART()
cart_iris.entrainer(X_iris_train, Y_iris_train, X_noms=X_names, Y_nom=Y_name)
cart_iris_res = cart_iris.predire(X_iris_test)

# sklearn
from sklearn.tree import DecisionTreeClassifier

sklearn_cart_iris = DecisionTreeClassifier()
sklearn_cart_iris.fit(X_iris_train, Y_iris_train)
sklearn_cart_iris_res = sklearn_cart_iris.predict(X_iris_test)


# Le rapport de classification
from sklearn.metrics import classification_report

print("ID3")
print(classification_report(Y_iris_test, id3_iris_res))


print("CART")
print(classification_report(Y_iris_test, cart_iris_res))

print("Scikit-learn")
print(classification_report(Y_iris_test, sklearn_cart_iris_res))

ID3
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         8
Iris-versicolor       0.00      0.00      0.00         5
 Iris-virginica       0.55      1.00      0.71         6

       accuracy                           0.74        19
      macro avg       0.52      0.67      0.57        19
   weighted avg       0.59      0.74      0.64        19

CART
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         8
Iris-versicolor       0.00      0.00      0.00         5
 Iris-virginica       0.55      1.00      0.71         6

       accuracy                           0.74        19
      macro avg       0.52      0.67      0.57        19
   weighted avg       0.59      0.74      0.64        19

Scikit-learn
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         8
Iris-versicolor       1.00      0.80      0.89         5
 I

  _warn_prf(average, modifier, msg_start, len(result))
