# Arbres de décisions regresseur from scratch

Dans ce notebook, vous allez coder votre propre algorithme de machine learning pour entraîner des arbres de décision afin de résoudre des problèmes de régresssion. 

Le code que vous trouverez dans ce notebook est fonctionnelle pour créer un algorithme d'apprentissage automatique. Attention, ce code n'est pas optimis, il est uniquement à but pédagogique pour que vous compreniez bien ce qui se passe lorsque vous entraînez un algorithme de machine learning d'arbres de décision. Je vais vous accompagner pas à pas dans l'implémentation de cet algorithme.

Si vous voulez entraîner un modèle à but professionnel, je vous recommande d'utiliser le package [Sklearn](https://scikit-learn.org/stable/index.html) qui contient toutes les librairies essentiel pour vous aider. 

Merci de soutenir ce travail de création de contenus en vous abonnant à la chaîne youtube AIForYou et en mettant une étoile au répertoire github. 



## Importation des packages

Comme cet algorithme est codé from scratch nous n'aurons pas besoin de beaucoup de librairie. Nous aurons seulement besoin de [Numpy](https://numpy.org/) pour gérer les calculs matriciels, [Pandas](https://pandas.pydata.org/) pour gérer les dataframe, et certains opérateurs de calcul. 

In [None]:
import numpy as np 
import pandas as pd
from functools import reduce
import operator

## Importation des données

Dans ce notebook, nous allons utiliser un dataframe homemade que j'ai créé pour vous. Le but sera de trouver le prix d'un appartement en fonction de ses caractéristiques.



In [None]:
dataframe = pd.DataFrame([[140000, 50, 1, 2],
                         [150000, 55, 0, 3],
                         [100000, 38, 1, 2],
                         [200000, 72, 0, 3],
                         [220000, 70, 1, 4],
                         [120000, 40, 0, 2],
                         [198000, 68, 0, 3],
                         [130000, 54, 0, 2],
                         [140000, 62, 0, 3],
                         [190000, 79, 1, 2],
                         [170000, 67, 1, 4],
                         [90000, 40, 0, 2]],
                         columns=['prix', 'surface', 'garage', 'nb_piece'])

In [None]:
dataframe

Unnamed: 0,prix,surface,garage,nb_piece
0,140000,50,1,2
1,150000,55,0,3
2,100000,38,1,2
3,200000,72,0,3
4,220000,70,1,4
5,120000,40,0,2
6,198000,68,0,3
7,130000,54,0,2
8,140000,62,0,3
9,190000,79,1,2


## Création de la classe

La première étape de notre algorithme est la création de la classe qui va contenir toutes les fonctions dont notre algorithme à besoin pour fonctionner. On va commencer par la fonction de d'initialisation.

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

## Séparation

Maintenant que nous avons notre classe, il va falloir implémenter toutes les fonctions nécessaires à l'entraînement d'un arbre de décision. On va commencer par la séparation d'une branche en deux sous-branches. 

On peut avoir à faire à deux types de variables : 
- Les variables quantitatives qui sont des variables réelles ;
- Les variables quantitatives qui sont des classes.

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right

Je vous propose un exemple afin de bien comprendre comment la fonction fonctionne. Le but étant de séparer le dataframe initiale en deux dataframes distinct selon une condition sur une des variables du dataset.

In [None]:
dataframe

Unnamed: 0,prix,surface,garage,nb_piece
0,140000,50,1,2
1,150000,55,0,3
2,100000,38,1,2
3,200000,72,0,3
4,220000,70,1,4
5,120000,40,0,2
6,198000,68,0,3
7,130000,54,0,2
8,140000,62,0,3
9,190000,79,1,2


In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
left_node, right_node = tree.__quanti_split__('surface', 60, dataframe)
print(left_node)
print(right_node)

      prix  surface  garage  nb_piece
0   140000       50       1         2
1   150000       55       0         3
2   100000       38       1         2
5   120000       40       0         2
7   130000       54       0         2
11   90000       40       0         2
      prix  surface  garage  nb_piece
3   200000       72       0         3
4   220000       70       1         4
6   198000       68       0         3
8   140000       62       0         3
9   190000       79       1         2
10  170000       67       1         4


In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
left_node, right_node = tree.__quali_split__('garage', 1, dataframe)
print(left_node)
print(right_node)

      prix  surface  garage  nb_piece
0   140000       50       1         2
2   100000       38       1         2
4   220000       70       1         4
9   190000       79       1         2
10  170000       67       1         4
      prix  surface  garage  nb_piece
1   150000       55       0         3
3   200000       72       0         3
5   120000       40       0         2
6   198000       68       0         3
7   130000       54       0         2
8   140000       62       0         3
11   90000       40       0         2


## Fonction de coût

Maintenant que l'on sait comment séparer notre jeu de données, nous allons trouver un moyen de calculer le coût de cette séparation. Le but étant de trouver la séparation correspondant au coût le plus faible. 

Pour calculer à quel point notre séparation est optimale, nous allons utiliser le MSE, l'erreur moyenne au carré. Pour ceux qui ne connaissent pas cette métrique, je vous recommande de regarder ma [vidéo sur la théorie des arbres de décision](https://www.youtube.com/watch?v=gxS_R1Ph9ak).

Le but est de créer des sous-groupes les plus purs possible.

In [None]:
# Nos targets values de départ
row = dataframe['prix']
print(row)

0     140000
1     150000
2     100000
3     200000
4     220000
5     120000
6     198000
7     130000
8     140000
9     190000
10    170000
11     90000
Name: prix, dtype: int64


$$ MSE = \frac{1}{m} \sum^m_{i-1}(y-\widehat{y})^2 $$


In [None]:
def mse(dataset, target):
    """Calcul l'erreur moyenne au carré entre la moyenne du dataset
    et la valeur réel y
    INPUT 
       - dataset : dataset à utiliser
       - target : variable cible à utiliser pour le calcul
    OUTPUT 
       - mse : erreur moyenne au carré du dataset
    """
    rows = dataset[target]
    pred = np.ones(rows.shape[0]) * np.mean(rows)
    mse = (1/len(rows)) *np.sum((rows - pred)**2)

    return mse 

In [None]:
mse(dataframe, 'prix')

1592666666.6666665

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right


  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)

      return mse 

Voici un exemple pour vérifier que la fonction '\_\_mse\_\_' fonctionne correctement.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree.__mse__(dataframe)

1592666666.6666665

## Évaluer une séparation

Félicitations, vous avez maintenant votre fonction '\_\_mse\_\_' pour calculer les performances d'un nœud . Maintenant, vous allez pouvoir créer une fonction capable de déterminer le coût d'une séparation d'un nœud  en deux branches.

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""
  
  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right


  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)

      return mse 

  def __split_evaluator__(self, left_dataset, right_dataset):
    """Calculer le coût d'une séparation d'un noeud en deux branches
    INPUT 
       - left_dataset : dataset de la branche de gauche
       - right_dataset : dataset de la branche de droite
    OUTPUT 
       - cost : coût de la séparation"""
    left_eval = self.__mse__(left_dataset)
    nb_left = left_dataset.shape[0]
    right_eval = self.__mse__(right_dataset)
    nb_right = right_dataset.shape[0]
    nb_tot = nb_left + nb_right
    cost = nb_left/nb_tot * left_eval + nb_right/nb_tot * right_eval
    return cost 

Un exemple pour vérifier que la fonction d'évaluation de la séparation fonctionne bien.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
left_node, right_node = tree.__quanti_split__('surface', 60, dataframe)
print(tree.__mse__(dataframe))
print(tree.__split_evaluator__(left_node, right_node))

1592666666.6666665
547222222.2222221


## Évaluer les séparations possibles

Maintenant que l'on sait évaluer la performance des séparations, il faut créer une fonction qui va tester toutes les séparations possibles afin de les évaluer et trouver la meilleure séparation. 

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right


  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)
      return mse 

  def __split_evaluator__(self, left_dataset, right_dataset):
    """ Calculer le coût d'une séparation d'un noeud en deux branches
    INPUT 
       - left_dataset : dataset de la branche de gauche
       - right_dataset : dataset de la branche de droite
    OUTPUT 
       - cost : coût de la séparation"""
    left_eval = self.__mse__(left_dataset)
    nb_left = left_dataset.shape[0]
    right_eval = self.__mse__(right_dataset)
    nb_right = right_dataset.shape[0]
    nb_tot = nb_left + nb_right
    cost = nb_left/nb_tot * left_eval + nb_right/nb_tot * right_eval
    return cost 

  def __test_quali__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable qualitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation"""   

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    for value in dataset.loc[:, feature].unique() :
      left, right = self.__quali_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quali',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __test_quanti__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable quantitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation""" 

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    value_to_test = (dataset.loc[:, feature].sort_values()[1:].values + dataset.loc[:, feature].sort_values()[:-1].values)/2
    for value in value_to_test :
      left, right = self.__quanti_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quanti',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval

Deux exemples pour vérifier notre nouvelle fonction.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree.__test_quali__(dataframe, 'garage')

Unnamed: 0,feature,value,nature,cost
0,garage,1,quali,1521238000.0
0,garage,0,quali,1521238000.0


In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree.__test_quanti__(dataframe, 'surface')

Unnamed: 0,feature,value,nature,cost
0,surface,39.0,quanti,1327576000.0
0,surface,40.0,quanti,736963000.0
0,surface,45.0,quanti,736963000.0
0,surface,52.0,quanti,731541700.0
0,surface,54.5,quanti,561238100.0
0,surface,58.5,quanti,547222200.0
0,surface,64.5,quanti,356552400.0
0,surface,67.5,quanti,440666700.0
0,surface,69.0,quanti,781407400.0
0,surface,71.0,quanti,1256467000.0


Utilisons nos nouvelles fonctions afin de déterminer la meilleure séparation de notre dataset.

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right


  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)
      return mse 

  def __split_evaluator__(self, left_dataset, right_dataset):
    """ Calculer le coût d'une séparation d'un noeud en deux branches
    INPUT 
       - left_dataset : dataset de la branche de gauche
       - right_dataset : dataset de la branche de droite
    OUTPUT 
       - cost : coût de la séparation"""
    left_eval = self.__mse__(left_dataset)
    nb_left = left_dataset.shape[0]
    right_eval = self.__mse__(right_dataset)
    nb_right = right_dataset.shape[0]
    nb_tot = nb_left + nb_right
    cost = nb_left/nb_tot * left_eval + nb_right/nb_tot * right_eval
    return cost 

  def __test_quali__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable qualitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation"""   

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    for value in dataset.loc[:, feature].unique() :
      left, right = self.__quali_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quali',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __test_quanti__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable quantitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation""" 

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    value_to_test = (dataset.loc[:, feature].sort_values()[1:].values + dataset.loc[:, feature].sort_values()[:-1].values)/2
    for value in value_to_test :
      left, right = self.__quanti_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quanti',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __find_best_split__(self, dataset):
    """ Trouver la meilleure séparation de notre jeu de données
    INPUT 
       - dataset : jeu de données à séparer
    OUTPUT 
       - def_eval : dataset contenant 'feature' variable à séparer, 'value' 
       la valeur à laquelle séparer la variable, 'nature' la nature de la 
       variable et 'cost' le coût de cette séparation"""
    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    columns = dataset.columns[np.logical_not(dataset.columns == self.target)]
    for column in columns : 
      if len(dataset[column].unique()) >= 5 :
        df_eval = df_eval.append(self.__test_quanti__(dataset, column))
      elif len(dataset[column].unique()) > 1 :
        df_eval = df_eval.append(self.__test_quali__(dataset, column))

    df_eval = df_eval.reset_index(drop=True)

    idx_cost_min = df_eval['cost'].idxmin(axis=0, skipna=True)

    return df_eval.iloc[idx_cost_min, :]

Un exemple, pour vérifier si notre fonction est opérationnelle. 

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree.__find_best_split__(dataframe)

feature        surface
value             64.5
nature          quanti
cost       3.56552e+08
Name: 6, dtype: object

## Les branches

Nous avons rassemblé quasiment toutes les fonctions nécessaires pour créer notre algorithme d'arbre de décision. Il nous manque cependant la création de branches qui constitue le corps de notre arbre. Nous allons représenter nos branches sous forme de classe.  

In [None]:
class node:
   """Cette classe a pour but de représenter les branches de notre arbre de
   regression.
   """   
   def __init__(self, feature, value, cost, nature, left_branch, right_branch, depth, pop):
      self.feature = feature
      self.value = value
      self.nature = nature
      self.left_branch = left_branch
      self.right_branch = right_branch
      self.depth = depth
      self.pop = pop  
       
   def __split__(self):
      if self.nature == 'quanti' :
          return self.feature + ' <= ' + str(self.value)
      elif self.nature == 'quali' :
          return self.feature + ' == ' + str(self.value)

Un exemple pour vérifier que notre classe conserve les informations dont nous avons besoin.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
feature, value, nature, cost = tree.__find_best_split__(dataframe)
left_branch, right_branch = tree.__quali_split__(feature, value, dataframe)
branch = node(feature, value, cost, nature, left_branch, right_branch, 0, 100)

print(branch.__split__())

surface <= 64.5


## Les feuilles 

Nous avons rassemblé quasiment toutes les fonctions nécessaires pour créer notre algorithme d'arbre de décision. Il nous manque cependant la création de feuille. Nous allons représenter nos feuilles sous forme de classe. 

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right

  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)
      return mse 

  def __split_evaluator__(self, left_dataset, right_dataset):
    """ Calculer le coût d'une séparation d'un noeud en deux branches
    INPUT 
       - left_dataset : dataset de la branche de gauche
       - right_dataset : dataset de la branche de droite
    OUTPUT 
       - cost : coût de la séparation"""
    left_eval = self.__mse__(left_dataset)
    nb_left = left_dataset.shape[0]
    right_eval = self.__mse__(right_dataset)
    nb_right = right_dataset.shape[0]
    nb_tot = nb_left + nb_right
    cost = nb_left/nb_tot * left_eval + nb_right/nb_tot * right_eval
    return cost 

  def __test_quali__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable qualitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation"""   

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    for value in dataset.loc[:, feature].unique() :
      left, right = self.__quali_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quali',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __test_quanti__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable quantitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation""" 

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    value_to_test = (dataset.loc[:, feature].sort_values()[1:].values + dataset.loc[:, feature].sort_values()[:-1].values)/2
    for value in value_to_test :
      left, right = self.__quanti_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quanti',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __find_best_split__(self, dataset):
    """ Trouver la meilleure séparation de notre jeu de données
    INPUT 
       - dataset : jeu de données à séparer
    OUTPUT 
       - def_eval : dataset contenant 'feature' variable à séparer, 'value' 
       la valeur à laquelle séparer la variable, 'nature' la nature de la 
       variable et 'cost' le coût de cette séparation"""
    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    columns = dataset.columns[np.logical_not(dataset.columns == self.target)]
    for column in columns : 
      if len(dataset[column].unique()) >= 5 :
        df_eval = df_eval.append(self.__test_quanti__(dataset, column))
      elif len(dataset[column].unique()) > 1 :
        df_eval = df_eval.append(self.__test_quali__(dataset, column))

    df_eval = df_eval.reset_index(drop=True)

    idx_cost_min = df_eval['cost'].idxmin(axis=0, skipna=True)

    return df_eval.iloc[idx_cost_min, :]

  def create_leaf(self, dataset):
    """ Création d'une feuille 
    INPUT 
       - dataset : dataset de la feuille à construire
    OUTPUT 
       - leaf : la classe feuille créée avec les informations de notre dataset"""

    labels = dataset[self.target]
    pop = labels.shape[0]
    prediction = np.mean(labels)
  
    return leaf(dataset, pop, prediction)

class leaf:
  """Cette classe a pour but de représenter les feuilles de notre arbre de
  regression.
  """
  def __init__(self, dataset, pop, prediction):
    self.dataset = dataset
    self.pop = pop
    self.prediction = prediction

Un exemple pour vérifier que notre classe conserve les informations dont nous avons besoin.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
leaf_reg = tree.create_leaf(dataframe)
print(leaf_reg.prediction)
print(leaf_reg.pop)

154000.0
12


## Entraînement

Maintenant que nous avons créé toutes nos fonctions et nos classes, on peut passer à l'implémentation de notre fonction d'entraînement.

In [None]:
class decision_tree_regressor :
  """ Cette classe a pour but de créer un algorithme d'apprentissage automatique
  d'arbres de décision regresseur"""

  def __init__(self, target, dataframe, max_depth):
    """Cette fonction a pour but d'initialiser les variables essentiel à la 
    construction de notre algorithme.
   INPUT 
    - target : la variable cible qu'il faudra classifier
    - dataframe : les données d'apprentissage
    - max_deapth : la profondeur maximal de l'arbre à entraîner
   """
    self.max_depth = max_depth
    self.target = target
    self.dataframe = dataframe

  def __quanti_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable quantitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est plus petit ou égale à 'value'
    - right : dataframe avec les données où 'feature' est plus grande que 'value' 
   """
   
   left = dataset[dataset.loc[:,feature]<= value]
   right = dataset[dataset.loc[:,feature]> value]

   return left, right

  def __quali_split__(self, feature, value, dataset):
   """Cette fonction split un jeu de données en fonction
   de la valeur 'value' de la variable qualitative 'feature' passé en paramètre
   INPUT 
    - feature : integer correspondant à la variable à séparer
    - value : integer correspond à la valeur à laquelle séparer notre jeu de données
    - dataset : pandas dataframe à séparer
   OUTPUT 
    - left : dataframe avec les données où 'feature' est égale 'value'
    - right : dataframe avec les données où 'feature' est différent 'value'
   """
   
   left = dataset[dataset.loc[:,feature]== value]
   right = dataset[dataset.loc[:,feature]!= value]

   return left, right

  def __mse__(self, dataset):
      """Calcul l'erreur moyenne au carré entre la moyenne du dataset
      et la valeur réelle y
      INPUT 
        - dataset : dataset à utiliser
      OUTPUT 
        - mse : erreur moyenne au carré du dataset
      """
      rows = dataset[self.target]
      pred = np.ones(rows.shape[0]) * np.mean(rows)
      mse = (1/len(rows)) *np.sum((rows - pred)**2)
      return mse 

  def __split_evaluator__(self, left_dataset, right_dataset):
    """ Calculer le coût d'une séparation d'un noeud en deux branches
    INPUT 
       - left_dataset : dataset de la branche de gauche
       - right_dataset : dataset de la branche de droite
    OUTPUT 
       - cost : coût de la séparation"""
    left_eval = self.__mse__(left_dataset)
    nb_left = left_dataset.shape[0]
    right_eval = self.__mse__(right_dataset)
    nb_right = right_dataset.shape[0]
    nb_tot = nb_left + nb_right
    cost = nb_left/nb_tot * left_eval + nb_right/nb_tot * right_eval
    return cost 

  def __test_quali__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable qualitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation"""   

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    for value in dataset.loc[:, feature].unique() :
      left, right = self.__quali_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quali',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __test_quanti__(self, dataset, feature):
    """ Tester toutes les séparations possibles d'une variable quantitative
    INPUT 
       - dataset : dataset à évaluer
       - feature : variable du dataset à évaluer
    OUTPUT 
       - df_eval : dataframe contenant le coût de chaque séparation""" 

    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    value_to_test = (dataset.loc[:, feature].sort_values()[1:].values + dataset.loc[:, feature].sort_values()[:-1].values)/2
    for value in value_to_test :
      left, right = self.__quanti_split__(feature, value, dataset)
      cost_result = self.__split_evaluator__(left, right)
      df_eval = df_eval.append(pd.DataFrame([[feature, 
                                              value,
                                              'quanti',
                                              cost_result]],
                                            columns=('feature', 'value', 'nature', 'cost')))
    return df_eval


  def __find_best_split__(self, dataset):
    """ Trouver la meilleure séparation de notre jeu de données
    INPUT 
       - dataset : jeu de données à séparer
    OUTPUT 
       - def_eval : dataset contenant 'feature' variable à séparer, 'value' 
       la valeur à laquelle séparer la variable, 'nature' la nature de la 
       variable et 'cost' le coût de cette séparation"""
    df_eval = pd.DataFrame([], columns=('feature', 'value', 'nature', 'cost'))
    columns = dataset.columns[np.logical_not(dataset.columns == self.target)]
    for column in columns : 
      if len(dataset[column].unique()) >= 5 :
        df_eval = df_eval.append(self.__test_quanti__(dataset, column))
      elif len(dataset[column].unique()) > 1 :
        df_eval = df_eval.append(self.__test_quali__(dataset, column))

    df_eval = df_eval.reset_index(drop=True)

    idx_cost_min = df_eval['cost'].idxmin(axis=0, skipna=True)

    return df_eval.iloc[idx_cost_min, :]

  def create_leaf(self, dataset):
    """ Création d'une feuille 
    INPUT 
       - dataset : dataset de la feuille à construire
    OUTPUT 
       - leaf : la classe feuille créé avec les informations de notre dataset"""

    labels = dataset[self.target]
    pop = labels.shape[0]
    prediction = np.mean(labels)
    return leaf(dataset, pop, prediction)

  def training(self, dataset, depth=0):
      """Cette fonction va construire l'arbre de décision en fonction des 
      paramètres fournir à l'initialisation de cette classe.
      INPUT 
         - depth : profondeur actuel de l'arbre
      OUTPUT 
         - node : racine de l'arbre
      """

      # Cette partie de code vérifie que le dataset peut encore être séparé
      no_more_split = True
      columns = dataset.columns[np.logical_not(dataset.columns == self.target)]
      for column in columns : 
        if len(dataset[column].unique()) > 1 :
          no_more_split = False

      # Si le dataset est pure, ou que la profondeur maximum est atteinte ou
      # que le dataset ne peut plus être séparé nous créons une feuille
      if len(dataset[self.target].unique())==1 or depth==self.max_depth or no_more_split:
        return self.create_leaf(dataset)

      # Recherche de la meilleur séparation
      split_eval = self.__find_best_split__(dataset)

      # Si le coût obtenu après séparation est moins bon le coût actuel, 
      # création d'une feuille avec le dataset actuel
      if split_eval['cost'] >= self.__mse__(dataset) :
          return self.create_leaf(dataset)

      # Séparation du dataset selon la nature de la variable choisie
      if split_eval['nature'] == 'quali' :
         left_branch, right_branch = self.__quali_split__(split_eval['feature'], split_eval['value'], dataset)
      elif split_eval['nature'] == 'quanti' :
         left_branch, right_branch = self.__quanti_split__(split_eval['feature'], split_eval['value'], dataset)

      # Entraînement récursif de la branche de gauche
      left_node = self.training(left_branch, depth+1)

      # Entraînement récrusif de la branche de droite
      right_node = self.training(right_branch, depth+1)

      # On retourne la racine de l'arbre
      return node(split_eval['feature'], 
                  split_eval['value'], 
                  split_eval['cost'], 
                  split_eval['nature'],
                  left_node,
                  right_node,
                  depth,
                  dataset.shape[0])
      
  def fit(self):
    """ Entraînement du modèle
    OUTPUT 
       - node : racine de l'arbre"""
    return self.training(self.dataframe)

Vérification pour voir si la variable fonctionne correctement.

In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree_trained = tree.fit()

## Visualisation de l'arbre

Notre arbre est construit, mais il est compliqué de le comprendre, nous allons donc construire une fonction qui va nous permettre de visualiser l'arbre.

In [None]:
def print_tree(node, spacing=""):
  """Affichage de l'arbre de décision
  INPUT 
     - node : branche à afficher
     - spacings : espace à afficher en fonction de la profondeur de la branche"""

  # Différents affichages si c'est une feuille 
  if isinstance(node, leaf):
      print (spacing + "Predict", node.prediction)
      return

  # Affichage de la condition de la séparation
  print (spacing + node.__split__())

  # Dans le cas où la condition est vérifiée
  print (spacing + '--> True:')
  print_tree(node.left_branch, spacing + "  ")

  # Dans le cas où la condition n'est pas vérifiée
  print (spacing + '--> False:')
  print_tree(node.right_branch, spacing + "  ")

In [None]:
dataframe

Unnamed: 0,prix,surface,garage,nb_piece
0,140000,50,1,2
1,150000,55,0,3
2,100000,38,1,2
3,200000,72,0,3
4,220000,70,1,4
5,120000,40,0,2
6,198000,68,0,3
7,130000,54,0,2
8,140000,62,0,3
9,190000,79,1,2


In [None]:
tree = decision_tree_regressor('prix', dataframe, 4)
tree_trained = tree.fit()
print_tree(tree_trained)

surface <= 64.5
--> True:
  surface <= 40.0
  --> True:
    surface == 38
    --> True:
      Predict 100000.0
    --> False:
      Predict 105000.0
  --> False:
    surface == 55
    --> True:
      Predict 150000.0
    --> False:
      surface == 54
      --> True:
        Predict 130000.0
      --> False:
        Predict 140000.0
--> False:
  surface <= 67.5
  --> True:
    Predict 170000.0
  --> False:
    surface == 70
    --> True:
      Predict 220000.0
    --> False:
      surface == 79
      --> True:
        Predict 190000.0
      --> False:
        Predict 199000.0


J'espère que ce notebook vous a plu, abonnez-vous à la chaîne YouTube et mettez une étoile sur le github de ce répertoire.

## Sources : 
- https://www.youtube.com/watch?v=gxS_R1Ph9ak&t=548s
- http://soutien67.free.fr/svt/animaux/classification/classification01.htm
- https://www.youtube.com/watch?v=LDRbO9a6XPU
- https://machinelearningmastery.com/implement-decision-tree-algorithm-scratch-python/
- https://www.youtube.com/watch?v=g9c66TUylZ4
- https://www.youtube.com/watch?v=7VeUPuFGJHk&t=599s
