# Introduction
Dans ce notebook, vous allez implémenter un arbre de décision binaire à partir de zéro.
Vous utiliserez uniquement des listes Python, sans bibliothèques comme pandas ou numpy.
Un sous-ensemble des données du dataset IRIS est inclus dans ce notebook avec ses quatre caractéristiques.

 # Étape 1 : Le dataset
## Créer le dataset
Voici une version complète du dataset IRIS contenant ses quatre caractéristiques :

| Longueur de la pétale | Largeur de la pétale | Longueur de la sépale | Largeur de la sépale | Etiquette |
|-----------------------|----------------------|-----------------------|----------------------|-----------|
| 5.1 | 3.5 | 1.4 | 0.2 | setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | setosa |
| 4.7 | 3.2 | 1.3 | 0.2 | setosa |
| 7.0 | 3.2 | 4.7 | 1.4 | versicolor |
| 6.4 | 3.2 | 4.5 | 1.5 | versicolor |
| 6.9 | 3.1 | 4.9 | 1.5 | versicolor |
| 6.3 | 3.3 | 6.0 | 2.5 | virginica |
| 5.8 | 2.7 | 5.1 | 1.9 | virginica |
| 7.1 | 3.0 | 5.9 | 2.1 | virginica |

Créer une liste de listes permettant de stocker ces données. Chaque liste interne contient un exemple, c'est à dire une ligne du dataset avec les 4 valeurs caractéristiques et l'étiquette. La liste globale contient l'ensemble des exemples du dataset, c'est à dire toutes les lignes du tableau. Stocker cette liste dans une variable

In [None]:
iris_data = [
    [5.1,3.5,1.4,0.2,"setosa"],
    [4.9,3.0,1.4,0.2,"setosa"],
    [4.7,3.2,1.4,0.2, "setosa"],
    [7.0,3.2,4.7,1.4,"versicolor"],
    [6.4,3.2,4.5,1.5,"versicolor"],
    [6.9,3.1,4.9,1.5,"versicolor"],
    [6.3,3.3,6.0,2.5,"virginica"],
    [5.8,2.7,5.1,1.9,"virginica"],
    [7.1,3.0,5.9,2.1,"virginica"],
            ]
print(iris_data)

## Préparer les données
Ecrire la fonction `split_data` qui sépare les données en caractéristiques (stockées dans une variable X) et étiquettes (stockées dans une variable y)
Afficher les variables X et y pour valider leur contenu.

In [None]:
#def 关键字用来定义函数
def split_data(data):
  #对iris_data中的每一行进行切片，而不是对整个进行切片。所以要定义row
  #row是代表iris_data 里面的一行数据
    x = [row[:4] for row in iris_data]
    #表达式：取一行里的前四个值
    #迭代元素是每一行
    #迭代对象是iris_data
    y = [row[4] for row in iris_data]
    return x, y

x, y = split_data(iris_data)
print("x : ",x)
print("y : ",y)
#java中用 System.out.println("Hello, " + name + "! You are " + age + " years old.") 用加号链接变量

# Étape 2 : Créer une classe pour représenter un arbre binaire

Créer une classe `BinaryDecisionTree` permettant de définir des règles génériques pour tout arbre binaire.
Cette classe doit contenir:

- une méthode `__init__` qui est le constructeur de la classe. Elle doit permettre d'initialise un nœud de l'arbre de décision avec paramètres suivants:

    - Entrées:
        - `feature_index` : index de la caractéristique utilisée pour la division.
        - `threshold` : valeur seuil pour diviser les données.
        - `left` : sous-arbre gauche.
        - `right` : sous-arbre droit.
        - `value` : valeur de la classe si c'est une feuille (None pour un nœud interne).

- une méthode `is_leaf` qui vérifie si le nœud actuel est une feuille:
    - Sortie:
        - Retourne `True` si le nœud contient une valeur (donc une feuille).
        - Retourne `False` si le nœud est un nœud interne.

- une méthode `predict` qui prédit la classe pour une ligne donnée.
    - Entrée:
        - `row` : liste des caractéristiques d'une instance.
    - Sortie:
        - Si le nœud est une feuille, retourne la valeur de la classe.
        - Sinon, compare la valeur de la caractéristique à l'index `feature_index` avec le seuil.
           - Si inférieur au seuil, appelle récursivement la méthode sur le sous-arbre gauche.
           - Sinon, appelle récursivement la méthode sur le sous-arbre droit.

In [None]:
class BinaryDecisionTree:
  def __init__(self,feature_index,threshold,left,right,value):
    self.feature_index = feature_index
    self.threshold = threshold
    self.left = left
    self.right = right
    self.value = value

  def is_leaf(self): #用来检查是不是叶子节点 - noeud actuel
    if self.value is None:
      return False
    else:
      return True

  ## 重要的预测步骤在这里
  ## 预测最主要用的就是这个predict
  def predict(self,row):
    if self.is_leaf(): #本身if就检测的是boolean，所以此时不需要 == True，可以简化
      return self.value
    else:
      if row[self.feature_index] < self.threshold:
        return self.left.predict(row)
      else:
        return self.right.predict(row)

# Etape 3 : Créer une fonction pour construire un arbre facilement
Ecrire la fonction `build_tree` qui permet de construire un arbre de décision binaire spécifique pour le dataset IRIS.
    
    - Sortie:
        - Retourne la racine de l'arbre construit.

    - Description de l'arbre :
        - À la racine, on utilise la caractéristique 0 (longueur des sépales) avec un seuil de 6.0.
            - Si inférieur à 6.0 :
                - On utilise la caractéristique 1 (largeur des sépales) avec un seuil de 3.0.
                    - Si inférieur à 3.0 :
                        - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 4.5.
                            - Si inférieur à 4.5 : classe "setosa".
                            - Sinon : classe "versicolor".
                    - Sinon : classe "versicolor".
            - Sinon :
                - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 5.5.
                    - Si inférieur à 5.5 :
                        - On utilise la caractéristique 3 (largeur des pétales) avec un seuil de 1.8.
                            - Si inférieur à 1.8 : classe "versicolor".
                            - Sinon : classe "virginica".
                    - Sinon : classe "virginica".

In [None]:
def build_tree(data):
  # 叶子节点
  setosa = BinaryDecisionTree(None,None,None,None,"setosa")
  versicolor = BinaryDecisionTree(None,None,None,None,"versicolor")
  virginica = BinaryDecisionTree(None,None,None,None,"virginica")

  # 左侧内部节点构建
  left_longueur = BinaryDecisionTree(2,4.5,setosa,versicolor,None)
  left_largeur = BinaryDecisionTree(1,3.0,left_longueur,versicolor,None)

  # 右侧内部节点构建
  right_largeur = BinaryDecisionTree(3,1.8,versicolor,virginica,None)
  right_longueur = BinaryDecisionTree(2,5.5,right_largeur,virginica,None)

  # 根节点
  root = BinaryDecisionTree(0,6.0,left_largeur,right_longueur,None)

  return root

En utilisant la fonction précédente, construire l'arbre de décision et le stocker dans une variable

In [None]:
decision_tree = build_tree(iris_data)

# Étape 4 : Tester l'arbre sur le dataset IRIS
Faites des prédictions en utilisant l'arbre défini

In [None]:
prediction =[decision_tree.predict(row)for row in x]
print(prediction)

# Etape 5 : Evaluer l'arbre

Écrivez une fonction `evaluate_tree_performance` qui calcule la précision de l'arbre de décision sur un dataset donné. La précision est définie comme le pourcentage de prédictions correctes.

Exemple d'utilisation :
accuracy = evaluate_tree_performance(tree, iris_data)
print("Précision de l'arbre :", accuracy, "%")

In [None]:
def evaluate_tree_performance(tree, data):
    x, y = split_data(data)
    correct_predictions = 0
    for i in range(len(x)):
      test_prediction = tree.predict(x[i])
      if prediction == y[i]:
        correct_predictions += 1
    accuracy = (correct_predictions / len(x)) * 100
    return accuracy

accuracy = evaluate_tree_performance(decision_tree, iris_data)
print("Précision de l'arbre :", accuracy, "%")

Caractéristiques : [[5.1, 3.5, 1.4, 0.2], [4.9, 3.0, 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [7.0, 3.2, 4.7, 1.4], [6.4, 3.2, 4.5, 1.5], [6.9, 3.1, 4.9, 1.5], [6.3, 3.3, 6.0, 2.5], [5.8, 2.7, 5.1, 1.9], [7.1, 3.0, 5.9, 2.1]]
Étiquettes : ['setosa', 'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor', 'virginica', 'virginica', 'virginica']
Caractéristiques : [5.1, 3.5, 1.4, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [4.9, 3.0, 1.4, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [4.7, 3.2, 1.3, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [7.0, 3.2, 4.7, 1.4] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.4, 3.2, 4.5, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.9, 3.1, 4.9, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.3, 3.3, 6.0, 2.5] Attendu : virginica Predit : virginica
Caractéristiques : [5.8, 2.7, 5.1, 1.9] Attendu : virginica Predit : versicolor
Caractéristiques : [7.1,

# Etape 6 : Améliorer l'arbre de décision
Proposer et évaluer d'autres arbres de décision permettant d'améliorer votre prédiction sur le dataset IRIS.

Caractéristiques : [5.1, 3.5, 1.4, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [4.9, 3.0, 1.4, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [4.7, 3.2, 1.3, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [7.0, 3.2, 4.7, 1.4] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.4, 3.2, 4.5, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.9, 3.1, 4.9, 1.5] Attendu : versicolor Predit : virginica
Caractéristiques : [6.3, 3.3, 6.0, 2.5] Attendu : virginica Predit : virginica
Caractéristiques : [5.8, 2.7, 5.1, 1.9] Attendu : virginica Predit : virginica
Caractéristiques : [7.1, 3.0, 5.9, 2.1] Attendu : virginica Predit : virginica
Précision de l'arbre alternatif : 88.88888888888889 %
