# Introduction
Dans ce notebook, vous allez implémenter un arbre de décision binaire à partir de zéro.
Vous utiliserez uniquement des listes Python, sans bibliothèques comme pandas ou numpy.
Un sous-ensemble des données du dataset IRIS est inclus dans ce notebook avec ses quatre caractéristiques.

# Étape 1 : Le dataset
## Créer le dataset
Voici une version complète du dataset IRIS contenant ses quatre caractéristiques :

| Longueur de la pétale | Largeur de la pétale | Longueur de la sépale | Largeur de la sépale | Etiquette |
|-----------------------|----------------------|-----------------------|----------------------|-----------|
| 5.1 | 3.5 | 1.4 | 0.2 | setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | setosa | 
| 4.7 | 3.2 | 1.3 | 0.2 | setosa | 
| 7.0 | 3.2 | 4.7 | 1.4 | versicolor | 
| 6.4 | 3.2 | 4.5 | 1.5 | versicolor | 
| 6.9 | 3.1 | 4.9 | 1.5 | versicolor | 
| 6.3 | 3.3 | 6.0 | 2.5 | virginica | 
| 5.8 | 2.7 | 5.1 | 1.9 | virginica | 
| 7.1 | 3.0 | 5.9 | 2.1 | virginica | 

Créer une liste de listes permettant de stocker ces données. Chaque liste interne contient un exemple, c'est à dire une ligne du dataset avec les 4 valeurs caractéristiques et l'étiquette. La liste globale contient l'ensemble des exemples du dataset, c'est à dire toutes les lignes du tableau. Stocker cette liste dans une variable

In [1]:
iris_data = [
    [5.1, 3.5, 1.4, 0.2, "setosa"],
    [4.9, 3.0, 1.4, 0.2, "setosa"],
    [4.7, 3.2, 1.3, 0.2, "setosa"],
    [7.0, 3.2, 4.7, 1.4, "versicolor"],
    [6.4, 3.2, 4.5, 1.5, "versicolor"],
    [6.9, 3.1, 4.9, 1.5, "versicolor"],
    [6.3, 3.3, 6.0, 2.5, "virginica"],
    [5.8, 2.7, 5.1, 1.9, "virginica"],
    [7.1, 3.0, 5.9, 2.1, "virginica"]
]

## Préparer les données
Ecrire la fonction `split_data` qui sépare les données en caractéristiques (stockées dans une variable X) et étiquettes (stockées dans une variable y)
Afficher les variables X et y pour valider leur contenu.

In [2]:
def split_data(data):
    X = [row[:4] for row in data]  # Caractéristiques
    y = [row[4] for row in data]  # Étiquettes
    return X, y

X, y = split_data(iris_data)
print("Caractéristiques :", X)
print("Étiquettes :", y)

Caractéristiques : [[5.1, 3.5, 1.4, 0.2], [4.9, 3.0, 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [7.0, 3.2, 4.7, 1.4], [6.4, 3.2, 4.5, 1.5], [6.9, 3.1, 4.9, 1.5], [6.3, 3.3, 6.0, 2.5], [5.8, 2.7, 5.1, 1.9], [7.1, 3.0, 5.9, 2.1]]
Étiquettes : ['setosa', 'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor', 'virginica', 'virginica', 'virginica']


# Étape 2 : Créer une classe pour représenter un arbre binaire

Créer une classe `BinaryDecisionTree` permettant de définir des règles génériques pour tout arbre binaire.
Cette classe doit contenir:

- une méthode `__init__` qui est le constructeur de la classe. Elle doit permettre d'initialise un nœud de l'arbre de décision avec paramètres suivants:

    - Entrées:
        - `feature_index` : index de la caractéristique utilisée pour la division.
        - `threshold` : valeur seuil pour diviser les données.
        - `left` : sous-arbre gauche.
        - `right` : sous-arbre droit.
        - `value` : valeur de la classe si c'est une feuille (None pour un nœud interne). 

- une méthode `is_leaf` qui vérifie si le nœud actuel est une feuille:
    - Sortie:
        - Retourne `True` si le nœud contient une valeur (donc une feuille).
        - Retourne `False` si le nœud est un nœud interne.

- une méthode `predict` qui prédit la classe pour une ligne donnée.
    - Entrée:
        - `row` : liste des caractéristiques d'une instance.
    - Sortie:
        - Si le nœud est une feuille, retourne la valeur de la classe.
        - Sinon, compare la valeur de la caractéristique à l'index `feature_index` avec le seuil.
           - Si inférieur au seuil, appelle récursivement la méthode sur le sous-arbre gauche.
           - Sinon, appelle récursivement la méthode sur le sous-arbre droit.

In [3]:
class BinaryDecisionTree:
    def __init__(self, feature_index=None, threshold=None, left=None, right=None, value=None):
        """
        Initialise un nœud de l'arbre de décision.
        - feature_index : index de la caractéristique utilisée pour la division.
        - threshold : valeur seuil pour diviser les données.
        - left : sous-arbre gauche.
        - right : sous-arbre droit.
        - value : valeur de la classe si c'est une feuille (None pour un nœud interne).
        """
        self.feature_index = feature_index  # Index de la caractéristique utilisée pour la décision
        self.threshold = threshold  # Seuil pour diviser les données
        self.left = left  # Sous-arbre gauche
        self.right = right  # Sous-arbre droit
        self.value = value  # Valeur à retourner si c'est une feuille

    def is_leaf(self):
        """
        Vérifie si le nœud actuel est une feuille.
        - Retourne True si le nœud contient une valeur (donc une feuille).
        - Retourne False si le nœud est un nœud interne.
        """
        return self.value is not None

    def predict(self, row):
        """
        Prédit la classe pour une ligne donnée.
        - row : liste des caractéristiques d'une instance.
        Étapes :
        1. Si le nœud est une feuille, retourne la valeur de la classe.
        2. Sinon, compare la valeur de la caractéristique à l'index feature_index avec le seuil.
           - Si inférieur au seuil, appelle récursivement la méthode sur le sous-arbre gauche.
           - Sinon, appelle récursivement la méthode sur le sous-arbre droit.
        """
        if self.is_leaf():
            return self.value
        if row[self.feature_index] < self.threshold:
            return self.left.predict(row)
        else:
            return self.right.predict(row)

# Etape 3 : Créer une fonction pour construire un arbre facilement
Ecrire la fonction `build_tree` qui permet de construire un arbre de décision binaire spécifique pour le dataset IRIS.
    
    - Sortie: 
        - Retourne la racine de l'arbre construit.

    - Description de l'arbre :
        - À la racine, on utilise la caractéristique 0 (longueur des sépales) avec un seuil de 6.0.
            - Si inférieur à 6.0 :
                - On utilise la caractéristique 1 (largeur des sépales) avec un seuil de 3.0.
                    - Si inférieur à 3.0 :
                        - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 4.5.
                            - Si inférieur à 4.5 : classe "setosa".
                            - Sinon : classe "versicolor".
                    - Sinon : classe "versicolor".
            - Sinon :
                - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 5.5.
                    - Si inférieur à 5.5 :
                        - On utilise la caractéristique 3 (largeur des pétales) avec un seuil de 1.8.
                            - Si inférieur à 1.8 : classe "versicolor".
                            - Sinon : classe "virginica".
                    - Sinon : classe "virginica".

In [4]:
def build_tree():
    """
    Construit un arbre de décision binaire spécifique pour le dataset IRIS.
    - Retourne la racine de l'arbre construit.

    Description de l'arbre :
    - À la racine, on utilise la caractéristique 0 (longueur des sépales) avec un seuil de 6.0.
        - Si inférieur à 6.0 :
            - On utilise la caractéristique 1 (largeur des sépales) avec un seuil de 3.0.
                - Si inférieur à 3.0 :
                    - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 4.5.
                        - Si inférieur à 4.5 : classe "setosa".
                        - Sinon : classe "versicolor".
                - Sinon : classe "versicolor".
        - Sinon :
            - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 5.5.
                - Si inférieur à 5.5 :
                    - On utilise la caractéristique 3 (largeur des pétales) avec un seuil de 1.8.
                        - Si inférieur à 1.8 : classe "versicolor".
                        - Sinon : classe "virginica".
                - Sinon : classe "virginica".
    """
    root = BinaryDecisionTree(feature_index=0, threshold=6.0)

    # Branche gauche
    left_subtree = BinaryDecisionTree(feature_index=1, threshold=3.0)
    left_subtree.left = BinaryDecisionTree(feature_index=2, threshold=4.5,
                                           left=BinaryDecisionTree(value="setosa"),
                                           right=BinaryDecisionTree(value="versicolor"))
    left_subtree.right = BinaryDecisionTree(value="versicolor")

    # Branche droite
    right_subtree = BinaryDecisionTree(feature_index=2, threshold=5.5)
    right_subtree.left = BinaryDecisionTree(feature_index=3, threshold=1.8,
                                            left=BinaryDecisionTree(value="versicolor"),
                                            right=BinaryDecisionTree(value="virginica"))
    right_subtree.right = BinaryDecisionTree(value="virginica")

    # Assembler l'arbre
    root.left = left_subtree
    root.right = right_subtree

    return root


En utilisant la fonction précédente, construire l'arbre de décision et le stocker dans une variable

In [5]:
tree = build_tree()


# Étape 4 : Tester l'arbre sur le dataset IRIS
Faites des prédictions en utilisant l'arbre défini

In [6]:
for row in iris_data:
    prediction = tree.predict(row[:4])
    print("Caractéristiques :", row[:4], "Attendu :", row[4], "Predit :", prediction)

Caractéristiques : [5.1, 3.5, 1.4, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [4.9, 3.0, 1.4, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [4.7, 3.2, 1.3, 0.2] Attendu : setosa Predit : versicolor
Caractéristiques : [7.0, 3.2, 4.7, 1.4] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.4, 3.2, 4.5, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.9, 3.1, 4.9, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.3, 3.3, 6.0, 2.5] Attendu : virginica Predit : virginica
Caractéristiques : [5.8, 2.7, 5.1, 1.9] Attendu : virginica Predit : versicolor
Caractéristiques : [7.1, 3.0, 5.9, 2.1] Attendu : virginica Predit : virginica


# Etape 5 : Evaluer l'arbre

Écrivez une fonction `evaluate_tree_performance` qui calcule la précision de l'arbre de décision sur un dataset donné. La précision est définie comme le pourcentage de prédictions correctes.

Exemple d'utilisation :
accuracy = evaluate_tree_performance(tree, iris_data)
print("Précision de l'arbre :", accuracy, "%")

In [7]:
# Fonction pour évaluer la performance de l'arbre

def evaluate_tree_performance(tree, data):
    """
    Évalue la précision de l'arbre de décision sur un dataset donné.
    - tree : l'arbre de décision à utiliser pour les prédictions.
    - data : le dataset (liste de listes) contenant les caractéristiques et les étiquettes.
    - Retourne la précision en pourcentage.
    """
    correct_predictions = 0
    for row in data:
        features = row[:4]  # Caractéristiques
        true_label = row[4]  # Étiquette réelle
        prediction = tree.predict(features)  # Prédiction de l'arbre
        if prediction == true_label:
            correct_predictions += 1
    accuracy = (correct_predictions / len(data)) * 100  # Calcul de la précision
    return accuracy

# Calculer et afficher la précision de l'arbre
accuracy = evaluate_tree_performance(tree, iris_data)
print("Précision de l'arbre :", accuracy, "%")

Précision de l'arbre : 55.55555555555556 %


# Etape 6 : Améliorer l'arbre de décision
Proposer et évaluer d'autres arbres de décision permettant d'améliorer votre prédiction sur le dataset IRIS.

In [8]:
def build_alternative_tree():
    """
    Construit un arbre de décision alternatif pour le dataset IRIS.
    - Retourne la racine de l'arbre construit.

    Description de l'arbre :
    - À la racine, on utilise la caractéristique 2 (longueur des pétales) avec un seuil de 2.5.
        - Si inférieur à 2.5 : classe "setosa".
        - Sinon :
            - On utilise la caractéristique 3 (largeur des pétales) avec un seuil de 1.8.
                - Si inférieur à 1.8 :
                    - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 4.8.
                        - Si inférieur à 4.8 : classe "versicolor".
                        - Sinon : classe "virginica".
                - Sinon :
                    - On utilise la caractéristique 2 (longueur des pétales) avec un seuil de 5.1.
                        - Si inférieur à 5.1 : classe "versicolor".
                        - Sinon : classe "virginica".
    """
    root = BinaryDecisionTree(feature_index=2, threshold=2.5)

    # Branche gauche (setosa)
    root.left = BinaryDecisionTree(value="setosa")

    # Branche droite
    right_subtree = BinaryDecisionTree(feature_index=3, threshold=1.8)

    # Sous-arbre gauche de la branche droite
    right_subtree.left = BinaryDecisionTree(feature_index=2, threshold=4.8,
                                            left=BinaryDecisionTree(value="versicolor"),
                                            right=BinaryDecisionTree(value="virginica"))

    # Sous-arbre droit de la branche droite
    right_subtree.right = BinaryDecisionTree(feature_index=2, threshold=5.1,
                                             left=BinaryDecisionTree(value="versicolor"),
                                             right=BinaryDecisionTree(value="virginica"))

    # Assembler l'arbre
    root.right = right_subtree

    return root

# Construire et tester l'arbre alternatif
alternative_tree = build_alternative_tree()

for row in iris_data:
    prediction = alternative_tree.predict(row[:4])
    print("Caractéristiques :", row[:4], "Attendu :", row[4], "Predit :", prediction)

# Calculer et afficher la précision de l'arbre alternatif
alt_accuracy = evaluate_tree_performance(alternative_tree, iris_data)
print("Précision de l'arbre alternatif :", alt_accuracy, "%")


Caractéristiques : [5.1, 3.5, 1.4, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [4.9, 3.0, 1.4, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [4.7, 3.2, 1.3, 0.2] Attendu : setosa Predit : setosa
Caractéristiques : [7.0, 3.2, 4.7, 1.4] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.4, 3.2, 4.5, 1.5] Attendu : versicolor Predit : versicolor
Caractéristiques : [6.9, 3.1, 4.9, 1.5] Attendu : versicolor Predit : virginica
Caractéristiques : [6.3, 3.3, 6.0, 2.5] Attendu : virginica Predit : virginica
Caractéristiques : [5.8, 2.7, 5.1, 1.9] Attendu : virginica Predit : virginica
Caractéristiques : [7.1, 3.0, 5.9, 2.1] Attendu : virginica Predit : virginica
Précision de l'arbre alternatif : 88.88888888888889 %
