<h1 style="color:red; text-align:center; text-decoration:underline;">Arbres de Décision</h1>


<h2 style="color:green; text-decoration:underline;">Test 1 : Classification d’un fruit (pomme ou banane)</h2>

Dans ce test, un arbre de décision simple est entraîné sur des données représentant des fruits en fonction de leur poids et de leur taille.  
L’objectif est de prédire la classe (pomme ou banane) d’un fruit inconnu en utilisant une règle déterministe issue d’un seul arbre.


In [1]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# ----------------------------
# Étape 1 : Données (poids, taille)
# ----------------------------
X = np.array([
    [180, 8],    # pomme
    [200, 7.5],  # pomme
    [170, 8.5],  # pomme
    [120, 12],   # banane
    [130, 13],   # banane
    [115, 11.5]  # banane
])
y = np.array([0, 0, 0, 1, 1, 1])  # 0 = pomme, 1 = banane

# ----------------------------
# Étape 2 : Création et entraînement de l'arbre
# ----------------------------
model = DecisionTreeClassifier()
model.fit(X, y)

# ----------------------------
# Étape 3 : Prédiction d’un nouveau fruit
# ----------------------------
fruit_test = np.array([[160, 8]])  # fruit inconnu
prediction = model.predict(fruit_test)

# ----------------------------
# Étape 4 : Affichage
# ----------------------------
resultat = "banane" if prediction[0] == 1 else "pomme"
print(f"Fruit de 160g et 8cm est classé comme : {resultat}")


Fruit de 160g et 8cm est classé comme : pomme


<h3 style="color:#0056b3; text-decoration:underline;">Résultat</h3>

L’arbre de décision a classé le fruit de 160g et 8cm comme une **pomme**.  
Cependant, cette prédiction s’appuie sur une seule règle d’arborescence, ce qui peut conduire à des erreurs de généralisation, en particulier pour des cas intermédiaires.  
Ce test illustre la vulnérabilité des arbres uniques au **surapprentissage**, notamment en l’absence de mécanismes de régularisation ou d’ensemble.


<h2 style="color:green; text-decoration:underline;">Test 2 : Comparaison avec un modèle Random Forest</h2>

Le même échantillon est ensuite testé avec un modèle Random Forest, composé de plusieurs arbres entraînés sur des sous-échantillons aléatoires.


In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# ----------------------------
# Données : [poids, taille]
# ----------------------------
X = np.array([
    [180, 8],
    [200, 7.5],
    [170, 8.5],
    [120, 12],
    [130, 13],
    [115, 11.5]
])

# 0 = pomme, 1 = banane
y = np.array([0, 0, 0, 1, 1, 1])

# ----------------------------
# Modèle 1 : Arbre de décision
# ----------------------------
tree_model = DecisionTreeClassifier(random_state=0)
tree_model.fit(X, y)

# ----------------------------
# Modèle 2 : Forêt aléatoire
# ----------------------------
forest_model = RandomForestClassifier(n_estimators=100, random_state=0)
forest_model.fit(X, y)

# ----------------------------
# Tester un fruit inconnu (ex: 150g et 10cm)
# ----------------------------
fruit_test = np.array([[150, 10]])

pred_tree = tree_model.predict(fruit_test)[0]
pred_forest = forest_model.predict(fruit_test)[0]

# ----------------------------
# Affichage
# ----------------------------
print("Arbre de décision : ", "pomme" if pred_tree == 0 else "banane")
print("Random Forest     : ", "pomme" if pred_forest == 0 else "banane")


Arbre de décision :  pomme
Random Forest     :  banane


<h3 style="color:#0056b3; text-decoration:underline;">Résultat et Interprétation</h3>

L’arbre de décision et le modèle Random Forest ont été appliqués pour prédire la classe d’un fruit caractérisé par un poids de 150g et une taille de 10cm.  
L’arbre de décision a classé ce fruit comme une **pomme**, tandis que la Random Forest l’a classé comme une **banane**.

Cette divergence met en évidence une limitation classique des arbres de décision uniques : bien qu’interprétables, ils sont sensibles au surapprentissage et peuvent produire des décisions instables, notamment pour les cas ambigus ou proches des frontières de séparation.  
À l’inverse, la Random Forest tire parti de l’agrégation de plusieurs arbres diversifiés, ce qui permet de réduire les erreurs dues à une segmentation trop spécifique.  
Elle offre ainsi une **meilleure généralisation**, plus robuste face aux variations dans les données, confirmant son avantage sur les modèles simples dans les contextes de classification supervisée.
