# 🌳 Cours : Arbres de Décision (Decision Tree)

## 1. Définition
Un **arbre de décision** est un algorithme d'apprentissage supervisé qui permet de prendre une décision à partir de conditions successives sur les données.

- Chaque **nœud** teste une condition sur une variable.
- Chaque **branche** correspond à un résultat possible de cette condition.
- Chaque **feuille** donne une **prédiction** (classe ou valeur).

Lorsqu'un nœud donne la réponse, on dit que le nœud est <b>terminal</b>. Prenons l'arbre de décision suivant qui indique si 
l'on doit prendre un parapluie avec nous en fonction du temps.

In [None]:
# Affiche l'image

from IPython.display import HTML
import base64

# Ouvre et encode l'image
with open("arb.jpg", "rb") as f:
    image_data = f.read()
    image_base64 = base64.b64encode(image_data).decode("utf-8")

# HTML d'affichage
html = f'<img src="data:image/png;base64,{image_base64}" width="600"/>'
HTML(html)

### ✔ Avantages :
- Interprétable (facile à comprendre)
- Gère les données catégorielles et numériques

### ❌ Inconvénients :
- Risque de sur-apprentissage (overfitting)
- Sensible aux petites variations des données

---

## 2. Utilisation typique
On l'utilise en **classification** (on obtient une **catégorie**) ou en **régression** (on obtient une **valeur**) pour prédire un résultat à partir de plusieurs critères :
- Exemple : prédire si un élève réussira à un projet NSI en fonction de son travail, son organisation, etc.

# 🧪 TP : Prédire la réussite d’un élève avec un arbre de décision (Classification)

On veut prédire la réussite d’un élève à partir de :
- son nombre d’heures de travail par semaine
- s’il travaille en groupe ou non
- s’il rend ses devoirs à l’heure

In [None]:
# Installation des bibliothèques
!pip install pandas numpy scikit-learn matplotlib

In [None]:
# 1. Importation des bibliothèques
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

In [None]:
# 2. Jeu de données
# Chaque ligne correspond à un élève
data = pd.DataFrame({
    'heures': [2, 5, 3, 8, 1, 7, 4],
    'groupe': ['non', 'oui', 'oui', 'oui', 'non', 'non', 'oui'],
    'rend_a_heure': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'oui'],
    'reussite': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'oui']
})

print(data)

In [None]:
# 3. Encodage des données catégorielles
enc_groupe = LabelEncoder()
enc_rend = LabelEncoder()
enc_reussite = LabelEncoder()

data['groupe'] = enc_groupe.fit_transform(data['groupe'])
data['rend_a_heure'] = enc_rend.fit_transform(data['rend_a_heure'])
data['reussite'] = enc_reussite.fit_transform(data['reussite'])

print(data)

In [None]:
# 4. Apprentissage du modèle
X = data[['heures', 'groupe', 'rend_a_heure']]
y = data['reussite']

clf = DecisionTreeClassifier()
clf.fit(X, y)

In [None]:
# 5. Prédiction pour un nouvel élève
# Exemple : 4h/semaine, travaille en groupe, rend à l’heure
nouvel_eleve = [[4, 1, 1]]
prediction = clf.predict(nouvel_eleve)
print("Réussite prédite :", enc_reussite.inverse_transform(prediction))

In [None]:
# 6. Affichage graphique de l'arbre
plt.figure(figsize=(10, 6))
plot_tree(clf,
          feature_names=['heures', 'groupe', 'rend_a_heure'],
          class_names=enc_reussite.classes_,
          filled=True,
          rounded=True)
plt.title("Arbre de décision - Réussite au projet NSI")
plt.show()

L'arbre de décision de **classification** est monté à partir de <b>l'indice de Gini</b> qui est calculé par une formule mathématiques tenant compte de la proportion des données appartenant à une classe à partir d'un critère. Il doit être le plus <b>proche de 0</b> (noeud pur) possible, un coefficient proche de 0.5 est très mauvais.
Ici, on voit que le fait de ne pas rendre à temps son travail est synonyme d'échec : c'est le critère de division principal retenu !

# 🧪 TP : Classification des animaux avec un Arbre de Décision

On veut prédire la classification d'un animal à partir de :
- sa taille
- la présence de poils
- s’il vit dans l'eau

In [None]:
# 🧪 TP : Classification des animaux avec un Arbre de Décision

## Objectif :
# Vous allez construire un arbre de décision qui permet de classer des animaux en fonction de leurs caractéristiques.
# Complétez le code ci-dessous pour entraîner le modèle et faire des prédictions.

# 🚀 1. Importation des bibliothèques
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt


# 🚀 2. Création du jeu de données
# Remplissez ce tableau avec des animaux et leurs caractéristiques
data = pd.DataFrame({
    'Taille': ['petit', 'grand', 'petit', 'moyen', 'grand', 'moyen', 'petit'],
    'A des poils': ['oui', 'non', 'oui', 'non', 'non', 'oui', 'oui'],
    'Vit dans l’eau': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'non'],
    'Classe': ['mammifère', 'poisson', 'mammifère', 'amphibien', 'oiseau', 'mammifère', 'mammifère']
})


# 🚀 3. Encodage des données catégorielles
enc_taille = LabelEncoder()
enc_poils = LabelEncoder()
enc_eau = LabelEncoder()
enc_classe = LabelEncoder()


############ A COMPLETER ##################


# Affichage du tableau encodé
print(data)


# 🚀 4. Création et entraînement du modèle

############ A COMPLETER ##################


# 🚀 5. Prédiction pour un nouvel animal
# Animal : taille moyenne, a des poils, ne vit pas dans l’eau
nouvel_animal = [[1, 1, 0]]
prediction = clf.predict(nouvel_animal)

print("Classe prédite :", enc_classe.inverse_transform(prediction))


# 🚀 6. Affichage de l'arbre de décision
plt.figure(figsize=(10, 6))
plot_tree(clf,
          feature_names=['Taille', 'A des poils', 'Vit dans l’eau'],
          class_names=enc_classe.classes_,
          filled=True,
          rounded=True)
plt.title("Arbre de Décision - Classification des Animaux")
plt.show()

### 🎯 **Questions pour aller plus loin**
 
 1. Compléter le code. 
 2. Quels sont les critères les plus déterminants selon l’arbre ?
 3. Ajoutez d’autres animaux au jeu de données. L’arbre s’adapte-t-il bien ?

# 🧪 TP d'Application : Prédiction du Prix d'une Maison avec un Arbre de Décision

## Objectif :
Dans ce TP, vous allez entraîner un **arbre de décision de régression** pour prédire le **prix d'une maison** en fonction de plusieurs critères :
- **Surface habitable (m²)**
- **Nombre de chambres**
- **Année de construction**

Votre objectif est de **compléter le code** ci-dessous afin d'entraîner un modèle d'arbre de régression et de faire des prédictions.

In [None]:
# 1. Importation des bibliothèques
import pandas as pd
from sklearn.tree import DecisionTreeRegressor, plot_tree
import matplotlib.pyplot as plt

In [None]:
# 2. Création du jeu de données (à compléter)
data = pd.DataFrame({
    'surface': [50, 75, 100, 120, 150, 200, 250],
    'chambres': [1, 2, 3, 3, 4, 5, 5],
    'annee_construction': [2000, 1995, 2010, 2005, 2015, 1990, 1985],
    'prix': [150000, 200000, 250000, 275000, 350000, 400000, 500000]
})

print(data)  # Affichage du tableau


In [None]:
# 3. Création et entraînement du modèle (à compléter)
X = data[['surface', 'chambres', 'annee_construction']]
y = data['prix']

reg = DecisionTreeRegressor()
reg.fit(X, y)


In [None]:
# 4. Prédiction pour une nouvelle maison
# Testez avec une maison de 110m², 3 chambres, construite en 2012
nouvelle_maison = [[110, 3, 2012]]
prediction = reg.predict(nouvelle_maison)
print("Prix prédit :", prediction[0], "€")


In [None]:
# 5. Affichage de l'arbre de décision
plt.figure(figsize=(12, 6))
plot_tree(reg,
          feature_names=['surface', 'chambres', 'annee_construction'],
          filled=True,
          rounded=True)
plt.title("Arbre de Décision - Prédiction du Prix d'une Maison")
plt.show()

On utilise cette fois **la variance réduite** (écart à la moyenne) pour déterminer les critères de sélection des noeuds.

### 🎯 **Questions pour aller plus loin**
1. Modifiez les valeurs de `nouvelle_maison`. Comment la prédiction change-t-elle ?
2. Quelle est le critère qui influence le plus le prix d'une maison selon l'arbre ?
3. (*) Modifier les données pour que la surface soit le critère principal du prix de la maison.
