# üå≥ Cours : Arbres de D√©cision (Decision Tree)

## 1. D√©finition
Un **arbre de d√©cision** est un algorithme d'apprentissage supervis√© qui permet de prendre une d√©cision √† partir de conditions successives sur les donn√©es.

- Chaque **n≈ìud** teste une condition sur une variable.
- Chaque **branche** correspond √† un r√©sultat possible de cette condition.
- Chaque **feuille** donne une **pr√©diction** (classe ou valeur).

Lorsqu'un n≈ìud donne la r√©ponse, on dit que le n≈ìud est <b>terminal</b>. Prenons l'arbre de d√©cision suivant qui indique si 
l'on doit prendre un parapluie avec nous en fonction du temps.

In [None]:
# Affiche l'image

from IPython.display import HTML
import base64

# Ouvre et encode l'image
with open("arb.jpg", "rb") as f:
    image_data = f.read()
    image_base64 = base64.b64encode(image_data).decode("utf-8")

# HTML d'affichage
html = f'<img src="data:image/png;base64,{image_base64}" width="600"/>'
HTML(html)

### ‚úî Avantages :
- Interpr√©table (facile √† comprendre)
- G√®re les donn√©es cat√©gorielles et num√©riques

### ‚ùå Inconv√©nients :
- Risque de sur-apprentissage (overfitting)
- Sensible aux petites variations des donn√©es

---

## 2. Utilisation typique
On l'utilise en **classification** (on obtient une **cat√©gorie**) ou en **r√©gression** (on obtient une **valeur**) pour pr√©dire un r√©sultat √† partir de plusieurs crit√®res :
- Exemple : pr√©dire si un √©l√®ve r√©ussira √† un projet NSI en fonction de son travail, son organisation, etc.

# üß™ TP : Pr√©dire la r√©ussite d‚Äôun √©l√®ve avec un arbre de d√©cision (Classification)

On veut pr√©dire la r√©ussite d‚Äôun √©l√®ve √† partir de :
- son nombre d‚Äôheures de travail par semaine
- s‚Äôil travaille en groupe ou non
- s‚Äôil rend ses devoirs √† l‚Äôheure

In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib

In [None]:
# 1. Importation des biblioth√®ques
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

In [None]:
# 2. Jeu de donn√©es
# Chaque ligne correspond √† un √©l√®ve
data = pd.DataFrame({
    'heures': [2, 5, 3, 8, 1, 7, 4],
    'groupe': ['non', 'oui', 'oui', 'oui', 'non', 'non', 'oui'],
    'rend_a_heure': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'oui'],
    'reussite': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'oui']
})

print(data)

In [None]:
# 3. Encodage des donn√©es cat√©gorielles
enc_groupe = LabelEncoder()
enc_rend = LabelEncoder()
enc_reussite = LabelEncoder()

data['groupe'] = enc_groupe.fit_transform(data['groupe'])
data['rend_a_heure'] = enc_rend.fit_transform(data['rend_a_heure'])
data['reussite'] = enc_reussite.fit_transform(data['reussite'])

print(data)

In [None]:
# 4. Apprentissage du mod√®le
X = data[['heures', 'groupe', 'rend_a_heure']]
y = data['reussite']

clf = DecisionTreeClassifier()
clf.fit(X, y)

In [None]:
# 5. Pr√©diction pour un nouvel √©l√®ve
# Exemple : 4h/semaine, travaille en groupe, rend √† l‚Äôheure
nouvel_eleve = [[4, 1, 1]]
prediction = clf.predict(nouvel_eleve)
print("R√©ussite pr√©dite :", enc_reussite.inverse_transform(prediction))

In [None]:
# 6. Affichage graphique de l'arbre
plt.figure(figsize=(10, 6))
plot_tree(clf,
          feature_names=['heures', 'groupe', 'rend_a_heure'],
          class_names=enc_reussite.classes_,
          filled=True,
          rounded=True)
plt.title("Arbre de d√©cision - R√©ussite au projet NSI")
plt.show()

L'arbre de d√©cision de **classification** est mont√© √† partir de <b>l'indice de Gini</b> qui est calcul√© par une formule math√©matiques tenant compte de la proportion des donn√©es appartenant √† une classe √† partir d'un crit√®re. Il doit √™tre le plus <b>proche de 0</b> (noeud pur) possible, un coefficient proche de 0.5 est tr√®s mauvais.
Ici, on voit que le fait de ne pas rendre √† temps son travail est synonyme d'√©chec : c'est le crit√®re de division principal retenu !

# üß™ TP : Classification des animaux avec un Arbre de D√©cision

On veut pr√©dire la classification d'un animal √† partir de :
- sa taille
- la pr√©sence de poils
- s‚Äôil vit dans l'eau

In [None]:
# üß™ TP : Classification des animaux avec un Arbre de D√©cision

## Objectif :
# Vous allez construire un arbre de d√©cision qui permet de classer des animaux en fonction de leurs caract√©ristiques.
# Compl√©tez le code ci-dessous pour entra√Æner le mod√®le et faire des pr√©dictions.

# üöÄ 1. Importation des biblioth√®ques
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt


# üöÄ 2. Cr√©ation du jeu de donn√©es
# Remplissez ce tableau avec des animaux et leurs caract√©ristiques
data = pd.DataFrame({
    'Taille': ['petit', 'grand', 'petit', 'moyen', 'grand', 'moyen', 'petit'],
    'A des poils': ['oui', 'non', 'oui', 'non', 'non', 'oui', 'oui'],
    'Vit dans l‚Äôeau': ['non', 'oui', 'non', 'oui', 'non', 'oui', 'non'],
    'Classe': ['mammif√®re', 'poisson', 'mammif√®re', 'amphibien', 'oiseau', 'mammif√®re', 'mammif√®re']
})


# üöÄ 3. Encodage des donn√©es cat√©gorielles
enc_taille = LabelEncoder()
enc_poils = LabelEncoder()
enc_eau = LabelEncoder()
enc_classe = LabelEncoder()


############ A COMPLETER ##################


# Affichage du tableau encod√©
print(data)


# üöÄ 4. Cr√©ation et entra√Ænement du mod√®le

############ A COMPLETER ##################


# üöÄ 5. Pr√©diction pour un nouvel animal
# Animal : taille moyenne, a des poils, ne vit pas dans l‚Äôeau
nouvel_animal = [[1, 1, 0]]
prediction = clf.predict(nouvel_animal)

print("Classe pr√©dite :", enc_classe.inverse_transform(prediction))


# üöÄ 6. Affichage de l'arbre de d√©cision
plt.figure(figsize=(10, 6))
plot_tree(clf,
          feature_names=['Taille', 'A des poils', 'Vit dans l‚Äôeau'],
          class_names=enc_classe.classes_,
          filled=True,
          rounded=True)
plt.title("Arbre de D√©cision - Classification des Animaux")
plt.show()

### üéØ **Questions pour aller plus loin**
 
 1. Compl√©ter le code. 
 2. Quels sont les crit√®res les plus d√©terminants selon l‚Äôarbre ?
 3. Ajoutez d‚Äôautres animaux au jeu de donn√©es. L‚Äôarbre s‚Äôadapte-t-il bien ?

# üß™ TP d'Application : Pr√©diction du Prix d'une Maison avec un Arbre de D√©cision

## Objectif :
Dans ce TP, vous allez entra√Æner un **arbre de d√©cision de r√©gression** pour pr√©dire le **prix d'une maison** en fonction de plusieurs crit√®res :
- **Surface habitable (m¬≤)**
- **Nombre de chambres**
- **Ann√©e de construction**

Votre objectif est de **compl√©ter le code** ci-dessous afin d'entra√Æner un mod√®le d'arbre de r√©gression et de faire des pr√©dictions.

In [None]:
# 1. Importation des biblioth√®ques
import pandas as pd
from sklearn.tree import DecisionTreeRegressor, plot_tree
import matplotlib.pyplot as plt

In [None]:
# 2. Cr√©ation du jeu de donn√©es (√† compl√©ter)
data = pd.DataFrame({
    'surface': [50, 75, 100, 120, 150, 200, 250],
    'chambres': [1, 2, 3, 3, 4, 5, 5],
    'annee_construction': [2000, 1995, 2010, 2005, 2015, 1990, 1985],
    'prix': [150000, 200000, 250000, 275000, 350000, 400000, 500000]
})

print(data)  # Affichage du tableau


In [None]:
# 3. Cr√©ation et entra√Ænement du mod√®le (√† compl√©ter)
X = data[['surface', 'chambres', 'annee_construction']]
y = data['prix']

reg = DecisionTreeRegressor()
reg.fit(X, y)


In [None]:
# 4. Pr√©diction pour une nouvelle maison
# Testez avec une maison de 110m¬≤, 3 chambres, construite en 2012
nouvelle_maison = [[110, 3, 2012]]
prediction = reg.predict(nouvelle_maison)
print("Prix pr√©dit :", prediction[0], "‚Ç¨")


In [None]:
# 5. Affichage de l'arbre de d√©cision
plt.figure(figsize=(12, 6))
plot_tree(reg,
          feature_names=['surface', 'chambres', 'annee_construction'],
          filled=True,
          rounded=True)
plt.title("Arbre de D√©cision - Pr√©diction du Prix d'une Maison")
plt.show()

On utilise cette fois **la variance r√©duite** (√©cart √† la moyenne) pour d√©terminer les crit√®res de s√©lection des noeuds.

### üéØ **Questions pour aller plus loin**
1. Modifiez les valeurs de `nouvelle_maison`. Comment la pr√©diction change-t-elle ?
2. Quelle est le crit√®re qui influence le plus le prix d'une maison selon l'arbre ?
3. (*) Modifier les donn√©es pour que la surface soit le crit√®re principal du prix de la maison.
