
# üå≥ Cours & TPs : Random Forest et Arbres de D√©cision

## 1Ô∏è‚É£ Introduction ‚Äì Le surapprentissage d‚Äôun arbre de d√©cision

Un arbre de d√©cision non limit√© peut **surapprendre** les donn√©es, c‚Äôest-√†-dire m√©moriser les points d‚Äôapprentissage sans g√©n√©raliser correctement.



## üß™ TP 1 ‚Äì Arbre de D√©cision vs R√©gression Lin√©aire

Nous allons simuler une relation simple `y = x + bruit` et entra√Æner :
- un **arbre de d√©cision** (sans limitation)
- une **r√©gression lin√©aire**


In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib

In [None]:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression

np.random.seed(0)
X = np.arange(1, 11).reshape(-1, 1)
y = X.flatten() + np.random.normal(scale=0.5, size=X.shape[0])

tree = DecisionTreeRegressor()
tree.fit(X, y)

linear = LinearRegression()
linear.fit(X, y)

X_test = np.linspace(1, 10, 100).reshape(-1, 1)
y_tree = tree.predict(X_test)
y_linear = linear.predict(X_test)

plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='black', label="Donn√©es")
plt.plot(X_test, y_tree, color='red', label="Arbre (overfitting)")
plt.plot(X_test, y_linear, color='blue', label="R√©gression lin√©aire")
plt.title("Surapprentissage : Arbre vs R√©gression")
plt.xlabel("x"); plt.ylabel("y")
plt.legend(); plt.grid(True); plt.show()



### ‚ùì Questions :
1. Pourquoi la courbe rouge est-elle irr√©guli√®re ?
2. Quel mod√®le suit la tendance globale ?
3. Lequel serait plus fiable pour pr√©dire un nouveau point ?



## üìò 2Ô∏è‚É£ Cours ‚Äì Algorithme Random Forest

Random Forest est un **ensemble d‚Äôarbres de d√©cision**, chacun entra√Æn√© sur un √©chantillon **al√©atoire** du jeu de donn√©es, avec des variables s√©lectionn√©es al√©atoirement √† chaque n≈ìud.

### √âtapes :
1. **Bootstrap** : √©chantillonnage al√©atoire avec r√©p√©tition
2. **S√©lection al√©atoire de variables**
3. **Agr√©gation** :
   - Vote majoritaire (classification)
   - Moyenne (r√©gression)

### ‚úÖ Avantages :
- Moins de surapprentissage
- Plus stable et robuste

### ‚ö†Ô∏è Inconv√©nients :
- Moins interpr√©table
- Temps de calcul plus long



## üß™ TP 2 ‚Äì Classification : Reconna√Ætre un animal

Nous allons utiliser un `RandomForestClassifier` pour pr√©dire si un animal est un **mammif√®re**, un **poisson** ou un **oiseau**, √† partir de ses caract√©ristiques.


In [None]:

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder

data = pd.DataFrame({
    'taille': ['petit', 'moyen', 'grand', 'petit', 'grand', 'moyen'],
    'poils': ['oui', 'non', 'non', 'oui', 'non', 'oui'],
    'aquatique': ['non', 'oui', 'non', 'non', 'oui', 'non'],
    'classe': ['mammif√®re', 'poisson', 'oiseau', 'mammif√®re', 'poisson', 'mammif√®re']
})

enc_taille = LabelEncoder()
enc_poils = LabelEncoder()
enc_aqua = LabelEncoder()
enc_classe = LabelEncoder()

data['taille'] = enc_taille.fit_transform(data['taille'])
data['poils'] = enc_poils.fit_transform(data['poils'])
data['aquatique'] = enc_aqua.fit_transform(data['aquatique'])
data['classe'] = enc_classe.fit_transform(data['classe'])

X = data[['taille', 'poils', 'aquatique']]
y = data['classe']

# Algorithme Random Forest : n_estimators est le nombre d'arbres
clf = RandomForestClassifier(n_estimators=10, random_state=0)
clf.fit(X, y)

# Test d'un nouvel animal 
nouvel_animal = [[enc_taille.transform(['moyen'])[0],
                  enc_poils.transform(['oui'])[0],
                  enc_aqua.transform(['non'])[0]]]

prediction = clf.predict(nouvel_animal)
print("Classe pr√©dite :", enc_classe.inverse_transform(prediction)[0])


**Remarque** : le code ci-dessous permet de trouver **l'importance de chaque variable. TRES UTILE !**

In [None]:
import matplotlib.pyplot as plt

importances = clf.feature_importances_
colonnes = X.columns

plt.bar(colonnes, importances)
plt.title("Importance des variables")
plt.ylabel("Importance")
plt.grid(True)
plt.show()


### ‚ùì Questions :
1. Quelle classe est pr√©dite ?
2. Tester avec un petit animal, sans poils et non aquatique.
3. Pourquoi Random Forest est-elle plus fiable qu‚Äôun arbre seul ?



## üîÅ Activit√© compl√©mentaire ‚Äì Influence de `n_estimators`

Testons l'effet du nombre d'arbres sur la **pr√©cision** et le **temps de calcul**.


In [None]:

from sklearn.ensemble import RandomForestClassifier
import time

for n in [1, 5, 10, 100]:
    clf = RandomForestClassifier(n_estimators=n, random_state=0)
    start = time.time()
    clf.fit(X, y)
    score = clf.score(X, y)
    duration = time.time() - start
    print(f"{n} arbres ‚Üí Score : {score:.2f} | Temps : {duration:.4f} sec")



### üìà Visualisation de l‚Äô√©volution du score


In [None]:
# Importation des biblioth√®ques
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier

# √âtape 1 : G√©n√©ration d'un grand jeu de donn√©es
# 10000 √©chantillons, 15 variables, 3 classes
X, y = make_classification(n_samples=10000,
                           n_features=15,
                           n_informative=6,
                           n_redundant=2,
                           n_classes=3,
                           random_state=42) # Permet d'avoir le m√™me jeu de donn√©es, on peut mettre un nombre al√©atoire. 
                                            # Mettre 0 sinon.

# √âtape 2 : Liste des tailles de for√™t √† tester
valeurs = [1, 5, 10, 20, 50, 100, 200, 300]
scores = []

# √âtape 3 : Boucle sur chaque valeur de n_estimators
for n in valeurs:
    start = time.time()
    clf = RandomForestClassifier(n_estimators=n, random_state=0)
    clf.fit(X, y)
    score = clf.score(X, y)  # Score sur les donn√©es d'entra√Ænement
    scores.append(score)
    duration = time.time() - start
    print(f"{n} arbres ‚Üí Score : {score:.2f} | Temps : {duration:.4f} sec")

# √âtape 4 : Visualisation du score
plt.figure(figsize=(8, 5))
plt.plot(valeurs, scores, marker='o')
plt.title("√âvolution du score selon le nombre d‚Äôarbres (n_estimators)")
plt.xlabel("Nombre d‚Äôarbres")
plt.ylabel("Score sur l‚Äôensemble d‚Äôapprentissage")
plt.grid(True)
plt.show()



### ‚ùì Questions :
1. √Ä partir de combien d‚Äôarbres le score se stabilise-t-il ?
2. Le temps de calcul augmente-t-il beaucoup ?
3. Quelle valeur serait un bon compromis ?


**Remarque** : il existe `RandomForestRegressor` qui permet de pr√©dire une **valeur** plut√¥t qu'une classe. Je vous laisse chercher :).