# Sous-ajustement et surajustement !

Affinez votre modèle pour de meilleures performances.

## Concepts clés

### 1. Sous-ajustement (underfitting) :

Le modèle est trop simple et ne capture pas suffisamment les motifs importants dans les données.
**Cela entraîne une faible précision**, même sur les données d'entraînement.

Exemples : un arbre de décision avec très peu de feuilles (ex. : 5 feuilles).

### 2. Surajustement (overfitting) :

Le modèle est trop complexe, capturant des motifs spécifiques au jeu de données d'entraînement.
**Cela entraîne une excellente performance** sur les données d'entraînement, mais **une précision médiocre** sur les nouvelles données.

Exemples : un arbre de décision avec un nombre excessif de feuilles (ex. : 5000 feuilles).

### 3. Recherche de l'équilibre :

Le but est de trouver un juste milieu où le modèle est suffisamment complexe pour capturer les motifs dans les données, mais pas au point de surajuster.
Cela peut être visualisé comme le point minimum sur une courbe d'erreur en fonction de la complexité.

## Stratégie d'optimisation
Pour éviter le sous-ajustement et le surajustement :

**1. Utiliser des données de validation :**
Ces données permettent d'évaluer la qualité du modèle sur un jeu de données non utilisé pour l'entraînement.

**2. Tester différents hyperparamètres :**
Exemple : le nombre maximal de feuilles dans un arbre de décision.

# PRATIQUE : Optimisation

In [5]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# Supprimer les lignes avec des valeurs manquantes
melbourne_data1 = melbourne_data.dropna(axis=0)

# Définir la cible et les features
y = melbourne_data1.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data1[melbourne_features]

# Définir le modèle
melbourne_model = DecisionTreeRegressor(random_state=1)

# Ajuster le modèle
melbourne_model.fit(X, y)

# Prediction
predictions = melbourne_model.predict(X)

# Comparer les premières prédictions avec les valeurs réelles
comparison = pd.DataFrame({'Predicted': predictions, 'Actual': y}).head()



# Division des données (données entrainement et validation
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

# Définir et entraîner le modèle
melbourne_model = DecisionTreeRegressor()
melbourne_model.fit(train_X, train_y)

# Prédictions sur les données de validation
val_predictions = melbourne_model.predict(val_X)

# Calculer la MAE
MAE = mean_absolute_error(val_y, val_predictions)



***Définir une fonction pour calculer le MAE en fonction du nombre de feuilles***

In [7]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    # Initialiser un modèle avec un nombre spécifique de feuilles
    nodes_model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    # Entraîner le modèle sur les données d'entraînement
    nodes_model.fit(train_X, train_y)
    # Faire des prédictions sur les données de validation
    preds_val = nodes_model.predict(val_X)
    # Calculer et retourner la MAE
    nodes_mae = mean_absolute_error(val_y, preds_val)
    return nodes_mae


***Tester différents nombres de feuilles et comparer les performances***

In [11]:
# Tester des valeurs de max_leaf_nodes et afficher les résultats
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" % (max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  385696
Max leaf nodes: 50  		 Mean Absolute Error:  279794
Max leaf nodes: 500  		 Mean Absolute Error:  261718
Max leaf nodes: 5000  		 Mean Absolute Error:  271320


### Exemple et analyse : Nombre optimal de feuilles
En utilisant le code fourni, différentes valeurs pour ***max_leaf_nodes*** ont été testées :

            Max Leaf Nodes	Mean Absolute Error (MAE)
                    5	    347 380
                    50	    258 171
                    500	    243 495 (optimal)
                    5000	254 983
**Interprétation :**
- Avec 5 feuilles : le modèle sous-ajuste (grande MAE).
- Avec 500 feuilles : la MAE est minimale, ce qui suggère un bon équilibre.
- Avec 5000 feuilles : le modèle commence à surajuster (l'erreur augmente légèrement).


#### Signification de max_leaf_nodes
- Paramètre de complexité :

Plus le nombre de feuilles est grand, plus le modèle est complexe.
Cela correspond à une division plus fine des données en sous-groupes.
- Impact :

**Faible nombre de feuilles** : Sous-ajustement (le modèle est trop général).
**Nombre excessif de feuilles** : Surajustement (le modèle devient trop spécifique).

#### Conclusion pratique
Optimiser le nombre de feuilles permet d'améliorer les performances du modèle en trouvant le compromis idéal entre **complexité et généralisation**.

Pour un modèle donné, il est recommandé d'utiliser des données de validation et de tester plusieurs valeurs d’hyperparamètres pour sélectionner le meilleur modèle.

### Comparer différentes tailles d'arbres

In [17]:
# Liste des tailles de feuilles à tester
candidate_max_leaf_nodes = [5, 50, 500, 5000]

# Initialiser une variable pour suivre la meilleure MAE et la meilleure taille d'arbre
best_mae = float("inf")
best_tree_size = None

# Boucle pour tester chaque taille de feuille
for max_leaf_nodes in candidate_max_leaf_nodes:
    # Calculer la MAE pour chaque taille d'arbre
    mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    
    # Vérifier si cette MAE est meilleure que la meilleure MAE précédente
    if mae < best_mae:
        best_mae = mae
        best_tree_size = max_leaf_nodes

# Afficher la meilleure taille d'arbre et la MAE correspondante
print(f"La meilleure taille d'arbre est {best_tree_size} avec une MAE de {best_mae:.0f}")

La meilleure taille d'arbre est 500 avec une MAE de 261718


### Ajuster le modèle avec toutes les données

In [20]:
# Remplissez les arguments pour définir la taille optimale de l'arbre et décommentez
final_model = DecisionTreeRegressor(max_leaf_nodes=best_tree_size, random_state=0)

# Ajustez le modèle final avec toutes les données disponibles (X et y)
final_model.fit(X, y)

In [31]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are:")
predictions2 = final_model.predict(X)
print(predictions2)

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are:
[1078446.42857143 1246050.         1660600.         ...  393070.45454545
  635110.39330544 2677500.        ]
