# Validation du modèle

### Qu'est-ce que la validation de modèle ?
La validation d’un modèle est une étape essentielle pour mesurer sa qualité. Elle permet de s'assurer que le modèle fournit des prédictions proches de ce qui se passe réellement. La mesure de la précision prédictive est au cœur de l’amélioration continue des modèles.

Une **erreur** courante est d'évaluer un modèle en comparant ses prédictions à partir des **données d'entraînement**. Cela peut donner une impression erronée de la qualité du modèle, car il a déjà "vu" ces données. On parle alors d’évaluation **"in-sample"**, qui est souvent biaisée.

### L’erreur absolue moyenne (MAE)
La **Mean Absolute Error (MAE)** est une métrique simple pour résumer la qualité du modèle. Elle représente la moyenne des écarts absolus entre les valeurs prédites et les valeurs réelles. En termes simples :

        En moyenne, nos prédictions sont erronées de X unités.

Formule de l'erreur :

                    Erreur = Valeur réelle - Valeur prédite

La MAE est obtenue en prenant la valeur absolue des erreurs (pour éviter les nombres négatifs), puis en calculant la moyenne.

### Le problème des scores "in-sample"
Les scores "in-sample" sont obtenus en évaluant le modèle sur les mêmes données utilisées pour l’entraîner. Cependant, cela peut entraîner des **biais** :

Le modèle peut détecter des schémas spécifiques au jeu de données d’entraînement, qui ne se vérifient pas avec de nouvelles données.

Cela peut donner des résultats prometteurs en entraînement, mais un modèle peu performant en pratique.

Exemple :
Si, dans vos données d’entraînement, les maisons avec des portes vertes sont chères, le modèle peut apprendre cette fausse corrélation et donner de mauvaises prédictions sur de nouvelles données.

### Validation avec des données externes
Pour éviter ce **biais**, on utilise des **données de validation** qui n’ont pas été utilisées pour construire le modèle. Cela permet d’évaluer sa performance sur des données nouvelles et non vues.

Le découpage des données en deux parties – **données d'entraînement** et **données de validation** – est réalisé avec la fonction **train_test_split** de **Scikit-learn**.

### Code : Validation du modèle
Voici les étapes principales :

1. Diviser les données en données d’entraînement et de validation.
2. Entraîner le modèle sur les données d’entraînement.
3. Calculer la MAE sur les données de validation.

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error

# Division des données
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

# Définir et entraîner le modèle
melbourne_model = DecisionTreeRegressor()
melbourne_model.fit(train_X, train_y)

# Prédictions sur les données de validation
val_predictions = melbourne_model.predict(val_X)

# Calculer la MAE
print(mean_absolute_error(val_y, val_predictions))

NameError: name 'X' is not defined

Réponse : 273681.4639552399

#### Résumé :
Résultat de la MAE :

    Une MAE de 273 681,46 indique une erreur moyenne élevée, suggérant que le modèle nécessite des améliorations pour être précis et utilisable en pratique.

random_state=0 :
    
    Cela garantit que les divisions des données seront reproductibles, rendant vos analyses cohérentes et fiables.

La **MAE (Mean Absolute Error)** indique que, en moyenne, les prédictions du modèle sont erronées de 273 681,46 unités par rapport aux valeurs réelles.

Dans le contexte de **l'immobilier**, si l'unité utilisée est la monnaie locale (par exemple, en euros ou en dollars), cela signifie que :

**En moyenne, les prédictions de prix des maisons sont décalées de 273 681,46 par rapport aux prix réels.**

### Analyse de la performance**

**Performance relative :**

**Si la moyenne des prix des maisons dans les données de validation est, par exemple, de 1 000 000, une erreur de 273 681 représente environ 27,37 % du prix moyen.**

Cela pourrait être acceptable dans un marché très volatil ou imprécis.
Sinon, cela montre que **le modèle est loin d'être suffisamment précis**.

**Conséquences pratiques :**

Si vous utilisez ce modèle pour prédire des prix immobiliers, une telle erreur peut entraîner des estimations peu fiables, rendant le modèle inadapté pour une prise de décision critique.

### Action recommandée :

1. Réviser les données d'entraînement : vérifier leur qualité, leur quantité et leur pertinence.
2. Tester d'autres modèles ou ajuster les paramètres pour améliorer les performances.
3. Ajouter des variables explicatives pertinentes qui pourraient mieux capter les relations dans les données.

#### Interprétation des résultats
1. La MAE obtenue avec les données d'entraînement (in-sample) peut être très faible, ce qui donne l'impression d'un modèle performant.
2. En revanche, la MAE obtenue avec les données de validation (out-of-sample) est souvent plus élevée. Cela reflète la performance réelle du modèle sur des données non vues.

#### Amélioration du modèle
Pour réduire l’erreur et améliorer les prédictions, vous pouvez :

1. Expérimenter avec d’autres variables explicatives (features).
2. Tester différents types de modèles (exemple : forêts aléatoires, modèles linéaires, etc.).
3. Ajuster les hyperparamètres du modèle.