# Modèle de Machine Learning

Cette section explique comment construire un modèle de machine learning simple pour prédire les prix de maisons en utilisant la bibliothèque **scikit-learn** et des données de Pandas. Résumons les étapes pour que vous puissiez les essayer dans votre propre environnement :

## Étapes pour Construire et Utiliser un Modèle de Machine Learning
### 1. Préparation des données :

Importer Pandas et charger les données avec pd.read_csv().

Sélectionner la **cible** (target) à prédire, appelée y.

Choisir les **features** (colonnes d'entrée) dans une liste pour construire le DataFrame X.

Vérifier et nettoyer les données si nécessaire avec .dropna().

Exemple :

In [6]:
import pandas as pd

# Charger les données
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,3150.0,...,2.0,2.0,652.0,,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0
13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,3016.0,...,2.0,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0
13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,3016.0,...,2.0,4.0,436.0,,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0
13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,3016.0,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0


In [8]:
# Supprimer les lignes avec des valeurs manquantes
melbourne_data1 = melbourne_data.dropna(axis=0)
melbourne_data1

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.00,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.00,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.00,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
6,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,3067.0,...,2.0,0.0,245.0,210.00,1910.0,Yarra,-37.80240,144.99930,Northern Metropolitan,4019.0
7,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,3067.0,...,1.0,2.0,256.0,107.00,1890.0,Yarra,-37.80600,144.99540,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12205,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,...,2.0,1.0,972.0,149.00,1996.0,Whittlesea,-37.51232,145.13282,Northern Victoria,2170.0
12206,Williamstown,75 Cecil St,3,h,1050000.0,VB,Williams,29/07/2017,6.8,3016.0,...,1.0,0.0,179.0,115.00,1890.0,Hobsons Bay,-37.86558,144.90474,Western Metropolitan,6380.0
12207,Williamstown,2/29 Dover Rd,1,u,385000.0,SP,Williams,29/07/2017,6.8,3016.0,...,1.0,1.0,0.0,35.64,1967.0,Hobsons Bay,-37.85588,144.89936,Western Metropolitan,6380.0
12209,Windsor,201/152 Peel St,2,u,560000.0,PI,hockingstuart,29/07/2017,4.6,3181.0,...,1.0,1.0,0.0,61.60,2012.0,Stonnington,-37.85581,144.99025,Southern Metropolitan,4380.0


In [10]:
# Définir la cible et les features
y = melbourne_data1.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data1[melbourne_features]
print (y, X)

1        1035000.0
2        1465000.0
4        1600000.0
6        1876000.0
7        1636000.0
           ...    
12205     601000.0
12206    1050000.0
12207     385000.0
12209     560000.0
12212    2450000.0
Name: Price, Length: 6196, dtype: float64        Rooms  Bathroom  Landsize  Lattitude  Longtitude
1          2       1.0     156.0  -37.80790   144.99340
2          3       2.0     134.0  -37.80930   144.99440
4          4       1.0     120.0  -37.80720   144.99410
6          3       2.0     245.0  -37.80240   144.99930
7          2       1.0     256.0  -37.80600   144.99540
...      ...       ...       ...        ...         ...
12205      3       2.0     972.0  -37.51232   145.13282
12206      3       1.0     179.0  -37.86558   144.90474
12207      1       1.0       0.0  -37.85588   144.89936
12209      2       1.0       0.0  -37.85581   144.99025
12212      6       3.0    1087.0  -37.81038   144.89389

[6196 rows x 5 columns]


### 2. Définir et ajuster le modèle :

Importer **DecisionTreeRegressor** depuis **sklearn.tree**.
Définir un modèle avec un **random_state** pour obtenir des résultats reproductibles.

Elle importe la classe DecisionTreeRegressor de la bibliothèque scikit-learn.
Cette classe permet de créer un modèle d’arbre de décision utilisé pour prédire des valeurs continues (régression).

Un **arbre de décision** est un modèle qui partitionne les données en sous-groupes en fonction de critères sur les variables (features). Il est utilisé pour **prédire des valeurs en moyenne** ou par **interpolation dans ces sous-groupes**.

Ajuster (**fit**) le modèle avec les données X et y.

Exemple :

In [13]:
from sklearn.tree import DecisionTreeRegressor

# Définir le modèle
melbourne_model = DecisionTreeRegressor(random_state=1)

# Ajuster le modèle
melbourne_model.fit(X, y)

#### Comment ça fonctionne ?
**L'algorithme** :

Identifie la meilleure caractéristique (et sa valeur seuil) pour diviser les données en deux groupes afin de minimiser l'erreur.
Répète ce processus récursivement pour chaque sous-groupe, créant ainsi une structure en forme d'arbre.
À chaque feuille de l'arbre, il prédit une valeur, généralement la moyenne des valeurs cibles dans ce groupe.

## 3. Faire des prédictions :

Utiliser le modèle entraîné pour prédire des résultats avec predict().
Tester avec un sous-ensemble de données (par ex., les 5 premières lignes).
Exemple :

In [18]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are:")
predictions = melbourne_model.predict(X)
print(predictions)

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are:
[1035000. 1465000. 1600000. ...  385000.  560000. 2450000.]


## Comparaison 

In [20]:
# Comparer les premières prédictions avec les valeurs réelles
comparison = pd.DataFrame({'Predicted': predictions, 'Actual': y}).head()

# Afficher la comparaison
print(comparison)


   Predicted     Actual
1  1035000.0  1035000.0
2  1465000.0  1465000.0
4  1600000.0  1600000.0
6  1876000.0  1876000.0
7  1636000.0  1636000.0


# Validation du modèle

Plus d'explication sur le cours suivant

In [27]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error

# Division des données
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

# Définir et entraîner le modèle
melbourne_model = DecisionTreeRegressor()
melbourne_model.fit(train_X, train_y)

# Prédictions sur les données de validation
val_predictions = melbourne_model.predict(val_X)

# Calculer la MAE
print(mean_absolute_error(val_y, val_predictions))


273681.4639552399


Une **MAE** de **273 681,46** indique une erreur moyenne élevée, suggérant que le modèle nécessite des améliorations pour être précis et utilisable en pratique.

### Différences entre les prédictions in-sample et validation :
#### Prédictions sur l'échantillon d'entraînement (in-sample) :

Lorsque vous ajustez un modèle sur les données d'entraînement, le modèle s'ajuste étroitement à ces données, ce qui entraîne des prédictions très précises pour cet ensemble. Cela peut même résulter en un **surapprentissage (overfitting)**.

#### Prédictions sur l'échantillon de validation :

Les données de validation ne sont pas utilisées pour ajuster le modèle, ce qui signifie que le modèle est testé sur des données qu'il n'a jamais vues.
Cela donne une meilleure estimation de la performance réelle du modèle sur des données non vues.

#### Pourquoi les prédictions diffèrent-elles ? :

Les différences résultent du fait que les données de validation simulent comment le modèle pourrait se comporter sur des données réelles. Le modèle peut ne pas capturer parfaitement tous les patterns dans les nouvelles données.

#### Interprétation de la MAE :
**Qu'est-ce qu'une bonne MAE ? :**

Cela dépend du contexte et de l'application. Par exemple, dans le cas de la prédiction des prix des maisons, une MAE faible (par exemple, quelques milliers d'euros) serait généralement considérée comme acceptable.

Une MAE élevée pourrait indiquer que le modèle est sous-optimal, et vous devrez explorer d'autres approches pour l'améliorer.