In [26]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, make_scorer
from sklearn.model_selection import train_test_split, GridSearchCV
import numpy as np
import os

In [27]:
# Import data 
path = 'C:/Users/massw/OneDrive/Bureau/Programmation/RE_Invest/RE_Invest'
file = os.path.join(path,'4_rue_du_vert_buisson.csv')   
data = pd.read_csv(file)

X = data[['Price (EUR)','Flat(1)_House(0)','Room','Bedroom','Area (m2)','Sale_Since']] # Features
y = data['Price (EUR)'] # Variable target

In [28]:
# Diviser les données en frame train & test
X_train, X_test, Y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Normalisation:
Les variables mesurées à différentes échelles ne contribuent pas de manière égale à la fonction d'ajustement du modèle et à la fonction d'apprentissage du modèle et pourraient finir par créer un biais.. Ainsi, pour résoudre ce problème potentiel, la standardisation des caractéristiques (μ = 0, σ = 1) est généralement utilisée avant l'ajustement du modèle. 
Aider le modèle à converger plus rapidement pendant le training et éviter que certaines caractéristiques dominent les autres en termes d'influence.

In [29]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

In [30]:
# Création du modèle MLP
# hidden_layer_sizes = Taille des couches cachées
# max_iter = nombre maximum d'itération
# random_state = generate a different set
model = MLPRegressor(max_iter=500,random_state=42)

# Parmétres à recherche avec la régularisation
param_grid = {'hidden_layer_sizes': [(100,),(50,25),(25,10)],
              'alpha':[0.0001,0.001,0.01,0.1,1.0]}

In [31]:
# Utilisation de la validation croisée pour rechercher les meilleurs hyperparamètres
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled,Y_train)



In [32]:
# Obtenir les meilleurs hyperparamètres
best_params = grid_search.best_params_ 

In [33]:
# Créer le nouveau modèle avec les meilleurs hyperparamètres
best_mlp = MLPRegressor(**best_params, max_iter=500, random_state=42)

In [34]:
# Train modele sur l'ensemble du train data
best_mlp.fit(X_train_scaled,Y_train)



In [35]:
# Prediction sur l'ensemble des données de test
predictions = best_mlp.predict(X_test_scaled)

In [36]:
# Evaluate performances model
mse = mean_squared_error(y_test, predictions)
mae = mean_absolute_error(y_test, predictions)
print(f'Mean Squared Error : {mse}')
print(f'Mean Absolute Error : {mae}')
print(f'Best Hyperparameters : {best_params}')

Mean Squared Error : 56741769031.046844
Mean Absolute Error : 209938.0931204619
Best Hyperparameters : {'alpha': 0.001, 'hidden_layer_sizes': (50, 25)}
