# HOUSE PRICE PREDICTION LINEAR REGRESSION MODEL

Regression linéaire : Relation linéaire entre les variables dépendantes (ce qu'on essaie de prédire --> prix d'un bien immobilier) et les variables indépendantes (caractériques du bien : Surface, nombre de chambre, etc...)

Equation de régression linéaire simple : 
Y = beta_0 + beta_1 * X + epsilon 
- (Y) est la variable dépendante (prix), 
- (X) est la caractéristique (surface), 
- (beta_0) est l'intercept (la valeur de (Y) lorsque (X) zéro), 
- (beta_1) est la pente (le changement moyen dans (Y) pour un changement d'une unité dans (X)), 
- (epsilon) est le terme d'erreur (les différences entre les valeurs prédites et réelles).

Equation à plusieurs caractéristiques :
Y = beta_0 + beta_1 * X1 + beta_2 * X2 + ... + beta_n * Xn + epsilon 

Resume : Modélisation la relation entre les variables et faire des prédictions. L'ajustement important pour obtenir ces prédictions précises dans l'estimation des prix de l'immobilier.

In [1]:
# Import librairies

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_log_error
import os

In [None]:
# Get data

path = 'C:/Users/massw/OneDrive/Bureau/Programmation/RE_Invest/RE_Invest'

file = os.path.join(path,'4_rue_du_vert_buisson.csv')   
data = pd.read_csv(file)

print(data)

In [16]:
# Divide data with test and train 

X = data[['Flat(1)_House(0)', 'Room', 'Bedroom', 'Area (m2)', 'Sale_Since']] # Features
y = data[['Price (EUR)']] # Variable target

X_train, X_test, Y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Entrainer le modèle :
Trouver les valeurs optimales de (beta_0, beta_1, beta_n) qui minimisent l'erreur du modèle. Utilisation de la méthode d'optimisation, telle de les moindres carrés

In [None]:
# Create and train model

model = LinearRegression()
model.fit(X_train, Y_train)

In [18]:
# Predictions

y_pred = model.predict(X_test)

Evaluation du modèle :
Utilisation des métriques : erreur quadriatique moyenne (MSE) ou le coeff de détermination (R2). Métriques qui indiquent à quel point le modèle est capable de faire de bonnes prédictions

In [19]:
# Evaluate performance model

mse = mean_squared_log_error(y_test, y_pred)
print(f'Mean Squared Error : {mse}')

Mean Squared Error : 0.060280057936879905


In [24]:
# Données pour la prédiction et affichage du prix prédit

new_propery_features = pd.DataFrame({'Flat(1)_House(0)':[1], 'Room':[2], 'Bedroom':[3], 'Area (m2)':[66], 'Sale_Since':[0]})
estimated_price = model.predict(new_propery_features)
print(f"Estimation du prix: {estimated_price}")

Estimation du prix: [[216511.92246278]]
