Linear Regression: Multivariate (House price prediction)

Supposons que vous souhaitez vendre votre maison qui se trouve à Tunis. Pour estimer le bon prix, vous disposez de l’historique des prix de vente effectuées à Tunis. Ainsi, pour chaque maison vendu (une observation), on dispose des données suivantes: La taille de la superficie en pieds² (Un pied² fait environ 0,092 m²), le nombre de chambre de la maison, le prix.

In [1]:
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
import numpy as np
from mpl_toolkits.mplot3d import Axes3D 
import matplotlib.pyplot as plt 

In [2]:
df = pd.read_excel("./DB/multivariateLinearRegression.xlsx")
print(df.head()) 

   taille_en_pieds_carre  nb_chambres    prix
0                   2104            3  399900
1                   1600            3  329900
2                   2400            3  369000
3                   1416            2  232000
4                   3000            4  539900


In [None]:
Y = df["prix"]
X = df[['taille_en_pieds_carre','nb_chambres']] 

In [None]:
# Pour obtenir une visualisation correcte des données, nous commencerons
# par normaliser les données pour avoir une moyenne de 0 et un écart type de 1.

scale = StandardScaler()
X_scaled = scale.fit_transform(X[['taille_en_pieds_carre','nb_chambres']].to_numpy())
# print(X_scaled) 

La méthode des moindres carrés ordinaires (OLS) est utilisée pour estimer les
paramètres inconnus dans un modèle de régression linéaire, en minimisant la somme des différences au carré entre les valeurs observées et prédites.

In [5]:
model = sm.OLS(Y, X).fit()
print(model.summary()) 

                                 OLS Regression Results                                
Dep. Variable:                   prix   R-squared (uncentered):                   0.966
Model:                            OLS   Adj. R-squared (uncentered):              0.964
Method:                 Least Squares   F-statistic:                              631.4
Date:                Sun, 01 Dec 2024   Prob (F-statistic):                    1.19e-33
Time:                        23:03:12   Log-Likelihood:                         -589.11
No. Observations:                  47   AIC:                                      1182.
Df Residuals:                      45   BIC:                                      1186.
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                            coef    std err          t      P>|t|      [0.025      0.975]
------------------------------

D'où on peut extraire les coefficients du modèle
>taille_en_pieds_carre   140.8611

>nb_chambres            1.698e+04

In [6]:
def predict_price_of_house(taille_maison, nb_chambre):
 return 140.8611 * taille_maison + 1.698e+04 * nb_chambre

In [7]:
print(f"Predicted price of a house with 4478 sq ft and 5 bedrooms: {predict_price_of_house(4478,5):.2f}\nwhile the actual price is 699900")

Predicted price of a house with 4478 sq ft and 5 bedrooms: 715676.01
while the actual price is 699900
