In [None]:
# Étape 1 : Chargement des bibliothèques
import pandas as pd
import numpy as np
import pickle
import os

from sklearn.model_selection import train_test_split, StratifiedShuffleSplit
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [None]:


df = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df.shape




(1460, 81)

In [None]:

numerical_features = df.select_dtypes(include=np.number).columns.tolist()


df_cleaned = df[numerical_features].dropna()
df_cleaned.shape



(1121, 38)

In [None]:
X = df_cleaned.drop('SalePrice', axis=1)
y = df_cleaned['SalePrice']

df_cleaned['price_cat'] = pd.cut(
    df_cleaned['SalePrice'],
    bins=[0, 100000, 150000, 200000, 300000, np.inf],  # Exemple de limites de prix
    labels=[1, 2, 3, 4, 5]
)

In [None]:
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

# Étape 5 : Split en train / test (X_train, X_test, y_train, y_test)
for train_index, test_index in split.split(df_cleaned, df_cleaned['price_cat']):
    # Utiliser les index pour split les données originales (X, y)
    X_train = X.iloc[train_index]
    X_test = X.iloc[test_index]
    y_train = y.iloc[train_index]
    y_test = y.iloc[test_index]


X_train.shape
y_train.shape
X_test.shape
y_test.shape

(225,)

In [None]:
# Étape 6 : Entraînement du modèle (LinearRegression)
model = LinearRegression()
model.fit(X_train, y_train)
print("\nModèle de Linear Regression entraîné.")

# Étape 7 : Évaluation : mesurer et afficher Scores RMSE et R2

# Prédictions
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Calcul des métriques
rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
r2_train = r2_score(y_train, y_pred_train)
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
r2_test = r2_score(y_test, y_pred_test)

# Affichage des résultats
print("\n--- Scores d'Évaluation ---")
print(f"  RMSE (Train) : {rmse_train:.2f}")
print(f"  R2 (Train) : {r2_train:.4f}")
print(f"  RMSE (Test) : {rmse_test:.2f}")
print(f"  R2 (Test) : {r2_test:.4f}")

# Étape 8 : Sauvegarde du modèle model.pkl
model_filename = 'model.pkl'

# Créer le répertoire 'models/' si nécessaire (pour se préparer aux étapes suivantes)
os.makedirs('models', exist_ok=True) 
model_path = os.path.join('models', model_filename)

with open(model_path, 'wb') as file:
    pickle.dump(model, file)
    
print(f"\nModèle sauvegardé avec succès dans: {model_path}")


Modèle de Linear Regression entraîné.

--- Scores d'Évaluation ---
  RMSE (Train) : 31843.90
  R2 (Train) : 0.8510
  RMSE (Test) : 57262.54
  R2 (Test) : 0.5437

Modèle sauvegardé avec succès dans: models/model.pkl
