In [3]:
import pandas as pd

# Téléchargez le fichier "train.csv" depuis Kaggle et placez-le dans votre répertoire de travail
# Ensuite, chargez-le dans un DataFrame pandas
data = pd.read_csv("house-prices-advanced-regression-techniques/train.csv")

# Vérifiez les premières lignes du DataFrame pour s'assurer que le chargement a réussi
print(data.head())


   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

In [5]:
from sklearn.model_selection import train_test_split

# Divisez le dataset en features (X) et target (y)
X = data.drop('SalePrice', axis=1)  # Features
y = data['SalePrice']  # Target

# Divisez les données en un ensemble de données d'entraînement et un ensemble de données de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vérifiez les dimensions des ensembles de données
print("Taille de l'ensemble de données d'entraînement:", X_train.shape)
print("Taille de l'ensemble de données de test:", X_test.shape)


Taille de l'ensemble de données d'entraînement: (1168, 80)
Taille de l'ensemble de données de test: (292, 80)


In [6]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Colonnes numériques
numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Colonnes catégorielles
categorical_features = X_train.select_dtypes(include=['object']).columns
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Utiliser ColumnTransformer pour combiner les transformations
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Créer le pipeline complet
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

# Appliquer le pipeline sur les données d'entraînement
X_train_preprocessed = pipeline.fit_transform(X_train)

# Appliquer le pipeline sur les données de test
X_test_preprocessed = pipeline.transform(X_test)


In [7]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Créer et entraîner le modèle de régression linéaire
model = LinearRegression()
model.fit(X_train_preprocessed, y_train)

# Faire des prédictions sur l'ensemble de données de test
predictions = model.predict(X_test_preprocessed)

# Calculer la RMSE (Root Mean Squared Error)
rmse = mean_squared_error(y_test, predictions, squared=False)
print("RMSE:", rmse)


RMSE: 29476.802177908925


