In [26]:
# Importer les bibliothèques nécessaires
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [27]:
"""
1. Charger les bibliothèques et les fichiers
Nous commencerons par charger les bibliothèques nécessaires 
et les fichiers de données d'entraînement et de test une fois que vous les aurez téléversés.

"""
# Charger les fichiers de données
train_data = pd.read_csv('data/train.csv')
test_data = pd.read_csv('data/test.csv')

# Afficher les premières lignes pour vérifier que les données sont bien chargées
print("Train data:", train_data.head())
print("Test data:", test_data.head())


Train data:    Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008 

In [28]:
"""
2. Sélectionner les colonnes importantes
Comme nous l'avons discuté, nous allons sélectionner les colonnes 
qui nous intéressent : la surface, le nombre de chambres et de salles de bains.
"""
# Sélection des colonnes pertinentes pour l'analyse
columns = ['GrLivArea', 'BedroomAbvGr', 'FullBath', 'SalePrice']  # inclure 'SalePrice' pour l'entraînement

# Filtrer les données d'entraînement et de test
train_data = train_data[columns]
test_columns = ['GrLivArea', 'BedroomAbvGr', 'FullBath']  # Les colonnes sans 'SalePrice' pour les données de test
test_data = test_data[test_columns]

# Vérifier les données filtrées
print(train_data.head())
print(test_data.head())


   GrLivArea  BedroomAbvGr  FullBath  SalePrice
0       1710             3         2     208500
1       1262             3         2     181500
2       1786             3         2     223500
3       1717             3         1     140000
4       2198             4         2     250000
   GrLivArea  BedroomAbvGr  FullBath
0        896             2         1
1       1329             3         1
2       1629             3         2
3       1604             3         2
4       1280             2         2


In [29]:
"""
3. Traitement des données manquantes (si nécessaire)
Nous allons également vérifier s'il y a des valeurs manquantes dans les colonnes importantes et les traiter.
"""
# Vérifier les valeurs manquantes
print("Valeurs manquantes dans les données d'entraînement:")
print(train_data.isnull().sum())

print("Valeurs manquantes dans les données de test:")
print(test_data.isnull().sum())

# Remplacer les valeurs manquantes (par exemple, par la moyenne des colonnes)
train_data.fillna(train_data.mean(), inplace=True)
test_data.fillna(test_data.mean(), inplace=True)


Valeurs manquantes dans les données d'entraînement:
GrLivArea       0
BedroomAbvGr    0
FullBath        0
SalePrice       0
dtype: int64
Valeurs manquantes dans les données de test:
GrLivArea       0
BedroomAbvGr    0
FullBath        0
dtype: int64


In [30]:
"""
4. Séparer les features et la cible
Ensuite, nous séparons les colonnes de caractéristiques (GrLivArea, BedroomAbvGr, FullBath) et la variable cible (SalePrice) dans les données d'entraînement.
"""
# Séparer les caractéristiques (features) et la cible (target)
X_train = train_data[['GrLivArea', 'BedroomAbvGr', 'FullBath']]  # Features
y_train = train_data['SalePrice']  # Target

# Les données de test n'ont que les features
X_test = test_data


In [31]:
"""
5. Entraîner le modèle
Nous allons maintenant entraîner un modèle de régression linéaire.
"""

# Initialiser le modèle de régression linéaire
model = LinearRegression()

# Entraîner le modèle sur les données d'entraînement
model.fit(X_train, y_train)

# Afficher les coefficients du modèle
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)


Coefficients: [   110.06172639 -27859.33222353  29694.68839062]
Intercept: 47509.48218946543


In [32]:
"""
6. Faire des prédictions
Une fois le modèle entraîné, nous ferons des prédictions sur les données de test.
"""

# Faire des prédictions sur les données de test
y_pred = model.predict(X_test)

# Afficher les prédictions
print("Prédictions sur les données de test:")
print(y_pred)


Prédictions sur les données de test:
[120100.81297664 139898.20827909 202611.4145861  ... 100482.39478483
 100386.04850582 243444.31507603]


In [33]:
"""
7. Évaluer le modèle (pour les données d'entraînement)
Pour évaluer le modèle, nous utiliserons l'erreur quadratique moyenne (MSE).
"""

# Faire des prédictions sur les données d'entraînement pour évaluer
y_train_pred = model.predict(X_train)

# Calculer l'erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_train, y_train_pred)
print("Erreur quadratique moyenne (MSE) sur les données d'entraînement:", mse)


Erreur quadratique moyenne (MSE) sur les données d'entraînement: 2628535155.618378


In [34]:
"""
8. Sauvegarder les prédictions
Enfin, nous sauvegarderons les prédictions dans un fichier CSV pour analyse.
"""

# Faire des prédictions sur les données d'entraînement pour évaluer
y_train_pred = model.predict(X_train)

# Calculer l'erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_train, y_train_pred)
print("Erreur quadratique moyenne (MSE) sur les données d'entraînement:", mse)


Erreur quadratique moyenne (MSE) sur les données d'entraînement: 2628535155.618378
