# Concours de Machine Learning : House Prices Competition

Dans cet exercice, vous allez créer un modèle, générer des prédictions, et les soumettre au concours House Prices Competition for Kaggle Learn Users.

## 1. Charger les données
Téléchargez le jeu de données de compétition sur Kaggle. Il est composé de :

- Un fichier ***d'entraînement*** (train.csv) : pour construire votre modèle.
- Un fichier de ***test*** (test.csv) : pour faire vos prédictions finales.
- Un fichier d'échantillon de soumission (sample_submission.csv) : pour comprendre le format attendu.

In [7]:
import pandas as pd

# Charger les fichiers CSV
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# Aperçu des données
print(train_data.head())
print(test_data.head())

   Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0   1          60       RL         65.0     8450   Pave   NaN      Reg   
1   2          20       RL         80.0     9600   Pave   NaN      Reg   
2   3          60       RL         68.0    11250   Pave   NaN      IR1   
3   4          70       RL         60.0     9550   Pave   NaN      IR1   
4   5          60       RL         84.0    14260   Pave   NaN      IR1   

  LandContour Utilities  ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold  \
0         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
1         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      5   
2         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      9   
3         Lvl    AllPub  ...        0    NaN   NaN         NaN       0      2   
4         Lvl    AllPub  ...        0    NaN   NaN         NaN       0     12   

  YrSold  SaleType  SaleCondition  SalePrice  
0   2008        WD   

## 2. Préparer les données
- Sélectionnez les caractéristiques pertinentes (***features***).
- Gérez les **valeurs manquantes**.
- Divisez les données d'entraînement en un ensemble ***d'entraînement*** et un ensemble de ***validation***.

In [11]:
# Sélection des colonnes numériques pour simplifier
numerical_features = train_data.select_dtypes(include=['int64', 'float64']).columns
numerical_features

Index(['Id', 'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual',
       'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1',
       'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd',
       'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF',
       'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea',
       'MiscVal', 'MoSold', 'YrSold', 'SalePrice'],
      dtype='object')

In [13]:
# Diviser les données en X (features) et y (target)
X = train_data[numerical_features].drop(['SalePrice'], axis=1)
y = train_data['SalePrice']

# Diviser en données d'entraînement et de validation
from sklearn.model_selection import train_test_split
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

## 3. Entraîner un modèle
J'utilise un modèle comme ***RandomForestRegressor*** de machine learning.

In [17]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Construire et entraîner le modèle
model = RandomForestRegressor(random_state=1)
model.fit(train_X, train_y)

# Faire des prédictions sur l'ensemble de validation
val_preds = model.predict(val_X)

# Calculer l'erreur absolue moyenne (MAE)
print("MAE sur les données de validation :", mean_absolute_error(val_y, val_preds))

MAE sur les données de validation : 17556.135315068488


## 4. Faire des prédictions sur les données de test
Utilisez le modèle pour prédire les prix des maisons sur le fichier de test.

In [22]:
numerical_features_test = test_data.select_dtypes(include=['int64', 'float64']).columns

# Préparer les données de test
test_X = test_data[numerical_features_test]

# Faire des prédictions
test_preds = model.predict(test_X)

# Créer un DataFrame pour soumettre les prédictions
output = pd.DataFrame({'Id': test_data.Id, 'SalePrice': test_preds})
output.to_csv('submission_ibn.csv', index=False)
