In [1]:
"""
1. Charger les bibliothèques et les fichiers
Nous commencerons par charger les bibliothèques nécessaires 
et les fichiers de données d'entraînement et de test une fois que vous les aurez téléversés.
"""

# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
"""
# Charger les fichiers de données
train_data = pd.read_csv('data/train.csv')
test_data = pd.read_csv('data/test.csv')

# Afficher les premières lignes pour vérifier que les données sont bien chargées
print("Train data:", train_data.head())
print("Test data:", test_data.head())
"""

ModuleNotFoundError: No module named 'sklearn'

In [None]:
"""
2. Sélectionner les colonnes importantes
Comme nous l'avons discuté, nous allons sélectionner les colonnes 
qui nous intéressent : la surface, le nombre de chambres et de salles de bains.
"""
# Sélection des colonnes pertinentes pour l'analyse
columns = ['GrLivArea', 'BedroomAbvGr', 'FullBath', 'SalePrice']  # inclure 'SalePrice' pour l'entraînement

# Filtrer les données d'entraînement et de test
train_data = train_data[columns]
test_columns = ['GrLivArea', 'BedroomAbvGr', 'FullBath']  # Les colonnes sans 'SalePrice' pour les données de test
test_data = test_data[test_columns]

# Vérifier les données filtrées
print(train_data.head())
print(test_data.head())


In [None]:
"""
3. Traitement des données manquantes (si nécessaire)
Nous allons également vérifier s'il y a des valeurs manquantes dans les colonnes importantes et les traiter.
"""
# Vérifier les valeurs manquantes
print("Valeurs manquantes dans les données d'entraînement:")
print(train_data.isnull().sum())

print("Valeurs manquantes dans les données de test:")
print(test_data.isnull().sum())

# Remplacer les valeurs manquantes (par exemple, par la moyenne des colonnes)
train_data.fillna(train_data.mean(), inplace=True)
test_data.fillna(test_data.mean(), inplace=True)


In [None]:
"""
4. Séparer les features et la cible
Ensuite, nous séparons les colonnes de caractéristiques (GrLivArea, BedroomAbvGr, FullBath) et la variable cible (SalePrice) dans les données d'entraînement.
"""
# Séparer les caractéristiques (features) et la cible (target)
X_train = train_data[['GrLivArea', 'BedroomAbvGr', 'FullBath']]  # Features
y_train = train_data['SalePrice']  # Target

# Les données de test n'ont que les features
X_test = test_data


In [None]:
"""
5. Entraîner le modèle
Nous allons maintenant entraîner un modèle de régression linéaire.
"""

# Initialiser le modèle de régression linéaire
model = LinearRegression()

# Entraîner le modèle sur les données d'entraînement
model.fit(X_train, y_train)

# Afficher les coefficients du modèle
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)


In [None]:
"""
6. Faire des prédictions
Une fois le modèle entraîné, nous ferons des prédictions sur les données de test.
"""

# Faire des prédictions sur les données de test
y_pred = model.predict(X_test)

# Afficher les prédictions
print("Prédictions sur les données de test:")
print(y_pred)


In [None]:
"""
7. Évaluer le modèle (pour les données d'entraînement)
Pour évaluer le modèle, nous utiliserons l'erreur quadratique moyenne (MSE).
"""

# Faire des prédictions sur les données d'entraînement pour évaluer
y_train_pred = model.predict(X_train)

# Calculer l'erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_train, y_train_pred)
print("Erreur quadratique moyenne (MSE) sur les données d'entraînement:", mse)


In [None]:
"""
8. Sauvegarder les prédictions
Enfin, nous sauvegarderons les prédictions dans un fichier CSV pour analyse.
"""

# Faire des prédictions sur les données d'entraînement pour évaluer
y_train_pred = model.predict(X_train)

# Calculer l'erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_train, y_train_pred)
print("Erreur quadratique moyenne (MSE) sur les données d'entraînement:", mse)
