In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Charger les données
data = {
    'Make': ['Toyota', 'Honda', 'Toyota', 'BMW', 'Nissan', 'Toyota', 'Honda', 'Honda', 'Toyota', 'Nissan'],
    'Colour': ['White', 'Red', 'Blue', 'Black', 'White', 'Green', 'Blue', 'Blue', 'White', 'White'],
    'Odometer (KM)': [150043, 87899, 32549, 11179, 213095, 99213, 45698, 54738, 60000, 31600],
    'Doors': [4, 4, 3, 5, 4, 4, 4, 4, 4, 4],
    'Price': ['$4,000.00', '$5,000.00', '$7,000.00', '$22,000.00', '$3,500.00', '$4,500.00', '$7,500.00', '$7,000.00', '$6,250.00', '$9,700.00']
}

df = pd.DataFrame(data)

# Prétraitement des données
df['Price'] = df['Price'].replace('[\$,]', '', regex=True).astype(
    float)  # Enlever les signes "$" et convertir en float
le_make = LabelEncoder()
df['Make'] = le_make.fit_transform(df['Make'])
le_color = LabelEncoder()
df['Colour'] = le_color.fit_transform(df['Colour'])

# Séparer les caractéristiques et la cible
X = df[['Make', 'Colour', 'Odometer (KM)', 'Doors']]
y = df['Price']

# Diviser les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Normalisation des données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Entraîner le modèle RandomForest
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Calculer R² et RMSE
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

# Afficher R² et RMSE
print(f"R² (Coefficient de détermination): {r2:.4f}")
print(f"RMSE (Root Mean Squared Error): {rmse:.2f}")

# Prédire les prix pour 10 nouvelles voitures
new_cars = pd.DataFrame({
    'Make': ['Toyota', 'BMW', 'Honda', 'Nissan', 'Toyota', 'BMW', 'Honda', 'Nissan', 'Toyota', 'Honda'],
    'Colour': ['Red', 'Black', 'Blue', 'White', 'Green', 'Blue', 'Black', 'White', 'Red', 'Green'],
    'Odometer (KM)': [120000, 5000, 80000, 40000, 150000, 25000, 60000, 90000, 110000, 130000],
    'Doors': [4, 5, 4, 4, 4, 5, 4, 3, 4, 4]
})

# Encoder et normaliser les nouvelles données
new_cars['Make'] = le_make.transform(new_cars['Make'])
new_cars['Colour'] = le_color.transform(new_cars['Colour'])
new_cars_scaled = scaler.transform(new_cars)

# Faire des prédictions pour les nouvelles voitures
predicted_prices = model.predict(new_cars_scaled)

# Afficher les prix prédits pour les nouvelles voitures
for i, price in enumerate(predicted_prices, 1):
    print(f"Voiture {i}: €{price:.2f}")

R² (Coefficient de détermination): -1.1485
RMSE (Root Mean Squared Error): 916.11
Voiture 1: €4663.00
Voiture 2: €16116.00
Voiture 3: €5789.00
Voiture 4: €7780.00
Voiture 5: €4405.00
Voiture 6: €12027.00
Voiture 7: €9908.00
Voiture 8: €5352.00
Voiture 9: €4663.00
Voiture 10: €4672.00


  df['Price'] = df['Price'].replace('[\$,]', '', regex=True).astype(
