In [None]:
# CELLULE 1 - V√âRIFICATION ET IMPORTATION
print("üöó PROJET DE PR√âDICTION DE PRIX DE VOITURES - D√âMARRAGE")
print("=" * 55)

# Importation des biblioth√®ches
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score
import warnings
warnings.filterwarnings('ignore')

# Configuration de l'affichage
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("‚úÖ Biblioth√®ches import√©es avec succ√®s!")
print(f"üì¶ Pandas version: {pd.__version__}")
print(f"üì¶ NumPy version: {np.__version__}")

In [None]:
# CELLULE 2 - CR√âATION DU DATASET DE VOITURES
print("üìä CR√âATION DU DATASET DE VOITURES")
print("=" * 40)

np.random.seed(42)  # Pour la reproductibilit√©
n_samples = 1000

# Cr√©ation de donn√©es r√©alistes
car_data = {
    'Marque': np.random.choice(['Toyota', 'Honda', 'Ford', 'BMW', 'Mercedes', 'Audi', 'Hyundai', 'Nissan'], 
                              n_samples, p=[0.15, 0.15, 0.15, 0.1, 0.1, 0.1, 0.15, 0.1]),
    'Ann√©e': np.random.randint(2005, 2023, n_samples),
    'Kilom√©trage': np.random.randint(5000, 150000, n_samples),
    'Puissance': np.random.randint(80, 400, n_samples),
    'Carburant': np.random.choice(['Essence', 'Diesel', 'Hybride', '√âlectrique'], 
                                 n_samples, p=[0.5, 0.3, 0.15, 0.05]),
    'Transmission': np.random.choice(['Manuelle', 'Automatique'], n_samples, p=[0.4, 0.6]),
    'Type': np.random.choice(['Berline', 'SUV', 'Compacte', 'Break', 'Coup√©'], n_samples),
    'Prix': np.random.randint(5000, 60000, n_samples)  # Variable cible
}

df = pd.DataFrame(car_data)

# Affichage des informations
print(f"‚úÖ Dataset cr√©√©: {df.shape[0]} voitures, {df.shape[1]} caract√©ristiques")
print("\nüìã Aper√ßu des 5 premi√®res voitures:")
display(df.head())

print("\nüìà Statistiques descriptives:")
display(df.describe())

print("\nüîç Informations sur le dataset:")
df.info()

In [None]:
# CELLULE 3 - ANALYSE EXPLORATOIRE DES DONN√âES
print("üîç ANALYSE EXPLORATOIRE DES DONN√âES (EDA)")
print("=" * 50)

# Configuration des graphiques
fig, axes = plt.subplots(2, 3, figsize=(20, 12))
fig.suptitle('ANALYSE DES PRIX DE VOITURES - TABLEAU DE BORD', fontsize=16, fontweight='bold')

# 1. Distribution des prix
axes[0,0].hist(df['Prix'], bins=30, edgecolor='black', alpha=0.7, color='skyblue')
axes[0,0].set_title('Distribution des Prix des Voitures')
axes[0,0].set_xlabel('Prix (‚Ç¨)')
axes[0,0].set_ylabel('Nombre de Voitures')
axes[0,0].grid(True, alpha=0.3)

# 2. Prix moyen par marque
marque_prix = df.groupby('Marque')['Prix'].mean().sort_values(ascending=False)
axes[0,1].bar(marque_prix.index, marque_prix.values, color='lightcoral')
axes[0,1].set_title('Prix Moyen par Marque')
axes[0,1].set_xlabel('Marque')
axes[0,1].set_ylabel('Prix Moyen (‚Ç¨)')
axes[0,1].tick_params(axis='x', rotation=45)

# 3. √âvolution des prix par ann√©e
annee_prix = df.groupby('Ann√©e')['Prix'].mean()
axes[0,2].plot(annee_prix.index, annee_prix.values, marker='o', linewidth=2, color='green')
axes[0,2].set_title('√âvolution des Prix par Ann√©e')
axes[0,2].set_xlabel('Ann√©e')
axes[0,2].set_ylabel('Prix Moyen (‚Ç¨)')
axes[0,2].grid(True, alpha=0.3)

# 4. Prix vs Kilom√©trage
axes[1,0].scatter(df['Kilom√©trage'], df['Prix'], alpha=0.6, color='orange')
axes[1,0].set_title('Relation Prix vs Kilom√©trage')
axes[1,0].set_xlabel('Kilom√©trage (km)')
axes[1,0].set_ylabel('Prix (‚Ç¨)')
axes[1,0].grid(True, alpha=0.3)

# 5. Prix vs Puissance
axes[1,1].scatter(df['Puissance'], df['Prix'], alpha=0.6, color='purple')
axes[1,1].set_title('Relation Prix vs Puissance')
axes[1,1].set_xlabel('Puissance (ch)')
axes[1,1].set_ylabel('Prix (‚Ç¨)')
axes[1,1].grid(True, alpha=0.3)

# 6. Prix par type de carburant
carburant_prix = df.groupby('Carburant')['Prix'].mean().sort_values(ascending=False)
axes[1,2].bar(carburant_prix.index, carburant_prix.values, color='gold')
axes[1,2].set_title('Prix Moyen par Type de Carburant')
axes[1,2].set_xlabel('Type de Carburant')
axes[1,2].set_ylabel('Prix Moyen (‚Ç¨)')

plt.tight_layout()
plt.show()

# Matrice de corr√©lation (pour les variables num√©riques)
print("\nüìä MATRICE DE CORR√âLATION:")
numerical_df = df.select_dtypes(include=[np.number])
plt.figure(figsize=(10, 8))
sns.heatmap(numerical_df.corr(), annot=True, cmap='coolwarm', center=0, square=True)
plt.title('Matrice de Corr√©lation des Variables Num√©riques')
plt.tight_layout()
plt.show()

print("‚úÖ Analyse exploratoire termin√©e!")

In [None]:
# CELLULE 4 - PR√âTRAITEMENT DES DONN√âES
print("‚öôÔ∏è PR√âTRAITEMENT DES DONN√âES")
print("=" * 35)

# Copie du dataset pour le pr√©traitement
df_processed = df.copy()

# Feature Engineering
df_processed['√Çge'] = 2023 - df_processed['Ann√©e']
df_processed['Km_Par_An'] = df_processed['Kilom√©trage'] / np.maximum(df_processed['√Çge'], 1)

# Encodage des variables cat√©gorielles
df_processed = pd.get_dummies(df_processed, columns=['Marque', 'Carburant', 'Transmission', 'Type'])

# S√©paration des features et de la target
X = df_processed.drop('Prix', axis=1)
y = df_processed['Prix']

# Division en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("‚úÖ Pr√©traitement termin√©!")
print(f"üìä Jeu d'entra√Ænement: {X_train.shape[0]} √©chantillons")
print(f"üìä Jeu de test: {X_test.shape[0]} √©chantillons")
print(f"üî¢ Nombre de features: {X_train.shape[1]}")

In [None]:
# CELLULE 5 - ENTRA√éNEMENT DES MOD√àLES
print("ü§ñ ENTRA√éNEMENT DES MOD√àLES DE MACHINE LEARNING")
print("=" * 55)

# Initialisation des mod√®les
models = {
    'R√©gression Lin√©aire': LinearRegression(),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10)
}

results = {}

print("üîß Entra√Ænement en cours...\n")

for name, model in models.items():
    print(f"üß† Entra√Ænement du mod√®le: {name}")
    
    # Entra√Ænement
    model.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred = model.predict(X_test)
    
    # M√©triques d'√©valuation
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Stockage des r√©sultats
    results[name] = {
        'model': model,
        'predictions': y_pred,
        'mae': mae,
        'r2': r2
    }
    
    print(f"‚úÖ {name} - Entra√Ænement termin√©!")
    print(f"   üìè Erreur Absolue Moyenne (MAE): {mae:,.2f} ‚Ç¨")
    print(f"   üìä Score R¬≤: {r2:.4f}")
    print("-" * 50)

print("üéØ Tous les mod√®les sont entra√Æn√©s!")

In [None]:
# CELLULE 6 - √âVALUATION ET COMPARAISON DES MOD√àLES
print("üìà COMPARAISON DES PERFORMANCES DES MOD√àLES")
print("=" * 50)

# Tableau de comparaison
comparison_df = pd.DataFrame({
    'Mod√®le': list(results.keys()),
    'MAE (‚Ç¨)': [results[model]['mae'] for model in results],
    'Score R¬≤': [results[model]['r2'] for model in results]
})

print("üìã TABLEAU COMPARATIF:")
display(comparison_df)

# S√©lection du meilleur mod√®le
best_model_name = max(results.keys(), key=lambda x: results[x]['r2'])
best_model = results[best_model_name]['model']
best_r2 = results[best_model_name]['r2']

print(f"\nüèÜ MEILLEUR MOD√àLE: {best_model_name}")
print(f"üéØ Score R¬≤: {best_r2:.4f}")
print(f"üìè Erreur moyenne: ¬±{results[best_model_name]['mae']:,.2f} ‚Ç¨")

# Importance des features (pour Random Forest)
if best_model_name == 'Random Forest':
    print("\nüîç IMPORTANCE DES CARACT√âRISTIQUES:")
    feature_importance = pd.DataFrame({
        'Caract√©ristique': X.columns,
        'Importance': best_model.feature_importances_
    }).sort_values('Importance', ascending=False).head(10)
    
    display(feature_importance)
    
    # Visualisation de l'importance des features
    plt.figure(figsize=(12, 6))
    sns.barplot(data=feature_importance, x='Importance', y='Caract√©ristique')
    plt.title('Top 10 des Caract√©ristiques les Plus Importantes')
    plt.xlabel('Importance')
    plt.tight_layout()
    plt.show()

In [None]:
# CELLULE 7 - VISUALISATION DES R√âSULTATS
print("üìä VISUALISATION DES PR√âDICTIONS")
print("=" * 40)

# Configuration des graphiques
fig, axes = plt.subplots(1, 2, figsize=(18, 6))

# Graphique Random Forest
y_pred_rf = results['Random Forest']['predictions']
axes[0].scatter(y_test, y_pred_rf, alpha=0.6, color='blue', label='Pr√©dictions')
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2, label='Pr√©diction Parfaite')
axes[0].set_xlabel('Prix R√©el (‚Ç¨)')
axes[0].set_ylabel('Prix Pr√©dit (‚Ç¨)')
axes[0].set_title('Random Forest: Prix R√©el vs Prix Pr√©dit')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Graphique R√©gression Lin√©aire
y_pred_lr = results['R√©gression Lin√©aire']['predictions']
axes[1].scatter(y_test, y_pred_lr, alpha=0.6, color='green', label='Pr√©dictions')
axes[1].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2, label='Pr√©diction Parfaite')
axes[1].set_xlabel('Prix R√©el (‚Ç¨)')
axes[1].set_ylabel('Prix Pr√©dit (‚Ç¨)')
axes[1].set_title('R√©gression Lin√©aire: Prix R√©el vs Prix Pr√©dit')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse des r√©sidus
print("\nüîé ANALYSE DES R√âSIDUS:")
residuals = y_test - y_pred_rf

plt.figure(figsize=(15, 4))

plt.subplot(1, 3, 1)
plt.scatter(y_pred_rf, residuals, alpha=0.6)
plt.axhline(y=0, color='red', linestyle='--', linewidth=2)
plt.xlabel('Prix Pr√©dit (‚Ç¨)')
plt.ylabel('R√©sidus (‚Ç¨)')
plt.title('Graphique des R√©sidus')
plt.grid(True, alpha=0.3)

plt.subplot(1, 3, 2)
plt.hist(residuals, bins=30, edgecolor='black', alpha=0.7)
plt.xlabel('R√©sidus (‚Ç¨)')
plt.ylabel('Fr√©quence')
plt.title('Distribution des R√©sidus')
plt.grid(True, alpha=0.3)

plt.subplot(1, 3, 3)
plt.boxplot(residuals)
plt.ylabel('R√©sidus (‚Ç¨)')
plt.title('Bo√Æte √† Moustaches des R√©sidus')

plt.tight_layout()
plt.show()

In [None]:
# CELLULE 8 - PR√âDICTIONS SUR DE NOUVELLES VOITURES
print("üéØ PR√âDICTIONS SUR DE NOUVELLES VOITURES")
print("=" * 45)

def predire_prix(marque, annee, kilometrage, puissance, carburant, transmission, type_voiture):
    """Fonction pour pr√©dire le prix d'une voiture"""
    
    # Cr√©ation du dictionnaire d'entr√©e
    input_data = {
        'Ann√©e': annee,
        'Kilom√©trage': kilometrage,
        'Puissance': puissance,
        '√Çge': 2023 - annee,
        'Km_Par_An': kilometrage / max(2023 - annee, 1)
    }
    
    # Ajout de toutes les colonnes dummy avec des 0
    for col in X.columns:
        if col not in input_data:
            # V√©rifier si cette colonne correspond √† nos inputs
            if marque in col or carburant in col or transmission in col or type_voiture in col:
                input_data[col] = 1
            else:
                input_data[col] = 0
    
    # Cr√©ation du DataFrame
    input_df = pd.DataFrame([input_data])
    input_df = input_df[X.columns]  # Assurer le bon ordre des colonnes
    
    # Pr√©diction
    prix_pred = best_model.predict(input_df)[0]
    
    return prix_pred

# Exemples de pr√©dictions
print("üöó EXEMPLES DE PR√âDICTIONS:\n")

exemples = [
    ('Toyota', 2020, 25000, 150, 'Essence', 'Automatique', 'Berline'),
    ('BMW', 2019, 40000, 300, 'Essence', 'Automatique', 'SUV'),
    ('Ford', 2015, 80000, 120, 'Diesel', 'Manuelle', 'Compacte'),
    ('Mercedes', 2021, 15000, 250, 'Hybride', 'Automatique', 'Berline'),
    ('Audi', 2018, 60000, 200, 'Diesel', 'Automatique', 'SUV')
]

for marque, annee, km, puissance, carburant, transmission, type_voiture in exemples:
    prix = predire_prix(marque, annee, km, puissance, carburant, transmission, type_voiture)
    print(f"‚Ä¢ {annee} {marque} {type_voiture} ({puissance}ch, {km:,} km): {prix:,.0f} ‚Ç¨")

print(f"\nüéâ MOD√àLE FINAL: {best_model_name}")
print(f"üìä PR√âCISION: R¬≤ = {best_r2:.4f}")
print(f"üéØ ERREUR MOYENNE: ¬±{results[best_model_name]['mae']:,.0f} ‚Ç¨")
print("\n‚úÖ PROJET TERMIN√â AVEC SUCC√àS! üöóüí®")

In [None]:
# TEST D'IMPORTATION
print("=== TEST DE D√âMARRAGE ===")

import pandas as pd
import numpy as np

print("‚úÖ Pandas et NumPy import√©s!")
print(f"Version Pandas: {pd.__version__}")

# Cr√©ation simple
data = {'Prix': [10000, 20000, 30000], 'Ann√©e': [2015, 2018, 2020]}
df = pd.DataFrame(data)

print("\nüìä DataFrame cr√©√©:")
print(df)

print("\n=== TEST R√âUSSI ===")