In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Charger le fichier CSV
data = pd.read_csv('vehicles.csv')

# Afficher un aperçu des données
print(data.head())
print(data.info())

# Distribution des prix
plt.figure(figsize=(12, 6))
sns.histplot(data['price'], bins=100, kde=True, color='blue')
plt.title('Distribution of Car Prices')
plt.xlabel('Price ($)')
plt.ylabel('Frequency')
plt.xlim(0, 100000)  # Limite pour visualisation
plt.show()

# Corrélation entre les colonnes numériques
numerical_cols = ['price', 'year', 'odometer']
plt.figure(figsize=(10, 8))
sns.heatmap(data[numerical_cols].corr(), annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix for Numerical Features')
plt.show()

# Préparation des données
# Retirer les lignes avec des prix égaux à 0 ou non valides
data = data[data['price'] > 0]

# Remplir les valeurs manquantes pour les colonnes importantes (exemple)
data['year'].fillna(data['year'].median(), inplace=True)
data['odometer'].fillna(data['odometer'].median(), inplace=True)

# Encodage des variables catégorielles
encoder = LabelEncoder()
categorical_cols = ['manufacturer', 'fuel', 'transmission', 'condition', 'drive', 'type', 'state']
for col in categorical_cols:
    data[col] = data[col].astype(str)  # Convertir en chaîne de caractères si nécessaire
    data[col] = encoder.fit_transform(data[col])

# Séparation des caractéristiques et de la cible
X = data[['year', 'odometer', 'manufacturer', 'fuel', 'transmission', 'condition']]
y = data['price']

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modélisation initiale avec régression linéaire
model = LinearRegression()
model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred = model.predict(X_test)
print("Mean Absolute Error:", mean_absolute_error(y_test, y_pred))
print("Mean Squared Error:", mean_squared_error(y_test, y_pred))
print("R-squared Score:", r2_score(y_test, y_pred))

# Visualisation des résultats de la régression
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.3)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--', color='red')
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.title('Actual vs Predicted Prices')
plt.show()