Application de plusieurs modèles de Machine Learning à partir de véhicules immatriculés et de clients pour prédire le véhicule le plus adapté.
- Préparation et Analyse de la data.
- Clustering des types de véhicules depuis le fichier Immatriculations.csv et ajout sur la colonne de train clients.
- Prédiction supervisé d'une catégorie de voiture pour les nouveaux clients.
- Choix d'un véhicule dans le cluster prédit.
- Les données sont fragmentées en plusieurs fichiers CSV.
- Etude des différents modéles a appliqué.
2. Clustering des types de véhicules depuis le fichier Immatriculations.csv et ajout sur la colonne de train clients.
- Analyse graphique/textuelle des datas.
- Nettoyage de la data de Immatriculations.csv.
- Application d’un StandardScaler
- Application d'un PCA pour réduire en 2D.
- Application d'un KMeans pour prédire les clusters.
- Visualisation graphique des clusters.
- Nettoyage des datasets de client d’entraînement et à prédire
- Application d’un StandardScaler
- Jointure des clusters au client d’entrainement via le numéro de plaque d’immatriculation
- Catboostclassifier pour prédire les nouveaux clusters
- Random parmi un véhicule dans le cluster.
- Nécessite Jupyter Notebook (via Anaconda par exemple), de quelques package python (sklearn, pandas, numpy, missingno, etc.)
- Lancer le notebook "cluster_vehicule_EDA.ipynb" en premier pour produire le CSV "immatriculation_and_cluster.csv" en amont nécessaire à "Client_EDA.ipynb" qui contient les plaques et leur cluster respectifs.