This repo contains a Jupyter Notebook showing how to cluster French text using K-means and the CamemBERT model.
As a example, I'm using Amazon purchases and clustering the items to see how much is spent by category.
Other possible use cases: clustering comments, tweets, questions, etc.
You can download this notebook and run it as is after installing dependencies. The dataset used is provided in this repo, but you can use your own dataset as well. Make sure to adapt the code if your dataset has different column names.
Ce repo contient un Jupyter Notebook montrant comment faire du clustering sur du texte en français, avec K-means et le modèle CamemBERT.
J'ai pris comme exemple des achats Amazon et ai "clusterisé" les objets pour voir combien a été dépensé dans chaque catégorie.
Autres scénarios possibles : clustering de commentaires, tweets, questions, etc.
Vous pouvez télécharger ce notebook et le faire tourner tel quel après avoir installé les dépendences. Le dataset utilisé est disponible dans ce repo, mais vous pouvez également utiliser votre propre dataset. Assurez-vous d'adapter le code si votre dataset a des noms de colonnes différents.