Skip to content

K-means clustering of French text using the CamemBERT model.

Notifications You must be signed in to change notification settings

Kagigz/french-text-clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

French Text Clustering

This repo contains a Jupyter Notebook showing how to cluster French text using K-means and the CamemBERT model.

As a example, I'm using Amazon purchases and clustering the items to see how much is spent by category.

Other possible use cases: clustering comments, tweets, questions, etc.

You can download this notebook and run it as is after installing dependencies. The dataset used is provided in this repo, but you can use your own dataset as well. Make sure to adapt the code if your dataset has different column names.


Ce repo contient un Jupyter Notebook montrant comment faire du clustering sur du texte en français, avec K-means et le modèle CamemBERT.

J'ai pris comme exemple des achats Amazon et ai "clusterisé" les objets pour voir combien a été dépensé dans chaque catégorie.

Autres scénarios possibles : clustering de commentaires, tweets, questions, etc.

Vous pouvez télécharger ce notebook et le faire tourner tel quel après avoir installé les dépendences. Le dataset utilisé est disponible dans ce repo, mais vous pouvez également utiliser votre propre dataset. Assurez-vous d'adapter le code si votre dataset a des noms de colonnes différents.

About

K-means clustering of French text using the CamemBERT model.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published