French Text Clustering

This repo contains a Jupyter Notebook showing how to cluster French text using K-means and the CamemBERT model.

As a example, I'm using Amazon purchases and clustering the items to see how much is spent by category.

Other possible use cases: clustering comments, tweets, questions, etc.

You can download this notebook and run it as is after installing dependencies. The dataset used is provided in this repo, but you can use your own dataset as well. Make sure to adapt the code if your dataset has different column names.

Ce repo contient un Jupyter Notebook montrant comment faire du clustering sur du texte en français, avec K-means et le modèle CamemBERT.

J'ai pris comme exemple des achats Amazon et ai "clusterisé" les objets pour voir combien a été dépensé dans chaque catégorie.

Autres scénarios possibles : clustering de commentaires, tweets, questions, etc.

Vous pouvez télécharger ce notebook et le faire tourner tel quel après avoir installé les dépendences. Le dataset utilisé est disponible dans ce repo, mais vous pouvez également utiliser votre propre dataset. Assurez-vous d'adapter le code si votre dataset a des noms de colonnes différents.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
sample_data		sample_data
French Text Clustering.ipynb		French Text Clustering.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

French Text Clustering

About

Releases

Packages

Languages

Kagigz/french-text-clustering

Folders and files

Latest commit

History

Repository files navigation

French Text Clustering

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages