Cours sur le topic modeling - UPEM - Master Méthode computationnelle et analyse de contenu
- Nature et applications
- Approche Deterministe: LSA
- Approche Probabiliste: LDA
- Quelques librairies en R et python
- Parametres
- Métriques: exclusivité et cohérence sémantique
- Appliqué a un corpus propre
- Le corpus: résumés d'articles tech, IEEE et Arstechnica
- Le package STM en R
- Comment determiner le nombre optimal de topics?
- Comment interpreter les résultats?
- Jupyter Notebook et Script R
- 500.000 commentaires provenant du forum alt-right God Trump Emperor
- De la nécessité de travailler le contenu
- Filtrer le bruit avec
- Lemmatization, tokenization
- Part of Speech tagging
- Named entity recognition
- Jupyter Notebook et Script R
- Quelles sont les librairies pour:
- Part of Speech
- Tokenization
- Lemmatization
- Articles et blogs