Introduction to NLP with NLTK,BeautifulSoup, LDA, tf-Idf Matrix
Dans ce répertoire on trouvera un travail de type NLP sur un ensemble d'articles de CNN et une modélisation de topics avec LDA et tf_idf Matrix
Le travail se composera en :
- Chargement des articles + Processing du texte avec NLTK (tokenizing, traitement des stop words)
- Création d'une matrice tf-idf et génération de topic
- Création d'une matrice de words- frequency counter et utilisation de LDA pour la génération de topics
- Comparaison et évaluation des deux différentes techniques