DocumentsClassification

В этом репозитории содержатся задания, выполненные мной для учебного курса по NLP в СПбГУ.

В 1_2.ipynb производится предобработка малой выборки текстовых данных с использованием NLTK и pymorphy2. Далее эти данные векторизуются через TF-IDF и кластеризуются через k-means и аггломеративную кластеризацию.

В 3.ipynb аналогичные действия выполняются для большей выборки данных из датасета 20newsgroups.

Далее используется та же выборка.

В 4.ipynb данные векторизуются с помощью BERT, RoBERTa и DistilBERT, затем выполняется и оценивается кластеризация через k-means и аггломеративную кластеризацию. Наблюдается проблема с отображением на GitHub, ссылка на Colab: https://colab.research.google.com/drive/1FxO_LpWzKDQYxtSIwUIH8m3J5AuxcxMI

В 5.ipynb вычисляется bag of words, затем выполянется векторизация с помощью LDA и LSI и кластеризация аналогично предыдущему.

В 6_7.ipynb сравнивается качество классификации данных. Для векторизации используются TF-IDF, DistilBERT и LDA, для классификации SVM, наивный байесовский классификатор, деревья решений, Random Forest, AdaBoost и многослойный персептрон. Наблюдается проблема с отображением на GitHub, ссылка на Colab: https://colab.research.google.com/drive/1acu7U0VrMpQUdsOXwT9GRD49LWZFX1O1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DocumentsClassification

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
1_2.ipynb		1_2.ipynb
3.ipynb		3.ipynb
4.ipynb		4.ipynb
5.ipynb		5.ipynb
6_7.ipynb		6_7.ipynb
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

DocumentsClassification

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages