Datasets:
-
Бинарная классификация: положительные/отрицательные киноотзывы с сайта IMDB https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
-
Многоклассовая классификация: 20 групп сообщений на различные темы https://www.kaggle.com/crawford/20-newsgroups
Обработка текстовой информации:
- Glove: https://nlp.stanford.edu/projects/glove/
- tf-idf representation
Данные и векторные представления слов:
Сравнение методов классификации текстов:
- SVM для бинарной классификации
- SVM для мультиклассовой классификации