Datasets:
-
Бинарная классификация: положительные/отрицательные киноотзывы с сайта IMDB https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
-
Многоклассовая классификация: 20 групп сообщений на различные темы https://www.kaggle.com/crawford/20-newsgroups
-
Корпус коротких текстов на русском языке на основе Twitter by Рубцова Ю. http://study.mokoron.com/
Обработка текстовой информации:
- Glove: https://nlp.stanford.edu/projects/glove/
- tf-idf representations
- word2vec
Данные и векторные представления слов:
Сравнение методов классификации текстов:
- SVM для бинарной классификации
- SVM для мультиклассовой классификации
- RNN
- LSTM
- CNN
- CNN multi branches