Skip to content

Классификатор токсичных текстов

License

Notifications You must be signed in to change notification settings

jug2505/Toxic-Comment-Classification

Repository files navigation

Toxic-Comment-Classification

corpus/vk_comment_parser.py - выдаёт комментарии под постом В Контакте в виде json файлов.

Создать директорию corpus_marked и хранить там размеченный корпус json файлов.

Вызов скрипта word2vec_model.py создаёт Word2Vec модель обученную на корпусе.

После этого можно запускать скрипты создания классификаторов:

  • convoltuional.py - На основе свёрточной нейросети
  • recurent.py - На основе рекурррентной нейросети
  • double_recurent.py - На основе двунаправленной нейросети
  • lstm.py - На основе нейросети с долгой краткосрочной памятью

service.py - веб-сервис, на входе Get запрос (ключ sentence), на выходе Json документ, отображающий класс сообщений (0 - неоскорбительное, 1 - оскорбительное)

Работает с Apache

Ссылка на размеченный корпус: https://www.dropbox.com/s/8qomv4ne10zl7x6/corpus_marked.zip?dl=0

About

Классификатор токсичных текстов

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages