Skip to content

cewebbr/Bert_HateSpeech_Classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

O Ceweb.br torna público o código de implementação de um modelo de Machine Learning que auxilia na detecção de potenciais discursos de ódio nas redes sociais. Este projeto está sendo realizado em parceira com o laboratório de ciências cognitivas da Queen Mary University of London e implementa as técnicas consideradas estado da arte na área de processamento de linguagem natural. Este código implementa um modelo, da arquitetura BERT, pré-treinado em PT-BR e um treinamento para o ajuste fino (fine-tuning) para a tarefa específica de classificação de sentenças de discurso de ódio. Foi utilizado, como base de treinamento, o corpus publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). A Hierarchically-Labeled Portuguese Hate Speech Dataset. 

Destacamos que este projeto de natureza científica está em sua fase inicial de execução. O código não deve ser considerado uma ferramenta pronta para utilização. Optamos pela sua liberação com o objetivo de compartilhar conhecimento com a comunidade técnica e científica interessada na área de processamento de linguagem natural. Ainda estão previstas atividades de validação do modelo, implementação de ferramentas de explicação do modelo e geração de um novo corpus de dados. 

About

Implementation of a BERT model to Classify Hate Speech on Social Media

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages