GitHub - cewebbr/Bert_HateSpeech_Classification: Implementation of a BERT model to Classify Hate Speech on Social Media

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Readme.txt		Readme.txt
bert_hatespeech_portuguese.py		bert_hatespeech_portuguese.py

Repository files navigation

O Ceweb.br torna público o código de implementação de um modelo de Machine Learning que auxilia na detecção de potenciais discursos de ódio nas redes sociais. Este projeto está sendo realizado em parceira com o laboratório de ciências cognitivas da Queen Mary University of London e implementa as técnicas consideradas estado da arte na área de processamento de linguagem natural. Este código implementa um modelo, da arquitetura BERT, pré-treinado em PT-BR e um treinamento para o ajuste fino (fine-tuning) para a tarefa específica de classificação de sentenças de discurso de ódio. Foi utilizado, como base de treinamento, o corpus publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). A Hierarchically-Labeled Portuguese Hate Speech Dataset. 

Destacamos que este projeto de natureza científica está em sua fase inicial de execução. O código não deve ser considerado uma ferramenta pronta para utilização. Optamos pela sua liberação com o objetivo de compartilhar conhecimento com a comunidade técnica e científica interessada na área de processamento de linguagem natural. Ainda estão previstas atividades de validação do modelo, implementação de ferramentas de explicação do modelo e geração de um novo corpus de dados.