Análise de Preconceito com Python

Índice

Introdução
Trabalhos Futuros
Licença

Introdução

O projeto apresenta a construção de um método de classificação de preconceito em textos aplicado em frases retiradas da internet em português brasileiro, onde todas possuiam discurso de ódio.

Na proposta foi utilizada uma metodologia para a análise do preconceito com base no aprendizado de máquina que envolvia o método de Fatorização de Matriz Não-Negativa. Para isso, foram realizadas as etapas de coleta de frase com teor preconceituoso, rotulação manual de cada frase, pré-processamento dos dados, construção de uma matriz com os dados, fatorização da matriz e análise do resultado.

O resultado obtido não foi satisfatório devido a baixa qualidade do dataset que além de possuir poucos documentos, não está balanceado e possue muitas frases parecidas, contendo assim um vocablário pequeno. Além disso, o tema escolhido possuem mensagens difíceis de serem rotuladas até mesmo pelos humanos, com isso as incertezas nas classificações também podem ser justificadas por essa qestão. Dessa forma, fica visível a dificuldade deste tipo de classificação já que envolve conceitos de opinião e pontos de vista.

Trabalhos Futuros

A partir dos resultados obtidos, nota-se que alguns pontos merecem atenção especial, como construir um dataset melhor e testar outros métodos para verificar se é possível obter um resultado com uma qualidade melhor.

Podem ser feitas também análises específicas sobre os termos mais comumente utilizados por usuários do Twitter para abordar um tipo de preconceito poderiam ser realizadas. Além disso, utilizar a geolocalização para identificar regiões que mais comentam sobre tais assuntos identificando a polaridade das mensagens.

Com isso, pretende-se dar continuidade a este projeto nas seguintes direções:

Obter um dataset maior e mais balanceado a partir de uma API fornecida pla rede social "twitter".
Procurar bibliotecas mais eficientes para o pré-processamento de textos em português brasileiro, se necessário, tentar construir uma ou trabalhar com documentos em inglês, já que para esse idioma é possível encontrar bibliotecas com boa qualidade.
Calcular a acurácia do resultado
Aplicar outros métodos como o LDA, para comparar os resultados obtidos e assim definir o melhor.
Incluir informacões geográficas – como latitude e longitude dos emissores dos tweets, permitindo a geracão de grafos associados e o estudo da difusão dos tipos de preconceito; *Criar uma função para analisar novos documentos de textos e classificá-los.

Licença

The MIT License (MIT) 2022 - Letícia Tavares. Leia o arquivo LICENSE.md para mais detalhes.

⬆ Voltar ao topo

Name	Name	Last commit message	Last commit date
Latest commit leticiatavaresds Atualizacao pagina web Oct 17, 2022 e37b43d · Oct 17, 2022 History 44 Commits
.ipynb_checkpoints	.ipynb_checkpoints	Criacao pagina para o repositório	Oct 17, 2022
docs	docs	Atualizacao pagina web	Oct 17, 2022
Análise_de_Preconceito_ALA.ipynb	Análise_de_Preconceito_ALA.ipynb	Criacao pagina para o repositório	Oct 17, 2022
LICENSE.md	LICENSE.md	Create LICENSE.md	Oct 16, 2022
README.md	README.md	Create README.md	Oct 16, 2022
dados_odio.csv	dados_odio.csv	Criacao pagina para o repositório	Oct 17, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Análise de Preconceito com Python

Índice

Introdução

Trabalhos Futuros

Licença

About

Releases

Packages

Languages

License

leticiatavaresds/Projeto-ALA

Folders and files

Latest commit

History

Repository files navigation

Análise de Preconceito com Python

Índice

Introdução

Trabalhos Futuros

Licença

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages