-
Jeu de données MLMA : jeu de donné avec plusieurs types de sentiments (offensifs, haineux, normal), ils avaient l'air coherant mais quelques fois il y avait des groupes mal identifié exemple : mangole -> group : indian (utilisation de ce jeu de données mais on va plus avoir besoins des sentiments haineux et offensif et répétitive (spam)) (nous on va enlever le @ des gens)
-
Jeu de données HateCheck French : jeu de données avec des groupes par exemple si on insulte les musulmans ça detecte le message haineux et ça affecte au groupe de personnes qui sont les musulmans (ce jeu de donnée est le plus intéressant pour notre POC)
-
Jeu de données Twitter : jeu de données avec des tweets aléatoires pas vraiment précis qui détecte les mots négatives
Les communautés recensées : Religion, Sexe, Orientation sexuel, Origine, Couleur de peau, Handicap, Réfugié, others
Nettoyage de données :
Qu'est-ce que le nettoyage des données ? lien : https://www.geotab.com/fr/blog/importance-du-nettoyage-des-donn%C3%A9es/
Le nettoyage des données consiste à s'assurer que les données sont correctes, cohérentes et utilisables. Vous pouvez nettoyer les données en identifiant les erreurs ou les corruptions, en les corrigeant ou en les supprimant, ou en traitant manuellement les données si nécessaire pour éviter que les mêmes erreurs ne se produisent.
La plupart des aspects du nettoyage des données peuvent être effectués grâce à l'utilisation d'outils logiciels, mais une partie doit être effectuée manuellement. Bien que cela puisse rendre le nettoyage des données une tâche écrasante, c'est un élément essentiel de la gestion des données de l'entreprise.
- Il supprime les erreurs majeures et les incohérences inévitables lorsque plusieurs sources de données sont regroupées dans un seul ensemble de données.
- L'utilisation d'outils pour nettoyer les données rendra tous les membres de votre équipe plus efficaces car vous serez en mesure d'obtenir rapidement ce dont vous avez besoin à partir des données dont vous disposez.
- Moins d'erreurs signifie des clients plus satisfaits et moins d'employés frustrés.
- Cela vous permet de mapper différentes fonctions de données, de mieux comprendre ce que vos données sont censées faire et d'apprendre d'où elles proviennent.
- Faites un plan.
- Vérifiez les données en cours de saisie.
- Contrôlez l'exactitude de vos données.
- Supprimez les doublons.
- Nettoyez, recommencez et collectez davantage de données si nécessaire.
Le nettoyage de données pour les messages haineux et le cyberharcèlement peut être un processus délicat et sensible, car il implique souvent des commentaires ou des messages très offensants ou menaçants. Voici quelques étapes qui peuvent être utiles dans ce processus :
- Définir des critères de classification : Définissez des critères clairs pour identifier les messages haineux et le cyberharcèlement, en vous appuyant sur des définitions reconnues et en tenant compte des contextes culturels et sociaux.
- Identifier les messages pertinents : Utilisez des techniques de traitement de langage naturel (NLP) pour identifier les messages pertinents dans l'ensemble de données, en utilisant des algorithmes qui peuvent identifier les termes vulgaires, menaçants, racistes, homophobes, sexistes, etc.
- Éliminer les messages redondants : Les messages qui se répètent ou qui sont des copies peuvent être éliminés pour éviter les doublons.
- Anonymiser les données : Les informations personnelles des utilisateurs peuvent être supprimées ou remplacées par des identifiants anonymes pour protéger leur vie privée.
- Faire appel à des experts en psychologie ou à des professionnels de la santé mentale : Les experts peuvent aider à identifier les messages qui peuvent avoir des effets graves sur la santé mentale des personnes exposées, et à mettre en place des protocoles de suivi et de traitement.
- Vérifier les résultats : Vérifiez les données nettoyées pour s'assurer qu'elles sont correctes et que les messages haineux et le cyberharcèlement ont été correctement identifiés.
- Documenter le processus de nettoyage : Documentez le processus de nettoyage de données, y compris les critères de classification et les décisions prises pour référence future.