Skip to content

SANGKAK-CHALLENGE-IA is an inter-datascientist and Natural Language Processing (NLP) researcher/engineer challenge aimed at creating concrete artificial intelligence solutions on an open-source dataset in African languages.

License

Notifications You must be signed in to change notification settings

NTeALan/Sangkak-Challenge-IA

Repository files navigation




Sangkak Challenge IA


Sangkak-Challenge-IA

Challengeons autrement les problématiques NLP du vieux continent...

creativecommons

Kaggle MIT scikit-learn TensorFlow Pandas Matplotlib PyTorch Linux Git


Translations Status
English Not started
-> ... ...

SANGKAK-CHALLENGE-IA est un challenge inter-datascientist et de chercheurs / ingénieurs en Traitement Automatique des Langues (TAL) visant à créer des solutions d'intélligence artificielle concrètes sur un jeu de données open-source en langues africaines.

SANGKAK peut se traduire "Calculer en jouant" en yémba (langue parlée dans le département de la Menoua à l'Ouest du Cameroun).

Pourquoi créer ce challenge ?

L'Afrique dispose d'un patrimoine culturel et linguistique sans précèdent. Ses 3000 langues sont encore parmi les langues les plus sous-dotées du monde et ce malgré toutes les initiatives créées ces dernières années sur le continent. Le défis est très grand et nous avons un avantage de taille aujourd'hui pour radicalement changer les choses: les technologies et applications de la data science.

Des groupes de travail se sont constitués sur le continent ces dernières années et ils ont produit des quantités importantes de ressources structurées et non structurées pour les langues africaines. En plus des ressources lexicographiques de l'association NTeALan Social Network, on peut aussi citer celles de l'INALCO, du collectif Masahkane, de Google Research, de Meta et bien d'autres organismes et universités à travers le monde.

Quelques ressources existent et bien même qu'une bonne partie de ces ressources soient privées, il faudrait maintenant les exploiter pour créer de la valeur au sein des sociétés linguistiques concernées. Tout ceci implique aussi d'identifier les problématiques locales, de trouver un lien possible entre ces problématiques et les ressources disponibles. C'est l'une des raisons principales de ce projet challenge.

Edition Septembre 2023

Infos organisationelles

Status
Site web officiel https://sangkak-challenge-ia.ntealan.net OK
Langue de travail FR, EN OK
Communauté Slack sangkak-challenge-ia OK
Edition Septembre 2023 OK
Thématique Part Of Speech Tagging (POS) OK
Données sources MasakhaPOS OK
Langues africaines sources bbj, bam, ewe, fon, hau, ibo, kin, lug, mos, nya, pcm , sna, swa, tsn, twi, wol, xho, yor, zul OK
Workshop prévu 30 septembre 2023 OK
Publication prévue Not started

Grandes étapes à retenir

Etapes Status
1 Définition du thème de la session OK
2 Rédaction des spécifications de la session OK
3 Création du répertoire Github de la session OK
4 Création du site web du challenge (2ère édition) OK
5 Ouverture des candidatures pour la session OK
6 Sélection des participants pour la session OK
7 Début du challenge chez les participants OK
8 Fin du challenge chez les participants OK
9 Programmation du workshop OK
10 Début du workshop (débat sur les solutions proposées) OK
11 Fin du workshop (débat sur les solutions proposées) OK
12 Rédaction du bilan des travaux Not started
13 Publication des travaux Not started
14 Fin de la session du challenge Not started

Contexte

Nous nous intéresserons pour cette session à la tâche d’étiquetage morpho-syntaxique (ou Part Of Speech Tagging : POS) en langues d’Afrique sub-saharienne peu dotées et nous challengerons la dernière publication du collectif Masakhane sur le sujet.

Domaine de recherche

L'étiquetage morpho-syntaxique, encore appelé tâche de "POS" (Part Of Speech Tagging en anglais), est une tâche en TAL qui consiste à attribuer automatiquement à chaque mot (ou token) d'une phrase ou d'un corpus de textes dans leur contexte d'énonciation, la catégorie grammaticale correspondante au moyen de techniques et méthodes déterministes ou probabilistes (apprentissage automatique ou profond). Parce qu'elle est le traitement d'entrée de plusieurs autres tâches en TAL (Traduction automatique, Analyse morpho-syntaxique, compréhension/génération de texte, etc.), elle devient quasi incontournable pour tout processus d'outillage d'une langue.

Il y a encore quelques années, les approches déterministes à base de règles1, puis celles dites probabilistes (à base d'apprentissage automatique/profond, méthodes statistiques)2, avaient significativement amélioré la détection des étiquettes morpho-syntaxiques dans plusieurs langues dotées (Français, Anglais, Allemand, Chinois, etc.). Aujourd'hui, avec la disponibilité croissante en quantité des ressources linguistiques, les approches d'apprentissage par transfert impliquant des grands modèles de langue pré-entraînés (Large Language Model en anglais) permettent d'avoir des résultats de mieux en mieux performants (avec un F-score moyen de 97%)3. Ces mêmes algorithmes ont permis à des langues disposant de corpus limités de voir aussi leurs résultats améliorés. On constate cependant un gain assez faible sur cette tâche de POS et précisément sur les langues peu dotées d'Afrique disposant de ressources limitées. Quelques raisons historiques sont avancées :

  • Non application systématique de politique de standardisation des langues africaines: le processus de standardisation des systèmes d'écriture n'est pas achevé et donc n'est pas généralisé
  • Études linguistiques non complètes sur les langues africaines
  • Indisponibilité des ressources écrites de qualité, en quantité et standardisées
  • Indisponibilité des ressources écrites annotées de qualité, en quantité et standardisées
  • Financement limité pour impulser la recherche en Afrique dans le domaine
  • Présence moribonde de communautés globales de contributeurs "spécialistes" autour de ce sujet en Afrique

Néanmoins, quelques travaux4 menés sur le continent ont permis à quelques langues de disposer de premiers outils POS construits essentiellement sur des approches déterministes, et plus récemment sur des approches probabilistes avec en priorité les algorithmes d'apprentissage par transferts ou des modèles hybrides.

Travaux à challenger

Le collectif Masakhane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué en collaboration avec plusieurs organisations locales dont l'association NTeALan au Cameroun, des corpus annotés POS dans 18 langues d’Afrique subsaharienne. Les corpus POS produits utilisent 14 étiquettes de l'Universal Dependencies (UD5: NOUN, VERB, ADJ, ADV, SCONJ, PUNCT, DET, PART, AUX, CCONJ, ADP, NUM, PROPN, PRON) et sont actuellement partagés en open accès sur leur répertoire Github officiel6 ou dans le dossier "data_source" de ce répertoire Github.

Les corpus produits ont été entrainés et évalués (par sur-apprentissage) avec les modèles de Transformers tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence ACL 2023 et accessible sur le site Aclanthology.org7. `A la lecture de ce document, nous constatons que le Ghomala, langue sémi bantu parlée à l’Ouest du Cameroun, (et une bonne partie des langues du projet) a des résultats moins intéressants en terme de performance si l'on compare à certaines langues évaluées.

Objectifs

L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants, rapide et écologique pour détecter les catégories grammaticales associées à chaque mot de la langue Ghomala (et par extension aux autres langues du projet) en prenant appui sur la dernière publication du collectif Masahkane sur le sujet. Ces questions peuvent vous orienter dans le choix de votre angle t'attaque:

  • Quel algorithme d’IA serait plus approprié pour détecter et catégoriser les étiquettes morpho-syntaxiques en Ghomala et par extension aux langues traitées ?
  • Quel algorithme d’IA serait le plus écologique pour cette tâche ?
  • Quel algorithme d’IA respecterait plus l'éthique (Ethical IA) pour cette tâche ?
  • Comment mieux organiser les données pour ce type de tâche en TAL ?
  • Le Ghomala peut-elle être traitée comme toutes les autres langues ? Doit-on parler d’une spécificité Ghomala en TAL pour cette tâche ?
  • Quelle application pouvons-nous mettre en place pour aider les linguistes ou locuteurs ghomalaphones à mieux traiter ce problème ?
  • Quelle méthodologie serait mieux adaptée pour traiter ce type de tâche ?
  • Au délà de l'approche utilisée par le collectif Masakhane pour traiter cette tâche, une combinaison d’approche déterministe / probabiliste apporterait-elle un plus ?

Dans tous les cas, c’est aux participants de définir leurs objectifs et approches pour proposer une solution de détection POS efficace et respectueuse des contraintes éthiques et environnementales sur ces données.

Comment participer à cette session de septembre 2023

Pour participer à cette session et challenger les autres participants:

  • Chaque participant ou groupe de participants devra s'approprier les corpus African POS Datasets en clonant ce répertoire git.

  • Vous deviez ensuite créer un répertoire dans votre propre espace Github en adoptant cette structure:

    • /data_source (étant la référence aux corpus NER Masakhane/facultatif)
    • /evaluation
    • /training
    • methodology.md
    • license.md
  • Vous devez ensuite proposer votre solution en respectant cette structure. Vous êtes libre d'ajouter d'autres dossiers ou fichiers supplémentaires de votre choix.

  • Renommez votre dossier par les initiales du challenge suivi de celui de votre projet (Exemple: SCIA-ENR: ENR étant les initiales de votre projet) et créez ensuite une branche indiquant un numéro de version (Exemple: 0.1) de votre projet et pushez là sur votre repertoire Github personnel. Vous pouvez aussi forker ce repertoire exemple qui vous donne un aperçu de cette structure. Nous utiliserons ce lien comme sous-module git du dossier propositions dans ce répertoire officiel du challenge.

  • Revenez sur ce repertoire et forkez le. Inscrivez votre proposition dans le fichier PARTICIPANTS suivant les champs fournis. Faites ensuite un pull request vers le repertoire officiel pour que le comité d'organisation valide votre proposition et lie votre repertoire à ce repertoire officiel.

Merci de respecter scrupuleusement cette procédure afin que le comité d’organisation puisse au mieux intégrer votre travail au répertoire officiel. Vous pouvez vous référer aux soumissions de la première édition8.

Comité d'organisation

Ce challenge est organisé par NTeALan Research and Developpement en collaboration avec NTeALan Cameroun et NTeALan France.

  • Elvis MBONING (Lead Data scientist NLP/NLU/Chatbot)
  • Jean-Marc Bassahak (Lead Motion Design and web developer)
  • Jules Assoumou (Vice rector of University of Ngaoundéré)
  • Tatiana Moteu (Data Scientist / PhD Student)
  • All research team of NTeALan Research and Developpment

Pour toute question complémentaire, n'hésitez pas à contacter le comité d'organisation du challenge par Mail ou sur la Slack platform.

Participants de la session

challengers_09_2023

Gagnant de la session

...

Sponsors

Ce challenge est sponsorisé par:

  • l'équipe ERTIM de l'INALCO
  • l'association NTeALan Social Network

Footnotes

  1. Construites sur des outils comme: Talismane pos-tagger (Urieli, 2013), Unitex/GramLab, etc.

  2. Brants (2000), Tackstrom et al. (2013), Scherrer and Sagot (2013), Sanchez-Martınez et al., 2007), http://nlpprogress.com/english/part-of-speech_tagging.html, etc.

  3. https://aclweb.org/aclwiki/POS_Tagging_(State_of_the_art)

  4. Dibitso, M.A. et al. (2019), Pannach, Franziska et al. (2021), Cheikh M. Bamba Dione et al. (2010), G. De Pauw, Gilles-Maurice de Schryverz et al. (2012), Malema, G. Tebalo, B. Okgetheng et al. (2020), etc.

  5. http://universaldependencies.org/

  6. https://github.com/masakhane-io/masakhane-pos/tree/main/data

  7. https://aclanthology.org/2023.acl-long.609/

  8. https://github.com/NTeALan/Sangkak-Challenge-IA/tree/sept-2023/propositions

About

SANGKAK-CHALLENGE-IA is an inter-datascientist and Natural Language Processing (NLP) researcher/engineer challenge aimed at creating concrete artificial intelligence solutions on an open-source dataset in African languages.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

Packages

No packages published