Pourquoi créer ce challenge ?

Sangkak-Challenge-IA

Challengeons autrement les problématiques NLP du vieux continent...

Translations	Status
English	Not started
-> ...	...

SANGKAK-CHALLENGE-IA est un challenge inter-datascientist et de chercheurs / ingénieurs en Traitement Automatique des Langues (TAL) visant à créer des solutions d'intélligence artificielle concrètes sur un jeu de données open-source en langues africaines.

SANGKAK peut se traduire "Calculer en jouant" en yémba (langue parlée dans le département de la Menoua à l'Ouest du Cameroun).

Pourquoi créer ce challenge ?

L'Afrique dispose d'un patrimoine culturel et linguistique sans précèdent. Ses 3000 langues sont encore parmi les langues les plus sous-dotées du monde et ce malgré toutes les initiatives créées ces dernières années sur le continent. Le défis est très grand et nous avons un avantage de taille aujourd'hui pour radicalement changer les choses: les technologies et applications de la data science.

Des groupes de travail se sont constitués sur le continent ces dernières années et ils ont produit des quantités importantes de ressources structurées et non structurées pour les langues africaines. En plus des ressources lexicographiques de l'association NTeALan Social Network, on peut aussi citer celles de l'INALCO, du collectif Masahkane, de Google Research, de Meta et bien d'autres organismes et universités à travers le monde.

Quelques ressources existent et bien même qu'une bonne partie de ces ressources soient privées, il faudrait maintenant les exploiter pour créer de la valeur au sein des sociétés linguistiques concernées. Tout ceci implique aussi d'identifier les problématiques locales, de trouver un lien possible entre ces problématiques et les ressources disponibles. C'est l'une des raisons principales de ce projet challenge.

Edition Septembre 2023

Infos organisationelles

		Status
Site web officiel	https://sangkak-challenge-ia.ntealan.net	OK
Langue de travail	FR, EN	OK
Communauté Slack		OK
Edition	Septembre 2023	OK
Thématique	Part Of Speech Tagging (POS)	OK
Données sources	MasakhaPOS	OK
Langues africaines sources	bbj, bam, ewe, fon, hau, ibo, kin, lug, mos, nya, pcm , sna, swa, tsn, twi, wol, xho, yor, zul	OK
Workshop prévu	30 septembre 2023	OK
Publication prévue		Not started

Grandes étapes à retenir

	Etapes	Status
1	Définition du thème de la session	OK
2	Rédaction des spécifications de la session	OK
3	Création du répertoire Github de la session	OK
4	Création du site web du challenge (2ère édition)	OK
5	Ouverture des candidatures pour la session	OK
6	Sélection des participants pour la session	OK
7	Début du challenge chez les participants	OK
8	Fin du challenge chez les participants	OK
9	Programmation du workshop	OK
10	Début du workshop (débat sur les solutions proposées)	OK
11	Fin du workshop (débat sur les solutions proposées)	OK
12	Rédaction du bilan des travaux	Not started
13	Publication des travaux	Not started
14	Fin de la session du challenge	Not started

Contexte

Nous nous intéresserons pour cette session à la tâche d’étiquetage morpho-syntaxique (ou Part Of Speech Tagging : POS) en langues d’Afrique sub-saharienne peu dotées et nous challengerons la dernière publication du collectif Masakhane sur le sujet.

Domaine de recherche

L'étiquetage morpho-syntaxique, encore appelé tâche de "POS" (Part Of Speech Tagging en anglais), est une tâche en TAL qui consiste à attribuer automatiquement à chaque mot (ou token) d'une phrase ou d'un corpus de textes dans leur contexte d'énonciation, la catégorie grammaticale correspondante au moyen de techniques et méthodes déterministes ou probabilistes (apprentissage automatique ou profond). Parce qu'elle est le traitement d'entrée de plusieurs autres tâches en TAL (Traduction automatique, Analyse morpho-syntaxique, compréhension/génération de texte, etc.), elle devient quasi incontournable pour tout processus d'outillage d'une langue.

Il y a encore quelques années, les approches déterministes à base de règles¹, puis celles dites probabilistes (à base d'apprentissage automatique/profond, méthodes statistiques)², avaient significativement amélioré la détection des étiquettes morpho-syntaxiques dans plusieurs langues dotées (Français, Anglais, Allemand, Chinois, etc.). Aujourd'hui, avec la disponibilité croissante en quantité des ressources linguistiques, les approches d'apprentissage par transfert impliquant des grands modèles de langue pré-entraînés (Large Language Model en anglais) permettent d'avoir des résultats de mieux en mieux performants (avec un F-score moyen de 97%)³. Ces mêmes algorithmes ont permis à des langues disposant de corpus limités de voir aussi leurs résultats améliorés. On constate cependant un gain assez faible sur cette tâche de POS et précisément sur les langues peu dotées d'Afrique disposant de ressources limitées. Quelques raisons historiques sont avancées :

Non application systématique de politique de standardisation des langues africaines: le processus de standardisation des systèmes d'écriture n'est pas achevé et donc n'est pas généralisé
Études linguistiques non complètes sur les langues africaines
Indisponibilité des ressources écrites de qualité, en quantité et standardisées
Indisponibilité des ressources écrites annotées de qualité, en quantité et standardisées
Financement limité pour impulser la recherche en Afrique dans le domaine
Présence moribonde de communautés globales de contributeurs "spécialistes" autour de ce sujet en Afrique

Néanmoins, quelques travaux⁴ menés sur le continent ont permis à quelques langues de disposer de premiers outils POS construits essentiellement sur des approches déterministes, et plus récemment sur des approches probabilistes avec en priorité les algorithmes d'apprentissage par transferts ou des modèles hybrides.

Travaux à challenger

Le collectif Masakhane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué en collaboration avec plusieurs organisations locales dont l'association NTeALan au Cameroun, des corpus annotés POS dans 18 langues d’Afrique subsaharienne. Les corpus POS produits utilisent 14 étiquettes de l'Universal Dependencies (UD⁵: NOUN, VERB, ADJ, ADV, SCONJ, PUNCT, DET, PART, AUX, CCONJ, ADP, NUM, PROPN, PRON) et sont actuellement partagés en open accès sur leur répertoire Github officiel⁶ ou dans le dossier "data_source" de ce répertoire Github.

Les corpus produits ont été entrainés et évalués (par sur-apprentissage) avec les modèles de Transformers tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence ACL 2023 et accessible sur le site Aclanthology.org⁷. `A la lecture de ce document, nous constatons que le Ghomala, langue sémi bantu parlée à l’Ouest du Cameroun, (et une bonne partie des langues du projet) a des résultats moins intéressants en terme de performance si l'on compare à certaines langues évaluées.

Objectifs

L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants, rapide et écologique pour détecter les catégories grammaticales associées à chaque mot de la langue Ghomala (et par extension aux autres langues du projet) en prenant appui sur la dernière publication du collectif Masahkane sur le sujet. Ces questions peuvent vous orienter dans le choix de votre angle t'attaque:

Quel algorithme d’IA serait plus approprié pour détecter et catégoriser les étiquettes morpho-syntaxiques en Ghomala et par extension aux langues traitées ?
Quel algorithme d’IA serait le plus écologique pour cette tâche ?
Quel algorithme d’IA respecterait plus l'éthique (Ethical IA) pour cette tâche ?
Comment mieux organiser les données pour ce type de tâche en TAL ?
Le Ghomala peut-elle être traitée comme toutes les autres langues ? Doit-on parler d’une spécificité Ghomala en TAL pour cette tâche ?
Quelle application pouvons-nous mettre en place pour aider les linguistes ou locuteurs ghomalaphones à mieux traiter ce problème ?
Quelle méthodologie serait mieux adaptée pour traiter ce type de tâche ?
Au délà de l'approche utilisée par le collectif Masakhane pour traiter cette tâche, une combinaison d’approche déterministe / probabiliste apporterait-elle un plus ?

Dans tous les cas, c’est aux participants de définir leurs objectifs et approches pour proposer une solution de détection POS efficace et respectueuse des contraintes éthiques et environnementales sur ces données.

Comment participer à cette session de septembre 2023

Pour participer à cette session et challenger les autres participants:

Chaque participant ou groupe de participants devra s'approprier les corpus African POS Datasets en clonant ce répertoire git.
Vous deviez ensuite créer un répertoire dans votre propre espace Github en adoptant cette structure:
- /data_source (étant la référence aux corpus NER Masakhane/facultatif)
- /evaluation
- /training
- methodology.md
- license.md
Vous devez ensuite proposer votre solution en respectant cette structure. Vous êtes libre d'ajouter d'autres dossiers ou fichiers supplémentaires de votre choix.
Renommez votre dossier par les initiales du challenge suivi de celui de votre projet (Exemple: SCIA-ENR: ENR étant les initiales de votre projet) et créez ensuite une branche indiquant un numéro de version (Exemple: 0.1) de votre projet et pushez là sur votre repertoire Github personnel. Vous pouvez aussi forker ce repertoire exemple qui vous donne un aperçu de cette structure. Nous utiliserons ce lien comme sous-module git du dossier propositions dans ce répertoire officiel du challenge.
Revenez sur ce repertoire et forkez le. Inscrivez votre proposition dans le fichier PARTICIPANTS suivant les champs fournis. Faites ensuite un pull request vers le repertoire officiel pour que le comité d'organisation valide votre proposition et lie votre repertoire à ce repertoire officiel.

Merci de respecter scrupuleusement cette procédure afin que le comité d’organisation puisse au mieux intégrer votre travail au répertoire officiel. Vous pouvez vous référer aux soumissions de la première édition⁸.

Comité d'organisation

Ce challenge est organisé par NTeALan Research and Developpement en collaboration avec NTeALan Cameroun et NTeALan France.

Elvis MBONING (Lead Data scientist NLP/NLU/Chatbot)
Jean-Marc Bassahak (Lead Motion Design and web developer)
Jules Assoumou (Vice rector of University of Ngaoundéré)
Tatiana Moteu (Data Scientist / PhD Student)
All research team of NTeALan Research and Developpment

Pour toute question complémentaire, n'hésitez pas à contacter le comité d'organisation du challenge par Mail ou sur la Slack platform.

Participants de la session

Gagnant de la session

...

Name		Name	Last commit message	Last commit date
Latest commit History 51 Commits
.github		.github
data_source		data_source
images		images
propositions		propositions
translations		translations
.gitignore		.gitignore
.gitmodules		.gitmodules
LICENSE		LICENSE
README.md		README.md
REGLEMENTS.md		REGLEMENTS.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pourquoi créer ce challenge ?

Edition Septembre 2023

Infos organisationelles

Grandes étapes à retenir

Contexte

Domaine de recherche

Travaux à challenger

Objectifs

Comment participer à cette session de septembre 2023

Comité d'organisation

Participants de la session

Gagnant de la session

Sponsors

About

Releases

Sponsor this project

Packages

Contributors 3

License

NTeALan/Sangkak-Challenge-IA

Folders and files

Latest commit

History

Repository files navigation

Pourquoi créer ce challenge ?

Edition Septembre 2023

Infos organisationelles

Grandes étapes à retenir

Contexte

Domaine de recherche

Travaux à challenger

Objectifs

Comment participer à cette session de septembre 2023

Comité d'organisation

Participants de la session

Gagnant de la session

Sponsors

Footnotes

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Sponsor this project

Packages 0

Contributors 3

Packages