Session de septembre 2023

Pour cette deuxième session, nous souhaitons challenger les travaux du collectif Masakhane sur la détection des catégories grammaticales dans les langues d’Afrique subsahariennes, avec un accent sur la langue Ghomala.

Merci de rejoindre notre communauté sur Slack pour en discuter !

Date de début : Session de septembre 2023
Nombre de participants :
Partager :

#Contexte

Nous nous intéresserons pour cette session à la tâche d’étiquetage morpho-syntaxique (ou Part Of Speech Tagging: POS) en langues d’Afrique sub-saharienne peu dotées et nous challengerons la dernière publication du collectif Masakhane sur le sujet.

# Domaine de recherche

L’étiquetage morpho-syntaxique, encore appelé tâche de « POS » (Part Of Speech Tagging en anglais), est une tâche en TAL qui consiste à attribuer automatiquement à chaque mot (ou token) d’une phrase ou d’un corpus de textes dans leur contexte d’énonciation, la catégorie grammaticale correspondante au moyen de techniques et méthodes déterministes ou probabilistes (apprentissage automatique ou profond). Parce qu’elle est le traitement d’entrée de plusieurs autres tâches en TAL (Traduction automatique, Analyse morpho-syntaxique, compréhension/génération de texte, etc.), elle devient quasi incontournable pour tout processus d’outillage d’une langue.

Il y a encore quelques années, les approches déterministes à base de règles (Construites sur des outils comme: Talismane pos-tagger (Urieli, 2013), Unitex/GramLab, etc.), puis celles dites probabilistes (à base d’apprentissage automatique/profond, méthodes statistiques), Brants (2000), Tackstrom et al. (2013), Scherrer and Sagot (2013), Sanchez-Martınez et al., (2007),  nlpprogress, etc., avaient significativement amélioré la détection des étiquettes morpho-syntaxiques dans plusieurs langues dotées (Français, Anglais, Allemand, Chinois, etc.). Aujourd’hui, avec la disponibilité croissante en quantité des ressources linguistiques, les approches d’apprentissage par transfert impliquant des grands modèles de langue (Large Language Model en anglais) permettent d’avoir des résultats de mieux en mieux performants (avec un F-score moyen de 97%). Ces mêmes algorithmes ont permis à des langues disposant de corpus limités de voir aussi leurs résultats améliorés. On constate cependant un gain assez faible sur cette tâche de POS et précisément sur les langues peu dotées d’Afrique disposant de ressources limitées. Quelques raisons historiques sont avancées :

  • Non application systématique de politique de standardisation des langues africaines: le processus de standardisation des systèmes d’écriture n’est pas achevé et donc n’est pas généralisé
  • Études linguistiques non complètes sur les langues africaines
  • Indisponibilité des ressources écrites de qualité, en quantité et standardisées
  • Indisponibilité des ressources écrites annotées de qualité, en quantité et standardisées
  • Financement limité pour impulser la recherche en Afrique dans le domaine
  • Présence moribonde de communautés globales de contributeurs « spécialistes » autour de ce sujet en Afrique

Néanmoins, quelques travaux (https://ieeexplore.ieee.org/document/9015871, Dibitso, M.A. et al. (2019),  Pannach, Franziska et al. (2021); Cheikh M. Bamba Dione et al. (2010), G. De Pauw, Gilles-Maurice de Schryverz et al. (2012), Malema, G. Tebalo, B. Okgetheng et al. (2020), etc.) menés sur le continent ont permis à quelques langues de disposer de premiers outils POS construits essentiellement sur des approches déterministes, et plus récemment sur des approches probabilistes avec en priorité les algorithmes d’apprentissage par transferts ou des modèles hybrides.

# Travaux à challenger

Le collectif Masakhane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué en collaboration avec plusieurs organisations locales dont l’association NTeALan au Cameroun, des corpus annotés POS dans 18 langues d’Afrique subsaharienne. Les corpus POS produits utilisent 14 étiquettes de l’Universal Dependencies (UD: NOUN, VERB, ADJ, ADV, SCONJ, PUNCT, DET, PART, AUX, CCONJ, ADP, NUM, PROPN, PRON) et sont actuellement partagés en open accès sur leur répertoire Github officiel  ou dans le dossier « data_source » de ce répertoire Github.

Les corpus produits ont été entrainés et évalués (par sur-apprentissage) avec les modèles de Transformers tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence ACL 2023 et accessible sur le site Arxiv. A la lecture de ce document, nous constatons que le Ghomala, langue sémi bantu parlée à l’Ouest du Cameroun, (et une bonne partie des langues du projet) a des résultats moins intéressants en terme de performance si l’on compare à certaines langues évaluées.

#Objectifs

L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants, rapide et écologique pour détecter les catégories grammaticales associées à chaque mot de la langue Ghomala (et par extension aux autres langues du projet) en prenant appui sur la dernière publication du collectif Masahkane sur le sujet. Ces questions peuvent vous orienter dans le choix de votre angle t’attaque:

  • Quel algorithme d’IA serait plus approprié pour détecter et catégoriser les étiquettes morpho-syntaxiques en Ghomala et par extension aux langues traitées ?
  • Quel algorithme d’IA serait le plus écologique pour cette tâche ?
  • Quel algorithme d’IA respecterait plus l’éthique (Ethical IA) pour cette tâche ?
  • Comment mieux organiser les données pour ce type de tâche en TAL ?
  • Le Ghomala peut-elle être traitée comme toutes les autres langues ? Doit-on parler d’une spécificité Ghomala en TAL pour cette tâche
  • Quelle application pouvons-nous mettre en place pour aider les linguistes ou locuteurs ghomalaphones à mieux traiter ce problème ?
  • Quelle méthodologie serait mieux adaptée pour traiter ce type de tâche ?
  • Au délà de l’approche utilisée par le collectif Masakhane pour traiter cette tâche, une combinaison d’approche déterministe / probabiliste apporterait-elle un plus ?

 

Dans tous les cas, c’est aux participants de définir leurs objectifs et approches pour proposer une solution de détection POS efficace et respectueuse des contraintes éthiques et environnementales sur ces données.

#Participer à la session

Pour participer à cette session et challenger les autres participants:

  • Chaque participant ou groupe de participants devra s’approprier les corpus « African POS Datasets » en clonant ce répertoire git.
  • Vous deviez ensuite créer un répertoire dans votre propre *espace Github* en adoptant cette structure:
    • /data_source (étant la référence aux corpus POS Masahkane/facultatif)
    • /evaluation
    • /training
    • methodology.md
    • license.md
  • Vous devez ensuite proposer votre solution en respectant cette structure. Vous êtes libre d’ajouter d’autres dossiers ou fichiers supplémentaires de votre choix.
  • Renommez votre dossier par les initiales du challenge suivi de celui de votre projet (Exemple: SCIA-ENR: ENR étant les initiales de votre projet) et créez ensuite une branche indiquant un numéro de version (Exemple: 0.1) de votre projet et pushez là sur votre répertoire Github personnel. Vous pouvez aussi forker ce répertoire exemple qui vous donne un aperçu de cette structure. Nous utiliserons ce lien comme sous-module git du dossier propositions dans ce répertoire officiel du challenge.
  • Revenez sur ce répertoire et forkez le. Inscrivez votre proposition dans le fichier PARTICIPANTS suivant les champs fournis. Faites ensuite un « pull request » vers le répertoire officiel pour que le comité d’organisation valide votre proposition et lie votre répertoire à ce répertoire officiel.
  • Cette structure est susceptible d’évoluer avec les participants

 

Merci de respecter scrupuleusement cette procédure afin que le comité d’organisation puisse au mieux intégrer votre travail au répertoire officiel. Vous pouvez vous référer aux soumissions de la première édition.

#Comité d'organisation

Ce challenge est organisé par NTeALan Research and Developpement en collaboration avec NTeALan Cameroun et NTeALan France.

  • Jules Assoumou (Vice rector of University of Ngaoundéré)
  • Elvis MBONING (Lead Data scientist NLP/NLU/Chatbot)
  • Jean-Marc Bassahak (Lead Motion Design and web developer)
  • Moussa Aboubarkar (Data Scientist / PhD)
  • Et toute l’équipe de recherche de NTeALan Research and Developpment

 

Pour toute question complémentaire, n’hésitez pas à contacter le comité d’organisation du challenge par Mail ou sur la plateforme Slack.

 

#Prix

Le vainqueur de cette session coordonnera, en collaboration avec tous les participants, la rédaction d’un article scientifique qui résumera l’ensemble des contributions du challenge. Une conférence sera choisie pour publier la proposition.

Ces travaux sera financés et accompagnés par l’équipe de recherche ERTIM de l’INALCO.

 

#Participants

La liste définitive des participants sera dévoilée très prochainement.

user-placeholder-avatar-01
Arthur Kaza
user-placeholder-avatar-01
Michael Franklin Mbouopda
user-placeholder-avatar-01
Elvis Mboning
user-placeholder-avatar-01
Yannick Obam

#Sponsors

Ce challenge est actuellement sponsorisé par l’association NTeALan Social Network, l’équipe de recherche ERTIM de l’INALCO et NTeALan Research and Development.

Nous serions heureux d’accueillir de nouveaux sponsors.

En partenariat avec le département de langues et cultures africaines de la Faculté des lettres et sciences humaines de l’Université de Douala. 

#Publications