Session de février 2023

Pour cette première session, nous souhaitons challenger les travaux du collectif Masakhane sur la détection des entités nommées en Ghomala (une des langues camerounaises parlée dans la région de l’Ouest Cameroun).

  • Thème: Name Entities Recognition (NER)
  • Données sources: MasakhaNER 2.0
  • Langue de travail: FR, EN
  • Langues africaines sources: bbj, bam, ewe, fon, hau, ibo, kin, lug, mos, nya, pcm , sna, swa, tsn, twi, wol, xho, yor, zul
  • Workshop prévu (en ligne uniquement): samedi 04 Mars 2023
    • ID de réunion Zoom : 851 4365 3071
    • Code secret d’accès : 910946
  • Comment participer au challenge ?: Lien vers Github

Merci de rejoindre notre communauté sur Slack pour en discuter !

Date de début : Session de février 2023
Nombre de participants :
Partager :

#Contexte

Le collectif Masahkane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué des corpus annotés NER, appelé African NER Datasets, dans 20 langues d’Afrique subsaharienne. Les corpus NER produits sous le format CoNLL-03 sont actuellement partagés en open accès sur leur répertoire Github officiel ou dans le dossier data_source de ce répertoire Github.

Les corpus produits ont été évalués sur des taches de NER en se focalisant sur les technologies d’apprentissage par transfert (Transformer) tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence EMNLP 2022 et accéssible à cette adresse https://arxiv.org/abs/2210.12391. A la lecture de ce document, nous constatons que le Ghomala, langue parlée à l’Ouest du Cameroun, a des résultats moins intéressants en terme de performance comparé aux autres langues évaluées.

#Objectifs

L’objectif de cette session est de challenger les participants sur la production d’algorithmes d’IA les plus performants pour détecter les entités nommés dans la langue Ghomala en prenant appui sur les travaux réalisés par le collectif Masahkane. Ces questions peuvent vous orienter dans le choix de votre thématique:

    • Quel algorithme d’IA serait plus approprié pour détecter les entités nommés en Ghomala et par extension aux langues bantu ?

    • Comment mieux organiser les données pour ce type de tache en TAL ?

    • Le Ghomala peut-elle être traitée comme toutes les autres langues ? Doit-on parler d’une spécificité Ghomala en TAL ?

    • Quelle application pouvons-nous mettre en place pour aider les linguistes ou locuteurs ghomalaphones à mieux traiter ce problème ?

    • Quelle méthodologie serait mieux adaptée pour traiter ce type de tache ?

    • Une combinaison d’approche déterministe / probabiliste apporterait-elle un plus ?

Dans tous les cas, c’est aux participants de définir leurs objectifs et approches pour proposer une solution de détection NER éfficace sur ces données.

#Participer à la session

Pour participer à cette session et challenger les autres participants:

  • Chaque participant ou groupe de participants devra s’approprier les corpus African NER Datasets en clonant ce répertoire git.

  • Vous deviez ensuite créer un répertoire dans votre propre espace Github en adoptant cette structure:

    • /data_source (étant la référence aux corpus NER Masahkane/facultatif)
    • /evaluation
    • /training
    • methodology.md
    • license.md
  • Vous devez ensuite proposer votre solution en respectant cette structure. Vous êtes libre d’ajouter d’autres dossiers ou fichiers supplémentaires de votre choix.

  • Renommez votre dossier par les initiales du challenge suivi de celui de votre projet (Exemple: SCIA-ENR: ENR étant les initiales de votre projet) et créez ensuite une branche indiquant un numéro de version (Exemple: 0.1) de votre projet et pushez là sur votre répertoire Github personnel. Vous pouvez aussi forker ce répertoire exemple qui vous donne un aperçu de cette structure. Nous utiliserons ce lien comme sous-module git du dossier propositions dans ce répertoire officiel du challenge.

  • Revenez sur ce répertoire et forkez le. Inscrivez votre proposition dans le fichier PARTICIPANTS suivant les champs fournis. Faites ensuite un pull request vers le repertoire officiel pour que le comité d’organisation valide votre proposition et lie votre repertoire à ce répertoire officiel.

  • Cette structure est susceptible d’évoluer avec les participants

Merci de respecter scrupuleusement cette procédure afin que le comité d’organisation puisse au mieux intégrer votre travail au répertoire officiel.

#Comité d'organisation

Ce challenge est organisé par NTeALan Research and Developpement en collaboration avec NTeALan Cameroun et NTeALan France.

    • Elvis MBONING (Lead Data scientist NLP/NLU/Chatbot)

    • Jean-Marc Bassahak (Lead Motion Design and web developer)

    • Jules Assoumou (Vice rector of University of Ngaoundéré)

    • Tatiana Moteu (Data Scientist / PhD Student)

    • Et toute l’équipe de NTeALan Research and Development

Pour toute question complémentaire, n’hésitez pas à contacter le comité d’organisation du challenge par Mail ou sur la Slack platform.

#Prix

Le vainqueur de cette session coordonnera, en collaboration avec tous les participants, la rédaction d’un article scientifique qui résumera l’ensemble des contributions du challenge. Une conférence sera choisie pour publier la proposition.

Ces travaux sera financés et accompagnés par l’équipe de recherche ERTIM de l’INALCO.

 

#Participants

La liste définitive des participants sera dévoilée très prochainement.

user-placeholder-avatar-01
Elvis Mboning
user-placeholder-avatar-01
Moussa Aboubakar
user-placeholder-avatar-01
Yannick Obam
user-placeholder-avatar-01
Emma Effa
user-placeholder-avatar-01
Tatiana Moteu
user-placeholder-avatar-01
Rickel Anderson

#Sponsors

Ce challenge est actuellement sponsorisé par l’association NTeALan Social Network, l’équipe de recherche ERTIM de l’INALCO et NTeALan Research and Development.

Nous serions heureux d’accueillir de nouveaux sponsors.

En partenariat avec le département de langues et cultures africaines de la Faculté des lettres et sciences humaines de l’Université de Douala. 

#Publications