Nous nous intéresserons pour cette session à la tâche d’étiquetage morpho-syntaxique (ou Part Of Speech Tagging: POS) en langues d’Afrique sub-saharienne peu dotées et nous challengerons la dernière publication du collectif Masakhane sur le sujet.
# Domaine de recherche
L’étiquetage morpho-syntaxique, encore appelé tâche de « POS » (Part Of Speech Tagging en anglais), est une tâche en TAL qui consiste à attribuer automatiquement à chaque mot (ou token) d’une phrase ou d’un corpus de textes dans leur contexte d’énonciation, la catégorie grammaticale correspondante au moyen de techniques et méthodes déterministes ou probabilistes (apprentissage automatique ou profond). Parce qu’elle est le traitement d’entrée de plusieurs autres tâches en TAL (Traduction automatique, Analyse morpho-syntaxique, compréhension/génération de texte, etc.), elle devient quasi incontournable pour tout processus d’outillage d’une langue.
Il y a encore quelques années, les approches déterministes à base de règles (Construites sur des outils comme: Talismane pos-tagger (Urieli, 2013), Unitex/GramLab, etc.), puis celles dites probabilistes (à base d’apprentissage automatique/profond, méthodes statistiques), Brants (2000), Tackstrom et al. (2013), Scherrer and Sagot (2013), Sanchez-Martınez et al., (2007), nlpprogress, etc., avaient significativement amélioré la détection des étiquettes morpho-syntaxiques dans plusieurs langues dotées (Français, Anglais, Allemand, Chinois, etc.). Aujourd’hui, avec la disponibilité croissante en quantité des ressources linguistiques, les approches d’apprentissage par transfert impliquant des grands modèles de langue (Large Language Model en anglais) permettent d’avoir des résultats de mieux en mieux performants (avec un F-score moyen de 97%). Ces mêmes algorithmes ont permis à des langues disposant de corpus limités de voir aussi leurs résultats améliorés. On constate cependant un gain assez faible sur cette tâche de POS et précisément sur les langues peu dotées d’Afrique disposant de ressources limitées. Quelques raisons historiques sont avancées :
- Non application systématique de politique de standardisation des langues africaines: le processus de standardisation des systèmes d’écriture n’est pas achevé et donc n’est pas généralisé
- Études linguistiques non complètes sur les langues africaines
- Indisponibilité des ressources écrites de qualité, en quantité et standardisées
- Indisponibilité des ressources écrites annotées de qualité, en quantité et standardisées
- Financement limité pour impulser la recherche en Afrique dans le domaine
- Présence moribonde de communautés globales de contributeurs « spécialistes » autour de ce sujet en Afrique
Néanmoins, quelques travaux (https://ieeexplore.ieee.org/document/9015871, Dibitso, M.A. et al. (2019), Pannach, Franziska et al. (2021); Cheikh M. Bamba Dione et al. (2010), G. De Pauw, Gilles-Maurice de Schryverz et al. (2012), Malema, G. Tebalo, B. Okgetheng et al. (2020), etc.) menés sur le continent ont permis à quelques langues de disposer de premiers outils POS construits essentiellement sur des approches déterministes, et plus récemment sur des approches probabilistes avec en priorité les algorithmes d’apprentissage par transferts ou des modèles hybrides.
# Travaux à challenger
Le collectif Masakhane, dans le cadre d’un projet commun financé par Lacuna Fund 2022, a créé et évalué en collaboration avec plusieurs organisations locales dont l’association NTeALan au Cameroun, des corpus annotés POS dans 18 langues d’Afrique subsaharienne. Les corpus POS produits utilisent 14 étiquettes de l’Universal Dependencies (UD: NOUN, VERB, ADJ, ADV, SCONJ, PUNCT, DET, PART, AUX, CCONJ, ADP, NUM, PROPN, PRON) et sont actuellement partagés en open accès sur leur répertoire Github officiel ou dans le dossier « data_source » de ce répertoire Github.
Les corpus produits ont été entrainés et évalués (par sur-apprentissage) avec les modèles de Transformers tels que AfriBERTA, AfroXLMR, XLM-R, mBERT, etc. Les résultats obtenus ont été détaillés dans un article accepté à la conférence ACL 2023 et accessible sur le site Arxiv. A la lecture de ce document, nous constatons que le Ghomala, langue sémi bantu parlée à l’Ouest du Cameroun, (et une bonne partie des langues du projet) a des résultats moins intéressants en terme de performance si l’on compare à certaines langues évaluées.