IA : un modèle de langage pour la Darja algérienne

Développer un modèle de langage pour intelligence artificielle (IA) qui prend en compte toutes les subtilités de la Darja algérienne, c’est le projet d’une équipe de chercheurs et d’ingénieurs algériens.

Coordonné par Lamia Sekkai, ingénieure en programmation linguistique et chercheuse au Centre de Développement des Technologies Avancées pendant plus de 15 ans, le projet vise à construire un modèle de langage pour IA afin de classer les discours de haine en dialecte algérien, extraits des réseaux sociaux. Il s’agira notamment de rendre les modules de modération sur les réseaux sociaux plus performants en Darja.

Pour l’aboutissement de ce projet, les participants constitueront tout d’abord une base de données à partir des discours de haine extraits des réseaux sociaux. Ensuite, à l’aide des techniques NLP (Natural Language Processing) ou génération de langage naturel, de Machine Learning et de Deep Learning, ils s’appliqueront à construire des classificateurs de contenu. Après évaluation et comparaison des différents modèles, le déploiement du classificateur sélectionné aura lieu.

Plan du projet

Le projet se tiendra du 03 juin au 28 juillet 2023. Il s’étendra donc sur 8 semaines. Durant les 3 premières semaines, les participants travailleront sur la collecte des données, l’annotation et la création de la base de données. Pendant les deux semaines suivantes, ils se consacreront à l’exploration des techniques de NLP et la construction des classificateurs de contenu. L’évaluation et la comparaison des différents modèles développés auront lieu durant la sixième semaine. Enfin, la septième semaine sera dédiée au déploiement du modèle sélectionné et la huitième à la présentation finale du projet.

L’inscription se fait via ce lien.