Industries de la langue - axe 1 thème 2
Coordonnateur: Salah Mejri, université Paris 13
Les activités de l'équipe "Industries de la langue" s'ordonnent autour de quatre pôles d'activités : la langue générale, les langues de spécialités (droit et médecine), la description du français dans le web, mise à disposition de corpus à destination des enseignants de français dans différents pays.
Le premier pôle regroupe trois projets. Le premier concerne la langue générale et a trait à la description du figement des syntagmes verbaux. On sait que l'équivalent anglais de "c'est la fin des haricots" n'est pas it's the end of the beans. Or, il existe plusieurs dizaines de milliers d'expressions verbales de ce type, qui ne peuvent pas être traduites littéralement par un système de traduction automatique. Nous avons donc entrepris le listage de ces suites, leur description syntaxique, l'indication de leur degré de figement et leur traduction pour permettre à un système de traduction automatique de proposer la bonne traduction. Il s'agit, on le voit, d'un travail de longue haleine. Un second projet consiste à décrire l'expression du temps en français. Deux étapes sont envisagées : tout d'abord la description des relations temporelles mettant en jeu les prédicats (les verbes, les noms et les adjectifs prédicatifs) et les arguments (une trentaine de types sémantiques de temps), puis le recensement de tous les adverbiaux de temps (sous peu, d'un instant à l'autre, en trois jours) et leur classement au regard d'une trentaine de classes temporelles. Ce travail concerne à la fois le français et le coréen, dans le cadre d'un projet PICS du CNRS avec le département de linguistique de l'Université Nationale de Séoul (Prof. Hong Chaisong). Un troisième projet a pour objet de décrire l'expression de la cause dans une langue naturelle comme le français. Cette entreprise est menée conjointement par des linguistes et des spécialistes d'intelligence artificielle du LIPN de Paris 13.
Le second pôle est orienté vers les langues de spécialités, et concerne en particulier les domaines du droit et de la médecine. Un travail de description systématique de la langue du droit se poursuit à l'aide des outils qui ont été mis au point pour la langue générale, en particulier les classes d'objets. Ces classes sémantiques, décrites en extension, permettent de rendre compte de tous les emplois des prédicats de la langue du droit. L'objectif est de reconnaître et de générer automatiquement des textes dans le domaine juridique. Un travail similaire se poursuit sur la langue de la médecine.
Le troisième pôle a trait à la description du français actuel tel qu'il apparaît dans le Web. À l'aide d'un ordinateur puissant, nous allons dresser la liste de tous les éléments lexicaux qui figurent dans cet immense corpus. Ces mots seront classés par ordre de fréquence inverse. On aura donc une vue de l'étendue du vocabulaire français en grandeur réelle. Si l'on compare ces listes, année par année, on sera à même de contrôler l'évolution du vocabulaire dans son ensemble et non seulement sur quelques dizaines de mots "nouveaux", comme le font les dictionnaires du commerce. Par ailleurs, nous comptons mettre au point la liste des classes d'objets du français en vue de la recherche d'informations sur le Web. Cette partie de notre travail, de nature expérimentale, constitue une tentative originale, car cette technique n'existe pas encore dans le commerce à l'heure actuelle.
Le dernier pôle est de nature plus didactique. Il s'agit de réaliser des corpus finalisés et de les mettre à la disposition des enseignants de français des différents pays. Sur la base de textes réels et diversifiés, on mettra au point des corpus illustrant tous les problèmes que rencontrent les enseignants de français : polysémie des verbes, temps et modes, synonymie, détermination nominale, langues de spécialités, etc. Ces textes pourront être déchargés et pourront servir de matière première finalisée destinée à la préparation de cours. Il s'agit d'une demande manifestée par un très grand nombre d'enseignants de par le monde.
Mots clés : Industries de la langue, traitement automatique du français, traduction automatique, dictionnaires électroniques, figement lexical, langues de spécialités, classes d'objets, corpus finalisés, recherches d'informations sur le Web.









