Traitement automatique des langues

Le consortium GramLab rend disponible le module Corpus Manager

En avril 2013, le projet de recherche GramLab arrivera à échéance. Les grandes fonctions de la future plate-forme de fabrication automatique de grammaires (descriptions précises de fragments de la langue) auront été développées.

« Fonctionnellement, le projet est bien avancé et nous aurons bientôt toutes les briques », précise Gaëlle Recourcé, directrice scientifique de Kwaga, l'un des 4 éditeurs participant au consortium GramLab.

Plusieurs de ces briques sont d'ores et déjà disponibles ou en passe de l'être. L'environnement de développement doit être présenté le mois prochain, courant septembre. Il viendra compléter le module Corpus Manager, dont la sortie a été annoncée au coeur de l'été. 

Sa fonction consiste à collecter des documents puis à les convertir avant de les rassembler dans un même fichier au format XML TEI (Text Encoding Initiative), dans sa version Lite, moins bavarde. 

L'opération n'est pas triviale, en particulier lorsqu'il s'agit de manipuler des fichiers PDF, intégrant par exemple du multi-colonage. 

La double utilité du corpus

En sortie, le corpus ainsi créé sert à tester les règles de grammaire qui ont été définies ou à les élaborer. Les deux approches, introspection et observation du corpus, peuvent être combinées. 

L'ambition du projet est de fournir une plate-forme Open Source permettant aux linguistes et développeurs de s'appuyer sur ces éléments génériques pour écrire des parsers spécifiques.

Les utilisations sont multiples et concernent aussi bien les entreprises qui traitent des fichiers volumineux que des flux importants d'informations (courriers électroniques, tweets...). Un démonstrateur CityAnnotator, permettant de repérer des noms de commune dans des pages HTML, avait déjà été dévoilé l'année dernière.

Dans le cas de Kwaga, dont la solution WriteThat.Name extrait automatiquement les signatures des e-mails pour alimenter les carnets d'adresses, les développements de GramLab pourront, par exemple, servir à traiter les pièces jointes.

D'autres usages devraient être mis en avant par les sociétés du consortium lors de la présentation de l'environnement de développement.

Techniquement, les annotateurs s'appuient sur le standard UIMA (Unstructured Information Management Architecture), développé par IBM et confié à la Fondation Apache. 

Les points clés du projet GramLab

Objet

• Proposer en mode Open Source une plate-forme de développement de grammaires.

Durée du projet

• 2 ans.

Financement

• Feder (Fonds européen de développement régional).

• Projet labellisé Cap Digital.

Membres du consortium

• 4 éditeurs : Actimos, Kwaga, Lingway et Qwam.

• Le laboratoire de recherche publique LIGM, de l'Université de Paris-Est Marne-la-Vallée.

• L'Aproged (Association des professionnels pour l'économie numérique).

Promo Newsletter