Catégorisation et extraction d'entités nommées en téléchargement sur Nuxeo Marketplace

L'éditeur de gestion de contenu Open Source Nuxeo propose deux modules sémantiques pour enrichir le contenu stocké dans sa solution Enterprise Platform. Ces deux extensions sont disponibles sur la plate-forme de téléchargement Nuxeo Marketplace.

Le premier module, Automated Document Categorization, ajoute automatiquement aux documents un ensemble de méta-données, basées sur le schéma Dublin Core (langue, sujet, description...). L'intérêt est de catégoriser tout document qui entre dans le référentiel. Souvent son auteur n'a pas pris la peine de renseigner les champs associés.

Nuxeo fournit en standard avec le moteur de catégorisation une base généraliste qui traite de problématiques grand public. Elle sert avant tout d'outil de démonstration des possibilités de l'outil. L'entreprise peut lui substituer sa propre taxonomie pour traiter de thèmes spécifiques à son métier.

Semantic Linking s'appuie sur le projet Apache Stanbol

Le second module, Semantic Linking, reprend les travaux du projet Apache Stanbol (anciennement Fise auquel a collaboré Nuxeo) pour proposer une extraction d'entités nommées : personnes, lieux et organisations. Là encore, l'objectif est de faciliter la navigation dans le fond documentaire et d'associer plus facilement des contenus entre eux.

Le moteur Stanbol effectue une première analyse : les entités nommées détectées sont envoyées vers des sites de référence, comme DBPedia, pour être identifiées. Les informations qui sont retournées sont ensuite gérées par le moteur de relations de Nuxeo.

« C'est une brique dont nous disposions déjà qui était utilisée dans des applications métier pour gérer l'impact entre des documents, par exemple ceux traitant de qualité », précise Stéfane Fermigier, fondateur et président du conseil de surveillance de Nuxeo.

Pour les besoins de démonstration, Nuxeo met à disposition un serveur en ligne avec le moteur Stanbol, interrogé via des requêtes HTTP, mais l'entreprise soucieuse de confidentialité peut l'installer sur ses propres machines.

Les deux modules automatisent le traitement sémantique des documents tout en réservant une étape de validation par un collaborateur. Le 100% automatique n'est pas encore réaliste.

Semantic Linking

Promo Newsletter