Moteur de recherche

Les bénéfices inattendus de l'entrepôt InfoWarehouse de Polyspot

A l'occasion du salon Documation, Polyspot a annoncé officiellement la sortie de son entrepôt de données InfoWarehouse. Ce dernier avait été dévoilé au début de l'année dernière avec la nouvelle architecture de la plate-forme de recherche de l'éditeur français. C'était la grande nouveauté de la version 5 de Polyspot Enterprise Search (PES). 

Avec la version 6, d'ores et déjà adoptée par quelques clients, cette brique d'infrastructure a mûri et montre tout son intérêt. Elle autorise la mise en place de processus d'enrichissement asynchrones ou progressifs qui s'effectuent dans un second temps, sans ralentir la phase d'indexation.

L'éditeur avait pensé à quelques cas d'usage évidents : enrichissement sémantique et connexion à des applications métiers. En revanche, il n'avait pas anticipé à quel point l'entrepôt était bien adapté à l'actualisation des contenus.

« C'est un point que nous avions identifié sans en mesurer la criticité, reconnaît Gilles André, PDG de Polyspot. On voit des cas où 15% du corpus est affecté par des changements. »

Bien adapté à la collaboration

Un exemple est lié à la collaboration, lorsque des utilisateurs ajoutent des méta-données aux résultats de leurs recherches, créant ainsi des répertoires virtuels. InfoWarehouse permet d'enrichir l'index de manière plus souple en lui ajoutant un attribut sans reprendre entièrement l'opération.

Un autre exemple est lié au moteur sémantique. Quand un utilisateur corrige une erreur, en indiquant par exemple que Morgan Stanley est une société et non un individu, il faut corriger tous les documents qui y font référence. 

L'éditeur indique, par ailleurs, avoir fait évoluer l'indexeur Solr pour prendre en compte l'approche « schemaless », sans structure prédéfinie, des bases NoSQL.

Une autre nouveauté de la nouvelle version d'Infowarehouse est l'indépendance vis-à-vis de cette brique de stockage. « Nous avons retiré la couche d'adhérence par rapport à une base particulière », poursuit le PDG. En fonction des contextes, l'outil s'appuie sur MongoDB, CouchDB, Cassandra...

 

Promo Newsletter