 |
|
|
|
INTRANET EXTRANET |
20 outils de recherche internet ou intranet |
Fonctions lexicales, sémantiques, syntaxiques, etc. Tour d'horizon des possibilités d'analyse et de recherche offertes par les solutions.
(05/11/2004) |
|
Ce panorama fait le point sur les solutions de recherche les plus utilisées en France, qu'elles ciblent des problématiques intranet, telles que la gestion documentaire, ou des enjeux extranet ou Internet. Il distingue trois technologies de recherche principales :
La recherche lexicale : entendez par là la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités.
La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation.
La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens.
La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire.
La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies).
Les
solutions de recherche généraliste
|
Constructeur
/ Modèle
|
Analyse
syntaxique
|
Analyse
sémantique
|
Analyse
statistique
|
Commentaire
|
|
x
|
x
|
x
|
Chaque mot significatif est inscrit dans une chaîne d'équivalents sémantiques : un mot suffit pour retrouver tous les documents le contenant, lui ou d'autres termes du même champ lexical. Moteur proposant un système d'aide à la cartographie documentaire.
|
|
|
x
|
|
S'adaptant à diverses sources de données,
AMI analyse les requêtes et en recherche les concepts approchant au sein de son index. Il s'appuie sur une
base de connaissance personnalisée qui s'auto alimente
au fil des réponses renvoyées.
|
|
|
x
|
x
|
Couplant thésaurus, analyse sémantique, indexation plein texte, ce moteur multilingue s'appuie sur un référentiel de concepts. Il est également livré avec des dictionnaires tiers.
|
|
x
|
x
|
x
|
Moteur sémantique multilingue, KM Server repose sa logique sur un référentiel de concepts. Intégrant un mode personnalisation (thésaurus, etc.), il explore les liens hypertextes associés à une source Web, et offre fonctions de classification et portail en option.
|
Constructeur
/ Modèle
|
Analyse
syntaxique
|
Analyse
sémantique
|
Analyse
statistique
|
Commentaire
|
Convera
RetrievalWare
|
|
x
|
x
|
Ce
moteur multilingues fournit des fonctions de recherche
floue reposant sur l'analyse de la valeur binaire des
séquences de lettres. Prenant en compte les formats
image et vidéo, il peut être enrichi de thésaurus, et offre la
possibilité de restreindre une requête à certains
domaines.
|
|
|
|
x
|
Ce moteur de recherche (basé sur un référentiel
XML) fait
appel à des algorithmes linguistiques, et des méthodes
de lemmatisation pour identifier toutes les déclinaisons d'un terme ou d'une expression.
Exalead propose en outre un correcteur d'orthographe basé sur le corpus indexé.
|
|
|
|
x
|
Solution de recherche d'information multisource et multilingue, Knowings Global Finder est un meta-moteur conçu pour interroger simultanément plusieurs systèmes d'indexation et bases de données.
|
|
x
|
x
|
x
|
Adapté aux environnements d'intranet et client/serveur, cet outil est doté d'un mode de requêtage très complet (jusqu'à la recherhe multidimensionnelle). Il propose en outre une version adaptée aux plates-formes Lotus Notes.
|
Constructeur
/ Modèle
|
Analyse
syntaxique
|
Analyse
sémantique
|
Analyse
statistique
|
Commentaire
|
|
x
|
x
|
x
|
Basé
sur XML, Intuition repose notamment sur un moteur
d'analyse morpho-syntaxique. Fort de fonctions d'analyse
sémantique multilingue, il est potentiellement capable
de contextualiser les termes d'une requête en langage
naturel.
|
|
|
x
|
x
|
MatchPoint génère des réseaux de concepts qu'il couple à des fonctions vectorielles afin de répondre à des requêtes multicritères. Il est livré avec des connecteurs permettant la prise en compte des sources hétérogènes, ainsi qu'un système de catégorisation de documents.
|
Verity
Portal One ou K2 Enterprise
|
|
x
|
x
|
Moteur de recherche plein texte offrant nombre d'opérateurs (booléens, de proximité, etc.) et de fonctions sémantiques (synonymie, termes connexes, etc.). Il peut être livré avec un portail (doté de fonctions de catégorisation documentaire), peu mis en valeur par l'éditeur.
|
SPSS
LexiQuest
|
x
|
x
|
|
LexiQuest s'adapte à de nombreux environnements (systèmes de fichiers et bases). Il comprend
des fonctions d'analyses grammaticales et syntaxiques
(anglais et français), des réseaux sémantiques, et un
traducteur booléen. Cette suite propose également un outil de catégorisation.
|
Constructeur
/ Modèle
|
Analyse
syntaxique
|
Analyse
sémantique
|
Analyse
statistique
|
Commentaire
|
Aux côtés de ces éditeurs, deux sociétés françaises de plus petite taille méritent d'être étudiées de plus près: Auracom et Lingway par exemple. Autre remarque : Autonomy et Instranet, évoqués dans notre panorama sur les solutions de portail, embarquent dans leur solution des outils de recherche maison assez puissants.
Les
solutions de recherche Web propriétaires
|
Constructeur
/ Modèle
|
Commentaire
|
|
Disponible en mode hébergé (ASP),
Antidot fournit ses résultats au format XML, ce qui
permet leur intégration intime à l'interface
utilisateur. Il fait appel à une infrastructure d'agents
répartis, permettant l'interrogation d'une base de
données, d'un annuaire (etc.) à distance.
|
Atomz
Atomz
|
En mode ASP, ce moteur de recherche
plein texte est particulièrement adapté à une
problématique de site Web et à de fortes montées en
charge. Intégrant des fonctions sémantiques, il est
capable d'indexer jusqu'aux documents au format
Flash.
|
|
Commercialisé en location, Fast Data
Search repose sur l'environnement de recherche exploité
par Fast depuis 1997 dans le domaine du Web. Prenant en
charge 250 formats, Flash y compris, ce produit se
connecte à de nombreuses bases de données (voir l'article).
|
Les
solutions de recherche Web Open Source
|
Constructeur
/ Modèle
|
Commentaire
|
|
Indexation des documents et requêtes. Moteur de recherche plein texte écrit en Java,
Jakarta Lucene prend en compte les requêtes booléennes.
Il supporte en outre les principales langues
européennes.
|
|
Module d'indexation en Java couvrant à la fois
les contenus structurés (en provenance de bases de
données) et non-structurés (documents HTML et
PDF).
|
|
Indexation des documents et requêtes. Application intégrant des fonctions de recherche
booléennes. Mais également un système d'alertes par mail
conçu pour assurer le suivi des indexations relatives à
un domaine donné.
|
|
Outil écrit en C++ comprenant le langage booléen.
Il intègre en outre un mécanisme de classement des
résultats.
|
|
Tournant sous Unix, mnoGoSearch combine des
fonctions d'indexation plein texte avec des interfaces
(FTP) pour de nombreux formats de fichiers (audio,
etc.).
|
|
|
 |
|
 |
|