Fouille du web

Que pourriez-vous faire avec le web dans votre poche ? Probablement beaucoup. Beaucoup de données essentielles à votre activité sont disponibles sur le web mais les moteurs de recherche ne peuvent pas vous fournir la vue d’ensemble dont vous avez besoin pour analyser les informations et développer votre stratégie.

La recherche et l’extraction

Textkernel utilise une puissante technologie de compréhension des documents pour traiter les données qui sont extraites du web. Notre technologie est optimisée pour la collecte de flux de données structurées provenant d’un très grand nombre de sources en ligne non-structurées.

La fouille du web (web mining) implique la collecte et l’agrégation d’informations en provenance du web. De nombreuses technologies distinctes sont ainsi concernées. La première étape consiste à extraire des pages d’une vaste quantité de sites web, opération aussi connue sous le nom de crawling. Certaines sources présentes sur ce que l’on appelle le « web profond », sont accédées par des robots d’indexation (crawlers) personnalisés. Une fois les pages collectées, elles sont classées selon si elles correspondent au domaine recherché, les informations sont extraites, leur date de publication est vérifiée. Elles sont ensuite dédoublonnées en comparant leur contenu aux informations déjà agrégées. Le résultat est le développement d’une base de données structurée, spécifique, dont l’envergure, la rapidité et la valeur sont incomparables. Et ceci sans aucune saisie manuelle !

Continuer vers Recherche et correspondance sémantiques
Retourner à Technologie

Technologie

Fouille du web

La recherche et l’extraction