Textkernel's technologie: Web mining

Web mining

Wat kunt u doen met alle informatie van het web op zak? Veel waarschijnlijk. Er is zoveel data op het web die relevant is voor uw onderneming, maar doorpluizen van resultaten uit zoekmachines geeft niet de juiste vorm van overzicht om de informatie te analyseren en er actie op te ondernemen.

Zoeken en extraheren

Textkernel past haar krachtige document understanding technologie op data die van het web gespiderd is. Onze technologie is geoptimaliseerd voor de verzameling van gestructureerde datafeeds uit zeer grote aantallen ongestructureerde online bronnen.

Web mining gaat over het aggregeren van informatie van het web. Dit vereist een heel aantal verschillende technologieën. Het ophalen van webpagina’s uit veel bronnen, ook wel bekend als wide coverage crawling, is daarbij de eerste stap. Voor sommige soorten bronnen moet ook het zogenaamde ‘diepe web’ toegankelijk worden gemaakt met maatwerk crawlers. Nadat de pagina’s verzameld zijn, worden ze geclassificeerd op de mate waarin ze relevante informatie bevatten voor het domein waarin we geïnteresseerd zijn. Hieruit wordt informatie geëxtraheerd, op versheid gecheckt, en ontdubbeld op basis van fuzzy matching van de inhoud. Het resultaat is een domeinspecifieke gestructureerde database van een ongelofelijke breedte, up-to-date-heid, en waarde. En dat zonder handmatige datainvoer!

Verder naar Semantische search & match
Terug naar Technologie

Technologie

Web mining

Zoeken en extraheren