Toepassingen

Datasearch omvat een aantal diensten op diverse niveaus in het dataverkrijgings- en verwerkingsproces. Dit betreft crawlen, parsen en aanleveren in een SOLR of andere applicatie. Al deze processen kunnen ook als een service worden aangeboden. Op die manier hoeft u zelf geen applicaties te installeren, configureren en onderhouden.

Geavanceerde parser

Onze geavanceerde parser geeft informatie weer die we uit bepaalde webpagina’s halen. Dit kan de gedetecteerde taal, de geëxtraheerde artikeldatum, de geëxtraheerde hoofdtekst en een optionele afbeelding zijn. Het kan ook valuta en prijzen opvragen voor webshopproducten, internationale telefoonnummers, e-mailadressen en acroniemen die in de tekst zijn ingebed. En het kan zelfs bepalen of een bepaalde HTML-pagina een artikel of een wiki, een homepage, een forumthread of een webshopproduct is (en meer).

Laat ons je zoekmachine voeden

Onze webcrawler kan worden gebruikt om gegevens naar je bestaande externe Apache Solr / Lucene zoekmachine te sturen. We kunnen je helpen bij het opzetten van een crawler die je zoekmachine voedt en alle problemen aanpakt die zich voordoen: inhoudsextractie, crawler-traps, duplicaten, enz.

Named Entity Recognition (Entitysearch)

Als onderdeel van Openindex Datasearch kunnen we allerlei relevante entiteiten uit een bepaalde tekst halen. Bijvoorbeeld namen, personen, bedrijven, organisaties, locaties, steden, producten, merken etc. Probeer onze demo!

Specifieke data van het web verzamelen

We kunnen een crawler bieden die specifieke gegevens van internet verzamelt. We kunnen bijvoorbeeld een lijst met domeinen verstrekken die een bepaald CMS gebruiken, die bepaalde woorden of inhoud of een bepaalde widget bevatten. Deze datasets kunnen erg handig zijn voor b.v. onderzoeks- of verkoopleads.

Scrape bepaalde websites

We kunnen je voorzien van een scraper die specifieke gegevens van specifieke websites verzamelt. Dit is een prima oplossing als je bijvoorbeeld regelmatig alle productomschrijvingen van een bepaalde (set van) webshop(s) wilt verkrijgen.

Spidertrapdetector

De door ons zelf ontwikkelde spidertrapdetector wordt ook los op locatie geleverd. Onze detector is bewezen succesvol. We leveren de spidertrapdetector voor een vaste licentiefee op diverse platformen.

Data as a Service

Openindex doet graag het crawlen, parsen of scrapen voor je. In dit geval bezorgen wij automatisch, in regelmatige intervallen of eenmalig de gegevens die je nodig hebt. In een bestand, een feed of rechtstreeks in je applicatie.

Probeer hieronder de metadata extractie demo:

Voer een URL in  en zie welke meta-informatie er door onze parser direct uitgehaald wordt.

Om specifieke entiteiten zoals namen en locaties in de lopende tekst te herkennen kun je het beste onze Entitysearch demo gebruiken.

Technieken

Datasearch maakt gebruik van de volgende technieken:

Apache Nutch

Nutch is de basis van onze crawl-oplossing. Openindex werkt actief mee aan de ontwikkeling van Nutch. Daarnaast bevat de Nutch versie van Openindex een aantal verbeteringen ten opzichte van de standaardversie.

SaX

De SaX parser is de basis van onze informatie-extractie. Het is in staat om afhankelijk van het soort webpagina (b.v. forum, artikel) specifieke extractors te gebruiken. Ook vindt het de taal van de pagina en de bijbehorende datum. Openindex heeft zelf een sterk verbeterde versie van de standaard SaX parser ontwikkeld.

Part of Speech tagging (OpenNLP)

Door middel van Part-of-Speech tagging worden naamwoorden herkend. Zelfstandig naamwoorden zijn doorgaans interessanter voor dataverwerking dan bijwoorden/hulpwerkwoorden etc.

Host Deduplication

De crawler kan duplicate hosts herkennen en hier op een intelligente manier mee omgaan.

Apache Jena

Een Open Source Java-framework voor het bouwen van Semantic Web- en Linked Data-applicaties. Het biedt een API om gegevens te extraheren uit en te schrijven naar RDF-grafieken.

SparQL

SPARQL is een RDF-zoektaal die gebruikt wordt om RDF-gebaseerde data te bevragen door middel van zoekopdrachten. Met deze zoektaal is het mogelijk om informatie op te vragen voor applicaties op het semantisch web.

Prijzen Crawling as a Service

Starter

Small

Large

Enterprise

Custom

25 / mnd
125 / mnd
500 / mnd
1500 / mnd
3000 / mnd
bel / mnd

Pagina's

Aantal documenten per maand.
10.000
100.000
1.000.000
10.000.000
100.000.000
CUSTOM

Startup fee

Opstarten en gaan!
€ 100,-
€ 200,-
€ 300,-
€ 400,-
€ 500,-
CUSTOM

Spidertrap detector

Loop niet vast in onzinnige loops
€ 450,-
€ 450,-
€ 450,-
€ 450,-
€ 450,-
CUSTOM

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
€ 1000,-
€ 1000,-
€ 1000,-
€ 1000,-
€ 1000,-
CUSTOM

Starter

25 / mnd

Pagina's

Aantal documenten per maand.
10.000

Startup fee

Opstarten en gaan!
€ 100,-

Spidertrap detector

Loop niet vast in onzinnige loops
€ 450,-

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
€ 1000,-

Small

125 / mnd

Pagina's

Aantal documenten per maand.
100.000

Startup fee

Opstarten en gaan!
€ 200,-

Spidertrap detector

Loop niet vast in onzinnige loops
€ 450,-

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
€ 1000,-

Large

1500 / mnd

Pagina's

Aantal documenten per maand.
10.000.000

Startup fee

Opstarten en gaan!
€ 400,-

Spidertrap detector

Loop niet vast in onzinnige loops
€ 450,-

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
€ 1000,-

Enterprise

3000 / mnd

Pagina's

Aantal documenten per maand.
100.000.000

Startup fee

Opstarten en gaan!
€ 500,-

Spidertrap detector

Loop niet vast in onzinnige loops
€ 450,-

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
€ 1000,-

Custom

bel / mnd

Pagina's

Aantal documenten per maand.
CUSTOM

Startup fee

Opstarten en gaan!
CUSTOM

Spidertrap detector

Loop niet vast in onzinnige loops
CUSTOM

Advanced Parser

Krijg je data geparsed en verwerkt aangeleverd.
CUSTOM