Toepassingen
Data Extraction omvat een aantal diensten op diverse niveaus in het dataverkrijgings- en verwerkingsproces. Dit betreft crawlen, scrapen, parsen en aanleveren in een SOLR of andere applicatie. Al deze processen kunnen ook als een service worden aangeboden (Crawling as a Service). Op die manier hoeft u zelf geen applicaties te installeren, configureren en onderhouden.
Geavanceerde parser
Onze geavanceerde parser geeft informatie weer die we uit bepaalde webpagina’s halen. Dit kan de gedetecteerde taal, de geëxtraheerde artikeldatum, de geëxtraheerde hoofdtekst en een optionele afbeelding zijn. Het kan ook valuta en prijzen opvragen voor webshopproducten, internationale telefoonnummers, e-mailadressen en acroniemen die in de tekst zijn ingebed. En het kan zelfs bepalen of een bepaalde HTML-pagina een artikel of een wiki, een homepage, een forumthread of een webshopproduct is (en meer).
Laat ons je zoekmachine voeden
Onze webcrawler kan worden gebruikt om gegevens naar je bestaande externe Apache Solr / Lucene zoekmachine te sturen. We kunnen je helpen bij het opzetten van een crawler die je zoekmachine voedt en alle problemen aanpakt die zich voordoen: inhoudsextractie, crawler-traps, duplicaten, enz.
Named Entity Recognition (Entity Extraction)
Als onderdeel van Openindex Data Extraction kunnen we allerlei relevante entiteiten uit een bepaalde tekst halen. Bijvoorbeeld namen, personen, bedrijven, organisaties, locaties, steden, producten, merken etc. Probeer onze demo!
Specifieke data van het web verzamelen
We kunnen een crawler bieden die specifieke gegevens van internet verzamelt. We kunnen bijvoorbeeld een lijst met domeinen verstrekken die een bepaald CMS gebruiken, die bepaalde woorden of inhoud of een bepaalde widget bevatten. Deze datasets kunnen erg handig zijn voor b.v. onderzoeks- of verkoopleads.
Scrape bepaalde websites
We kunnen je voorzien van een scraper die specifieke gegevens van specifieke websites verzamelt. Dit is een prima oplossing als je bijvoorbeeld regelmatig alle productomschrijvingen van een bepaalde (set van) webshop(s) wilt verkrijgen.
Spidertrapdetector
De door ons zelf ontwikkelde spidertrapdetector wordt ook los op locatie geleverd. Onze detector is bewezen succesvol. We leveren de spidertrapdetector voor een vaste licentiefee op diverse platformen.
Data as a Service
Openindex doet graag het crawlen, parsen of scrapen voor je. In dit geval bezorgen wij automatisch, in regelmatige intervallen of eenmalig de gegevens die je nodig hebt. In een bestand, een feed of rechtstreeks in je applicatie.
Probeer hieronder de metadata extractie demo:
Voer een URL in en zie welke meta-informatie er door onze parser direct uitgehaald wordt.
Om specifieke entiteiten zoals namen en locaties in de lopende tekst te herkennen kun je het beste onze Entity Extraction demo gebruiken.
Technieken
Data Extraction maakt gebruik van de volgende technieken:
Apache Nutch
Nutch is de basis van onze crawl-oplossing. Openindex werkt actief mee aan de ontwikkeling van Nutch. Daarnaast bevat de Nutch versie van Openindex een aantal verbeteringen ten opzichte van de standaardversie.
SaX
De SaX parser is de basis van onze informatie-extractie. Het is in staat om afhankelijk van het soort webpagina (b.v. forum, artikel) specifieke extractors te gebruiken. Ook vindt het de taal van de pagina en de bijbehorende datum. Openindex heeft zelf een sterk verbeterde versie van de standaard SaX parser ontwikkeld.
Part of Speech tagging (OpenNLP)
Door middel van Part-of-Speech tagging worden naamwoorden herkend. Zelfstandig naamwoorden zijn doorgaans interessanter voor dataverwerking dan bijwoorden/hulpwerkwoorden etc.
Host Deduplication
De crawler kan duplicate hosts herkennen en hier op een intelligente manier mee omgaan.
Apache Jena
Een Open Source Java-framework voor het bouwen van Semantic Web- en Linked Data-applicaties. Het biedt een API om gegevens te extraheren uit en te schrijven naar RDF-grafieken.
SparQL
SPARQL is een RDF-zoektaal die gebruikt wordt om RDF-gebaseerde data te bevragen door middel van zoekopdrachten. Met deze zoektaal is het mogelijk om informatie op te vragen voor applicaties op het semantisch web.
Referenties




Prijzen per maand
Starter
Small
Medium
Large
Enterprise
Custom
€
25,-
€
125,-
€
500,-
€
1.500,-
€
3.000,-
€
bel
Pagina's
Aantal documenten per maand
10.000
100.000
1.000.000
10.000.000
100.000.000
CUSTOM
Startup fee
Opstarten en gaan!
€ 100,-
€ 200,-
€ 300,-
€ 400,-
€ 500,-
CUSTOM
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 90,-
€ 180,-
€ 270,-
€ 360,-
€ 450,-
CUSTOM
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 200,-
€ 400,-
€ 600,-
€ 800,-
€ 1.000,-
CUSTOM
Starter
€
25,-
Pagina's
Aantal documenten per maand
10.000
Startup fee
Opstarten en gaan!
€ 100,-
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 90,-
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 200,-
Small
€
125,-
Pagina's
Aantal documenten per maand
100.000
Startup fee
Opstarten en gaan!
€ 200,-
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 180,-
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 400,-
Medium
€
500,-
Pagina's
Aantal documenten per maand
1.000.000
Startup fee
Opstarten en gaan!
€ 300,-
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 270,-
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 600,-
Large
€
1.500,-
Pagina's
Aantal documenten per maand
10.000.000
Startup fee
Opstarten en gaan!
€ 400,-
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 360,-
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 800,-
Enterprise
€
3.000,-
Pagina's
Aantal documenten per maand
100.000.000
Startup fee
Opstarten en gaan!
€ 500,-
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
€ 450,-
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
€ 1.000,-
Custom
€
bel
Pagina's
Aantal documenten per maand
CUSTOM
Startup fee
Opstarten en gaan!
CUSTOM
Spidertrap detector (optioneel)
Loop niet vast in onzinnige loops
CUSTOM
Advanced Parser (optioneel)
Krijg je data geparsed en verwerkt aangeleverd.
CUSTOM