Alle Open Cultuur Data in één API?!

Door Maarten Brinkerink / 24 februari 2014 / 2014, Blog, Infrastructuur / Geen Comments

CC-BY-SA Parkis, Zanaq

Open Cultuur Data wil het dit jaar makkelijker voor ontwikkelaars maken om de in Nederland beschikbare open cultuur datasets te hergebruiken. Uit ons activiteitenplan voor 2014:

In 2012 is gebleken dat met name collecties van bekende instellingen het meest aantrekkelijk zijn voor hergebruik. Open Cultuur Data wil graag dat er meer hergebruik plaatsvindt op basis van open data uit de kleinere instellingen. Om eenvoudig hergebruik voor ontwikkelaars mogelijk te maken is er de ambitie geformuleerd om een platform aan te bieden waarmee erfgoeddata van zowel grote als kleine instellingen centraal ontsloten wordt. […] Primaire doelstelling binnen de looptijd van het project is vervolgens dat instellingen en ontwikkelaars tijdens de Challenge, op basis van de in het verkennende onderzoek geïdentificeerde kansen, een eerste prototype van deze API aan te bieden. Hierin worden zoveel mogelijk databronnen geconsolideerd, met het oog op hergebruik door ontwikkelaars.

Als we dit naar een praktisch plan-van-aanpak vertalen, dan willen we in het kort het volgende gaan realiseren:

Zoveel mogelijk van de huidige datasets (alle?) worden in een gezamenlijke index ondergebracht
Alle opgenomen datasets dienen op basis van een minimaal aantal gemeenschappelijke velden op een uniforme wijze doorzoekbaar te zijn
Daarnaast blijft alle oorspronkelijke data behouden, doorzoekbaar en opvraagbaar, inclusief eventuele verwijzingen naar de digitale objecten (middels een url)
Bovenop deze index komt een open en realtime search en GET API voor ontwikkelaars en andere hergebruikers
Naast data over de collectie en verwijzingen naar de bijbehorende digitale objecten, omvat de API ook data over de instellingen achter deze datasets

Een eerste inventarisatie van de huidige datasets leert ons dat de ruim 40 datasets ruim 14 miljoen (!) records bevatten, welke grotendeels volgens verschillende gangbare standaarden beschreven zijn (waaronder Dublin Core, A2A en ESE). Er zijn echter ook zo’n tiental eigen gefabriceerde schema’s. OAI-PMH, de Memorix OpenSearch API en ADLIB API zijn populaire distributiemechanismen (en leveren XML en/of JSON output), maar er zijn ook nog ruim tien datasets waar enkel een datadump van beschikbaar is. Ongeveer tweederde van de datasets bevatten naast data ook verwijzingen naar de digitale objecten.

De potentie is met deze miljoenen datarecords over cultuur in Nederland dus ontzettend groot! Maar er zijn – zoals hierboven beschreven – ook nog wel wat uitdagingen om deze allen in een enkele API onder te brengen.

Wij zullen snel contact opnemen met verschillende partijen, om de realisatie van een dergelijke API in gang te zetten. De insteek is pragmatisch: Hoe kunnen we – door eerst te focussen op de standaardoplossingen – voor het merendeel van de datasets één API beschikbaarstellen, die aan de belangrijkste wensen van ontwikkelaars en andere hergebruikers voldoet? Het streven is om begin april al een bètaversie van de API aan het netwerk te kunnen presenteren. Wij zullen hier een openbare bijeenkomst voor organiseren.

Ondertussen is jullie feedback op de hierboven voorgestelde aanpak zeer welkom! Dit kan als een commentaar op deze blogpost. Denk bijvoorbeeld aan:

Op welke (gemeenschappelijke) velden wil jij kunnen zoeken?
Welke dataformaten moet de API teruggeven?
Wat voor een soort ‘calls’ wil jij naar de API kunnen sturen?
Wil jij ook de mogelijkheid om de data als ‘bulk’ op te halen?

Geef een reactie Reactie annuleren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.