Datasets zoeken en vinden

Op 23 januari lanceerde Google Dataset Search. Met deze zoekmachine kan gezocht worden in bijna 25 miljoen publiek beschikbare datasets.

De tool is simpel in gebruik. Net als bij Google Search is er één grote tekstveld waar je je zoekterm in kwijt kan.

googledata_1

Om de resultaten van de zoekopdracht verder te verfijnen kan je filteren op “Geüpdated op” (periode waarbinnen de set het laatst is bijgewerkt), “Download indeling” (het dataformaat waarin de dataset beschikbaar is) en “Gebruiksrechten” (licentie model, is commercieel gebruik toegestaan of niet). Je kan ook de gratis sets eruit filteren.

googledata_2

In de resultatenlijst vinden we de beschrijving van de dataset terug en een link naar de plaats op het web waar de dataset zich bevind. Google geeft dus geen rechtstreekse toegang tot de data: de datasets worden immers niet door Google zelf beheerd.
Wat Google wel doet is het indexeren van online gepubliceerde datasets. Als de metadata hiervan beschreven zijn volgens de open standaarden van schema.org, dan zijn ze beschikbaar voor Dataset Search.

Het komt erop neer dat er een extra json script moet worden toegevoegd in de header van de pagina. Dit is netjes beschreven en voorzien van voorbeelden, in de developershandleiding van Google Search.

Iedereen die dat wil kan dus zijn datasets vindbaar maken voor Dataset Search door de schema.org standaard te gebruiken op zijn pagina’s. En omgekeerd, wil je dat niet, verwijder dan de ‘structured data’ uit je pagina’s.
(Wat uiteraard conflicten kan geven als je niet in de Dataset Search wil opduiken maar de gestructureerde metadata wel voor andere processen nodig hebt…)

Publiek beschikbaar betekent niet automatisch dat ze ook gratis zijn. In geval van datasets van overheden en publieke instellingen is dat meestal wel het geval.
Zijn de datasets van uitgevers of andere for-profit organisaties dan kun je op de pagina’s waar je terecht komt informatie vinden over hoe en onder welke voorwaarden je toegang kan verkrijgen.

De onderwerpen zijn zeer uiteenlopend al zijn geografie, biologie en landbouw het best vertegenwoordigd. En de meeste datasets zijn in één of andere tabelvorm (csv, xls, xlsx, excel, sas, mat, hdf, h5, spss, sqlite) .

Zit er ook iets interessants voor jou bij?
Probeer het vooral zelf eens uit: https://datasetsearch.research.google.com/

Bronnen:

https://towardsdatascience.com/google-just-published-25-million-free-datasets-d83940e24284

https://blog.google/products/search/discovering-millions-datasets-web/

Dit bericht werd geplaatst in Artificial Intelligents, data en getagged met , , , , . Maak dit favoriet permalink.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s