Verdrinkt de wetenschap in te veel data?

De wetenschap produceert steeds meer data. Daardoor zouden wetenschappers relevante data niet meer kunnen vinden. Universitair docent Marie Postma-Nilsenova relativeert dat.

Volgens de Europese Commissie stijgt de beschikbare data jaarlijks met 30%. Scientific Computing World waarschuwt voor grote hooibergen waar die ene waardevolle speld niet meer in terug te vinden is.

De hoeveelheid data dijt uit, doordat wetenschappelijke instrumenten zich in razend tempo ontwikkelen. Dit leidt geregeld tot problemen tijdens de speurtocht naar relevante data.

Postma-Nilsenova ziet geen problemen. Naast universitair docent is ze ook coördinator van de master Data Science. Die opleiding leidt mensen op tot data scientists, zij moeten enorme hoeveelheden data kunnen analyseren en gebruiken. “Het is een uitdaging om waardevolle informatie te vinden uit grote hoeveelheden data. Doordat dit steeds moeilijker wordt, zie je juist dat er nieuwe technieken ontwikkeld worden die daarmee om kunnen gaan. Ik zie geen risico’s in de steeds groter wordende bulk data, enkel op het gebied van privacy misschien. Maar dat is een ander veld.”

Sociale wetenschap

Door de enorme hoeveelheid data, is het voor de meeste wetenschappers toch moeilijk om te bepalen of een uitgevoerde analyse zinnig is. Dat zegt Maarten van Steen, hoogleraar gedistribueerde computersystemen en wetenschappelijk directeur van CTIT, in De Volkskrant. Vaak moeten antwoorden komen uit een reuzenwolk van data. Dat kost rekenwerk. “Zelfs met de snelste computers moet er data geschrapt worden. Onnodige data eruit. Dat is lastig, omdat je uit de databerg niet altijd kunt zien wat nuttig is en wat niet.”

Niet alle data is bovendien even goed. Postma-Nilsenova ziet dat bedrijven grote hoeveelheden cheap data hebben, doordat alles gemeten en opgeslagen wordt.

Werken met grote datasets

Werken met grote datasets is sowieso lastig. Vaak zijn onderzoekers niet betrokken bij de totstandkoming van zo’n set. De verzameling en opzet is ze onbekend en de features die bijvoorbeeld gelogd zijn in een online systeem, waren niet de keuzes van de onderzoeker. Volgens Postma-Nilsenova kan dat ervoor zorgen dat je sociale informatie mist en uiteindelijk de onderzoeksvraag die je wilt beantwoorden, niet kunt beantwoorden.

Bekijk meer recent nieuws

Schrijf je in voor onze nieuwsbrief

Blijf op de hoogte. Meld je aan voor de nieuwsbrief van Univers.