Leer in 7 minuten

  • Welke nadelen er hangen aan het veelvuldig kopiëren van data
  • Wat het dataminimalisatieprincipe inhoudt
  • Waarom data-on-demand de voorkeur heeft boven data-by-delivery

Iedereen heeft de studies gezien die aangeven wat een enorme hoeveelheid data op onze planeet geproduceerd wordt. Zo werden er in 2018 meer dan 2,5 triljoen bytes per dag geproduceerd en zijn er schattingen dat er in 2025 175 triljard bytes aan data zullen zijn. Duizelingwekkende getallen. Het is tijd dat we tijdens het ontwerpen van data-architecturen dataminimalisatie moeten gaan toepassen, wat betekent dat we het kopiëren van data minimaliseren.

Ongebreideld kopiëren van data

Veel van deze data is geen originele, maar gekopieerde data en veel ervan wordt ook nog eens meerdere keren gekopieerd. Het kopiëren van data moet niet te lichtzinnig opgevat worden. Het moet een laatste redmiddel zijn en niet de eerste oplossing die gekozen wordt bij het ontwerpen van een data-architectuur. Toch is het heel gebruikelijk om data-architecturen te ontwerpen die wel met gekopieerde data werken, zelfs moderne data lake- en datahub-architecturen zijn gebaseerd op het kopiëren van data.

Het kopiëren van data kent veel nadelen, waaronder:

  • Hogere data-latency
  • Gemiste kansen
  • Complexe datasynchronisatie
  • Complexere databeveiliging
  • Complexere dataprivacy
  • Hogere ontwikkelkosten
  • Hogere onderhoudskosten
  • Hogere technologiekosten
  • Complexer databasebeheer
  • Complexer metadatabeheer
  • Verslechterde datakwaliteit

Sommige organisaties ervaren al die kopieën als een molensteen om hun nek. Daarom moet dit ongebreideld kopiëren van data stoppen. Bij het ontwerpen van data-architecturen wordt vaak de keuze gemaakt om gekopieerde en niet originele data beschikbaar te stellen. Zo worden te vaak de bovenstaande nadelen van het benaderen van gekopieerde data gebagatelliseerd.

Pijlers

De problemen die ontstaan bij het werken met gekopieerde data kunnen opgelost of verminderd worden door data-architecturen te ontwerpen op basis van het principe van dataminimalisatie.

Dit principe rust op twee pijlers: het beperken van het kopiëren van data en het stimuleren van data-on-demand.

  1. De eerste pijler houdt in dat getracht wordt in de data-architecturen zo min mogelijk te kopiëren en dataconsumenten steeds meer toegang tot originele data te bieden. Bij het ontwerpen van een architectuur moet daarom bepaald worden welke dataconsumenten toegang krijgen tot gekopieerde en welke tot originele data. Het principe van dataminimalisatie houdt in dat het streven is om de eerste groep zo klein mogelijk te houden.
  2. De tweede pijler is data-on-demand. Deze houdt in dat als consumenten data nodig hebben ze deze direct kunnen opvragen. Voorbeelden van data-on-demand zijn nagenoeg alle BI-dashboards, het kunnen opvragen van de status van een verzonden pakket, het kunnen zien wat de rondetijden van Max Verstappen zijn tijdens een F1-race en het kunnen opvragen van een specifieke röntgenfoto door een chirurg.

Bij de tegenhanger van data-on-demand, data-by-delivery, wordt de data verzonden wanneer een consument daarom vraagt; de levering neemt enige tijd in beslag. Voorbeelden ervan zijn e-mail, alle standaardrapporten en alle vormen van bestandsuitwisseling. Data-by-delivery wordt ook voor datascience vaak ingezet. De scientists vragen de IT-afdeling om bepaalde data te sturen. Maar ook als een overzicht van onze pensioensituatie per post toegestuurd wordt, is dat data-by-delivery. Bij data-by-delivery is het ook mogelijk dat data periodiek wordt verstuurd, bijvoorbeeld elke zondagnacht. Dit is vaak het geval bij bestandsuitwisseling en standaardrapportage. De implementatie van data-by-delivery leidt altijd tot het werken met kopieën. Data wordt bijvoorbeeld uit een database opgehaald, in een bestand geplaatst, verstuurd, en vervolgens door de ontvanger opgeslagen. In veel gevallen leidt data-by-delivery tot meerdere nieuwe kopieën.

Iedereen vindt het heel normaal dat als we een film, tv-serie of herhaling van het journaal willen kijken, we die direct kunnen starten. De tijd dat we naar de videotheek moesten om een exemplaar (een kopie) van een film op te halen om deze thuis te bekijken of dat we van tevoren moesten bepalen dat we het jourmaal later wilden kijken en dus de recorder moesten instellen (een kopie maken), ligt alweer lang achter ons. Als consument van films willen we op elk gewenst moment vanuit onze luie stoel naar een film kunnen kijken zonder dat van tevoren alles geregeld moet worden. We leven in het tijdperk van video-on-demand en staan er nog amper bij stil.

Hetzelfde geldt in toenemende mate voor dataconsumenten. Als ze data nodig hebben, willen ze die het liefst ook direct beschikbaar hebben, zonder dat er veel geregeld moet worden. Dit is data-on-demand. Data-on-demand blijft achterlopen op video-on-demand. Om die achterstand in te halen is het belangrijk data-architecturen te ontwerpen die zich richten op het beperken van gekopieerde data.

Dataminimalisatie is essentieel om data-on-demand te realiseren. Het advies is dan ook om bij het ontwerpen van een data-architectuur zoveel mogelijk het dataminimalisatieprincipe toe te passen. Dit betekent ten eerste dat data-on-demand de voorkeur heeft boven data-by-delivery en ten tweede dat grote verzamelingen dataconsumenten toegang krijgen tot originele data en dat er zo min mogelijk gekopieerde data in welke vorm dan ook gebruikt wordt.

Welke voordelen zou het toepassen van het dataminimalisatieprincipe bij het ontwerpen van data-architecturen jou brengen?