Neem contact op
Bel mij terug

Van beginner naar expert: Wat is datawarehouse automation?

Afgelopen weken ben ik gestart met het onderzoeken van datawarehouse automation. In deze blog ga ik dieper in op datawarehouse automation. Wat is het nu eigenlijk? En hoe werkt het? Om dit te kunnen uitleggen neem ik jullie kort mee terug naar wat een datawarehouse is zodat het verschil duidelijk wordt.

Starten met een datawarehouse

Een datawarehouse is een plek waarbij data uit verschillende bronnen worden verzameld. De data uit deze bronnen laad je in het datawarehouse. We hebben het dan over ruwe, ongestructureerde data. Deze data moet je gestructureerd maken zodat er 1 definitie geldt. Hierbij wordt het ETL proces toegepast: Extract, Transfer en Load. Daarbij ga je de data uit de bron halen, de data aanpassen en vervolgens de data inladen in het datawarehouse.

Waarom een datawarehouse?

Doel van een datawarehouse is o.a. om de originele bron te ontlasten van constante rapportage en analyse vragen, dit kan namelijk nogal impact hebben op de operatie. Doordat meerdere mensen rechtstreeks rapportage vragen aan de bron stellen, kan de bron langzamer gaan werken. Als we het voorbeeld van de bakker weer gebruiken kan dit betekenen dat het voor een klant langer duurt voordat deze een brood kan afrekenen bij de kassa. Door een kopie van de bron te maken en daarop de analyse uit te voeren, wordt de originele bron niet overbelast en kan de operatie doorgaan.

Data combineren

Zodra alle data gestructureerd uit de verschillende systemen in je datawarehouse staat, ga je de data combineren. Stel de bakker heeft volgens het productiesysteem het afgelopen jaar op woensdagen 75.000 Waldkorn broden geproduceerd. Echter het kassasysteem geeft aan dat er op woensdag 70.000 Waldkorn broden zijn verkocht. Dit betekent dat hij het afgelopen jaar 5.000 broden te veel heeft geproduceerd. Door dit inzicht weet hij dat hij op woensdag minder broden hoeft te produceren (mochten de omstandigheden verder niet veranderd zijn).

Maar wat is dan datawarehouse automation?

In een datawarehouse worden er aan de achterkant verschillende codes geschreven in programmeertaal, dit noemen we scripten. Het doel van scripten is een bepaalde actie uit te laten voeren. Je kunt scripten zien als een handschrift:  Net zoals bij een handschrift schrijft men in dezelfde taal maar ziet het er net iets anders uit. Hierdoor kan het voor een andere medewerker lastig zijn om de code te lezen. Daarnaast wordt er in de code, de actie, ook vast gelegd waar de data vandaan komt en hoe deze gedocumenteerd is. Het kan dus erg lastig zijn om te zien waar de data vandaan komt (Data Lineage). Bij een datawarehouse automation tooling wordt het ETL-proces automatisch gegenereerd, waardoor er maar 1 scripttaal is en je dus niet afhankelijk bent van verschillende “handschriften”.  

Een datawarehouse of datawarehouse automation tool? 

Een datawarehouse automation tool is ter vervanging van een datawarehouse. In een datawarehouse wordt ruwe data omgezet naar gestructureerde data waarbij een medewerker het ETL-proces uitvoert door middel van scripten. In een datawarehouse automation tool wordt er een ETL-code gegenereerd zodat gegevens automatisch aan elkaar gekoppeld worden en goed komen te staanHet scripten valt weg, waardoor de medewerker tijd heeft voor andere werkzaamheden. 

De voordelen 

  • Tijdwinst – De scripts worden voor iemand gegenereerd. De intelligentie van de data dient de medewerker nog steeds zelf toe te voegen.
  • Kostenbesparing – Het scripten gaat automatisch en hoeft niet door een medewerker te worden gedaan.
  • Minder fouten – Er wordt bij een datawarehouse automation tool een code gegenereerd, bij een datawarehouse schrijft een medewerker de codes handmatig.
  • Sneller – Doordat de scripts gegenereerd worden kan de data sneller inzichtelijk worden gemaakt. Ook bij aanpassingen in het bronlandschap of bij de vraag van de organisatie kan snel bekeken wat de impact is waardoor er sneller geacteerd kan worden op de aanvraag.
  • Afhankelijkheid – De datawarehouse automation tool houdt zelf in de gaten welke data er eerst geladen moet worden voordat een volgende actie in het ETL proces gestart kan worden.

Meer weten? 

Wil jij meer informatie over Business Intelligence of Datawarehouses? Neem contact met mij op via judith.rauwerda@axians.com. Samen gaan we in gesprek met de expert binnen Axians op het gebied van jouw vraagstuk. Benieuwd naar het vervolgblog of de video’s die ik maak in mijn reis om van beginner tot expert te groeien? Volg me dan op LinkedIn

 >> Volg mij op LinkedIn