Blog: Wil de échte data scientist nu opstaan?

Sinds een jaar ben ik verbonden aan het door de Europese Commissie gefinancierde Edison project. Dit project heeft als doel om zowel het aantal data scientists te vergroten als de kennis van data scientists te verbeteren, door goed onderbouwd onderzoek naar de juiste competenties, opleiding en accreditering voor deze beroepsgroep. Dat gaat eindelijk de mystiek wegnemen die nog steeds rond de term ‘data scientist’ hangt.

Als ik met bedrijven praat over hun (vruchteloze) zoektocht naar data scientists, blijkt keer op keer dat ze eigenlijk niet goed weten wat ze precies zoeken. Was nut en noodzaak van een data scientist een jaar geleden in veel gesprekken nog een vraag, nu is iedereen ervan overtuigd dat ze nodig zijn. Tegelijkertijd is het begrip data science behoorlijk aan inflatie onderhevig en lijkt het te pas en te onpas gebruikt te worden voor alles wat met data analyse te maken heeft. Als er één beroepsgroep ‘gehypt’ is, dan is het wel die van data scientist.

Waarom eigenlijk? Wat zijn data scientists dan voor mensen? Welke competenties moeten ze hebben? Heeft jouw organisatie überhaupt wel een data scientist nodig? En zo ja, waar kun je ze dan vinden of hoe kun je ze (laten) opleiden? Het Edison project geeft steeds meer antwoorden op deze vragen!

Een vooruitziende blik

In 2009 verscheen er een artikel in de New York Times met de titel: For Today’s Graduate, Just One Word: Statistics. In meerdere opzichten een belangrijke eye opener, die vandaag de dag nog altijd heel relevant blijkt. Een quote van Hal Varian, destijds Chief Economist bij Google, vat het artikel goed samen: “I keep saying that the sexy job in the next 10 years will be statisticians”. Harvard Business Review gaf 3 jaar later een nieuwe draai aan deze quote met het beroemde artikel Data Scientist: The Sexiest Job of the 21st Century.

Het artikel in de New York Times geeft goed aan waarom data science zo sexy is. De hoeveelheid data waarover organisaties beschikken explodeert en het grote probleem is de kunde van mensen om al deze data te gebruiken, te analyseren en er zinvolle inzichten uit te halen. We hebben mensen nodig die een gouden combinatie bezitten van statistische kennis, computer/programmeer skills én die goed zijn met cijfers.

Nut en noodzaak

Hebben we dat soort mensen echt nodig, vraag je je misschien af? Hierop kan ik alleen maar volmondig ‘JA’ antwoorden. De twee belangrijkste redenen?

De hoeveelheid voor analyse beschikbare data zal alleen maar verder toenemen door ontwikkelingen als internet of things, smart sensors en sociale netwerken. Maar denk ook aan virtual of augmented reality waarbij elke richting die we opkijken, bij elke gebeurtenis en bij elke stap, binnen een VR-app, -game of –website wordt vastgelegd. Klantinzicht ten top!
Er zijn steeds geavanceerdere algoritmes nodig om bruikbare inzichten uit die toenemende hoeveelheid data te destilleren en die inzichten in actie of nieuwe producten en diensten om te zetten.

Onderzoek van Forrester vat het nog eens mooi samen: Businesses are drowning in data but starving for insights. Uiteraard zijn een goede data-architectuur en de juiste hard- en software van essentieel belang voor data science (met name software tools hebben zich de laatste jaren enorm ontwikkeld, zodat bijvoorbeeld het realiseren van zelflerende algoritmes op basis van machine learning steeds laagdrempeliger wordt), maar de mens blijft de belangrijkste factor om als organisatie echt succesvol te zijn met data science. Onderzoek van MIT Sloan Management review stelt dat de beste presterende organisaties op het gebied van data science tevens erg goed zijn in het begeleiden en ontwikkelen van analytisch talent. Het belang van deze menselijke factor werd nog maar eens bevestigd tijdens Gartner’s BI Summit in London afgelopen maart. Van alle presentaties ging 25% over organisatieverandering en change management. Regelmatig kwam tijdens dit technologie-congres de uitspraak ‘culture eats strategy for breakfast’ voorbij.

Dat organisaties ‘iets moeten met data’ is een open deur en wordt al jaren geroepen. Wat nieuw is, is de focus op wát er dan met die data moet gebeuren. Data mag dan de olie van de 21e zijn, het hebben van data alleen is niet voldoende. Algorithmic business is volgens Gartner de sleutel voor de toekomst: het omzetten van data in actie om besluiten te verbeteren, (operationele) processen te optimaliseren en daarmee je concurrentie te slim af te zijn. Door de behoefte aan real time handelen en de enorme hoeveelheden data, kunnen we daarbij niet meer zonder slimme algoritmes.

Klok en klepel

Op zoek naar data scientists dus! Maar dan lopen we tegen een groot probleem aan. De definitie van een data scientist is niet duidelijk en de term wordt daardoor op allerlei manieren misbruikt. Zo hoorde ik laatst een grote software leverancier het volgende zeggen: “Aanpassingen zijn altijd mogelijk. Dan vliegen we een Data Scientist in die dat mogelijk maakt.” Waar het over ging? Het aanpassen van een meegeleverde standaardrapportage! Dat is nu juist NIET waar een data scientist voor nodig is.

Het ontbreken van een definitie leidt bovendien tot onduidelijke opleidingen met een gebrek aan transparantie, standaarden en kwaliteit. New York University hanteert wel een mooie definitie van data science: using automated methods to analyze massive amounts of data and to extract knowledge from them. De aloude methode van de data analist om door middel van visualisatie op zoek te gaan naar relevante inzichten werkt niet meer met de enorme hoeveelheden data van vandaag de dag. De data scientist gebruikt andere methoden en technieken. Er zijn twee belangrijke verschillen tussen beide rollen:

Het proces: big data vraagt om een andere manier van verzamelen, opschonen, analyseren en valideren van de resultaten. Hier is vooral de statistische component relevant.
De toepassing: uitkomsten van data science zijn niet alleen gericht op verbetering van de besluitvorming (op basis van analyses), maar worden juist ook ingebed in websites, processen en systemen (op basis van algoritmes).

Deze verschillen vragen uiteraard om andere competenties. Maar waar haal je die kennis en kunde? Opleidingsinstituten storten zich massaal op de hype rondom data science. Bij gebrek aan ‘formele’ universitaire bachelor opleidingen zijn er talrijke websites en compleet nieuwe data-instituten opgericht die de grootste beloftes doen (bijvoorbeeld Data Science Retreat, School of Data Science en Silicon Valley Data Academy). Ook ‘gerenommeerde’ onderwijsinstituten dragen met ad hoc master opleidingen graag hun steentje bij aan de onduidelijkheid (zie ondermeer het artikel Data Science: what’s the half life of a buzzword?). En iedereen kan zich vervolgens data scientist noemen door een simpele 2-weekse Coursera training op zijn LinkedIn profiel te vermelden.

De sleutel tot succes

Hoe dan verder? Hoe ga je er voor zorgen dat jouw organisatie wel degelijke de juiste mensen met de juiste kennis en competenties vindt om een algorithmic business te worden? Veel hangt af van de specifieke kenmerken van jouw organisatie, zoals de markt waarin je opereert, de bedrijfscultuur en de data maturity. Wat je echter nu al weet is dat je klaar moet zijn voor een toekomst waarin data op een totaal andere wijze je organisatie beïnvloedt dan nu. En dat je daarvoor niet alleen technologie nodig hebt, maar ook mensen. Mensen die écht nieuwe inzichten kunnen ontdekken met geavanceerde analyses en algoritmes.

Het Europese Edison project heeft een eerste mooi resultaat opgeleverd om je te helpen om hiervoor de juiste mensen aan te trekken of op te leiden: een alomvattend competence and skills framework voor data scientists, gebaseerd op onafhankelijk wetenschappelijk onderzoek. De volgende vijf competenties zijn daarin absoluut onmisbaar voor elke data scientist:

Data analytics: het toe kunnen passen van de juiste statistische technieken en voorspellende modellen op de beschikbare data om significante, nieuwe inzichten en relaties te kunnen ontdekken.
Data science engineering: het beschikken over de benodigde programmeerkennis om nieuwe applicaties en instrumenten te kunnen onderzoeken, ontwerpen, ontwikkelen en implementeren.
Domain expertise: het kunnen vertalen van organisatiekenmerken en specifieke business problemen naar relevante data analyse toepassingen en methodieken.
Data management: het kunnen ontwikkelen en implementeren van een datamanagement strategie voor het verzamelen, opslaan en bewaken van data en het beschikbaar maken van data voor verdere verwerking.
Scientific methods: het creëren van nieuwe inzichten en mogelijkheden door gebruik te maken van onderzoeksmethodes (hypotheses, test/ artefact en validatie).

Voor de verdere details verwijs ik je graag naar de website van het Edison project. Daar staat ook een overzicht van de vaardigheden per competentie (zoals kennis van neurale netwerken, Markov modellen en game theory). Een must have voor jou en je organisatie! Tot mijn grote vreugde is vorige week bekend gemaakt dat het Ministerie van Onderwijs, Cultuur en Wetenschap heeft besloten dat dit framework een basis dient te worden voor alle opleidingen tot data scientist in Nederland!

De data scientist familie

Het Edison project is nog niet klaar en er vinden voortdurend nieuwe ontwikkelingen plaats. De laatste interessante toevoeging is die van een Data Science Profession Family. Hiermee wordt verder geborduurd op de discussie of de benodigde kennis en competenties voor het bedrijven van data science niet over meerdere mensen kunnen worden verdeeld. Die ‘familie benadering’ gaat ook verder in op rollen als managers, professionals en clerical functies. Dit biedt heel veel handvaten voor de manier waarop data science teams kunnen worden opgebouwd.

Wil de échte data scientist nu opstaan?

Publiek vs. privaat

Er is nog iets anders dat ik heb geleerd door mijn deelname aan het Edison project: er ligt een enorme (kennis)kloof tussen de wetenschappelijke/publieke wereld en die van private organisaties als het om data science gaat. Terwijl we allemaal met dezelfde problemen worstelen en allemaal ontzettend veel kennis ontwikkelen over data science. Heb je bijvoorbeeld wel eens gehoord van het Digital Single Market European Cloud Initiative dat zich richt op een Europese Open Science Cloud? Een open data infrastructuur met laagdrempelige toegang. Of van de European Grid Infrastructure? Beide EU-projecten zijn gericht op het faciliteren van opslag, verwerking en analyse van grote hoeveelheden data. Onder de projectdeelnemers bevinden zich vele (vooraanstaande) wetenschappers vanuit organisaties als Cern, Max Planck instituut en universiteiten vanuit heel Europa. Projecten waar ook de private wereld zijn voordeel mee kan doen!

Zeker op het gebied van data science staan de publieke en de private wereld voor dezelfde uitdagingen. Dus waarom zoeken we het dan in aparte, eigen oplossingen? Zou het niet veel mooier zijn om de krachten te bundelen? Met als eerste stap het opleiden van goede en relevante data scientists, zodat ook jouw organisatie geen vruchteloze zoektochten naar analytisch talent meer hoeft af te leggen!

Hoeveel investeer jij al in het opleiden van échte data scientists?