Verslag webinar simulatiedataset voor universiteiten

30 maart 2021
Studiedata
Artikel

De simulatiedataset: van idee tot uitvoering

Op dinsdag 23 maart vond het webinar over de simulatiedataset voor universiteiten plaats van de zone Veilig en betrouwbaar studiedata benutten. Deze dataset is sinds half februari beschikbaar; hoog tijd dus om hier wat meer aandacht aan te besteden. Centraal tijdens het webinar stonden de vragen wat de aanleiding was om deze dataset te bouwen, hoe de dataset tot stand kwam en welke kansen deze biedt.

Het onstaan van de simulatiedataset

Na opening door Bram Enning, aanvoerder van de zone Studiedata, lichtte Theo Bakker toe hoe het idee voor deze dataset is ontstaan. Het begon een jaar geleden, toen Theo Bakker vanuit de Vrije Universiteit aanvoerder was van de zone Studiedata. Destijds kwamen er binnen de VU verzoeken van studenten om onderzoek te doen op de dataset van de VU. Dit was niet mogelijk, omdat ze daarmee studiedata ter beschikking zouden krijgen die mogelijk herleidbaar zou zijn naar andere studenten. Een gemiste kans voor de enthousiaste studenten.

Ook met collega’s uit verschillende instellingen is het enkel mogelijk beschrijvingen te geven van welke analyses je maakt. Datasets met elkaar delen kan vanwege de privacygevoelige gegevens niet. Daarom kwam het idee om een ‘Titanic dataset’ te bouwen, wat er nog niet was in Nederland. Met de komst van het Versnellingsplan was het mogelijk om dit project tot uitvoering te brengen, zo vertelde Theo.

De zone werkte met een projectleider uit de EUR, Dominique van Deursen, en twee programmeurs van de VU, Katja van der Perk en Jurriaan Janssen. Daarnaast zijn de privacy officers van de VU nauw betrokken. Deze nieuwe synthetische dataset biedt hopelijk vele nieuwe mogelijkheden.

Waarom de simulatiedataset (voor universiteiten) nodig is

Na de presentatie van Theo vertelde projectleider Dominique van Deursen waarom het nodig was een gesimuleerde dataset te bouwen, die dus niet geanonimiseerd of gepseudonimiseerd is. Je hebt een dataset nodig die de juiste kenmerken heeft om in een vroeg stadium dingen te kunnen testen, zonder persoonsgegevens te gebruiken. Voor dit project stelde ze van tevoren drie eisen op, zo vertelde Dominique:

De simulatiedataset moet dezelfde statistische conclusies bevatten als de originele data
De simulatiedataset moet een periode van 10 jaar beslaan
De simulatiedataset moet de eigenschappen hebben van een generieke universiteit

Wat de simulatiedataset precies bevat? Een csv bestand, een markdown file (inclusief de statistische verantwoording) en een R script. En hoe je de dataset op eigen computer kan openen? Ga naar de repository in Bitbucket en klik op de knop ‘clone’ rechts bovenin.

In het bouwen van de simulatiedataset zijn acht stappen doorlopen:

Voorbereiding Het installeren van het juiste package, in dit geval van Synthpop
Input Het inladen van de juiste data, in dit geval de studiedata en studievoortgangsgegevens
Selectie Selecteren wat wordt meegenomen in de simulatie
Simulatie Het simuleren zelf met het geïnstalleerde package
Evaluatie Het evalueren van de verschillen tussen de synthetische en originele data waarbij de correlaties behouden moeten blijven en de afwijking minimaal moet zijn. Voor verschillende variabelen zijn hier verschillende toetsen gebruikt. In de Markdown file zie je een visuele weergave van deze statistische verantwoording.
Controle Dan volgt het checken van de privacy waarvoor een aantal regels zijn opgesteld, onder andere of er niet per ongeluk een student wordt gesimuleerd die echt bestaat.
Rapportage De acht stappen zijn in de Markdown file geplaatst met daarbij basisinformatie over de brondata
Output En vervolgens is de simulatiedataset klaar voor gebruik!

Als je zelf een simulatiedataset wilt simuleren vind je in map 6 een csv bestand dat je hiervoor kunt gebruiken.

Bekijk hier de presentatie van Dominique van Deursen

Privacy en ethische vragen

Als functionaris gegevensbescherming van de Erasmus Universiteit Rotterdam ziet Marlon Domingus dat een simulatiedataset veel problemen oplost vanuit het oogpunt van privacy. Hij verwees tijdens het webinar naar Khaled el Emam, één van de auteurs van het boek Practical Synthetic Data Generation. Hierin wordt onder andere benoemd dat het erg lastig en vrij kostbaar is om een claim te onderbouwen dat data anoniem is. Daarom is Khaled, hoogleraar en werkzaam in een kinderziekenhuis in Canada, overgestapt van zijn werk rondom de-identificatie naar synthetische data.

Het voordeel van synthetische data is dat deze data geen persoonsgegevens bevat. Op persoonsgegevens, zoals studiedata maar ook data uit de zorg, zijn regels van toepassing waardoor niet iedereen hier toegang toe heeft. Bijvoorbeeld in de zorg is het een voorwaarde om een behandelrelatie te hebben met een persoon voordat je zijn/haar persoonsgegevens mag inzien. Synthetische data kan hier een oplossing bieden.

Vanuit de AVG moet je bewijs kunnen leveren dat je volgens bepaalde principes handelt in het werken met data, vanwege het accountability principe. Deze principes zijn al verweven in de methodiek die gebruikt wordt om de simulatiedataset te bouwen, namelijk met de gedocumenteerde statistische en ethische onderbouwing en verantwoording. Gebruik van synthetische data roept ook ethische vragen op, zoals hoe maak je duidelijk wat originele data is en wat niet, en hoe voorkom je vergissingen of misbruik door het gebruik van synthetische data? Daarom is in dit project gekozen de dataset ‘De universiteit van Schipluiden’ te noemen.

Het simuleren van data kan voor veel projecten een uitkomst zijn, bijvoorbeeld:

als je te maken hebt met datasets die te klein zijn om een algoritme te testen, bijvoorbeeld bij onderzoek naar zeldzame aandoeningen; je kunt de dataset dan op synthetische wijze uitbreiden;
bij grote systeemintegratie tests van instellingen, door bij de introductie van een nieuw concernsysteem te testen met synthetische data;
in het onderwijs (hackathons en data competitions), voor proofs of concept en bij wetenschappelijke publicaties, door niet de gevoelige brondata, maar synthetische data beschikbaar te stellen bij de publicatie.

Bekijk hier de presentatie van Marlon Domingus

Plannen voor de toekomst

Ten einde van het webinar deelde aanvoerder Bram Enning mee dat de zone momenteel bekijkt hoe een simulatiedataset voor Hogescholen ontwikkeld kan worden. Deze zal op de simulatiedataset voor universiteiten lijken, waarbij onder andere de populatie, toelating en vooropleiding van de studenten zal afwijken.

Ten slotte is de zone ook van plan om een simulatiedataset te ontwikkelen met data uit leermanagementsystemen (LMS). Jan Tjeerd Groenewoud, werkzaam bij de Rijksuniversiteit Groningen en lid van de zone Studiedata, lichtte toe hoe dit project ervoor staat. Er is een voorverkenning uitgevoerd door Justian Knobbout waarbij hij bij instellingen de behoefte onderzocht. Hieruit bleek dat instellingen behoefte hebben aan een simulatiedataset met LMS data, onder andere omdat een deel van hen niet bij hun eigen LMS data kan, maar wel benieuwd is wat je hiermee zou kunnen doen. Ook is er behoefte aan het opdoen van ervaring door middel van zulke data. De vorm van de simulatiedataset is daarbij afhankelijk van wat de instelling er mee wil doen. In de voorverkenning staan diverse scenario’s geschetst voor het tot stand komen van de dataset. Deze kan bijvoorbeeld data bevatten over resultaten, opdrachten en clicks in de online leeromgeving. De volgende stap is om te kijken welke data we in de set willen. Jan Tjeerd is aan het inventariseren welke vakken op de RUG zich lenen voor een simulatiedataset.De voorverkenning wordt naar verwachting eind april openbaar.

Deel deze pagina