Nieuws

Simulatiedataset beschikbaar

Zone Studiedata

Aan de slag met de simulatiedataset

Vandaag lanceert de zone Studiedata haar simulatiedataset. De dataset is bedoeld voor universiteiten en bestaat uit synthetische studentdata. Deze data zijn gebaseerd op de echte data van een universiteit, maar zijn dusdanig afgeleid dat je ze niet meer terug kunt herleiden tot echte studenten. Door deze dataset te gebruiken kun je ook buiten je eigen instelling algoritmes en analyses delen zonder dat de privacy van je studenten in het geding komt.

Ontwikkeling dataset

De simulatiedataset is ontwikkeld door medewerkers van de Erasmus Universiteit Rotterdam (EUR) en de Vrije Universiteit Amsterdam (VU). Marlon Domingus, Functionaris gegevensbescherming bij de Erasmus Universiteit Rotterdam (EUR) vertelt over het belang van de simulatiedataset: “Mijn beeld is dat je in de toekomst steeds meer grote data-hubs krijgt. Onderzoek zal in de toekomst steeds meer datagedreven zijn en de vraag is hoe je dan op passende wijze in verschillende contexten met die data kan omgaan. Soms kan je niet publiekelijk online toegang geven tot alle data, maar mogelijk wel specifieke datasets voor onderzoeksdoeleinden aan onderzoekers. Dus wat kun je dan wel doen en hoe kun je dan toch dat onderzoek faciliteren.”

Tijdens het verloop van dit project was de privacy van de studenten een belangrijk aandachtspunt. Tom Paffen, privacyjurist bij de VU: “Voor deze simulatiedataset is een zorgvuldig proces doorlopen waardoor er onder de streep, wanneer je de simulatiedataset gebruikt, geen persoonsgegevens worden gebruikt. De privacy is daarmee goed geborgd.”

Volgens Tom geeft de simulatiedataset je het beste van twee werelden: “De simulatiedataset is een belangrijk project omdat simulatiedata geen persoonsgegevens bevat, maar wel dezelfde informatiewaarde heeft als de originele persoonsgegevens. Je hebt zo het beste van twee werelden. Met de simulatiedata heb je alle mogelijkheden die horen bij gebruik van persoonsgegevens, zonder dat je vooraf hoeft na te gaan of voldaan wordt aan alle eisen die de privacywetgeving stelt.”

COVID-19 onderzoek

Ook in de toekomst verwachten de makers veel te kunnen hebben aan de simulatiedata. Zo kan de dataset waardevol zijn voor onderzoek naar COVID-19. Marlon licht toe: “De EUR heeft een samenwerkingsverband met het Erasmus Medisch Centrum en met de TU Delft, gericht op samenwerking in onderzoek met betrekking tot gezondheidsgegevens, zoals bijvoorbeeld COVID-19 data. Momenteel leggen we vast hoe alle betrokken partijen, niet in de laatste plaats burgers zelf, vertrouwen kunnen hebben in de doelen van onze samenwerking en in de (ethische) waarborgen die we inbouwen in de manier van samenwerken. Rondom zorgdata en onderzoeksdata heb je allerlei, terechte, juridische barrières. Een van de oplossingen om hier goed gehoor aan te geven, is gebruik te maken van synthetische data.”

Toekomstige simulatiedatasets

De dataset voor universiteiten is de eerste stap in een groter traject. In 2021 volgen namelijk twee simulatiedatasets: een voor hogescholen en een voor data uit leermanagementsystemen. Om de simulatiedataset voor hogescholen te bouwen voeren we op dit moment een voorverkenning uit. Daarbij start in 2021 de fase waarin de zone samen met SURF een simulatiedataset bouwt met data uit leermanagementsystemen. Daarvoor onderzoekt de zone op dit moment of machine learning ingezet kan worden.

Ga hier naar de simulatiedataset

Deel deze pagina