Nieuws

Deel je kennis over studiedata met de simulatiedataset

Versnellingsplannieuws

Deel je kennis over studiedata met de simulatiedataset

Herken je het probleem dat je soms een inzicht of analyse wil delen met andere collega’s in het hoger onderwijs, maar dat je dit niet kan omdat je de data niet zomaar kan of mag delen? Dan biedt de nieuwe simulatiedataset van de zone Studiedata een oplossing.

Waarom is een simulatiedataset nodig?

Momenteel hebben data-analisten geen mogelijkheid om hun gemaakte analyses en algoritmes te delen met collega’s met andere onderwijsinstellingen zonder daarvoor de data van hun instelling te gebruiken. Hierdoor kunnen verschillende onderwijsinstellingen niet leren van elkaars ervaringen en zullen sommigen opnieuw het wiel uitvinden. Het is trouwens een vraagstuk dat landelijk speelt. Minder intensieve samenwerking tussen universiteiten is een van de belangrijkste ontwikkelingen in het hoger onderwijs van de afgelopen 30 jaar; verminderende kennisdeling en dalende kwaliteit van onderzoek kunnen daarvan het gevolg zijn. Sinds de inwerkingtreding van de Algemene Verordening Gegevensbescherming (AVG) is dit vraagstuk nog urgenter geworden. Er is dus behoefte aan een oplossing, die ook de privacy van studenten waarborgt.

We starten met data van universiteiten en volgen dan met hogescholen

Het project is een hele uitdaging waar het VU Analytics-team en het BI Competence Center van de Erasmus Universiteit Rotterdam met elkaar aan werken onder leiding van projectleider, Dominique van Deursen. We zijn al een eind op weg met het project: de ontwerpfase is klaar, de kwaliteitseisen zijn vastgelegd, en momenteel werken we aan de ontwikkeling van de simulatiedata. Het project richt zich nu nog specifiek op een simulatiedataset voor universiteiten, die we in het najaar lanceren. Parallel starten we eenzelfde project op om ook specifiek voor de hogescholen een simulatiedataset te kunnen aanbieden.

Hoe garanderen we een simulatiedataset met zinnige verbanden?

Het is een dataset die bestaat uit gesimuleerde gegevens waaruit dezelfde statistische verbanden kunnen worden ontleend als uit originele data van een universiteit, maar wel onherleidbaar naar persoonsgegevens. Om de juistheid van de statistische toetsen die op de simulatiedataset zullen worden uitgevoerd te garanderen, controleren we welke onderliggende verbanden er bestaan tussen de variabelen in de originele data. Die verbanden behouden we in de simulatiedata, waardoor de vervorming van de gesimuleerde data minimaal is ten opzichte van de originele data.

Photo by Stephen Dawson on Unsplash.

Deel deze pagina